Дэвид К. Крокетт, Стивен Р. Пикколо, Скотт П. Нарус, Джойс А. Митчелл и Хулио К. Фаселли
Хотя многие зарегистрированные мутации в онкогене RET были напрямую связаны с наследственной карциномой щитовидной железы, другие мутации помечены как неопределенные варианты генов, поскольку они не были четко связаны с клиническим фенотипом. Процесс определения тяжести мутации является дорогостоящим и требует много времени. Инструменты и методы информатики могут помочь преодолеть этот разрыв между генотипом и фенотипом. Для достижения этой цели алгоритмы классификации машинного обучения были оценены на предмет их способности различать доброкачественные и патогенные варианты гена RET, характеризующиеся различиями в значениях физико-химических свойств остатка, присутствующего в диком типе, и остатка в мутировавшей последовательности. Репрезентативные алгоритмы были выбраны из различных категорий методов классификации машинного обучения, включая правила, байесовский и регрессионный, ближайшего соседа, машины опорных векторов и деревья. Затем модели машинного обучения сравнивались с хорошо зарекомендовавшими себя методами, используемыми для прогнозирования тяжести мутаций. Классификация машинного обучения может использоваться для точного прогнозирования статуса мутации RET, используя только информацию о первичной последовательности. Существующие алгоритмы, основанные на гомологии последовательностей (сохранении ортологов) или структурных данных белков, не обязательно являются более совершенными.