Ахмад Малеки*, Вахид Ваезиния и Айда Фекри
Промотор — это часть последовательности ДНК, которая предшествует гену и играет ключевую роль в качестве регулятора генов. Прогнозирование промотора помогает определить положение гена и проанализировать экспрессию гена. Следовательно, оно имеет большое значение в области биоинформатики. В исследованиях биоинформатики применяется ряд подходов машинного обучения для обнаружения новых значимых знаний из биологических баз данных. В этом исследовании для обнаружения промотора используются два подхода к обучению: кластеризация с максимизацией ожиданий и классификатор опорных векторных машин (EMSVM). Алгоритм максимизации ожиданий (EM) используется для идентификации групп образцов, которые ведут себя схоже и по-разному, например, активность промоторов и непромоторов на первом этапе, в то время как опорная векторная машина (SVM) используется на втором этапе для классификации всех данных в правильную категорию класса. Мы применили этот метод к наборам данных, соответствующим промоторам σ24, σ32, σ38, σ70, и его эффективность была продемонстрирована на ряде различных областей промотора. Кроме того, он был сравнен с другими алгоритмами классификации, чтобы показать соответствующую производительность предлагаемого алгоритма. Результаты испытаний показывают, что EMSVM работает лучше, чем другие методы.