Жун Сюй и Цюаньцю Ван
Персонализированная медицина заключается в доставке нужного препарата нужному пациенту в нужной дозе. Фармакогеномика (PGx), исследования по выявлению генетических вариантов, которые могут влиять на реакцию на препарат, важны для персонализированной медицины. Вычислительные подходы к изучению взаимосвязей между генами и реакцией на препарат становятся активной областью исследований для персонализированной медицины. В настоящее время систематическое изучение взаимосвязей между препаратом и геном ограничено, поскольку масштабную понятную машине базу знаний о взаимосвязях между препаратом и геном сложно создать и поддерживать в актуальном состоянии. Научная литература содержит богатую информацию о взаимосвязях между препаратом и геном, поэтому является основным источником знаний для исследований PGx и персонализированной медицины. Однако эта информация в значительной степени зарыта в свободный текст с ограниченной понятностью для машины. Необходимо разработать автоматические подходы для извлечения структурированных взаимосвязей между препаратом и геном из биомедицинской литературы. В этом исследовании мы представляем полуконтролируемый подход к извлечению взаимосвязей между препаратом и геном из MEDLINE. Метод использует один начальный шаблон и итеративно изучает различные способы выражения взаимосвязи в 20 миллионах рефератов MEDLINE. Наш подход позволил достичь высокой точности (0,961–1,00) при извлечении связей между лекарственными препаратами и генами из MEDLINE и обнаружить множество пар «лекарственные препараты и гены», которые отсутствуют в PharmGKB — крупномасштабной вручную отбираемой базе знаний PGx.