Минци Ву, Моник Райнкельс и Фаминг Лян
Благодаря более высокому разрешению картирования и более сильным сигналам обогащения ChIP, ChIP-seq имеет тенденцию заменять технологию ChIP-chip при изучении взаимодействий белок-ДНК по всему геному, в то время как массивные цифровые данные ChIP-seq представляют новые проблемы для статистиков. На сегодняшний день большинство методов, предложенных в литературе для анализа данных ChIP-seq, основаны на моделях, однако найти единую модель, пригодную для всех наборов данных, невозможно, учитывая сложность биологических систем и вариаций, возникающих в процессе секвенирования. В этой статье мы представляем подход без модели, так называемый MICS (Model-free Inference for ChIP-Seq), для анализа данных ChIP-seq. MICS имеет несколько преимуществ по сравнению с существующими методами: во-первых, MICS избегает предположений о распределении данных и, таким образом, сохраняет высокую мощность даже при нарушении предположений модели для данных. Во-вторых, MICS использует метод, основанный на моделировании, для оценки частоты ложных открытий. Поскольку метод, основанный на моделировании, работает независимо от образцов ChIP, MICS может надежно работать с различными образцами ChIP; он может производить точную идентификацию областей пиков, даже для тех, где обогащение слабое. В-третьих, MICS очень эффективен в вычислениях, которые занимают всего несколько секунд на персональном компьютере для достаточно большого набора данных. В этой статье мы также представляем простой полуэмпирический метод моделирования данных ChIP-seq, который позволяет лучше оценить производительность различных подходов для анализа данных ChIP-seq. MICS сравнивается с несколькими существующими методами, включая MACS, CCAT, PICS, BayesPeak и QuEST, на основе реальных и моделированных наборов данных. Численные результаты показывают, что MICS может превзойти другие. Доступность: пакет R под названием MICS доступен по адресу http://www.stat.tamu.edu/~mqwu.