Эрик Б. Липски, Брайан Р. Кинг, Джерард Тромп
Системы секвенирования нового поколения (NGS) производят огромные объемы данных, требующие существенного вычислительные ресурсы для типичных задач анализа. Кроме того, данные, которые генерируются различными системами NGS, неоднородны. Более того, существует огромное количество инструментов, доступных для выполнения типичных задач. Управление рабочими процессами NGS включает написание пользовательских скриптов, которые быстро усложняются, что часто приводит к громоздким рабочим процессам, которые недоиспользуют типичные высокопроизводительные вычислительные ресурсы и повышают требования к персоналу, управляющему этими рабочими процессами. Мы представляем Node-Oriented Workflow (NOW), динамический шаблонный механизм рабочих процессов для высокопроизводительных распределенных вычислительных систем (HPC). Наша система предоставляет простой в использовании интерфейс на основе браузера для проектирования и управления сложными рабочими процессами. Рабочие процессы настраиваются с помощью простого интерфейса браузера и управляются интегрированным механизмом заданий, который инициализирует узлы, отслеживает состояние узлов и обрабатывает результаты отдельных заданий по узлам в конфигурации HPC. Мы сокращаем чрезмерный обмен сообщениями по узлы, возлагая нагрузку на узлы для запуска задач в рабочем процессе при выполнении зависимостей, т. е. рабочий процесс, ориентированный на узлы. Наша система была разработана для обработки NGS в условиях клинических исследований, подчеркивая простоту для пользователя, масштабируемость инструмента, минимизацию избыточности в рабочих процессах, при этом максимизируя пропускную способность в среде HPC. Более того, NOW не ограничивается управлением конвейером NGS, но может использоваться для управления любым вычислительным конвейером.