Мирослав Гильский и Ровшан Садыгов
Инициатива по стандарту протеомики Организации человеческого протеома (HUPO) была поставлена задача разработать форматы файлов для хранения необработанных данных (mzML) и результатов спектральной обработки (идентификация и количественная оценка белков) из экспериментов по протеомике (mzIndentML). Для того чтобы полностью охарактеризовать сложные эксперименты, были разработаны специальные типы данных. Стандартизированные форматы файлов будут способствовать визуализации, проверке и распространению данных независимо от файлов хранения двоичных данных, специфичных для поставщика. Инновационные программные решения для надежного и эффективного доступа к данным в стандартизированных форматах файлов будут способствовать более быстрому широкомасштабному принятию этих форматов файлов сообществом протеомики. В этой работе мы сравниваем алгоритмы доступа к спектральным данным в формате файла mzML. Как файл XML, файлы mzML позволяют эффективно анализировать структуры данных при использовании типов классов, специфичных для XML. Эти классы обеспечивают только последовательный доступ к файлам. Однако произвольный доступ к спектральным данным необходим во многих алгоритмических приложениях для обработки наборов данных протеомики. Здесь мы демонстрируем реализацию потоков памяти для преобразования последовательного доступа в случайный. Наше приложение сохраняет элегантные возможности анализа XML. Сравнительный анализ времени доступа к файлам в последовательном и случайном режимах доступа показывает, что для небольшого количества спектров случайный доступ более эффективен по времени, а при извлечении большого количества спектров последовательный доступ становится более эффективным. Мы также приводим сравнения с другими методами доступа к файлам из академических кругов и промышленности.