Власьев И.М., Туральчук К.А. © Магистрант, СПбГПУ, ИИТУ, СПб ПРОЕКТИРОВАНИЕ ВЕБ-СЕРВИСА АНАЛИЗА И ВИЗУАЛИЗАЦИИ ГЕНОМНЫХ ДАННЫХ Аннотация В экспериментальный молекулярной биологии методы биоинформатики позволяют получать полезные результаты из большого количества исходных данных. В этой статье описывается веб-интерфейс, который использует методы биоинформатики и позволяет анализировать и визуализировать данные, полученные из открытых источников. Ключевые слова: data-mining, биоинформатика, веб-сервис, геном, микрочипы, анализ данных. Keywords: data-mining, bioinformatics, web-service, genome, microarrays, data analyses. В экспериментальный молекулярной биологии методы биоинформатики позволяют получать полезные результаты из большого количества исходных данных. В области генетики и геномики, биоинформатика помогает в упорядочивании и аннотировании геномов и наблюдаемых мутаций. Ранее ученые классифицировали различные типы рака основываясь лишь на том, какой орган был поражен. С помощью анализа геномных данных станет возможным классифицировать опухоли по паттернам активности генов в клетках. Это позволит разрабатывать лекарства, предназначенные для конкретного вида ракового заболевания. В лабораторных исследованиях методы количественного анализа экспрессии генов находят применение в ряде опытов, связанных с изучением экспрессий различных генов. В экспериментах, где клетки содержались в каких-либо условиях, отличных от нормальных, в большинстве своем обнаруживаются изменения в профилях экспрессии генов. Результаты подобных исследований проливают свет на механизмы клеточного ответа на изменения окружающей среды. Транскрипция — процесс синтеза РНК с использованием ДНК в качестве матрицы, происходящий во всех живых клетках. Другими словами, это перенос генетической информации с ДНК на РНК. Транскрипт — молекула РНК, образующаяся в результате транскрипции (экспрессии соответствующего гена или участка ДНК). Транскриптом — совокупность всех транскриптов, синтезируемых одной клеткой или группой клеток, включая мРНК и некодирующие РНК. Понятие «транскриптом» может обозначать полный набор транскриптов в данном организме или специфический набор транскриптов (молекул РНК), представленный в клетках определенного типа.[1] Наиболее распространенные методы изучения транскриптома — секвенирование РНК и ДНК-микрочипы. Количественный анализ экспрессии генов — анализ транскриптома, измерение транскрипционной активности гена, с помощью определения количества его продукта, матричной РНК (мРНК), универсальной для большей части генов. Поскольку полные последовательности генома стали доступны, термин "биоинформатика" был переоткрыт и обозначал создание и техническое обслуживания баз данных для хранения биологической информации, такой как последовательности нуклеотидов. Создание таких баз данных включало в себя не только вопросы оформления, но и создание комплексного интерфейса, позволяющего исследователям запрашивать имеющиеся данные и добавлять новые. © Власьев И.М., Туральчук К.А., 2015 г. Примером применения компьютерного анализа последовательностей является автоматический поиск генов и регуляторных последовательностей в геноме. Не все нуклеотиды в геноме используются для задания последовательностей белков. Например, в геномах высших организмов, большие сегменты ДНК явно не кодируют белки и их функциональная роль неизвестна. Разработка алгоритмов выявления кодирующих белки участков генома является важной задачей современной биоинформатики. В контексте геномики аннотация — процесс маркировки генов и других объектов в последовательности ДНК. Первая программная система аннотации геномов была создана в 1995 году Оуэном Уайтом, работавшим в команде, секвенировавшей и проанализировавшей первый декодированный геном свободноживущего организма, бактерии Haemophilus influenzae. Доктор Уайт построил систему для нахождения генов, тРНК и других объектов ДНК и сделал первые обозначения функций этих генов[2]. Большинство современных систем работают сходным образом, но эти программы постоянно развиваются и улучшаются. В настоящее время наиболее эффективным методом определения биологической функции гена является поиск одинаковых последовательностей в базах данных нуклеотидных последовательностей ДНК[3]. Распараллеливание вычислений и использование суперкомпьютеров для решения подобного рода задач позволит не только в сотни раз повысить скорость расшифровки первичных структур, но и сделать открытия, вытекающие из анализа гомологичных последовательностей, обычным делом. Все эти задачи биоинформатики предъявляют высокие требования к быстродействию и объему памяти используемых вычислительных средств, еще более возрастающие в связи с завершением расшифровки геномов ряда организмов, каждый из которых содержит сотни миллионов нуклеотидов. Для обработки, анализа и интерпретации данных в биоинформатике используют технологию Data Mining. Применяются различные методы интеллектуального анализа данных, такие как деревья решений, метод k ближайших соседей, генные алгоритмы, нейронные сети и т.д. Существующие системы аннотации геномных данных имеют ряд недостатков. Большинство подобных систем позволяют собирать данные из открытых источников, но исследователь не всегда может быть уверен в том, что он получит всю информацию о запрашиваемом объекте (набор полей, как правило, определён). Также системы, такие как Orange Bioinformatics, используют для обработки данных только мощность локальной системы, что затрудняет работу для исследователей, не имеющих в распоряжении большой вычислительной мощности. Отсутствует возможность модификации существующих критериев классификации данных, нельзя подгрузить функционал собственных методов анализа (или же подобный процесс слишком затруднителен). Таким образом существует потребность в гибком облачном сервисе анализа и визуализации геномных данных. Работа направлена на проектирование и создание веб-сервиса анализа и визуализации геномных данных. Проект сервиса представляет из себя пользовательский веб-интерфейс для работы с данными и инструментами. Также планируется спроектировать и разработать модуль загрузки собственных данных, модуль загрузки собственного функционала, модуль облачных вычислений, набор инструментов анализа данных, модуль для работы с данными из открытых источников. Веб-интерфейс представляет из себя веб-сайт, на котором расположены элементы управления сервисом. Пользователь сможет получить данные из открытых баз, таких как NCBI, DDBJ, GEO, либо загрузить собственные. Сбор и анализ данных предполагается осуществлять с помощью методов Data Mining (деревья решения, метод k ближайших соседей, иерархическая кластеризация и т.д.). Далее пользователь сможет оперировать полученными результатами, например выбрать нужный набор генов, составить тепловую карту, собрать общую статистику и т.п., в зависимости от преследуемой цели. Также пользователь должен иметь возможность подгрузить собственный инструмент или модифицировать существующий критерий, если это необходимо для исследования. Для реализации веб-интерфейса планируется использовать PHP и Java. Вычисления будут производиться в программе на C#, которая будет использовать ресурсы облачных серверов, таким образом не нагружая компьютер пользователя. На рис.1 представлен примерный внешний вид веб-интерфейса. Рис.1. Веб-интерфейс Теплокарта — это графическое представление данных, где дополнительные переменные отображаются при помощи цвета. Подобные системы иерархичной кодировки цветов используются в изображениях фракталов и других системах представления данных. Термином «теплокарта» так же иногда называют картограммы. Биологические тепловые карты обычно используются в молекулярной биологии и медицине для представления данных по экспрессии множества генов в различных образцах, полученных, например, от разных пациентов или в разных условиях от одного пациента. Обычно организована в виде таблицы, в которой цвет квадрата показывает уровень экспрессии, а столбцы и строки различные гены или образцы, иерархическая организация которых может быть изображена в виде дерева на полях таблицы. Пример тепловой карты на рис. 2. Рис.2. Теплокарта, порожденная из микрочиповых данных, отражающих уровни экспрессии генов в некоторых условиях Литература 1. 2. 3. Альбертс Б., Брей Д., Льюис Дж., Рэфф М., Робертс К., Уотсон Дж. Молекулярная биология клетки: в трех томах. — 2. — Москва: Мир, 1994. — Т. 2. — 539 с. — 10 000 экз. — ISBN 5030019871. Jonathan Pevsner. Bioinformatics and Functional Genomics. 2013. Jean-Michel Claverie Ph.D. Bioinformatics For Dummies. 2011.