UGENE – интегрированные инструменты биолога Константин Оконечников, НЦиТ Унипро 2010 Вычислительная биология Примеры характерных задач: • Поиск гомологов – Поиск и анализ схожести между генетическими последовательностями, различные виды выравниваний • Определение генов – Идентификация генов и аннотация их функций • Сборка контигов – Сборка цельных геномов из известных частей полученных в результате секвенирования • Анализ структуры белка – Предсказание вторичной и третичной структуры, определение функций • …и многое другое 2 Форматы и базы данных EMBL Genbank FASTA MSF CLUSTAL GFF NCBI EMBL STOCKHOLM FASTQ NEWICK SAM ABI NEXUS UniProt ACE PDB SCF MMDB Колоссальный объем информации! Например: Количество записей в NCBI Genbank на 2010 год – 120 000 000 Количество публикаций в PubMed на 2010 год – 20 000 000 3 Многообразие подходов BLAST,FASTA,SSEARCH,CLUSTAL,MUSCLE,MAFFT,KALIGN,UCLUST,HMMER2, HMMER3,GARLIC,CONSED,CGVIEW,ERGO,EBBIE,MAUVE,MATTREE,COVE, PSIBLAST, GOR, PSIPRED, EXPASY, EMBOSS, PHYLIPP, SAM, CASP, BLOCKS, PRIMER3, CSBLAST, HHPRED,BIOCONDUCTOR,MUMMER, FEAST,BOWTIE,MAQ,SOAP,BIOPERL,POA, PRANK, FOLDALIGN,RMAP,SITECON,SHRIMP,BATWING,ASAP, BEAST,MEGA,MESQUITE,SEMPHY,TNT,BIOEDIT,BIOPYTHON,GALAXY, TAVERNA, GENEMARK, AMAP, MEME, PPSEARCH, ELPH, GENESCAN, ARTEMIS, CLANN, GENLUX, CRNPRED, BRAGI, DIP4FISH ANGIS,AFFYMETRIX,GENECHIP,ARLEQUIN,BIOPHP,BIORUBY,BIOEXTRACT, BIOSLAX,BISKIT,CYTOSCAPE,DAVID,DIALIGN-T, DIALIGN-TX,DNASTAR,ETBLAST FOLDX,FORMATDB,GENSCAN,GENTLE,GESS, GENMAPP,GENE,ACE, UGENE, ARGO, DESIGNER,GENEDATA,ENEPATTERN,GENEVESTIGATOR,JALIGNER,MEGAN,ARKA MODELLER,OLIGO,JPRED,STRIDE,TESS,GLIMMER,BIOECLIPSE, ENSEMBL,ASTERIAS,DPVIEW, PAUP,PSORT,PHYLOSCAN,PUPASUITE,PYMOL,RAPTOR,RASMOL, STING,SIMBIOSYS,SNAGGER,SOAPLAB,SPLITSTREE,ST EMLOC,T-COFFEE,PILER,USEARCH,DELTASTAT,DCSE,ASID,ARB,ANGLER, TREEFINDER,UCSF CHIMERA,UTOPIA,VECTOR NTI,YASS,MUSCA,JASPAR ……………………. 4 Минусы существующих подходов • Зачастую средства и алгоритмы анализа генетических данных не согласуются между собой. Суть проблемы: необходима целостность в управлении данными, возможность построения составных методов анализа. • Популярные инструменты не всегда пригодны для систематического анализа большого количества данных Суть проблемы: сложность обработки промежуточных результатов и другие ограничения. • Многие задачи гораздо эффективнее решаются посредством использования высокопроизводительных ресурсов Суть проблемы: нужен специальный опыт в этой области. 5 UGENE – предлагаемое решение Цель проекта – интеграция наиболее используемых алгоритмов анализа генетических данных в единой визуальной рабочей среде, удобной для прикладного специалиста. • Свободная лицензия, русификация; • Кросс-платформенность (MS Winodws, Mac, Linux); • Модульная архитектура, более 30 расширений; • Единый, удобный пользовательский интерфейс; • Концептуальная целостность в работе данными; • Эффективное использование вычислительных ресурсов; • Поддержка составных методов анализа данных. 6 Краткий обзор возможностей UGENE • Автоопределение форматов данных, поддержка более 20 форматов. • Поиск паттернов и парное выравнивание (Smith Waterman) • Сборка контигов (Bowtie, UGENE Genome Aligner) • Множественное выравнивание: MUSCLE, Kalign, Clustal, Mafft • Сверхбыстрый поиск повторов • Визуализация и редактирование хроматограмм • Анализ гомологии на основе цепей Маркова (HMMER) • Построение филогенетических деревьев (Phylip) • Поиск открытых рамок считывания для всех генетических таблиц • Поддержка запросов к удаленным базам данных ( BLAST, CDD) • Сайты рестрикции, cайты связывания транскрипционных факторов 7 Возможности UGENE • Удобный редактор аннотаций • Мощные возможности по визуализации и редактированию последовательностей • ДНК • РНК • Аминокислотные 8 Возможности UGENE • Редактор множественных выравниваний • Просмотрщик филогенетических деревьев • Визуализатор трехмерных макромолекулярных биологических структур с возможностью экспорта 9 Составные методы анализа Дизайнер вычислительных схем (Workflow Designer) – комплексный инструмент автоматизации вычислительных процессов, входящий в среду UGENE. • Интуитивно понятный интерфейс пользователя; • Расширяемость – легкое добавление новых вычислительных блоков; • Каждый блок может иметь различные оптимизированные реализации для различных платформ; • Автоматическая загрузка всех доступных вычислительных ресурсов; • Интерактивность. 10 Пример вычислительной схемы 11 Эффективное использование вычислительных ресурсов • • • • Многоядерные процессоры Кластеры и грид-системы Платформо-зависимые оптимизации, GPGPU Облачные вычисления Удаленный сервис запуска задач основанный на мощностях Amazon EC2 Для пользователя запуск вычислительных задач и работа с платформой не усложняется! 12 Сравнение с аналогами Web-Сайт: СLCBio Workbench VectorNTI Geneious Unipro UGENE http://www.clcbio.com http://www.invitrogen.com http://www.geneious.com http://ugene.unipro.ru Функциональность: Поиск гомологов + + + + Сборка контигов + - + + Анализ структуры белка - + - - Клонирование “in silico” + + + - Поддержка HPC + + - + Построение вычислительных схем - - - + ~700$* 0 Стоимость программного пакета: Лицензия на полгода, 1 пользователь ~1200$ ~1500$ * может быть бесплатным при определенных условиях 13 Демонстрация 14 Текущее состояние проекта • Более 1000 активных пользователей • Проект входит в официальные версии дистрибутивов Linux: Ubuntu, Fedora, Arch • Взаимодействие с российскими и рядом зарубежных институтов в области вычислительной молекулярной биологии • Перенос задач на суперкомпьютеры 15 Перспективы • Анализ данных секвенирования, визуализация • Удобный язык для Дизайнера вычислительных схем • Новая разработка Query Designer • Объединенное рабочее пространство для группы исследователей • Дальнейшее развитие удаленного сервиса UGENE 16 Вы и UGENE • Использование UGENE в повседневной работе • Обратная связь • Специализированные feature-request’ы • Совместная работа над большими проектами • Использование UGENE в образовательных проектах 17 Полезные ссылки • • • • Сайт: http://ugene.unipro.ru Почтовый алиас: ugene@unipro.ru Форум: http://ugene.unipro.ru/forum Видео-канал: http://youtube.com/uniprougene • Твиттер: http://twitter.com/uniprougene 18 Спасибо за внимание! Вопросы ? 19