Слайд 1 Исследования по бесплодию 9. Использование биоинформатики в исследованиях по бесплодию Amparo Galan, д.м.н. Валентийское отделение Испанского банка стволовых клеток Научно-исследовательский центр Принц Фелипе, Валенсия, Испания Предлагаем Вашему вниманию главу …. Эта глава называется «Использование биоинформатики в исследованиях по бесплодию» Автор — д.м.н. Amparo Galan Слайд 2 Цели обучения Уметь работать с наиболее важными веб-инструментами при проведении рутинной исследовательской работы, включая поиск библиографических ссылок, нуклеотидных и аминокислотных последовательностей, описание их характеристик и проведение анализа с использованием современных методов: o Библиографический поиск o Поиск и описание характеристик нуклеотидных и аминокислотных последовательностей Свойства генов/общая информация Генная онтология Аминокислотная последовательность и структуры белка Перекрестные ссылки Интронные/экзонные последовательности Выполнение доступного анализа o Разрабатывать дизайн праймеров для описания характеристик генов и оценивать специфические ампликоны с помощью доступных вебинструментов Доступные веб-инструменты Оценка специфичности ампликона После завершения этого урока при проведении рутинной исследовательской работы Вы должны уметь работать с наиболее важными веб-инструментами. Эти навыки включают поиск библиографических ссылок, нуклеотидных и аминокислотных последовательностей, а также умение давать характеристику и проводить дальнейший анализ с использованием современного и доступного программного обеспечения, которое позволяет обеспечить работу с интересующими целевыми генами и их последовательностями. С этой точки зрения эта глава будет построена по основным областям, представляющим интерес для дальнейшего использования в исследовательских работах по бесплодию, а именно: •библиографический поиск, •поиск и описание характеристик нуклеотидных и аминокислотных последовательностей, и •практическое приложение полученных данных в рамках разработки дизайна праймеров. Каждый раздел содержит информацию о последовательности генов и их характеристиках и указывает доступные веб-инструменты и способы поиска последовательностей, которые необходимы для разработки дизайна праймеров. Слайд 3 Библиографический поиск Национальный центр биотехнологической информации (NCBI) PubMed o Доступ к цитированию в биомедицинской литературе o Функция LinkOut обеспечивает доступ к полнотекстовым статьям на сайтах журналов и других веб-ресурсах. o Обеспечивает доступ и ссылки на другие ресурсы по молекулярной биологии системы Entrez. Поиск Тема Автор Журнал Практический пример: рецептор пролактина (PRLR) В первом разделе будет показано, как осуществлять библиографический поиск. В настоящее время основной базой данных, позволяющей осуществлять библиографический поиск on-line, является PubMed. PubMed представляет собой вебресурс, разработанный Национальным центром биотехнологической информации (NCBI) Национальной медицинской библиотеки (NLM), расположенной в американском Национальном институте здоровья (NIH). PubMed является наиболее важным поисковиком международного уровня. Он обеспечивает доступ к наиболее полной базе данных ссылок на биомедицинскую литературу во всем мире. Основной поиск может быть выполнен по теме, автору и типу публикации. Функция «LinkOut» обеспечивает доступ к полнотекстовым статьям на сайтах журналов и других веб-ресурсах. PubMed также обеспечивает доступ и ссылки на другие ресурсы по молекулярной биологии системы Entrez. Издатели, принимающие участие в системе PubMed, в электронном виде подтверждают свои ссылки Национальному центру биотехнологической информации до или на момент публикации. Если издатель имеет веб-сайт, который предлагает полнотекстовый текст в своих журналах, PubMed содержит ссылки и на этот сайт, а также помимо прочего на ресурсы по биологии, информационные сайты для пациентов и методы, используемые в научно-исследовательской работе. Чтобы продемонстрировать все возможности, описанные в этой главе, начиная с библиографического поиска, в качестве конкретного примера будет рассмотрен ген рецептора пролактина (PRLR). Слайд 4 Нуклеотидные и аминокислотные последовательности Все доступные базы данных Основные международные поисковики, включая В США: NCBI/Entrez В Европе: Expasy Во втором разделе будут рассмотрены поиск и описание характеристик последовательностей генов и белков. Существуют две основные веб-инструмента, доступные на английском языке: Entrez из Национального центра биотехнологической информации в США, и ExPASy в Европе. Они удовлетворяют основным требованиям, позволяющим проанализировать любую последовательность из большого объема информации по библиографии, дате публикации, по мРНК и геному, по белкам, онтологии, локализации клеток в ткани, а также по подходящему программному обеспечению, необходимому для дальнейшего анализа последовательности. Entrez является интегрированным текстовым поисковиком, используемым в Национальном центре биотехнологической информации для крупных баз данных, в том числе PubMed, Nucleotide and Protein Sequences, Protein Structures, Complete Genomes, Taxonomy и других баз данных. ExPASy (Экспертная система анализа белков), сервер по протеомике из Швейцарского института биоинформатики (SIB), посвящен молекулярной биологии с акцентом на данных, относящихся к белкам. Он позволяет просматривать ряд баз данных, таких как Swiss-Prot, PROSITE, SWISS-2DPAGE, SWISS-3DIMAGE, ENZYME и другие базы данных с перекрестными ссылками. Он также позволяет получить доступ ко многим аналитическим инструментам для выявления белков, анализа их последовательности и прогнозирования их третичной структуры. Кроме того, ExPASy также предлагает множество документов, относящихся к исследованиям в этой области, и ссылки на наиболее релевантные источники информации в Интернете. С момента создания оба этих веб-инструмента постоянно модифицируются и улучшаются, и вся информация постоянно обновляется. Слайд 5 Нуклеотидные и аминокислотные последовательности Общая информация, выдаваемая при введении гена: NCBI: o Краткая информация o Геномные регионы, транскрипты и продукты o Геномный контекст o Библиографический список o Взаимодействия o Общая информация о гене o Генотипы o Метаболические пути o Гомология o Генная онтология o Общая информация о белке o Референсные последовательности в NCBI o Связанные последовательности o Дополнительные ссылки EXPASY: o Наименование и происхождение o Атрибуты белка o Общая аннотация o Онтологии o Бинарные взаимодействия o o o o o o o Альтернативные продукты Аннотация по последовательности Ссылки Веб-ресурс Перекрестные ссылки Вводная информация Релевантные документы Информация по каждому пункту исследования всегда структурирована в зависимости от выбранного браузера, как показано на слайде. После выполнения главного входа в первую очередь необходимо ввести общую информацию по гену, т.е. название, происхождение и последовательность. После этого уточняется анализ последовательности, а также взаимодействие, структура и метаболические пути. В соответствие с интересующим вопросом мы можем найти достаточно информации для анализа генов и белков, включая варианты транскриптов, связанных изоформ и структур, метаболических путей и даже данные о предшествующих экспериментах. Слайд 6 Нуклеотидные и аминокислотные последовательности Свойства гена/Общая информация o Краткая информация о гене o Геномная информация o Генотип/метаболические пути/гомология o Библиографический список Ссылаясь на первую часть анализа последовательности, обеспечивается общая информация по названию, синонимам в своей номенклатуре, геномной информации, генотипам, метаболическим путям, гомологии, и, наконец, по опубликованным библиографическим ссылкам. Так, PRLR является официальным символом рецептора пролактина, это ген, кодирующий белок, его последовательность была подтверждена у вида Homo sapiens, и основным источником для генной последовательности является HGNC: 9446 (комитет по номенклатуре генов международной организации по изучению генома человека, который утверждает уникальные и значимые имена для всех известных генов человека). Кроме того, другие связанные базы данных последовательностей также указывают в качестве синонима PRLR hPRLr1. PRLR находится на пятой хромосоме, при этом доступны все описанные полиморфизмы одного нуклеотида. Киотская энциклопедия генов и геномов (KEGG) описывает метаболические пути, в которых участвует PRLR. Киотская энциклопедия генов и геномов является биоинформационным ресурсом, позволяющим связать геном, жизнь и окружающую среду. Энциклопедия представляет собой коллекцию графических диаграмм, представляющих наши знания о молекулярных взаимодействиях и сети реакции в следующих областях: метаболизм, обработка генетической информации, клеточные процессы, заболевания человека и разработка лекарств. В этом контексте PRLR участвует во взаимодействии цитокин-рецептор цитокина, сигнальном пути JAK-STAT и в нейроактивном лиганд-рецепторном взаимодействии. Кроме того, PRLR гомологичен с последовательностями у мышей и крыс. В PubMеd также представлены статьи по теме и ссылки по гену. Слайд 7 Нуклеотидные и аминокислотные последовательности Свойства гена/Общая информация o Информация о белке/атрибуты o Экспрессия/локализация o Общая аннотация по белку o Сочетанные нарушения Другие интересующие подразделы в этой вводной части включают информацию о белках и их свойствах, общую аннотацию по белкам, по экспрессии и локализации и по связанным с ними нарушениям. Так, человеческий белок рецептора пролактина (PRLR), имеет таксономический идентификационный 9606 номер по NCBI, полная длина последовательности состоит из 622 aминокислот, подвержен посттрансляционным модификациям, что засвидетельствовано на белковом уровне. PRLR является рецептором для гормона передней долей гипофиза и взаимодействует с белками SAMRCA1 и GH1. Он расположен в пищеварительном тракте, женской репродуктивной системе, в жировой ткани, печени, почках, поджелудочной железе, плаценте, молочной железе и в яичниках. Его присутствие связано с раком молочной железы. Слайд 8 Нуклеотидные и аминокислотные последовательности Генная онтология Атрибуты генов и генных продуктов Согласно информации, предоставленной в разделе «онтология», PRLR является мембранным белком с полиморфизмом альтернативного сплайсинга, содержит цитоплазматический и трансмембранный домены. Проект «Генная онотология» (www.geneontology.org) обеспечивает унификацию атрибутов генов и генных продуктов всех биологических видов. Целями проекта является поддержание и пополнение четко определённого списка атрибутов генов и их продуктов различных базах данных, в результате чего были разработаны три структурированных словаря, описывающих три предметные области: «биологические процессы», «клеточный компонент» и «молекулярная функция» независимо от вида, чтобы обеспечить всеобъемлющий объем информации по нашей целевой последовательности. Использование терминов генной онтологии несколькими базами данных облегчает выполнение однородных запросов между ними. Управляемые словари структурированы так, чтобы пользователи могли запрашивать их на различных уровнях. В этом контексте, работая с двумя основными серверами, где подробно описаны различные сведения обо всех известных фактах, можно проверить генную онтологию PRLR. Слайд 9 Нуклеотидные и аминокислотные последовательности Аминокислотная последовательность и структура белка o Информация о белке/последовательности аминокислот прогнозируемая трехмерная структура Полная аминокислотная последовательность, как правило, указывается для первой изоформы белка, как видно на нашем практическом примере с PRLR. При желании также можно проверить аминокислотные последовательности дополнительных изоформ. С помощью различных прогностических алгоритмов и формул можно рассчитать третичную структуру белка, что позволяет получить трехмерную модель желаемого белка. На рисунке представлена прогнозируемая трехмерная структура PRLR состоящая из 25-235 или 25-234 аминокислотных последовательностей, построенная веб-ресурсом Protein Data Bank (PDB). Слайд 10 Нуклеотидные и аминокислотные последовательности Аминокислотная последовательность и структура белка o Характеристики последовательности o Альтернативный сплайсинг Что касается атрибутов белков, в этих базах данных представлены другие изоформы, основанные на тех же последовательностях. Запрос по PRLR выдает восемь изоформ, получающихся в результате альтернативного сплайсинга. Полностью описываются все изоформы и специфические последовательности в кодирующей области, которые отличаются в разных изоформах. Характеристики данных последовательностей также включают регионы, в данном случае топологические домены, домены и мотивы, и все участки посттрансляционного гликозилирования. Также представлена вторичная структура PRLR. Слайд 11 Нуклеотидные и аминокислотные последовательности Перекрестные ссылки o Базы данных последовательностей EMBL IPI PIR RefSeq Unigene o Базы данных трехмерных структур DIP IntAct o База данных PTM Фосфозиты Дальнейший анализ нуклеотидных и аминокислотных последовательностей предполагает использование перекрестных ссылок, который позволяет провести более глубокий анализ последовательности, а также сфокусироваться на некоторых экспериментальных характеристиках, например, если мы хотим сосредоточить свое внимание на нуклеотидной последовательности, то больший интерес будет представлять база данных Европейской лаборатории молекулярной биологии (EMBL). И наоборот, структура белка будет лучше всего отображена в системе базы данных трехмерных структур. Перекрестные ссылки позволяют найти все базы данных, в которых можно найти новую информацию. Как показано на этом и последующем слайде в этих базах данных представлена информация о последовательностях, 3D-структуре, межбелковых взаимодействиях, посттрансляционных модификациях, протеомике, аннотации генома, филогеномике, о ферментах и метаболических путях, и так же представлены отчеты об экспрессии генов. Возвращаясь к нашему практическому примеру, последовательность PRLR можно сравнить с последовательностей из других источников: Европейской лаборатории молекулярной биологии (EMBL), International Protein Index (IPI), Protein Information Resource (PIR), Reference Sequence (RefSeq), and UniGene. В базах данных 3Dструктур, как объяснялось ранее, представлены прогнозируемые трехмерные структуры белка, это Protein Data Bank (PDB) и база данных сравнительного моделирования структуры белка (ModBase). Кроме того, о межбелковых взаимодействиях можно узнать с помощью таких баз данных, как База данных взаимодействующих белков (DIP) и система IntAct, в которых для PRLR представлены 3 взаимодействия. Наконец, база данных PTM позволяет провести анализ фосфорилирования PRLR с фосфозитами. Слайд 12 Нуклеотидные и аминокислотные последовательности Перекрестные ссылки o Протеомные базы данных PRIDE o Геномная аннотация Ensemble GeneID KEGG o Видоспецифичные базы данных GeneCard H-InvDb HGNC MIM Orphanet PharmGKB GenAtlas o Филогенетические базы данных HOGENOM HOVERGEN OMA o Базы данных по ферментам и метаболическим путям Pathway_interaction_DB o Базы данных по экспрессии генов ArrayExpress Bgee После изучения перекрестных ссылок мы получили еще одну аннотацию PRLR из базы данных по протеомике (PRIDE), и еще по одной из базы данных по геному, таких как Ensembl, GeneID и ранее упомянутой KEGG. Таким же образом запрос в видоспецифичные базы данных позволяет проводить генный анализ по следующим направлениям: •человеческие гены, белки и болезни (GeneCards), человеческий транскриптом (HInvDB), базы данных номенклатуры человеческого генома (HGNC), •online-проект «Менделеевское наследование у человека (MIM)», •редкие заболевания и орфанные препараты (портал Orphanet), •фармакогенетика и фармакогеномика (PharmGKB) и •человеческие гены (GenAtlas). Более того, существует возможность поиска в филогенетических базах данных, таких как: •HOGENOM (гомологичные гены полностью секвенированных организмов), •HOVERGEN (гены позвоночных) и • OMA (ортологи из полной базы данных), и также существуют базы данных ферментов и метаболических путей (Pathway_Interaction_DB). Информацию о PRLR также можно найти в базах данных по экспрессии генов, а также в базе данных семейств и доменов в других ресурсах (в DrugBank и в NextBio (SOURCE)). В соответствии с нашими конкретными целями или целями научно-исследовательской работы, некоторые ресурсы будут более полезными, другие менее, и общий вебпоисковик поможет удовлетворить все наши потребности. Получение максимальной информации из каждой базы данных также является частью исследования. Слайд 13 Нуклеотидные и аминокислотные последовательности Интронные/экзонные последовательности: GENATLAS o Информация в окне «Flash Gene» o Информация о ДНК o Информация о РНК См. функцию «Exons Link» Особый интерес представляет система GeneAtlas, особенно, когда необходимо изучить профиль экспрессии генов. GeneAtlas обеспечивает большой объем информации и позволяет проводить подробный ДНК и РНК-анализ. Она позволяет определить локусы и экзоны для нуклеотидной последовательности, а также регуляторные последовательности и физические карты. Кроме того, в ней представлены информация о всех транскриптах и белках, экспрессии и внутриклеточной локализации, а также заболеваниях, связанных с нарушениями интересующего гена. Для анализа PRLR предоставляется общая информация и данные о геномных локусах, описываются пять функциональных изоформ и РНК-транскрипты. Он кодирует белок протяженностью 166,35 кб и содержит 11 экзонов. Функция «Exons Link» показывает положение 11 экзонов в полной последовательности. Слайд 14 Нуклеотидные и аминокислотные последовательности Интронные/экзонные последовательности: GENATLAS o Экзоны в последовательности мРНК o Полученная последовательность мРНК Инициирующий кодон Интронная последовательность, содержащая основания Терминирующий кодон Информация об интронных последовательностях необходимы для анализа комлементарной ДНК, синтезированного из мРНК. Она позволяет отличить геномную ДНК, которая содержит интроны от комплементарной ДНК, в которой интроны отсутствуют. Знание точной локализации всех важных оснований помогает при проведении дальнейших исследований и экспериментов. Для разработки праймеров необходимо знать саму последовательность. На правой стороне слайда представлена полученнная последовательность мРНК. показано на рисунке. Последовательность, выделенная жирным шрифтом, соответствует кодирующей мРНК. Инициирующий и терминирующий кодоны выделены зеленым и красным цветом соответственно, и основания, разделяющиея интрон, отмечены синим цветом. Слайд 15 Нуклеотидные и аминокислотные последовательности Доступная информация о выполненном анализе. Базы данных экспрессии генов o Germonline o BGEE o GeneE Некоторые базы данных также обеспечивают доступ к исследованиям предшествующих профилей экспрессии, выполненных с интересующим нас геном. Например, Array Express является базой данных микрочипов, BGEE - это база данных эволюции экспрессии гена, Cleanex - база данных профилей экспрессии генов, Germonline специализируется на гаметогенезе. В некоторых из перечисленных базах данных хранятся исследования профили экспрессии PRLR. Слайд 16 Разработка дизайна праймеров для составления характеристик генов Требования для разработки дизайна праймеров: Последовательность Используемые методы: ПЦР Цель исследования: геномная/генная экспрессия o Локализация интронов/экзонов Доступные веб-инструменты Проверка специфичности праймера В заключительной части этой главы подробно разберем методы разработки дизайна праймеров для описания характеристик генов. Практический подход включает, помимо других методов, хорошо известный анализ с полимеразной цепной реакцией (ПЦР). Она выполняется на геномной или комплементарной ДНК, полученной из мРНК. Таким образом, чтобы отличить их друг от друга, необходимо создать праймеры, содержащие интронные последовательности, которые будут обнаружены в присутствии геномной ДНК. При разработке дизайна праймеров следует учитывать несколько факторов: •необходимо знать полную последовательность, в том числе инициирующие и терминиирующие кодоны и локализацию экзонов •фокус исследования: кодирующая ДНК и геномная ДНК требуют различных праймеров •необходимо использовать следующие технологии: ПЦР в конечном времени и ПЦР в режиме реального времени ПЦР в конечном времени – это качественный метод, который позволяет выявить присутствие или отсутствие ампиликона. ПЦР в реальном времени, наоборот, является количественным методом, позволяющим провести абсолютный или относительный количественный анализ ампликонов. Это более дорогой метод, требующий специального оборудования. Для ПЦР в реальном времени обычно необходимо меньше ампликонов, чем для ПЦР в конечном времени. Кроме того, для разработки праймеров важно выбрать наиболее подходящий из доступных веб-инструментов. Должна быть гарантирована специфичность праймеров: одна пара праймеров должна амплифицировать только один ампликон уникального гена. Слайд 17 Разработка дизайна праймеров для составления характеристик генов Доступные веб-инструменты o Бесплатное программное обеспечение Primer3, Genefisher, коммерческие компании o Primer3 Простота в работе Исходная последовательность Требуется задать желаемый размер фрагмента В настоящее время праймеры можно легко разработать с использованием бесплатного программного обеспечения. Эти программы предоставляются коммерческими компаниями или независимыми группами, такими как Genefisher или Primer3. Для того, чтобы разработать дизайн праймеров, программы требуют исходную последовательность и фрагмент, который необходимо амплифицировать. После вычислительных расчетов выдается список праймеры, начиная с наилучшего сочетания пары праймеров. В нашем примере для разработки праймеров для нашего гена-мишени PRLR был выбран веб-инструмент Primer3. После введения последовательности PRLR, содержащей кодирующую область, необходимо подтвердить разработку дизайна праймеров. Слайд 18 Разработка дизайна праймеров для составления характеристик генов Доступные веб-инструменты PRLR o Предлагаемые последовательности праймеров o Выбранные последовательности праймеров Primer3 быстро отвечает, принимая во внимание заказанное количество пар праймеров, и классифицирует их, начиная от лучшей комбинации к худшей. Эти пары праймеров будут выбраны в соответствии с положением в последовательности. Они должны содержать кодирующую область, а в случае синтеза комплементарной ДНК они должны находиться между двумя различными экзонами. В зависимости от используемой техники, длина ампликона может меняться, как показано на слайде, где праймеры окрашены в розовый цвет при ПЦР в конечном времени и в желтый при ПЦР-анализе в реальном времени. Слайд 19 Разработка дизайна праймеров для составления характеристик генов Специфичность ампликона: база данных BLAST Последовательности в системе BLAST. Уникальность/отсутствие уникальности последовательности гомологов Подтвержденный ампликон Результаты BLAST Специфичный ампликон PRLR После выбора пары праймеров нужно доказать, что ампликон уникален для интересующего гена. Фрагменты будут проанализированы очисткой и секвенированием в практических экспериментах, но, тем не менее, можно провести предварительную виртуальную проверку в базах данных. BLAST Web позволяет проанализировать предполагаемые гомологи во всех опубликованных последовательностях. Этот инструмент Национального центра биотехнологической информации требует введения последовательности и видов организмов, требующих изучения. В рутинных исследованиях по репродукции человека это обычно люди или мыши. Таким образом происходит сужение результатов, что позволяет обеспечить специфичность ампликона. После выполнения запроса в системе BLAST, результаты следует проверить. Если не выявлено дополнительных гомологов с другими последовательностями, праймеры подходят для нашего экспериментального анализа. Слайд 20 Выводы Современные интернет-платформы (NCBI и Expassy) могут предоставить достаточный объем информации, чтобы удовлетворить все необходимые потребности исследователей. • Библиографические ссылки в системе PubMed обеспечивают огромное количество специализированной литературы по биомедицине. • Можно найти нуклеотидные и аминокислотные последовательности и охарактеризовать их с использованием обеих платформ, что позволяет прогнозировать трехмерную структуру, локализацию хромосом, локализацию экзонов и онтологии генов. • База данных BLAST позволяет найти гомологи с другими известными последовательностями у разных видов. С помощью доступного программного веб-обеспечения можно легко разработать дизайн праймеров для анализа генов В конце главы можно подвести следующий итог: • Современные интернет-платформы (NCBI и Expassy) могут предоставить достаточный объем информации, чтобы удовлетворить все необходимые потребности исследователей. • Библиографические ссылки в системе PubMed обеспечивают огромное количество специализированной литературы по биомедицине. • Можно найти нуклеотидные и аминокислотные последовательности и охарактеризовать их с использованием обеих платформ, что позволяет прогнозировать трехмерную структуру, локализацию хромосом, локализацию экзонов и онтологии генов. • База данных BLAST позволяет найти гомологи с другими известными последовательностями у разных видов. • С помощью доступного программного веб-обеспечения можно легко разработать дизайн праймеров для анализа генов.