Распознавание генов эукариот 2015, ААл с использованием презентации МГ и ЕЕ План • Особенности генов эукариот – Сплайсинг • Длины экзонов и интронов – Сигналы сплайсинга – Альтернативный сплайсинг – Сложная регуляция и сложные сигналы • Как учитывать сплайсинг • Программы – AUGUSTUS • Массовые экспериментальные методы – EST – Транскриптом – Chip-seq 2 1. Особенности генов эукариот: сплайсинг 3 Процессирование мРНК: экзоны и интроны Рис. из перзентации МГ 4 Рис. из перзентации МГ 5 Рис. из перзентации МГ 6 Take home message: чем сложнее организм, тем меньше длинных экзонов (обычно) 7 Рис. из перзентации МГ 8 Take home message: чем сложнее организм, тем больше длинных экзонов (обычно) 9 Сравнение экзон-интронной структуры у разных организмов Средн. длина экзона Средняя длина интрона человек 162.7 5848.7 рыба D.rerio 156.2 2276.4 муха D.melanogaster 370.0 1530.7 растение A. thaliana 223.7 163.7 Zhu et al. Patterns of exon-intron architecture variation of genes in eukaryotic genomes, BMC Genomics 2009 10 Экстремальные экзоны и интроны в геноме человека • Максимальное число экзонов в гене – 148 • Максимальная длина гена - 2 217 347 п.н. (!) (DMD- Dystrophin Dp140bc isoform на хр. X) • Минимальная длина экзона – 2 п.н. (!) • Максимальная длина экзона – 11 923 п.н. • Минимальная длина интрона – 30 п.н. (не считая сдвигов рамки в 1 п.н.) • Максимальная длина интрона – 497816 Sakharkar et al., Distributions of exons and introns in the human genome, In Silico Biology, 2004 http://www.bioinfo.de/isb/2004040032/main.html 11 Сигналы сплайсинга – донорный и акцепторный • Сигналы способствуют нахождению генов • Они слабые – т.е. похожие сигналы встречаются в геноме очень часто, лишь малая доля их сайты сплайсинга Рис. из перзентации МГ 12 … и точка ветвления 13 Сплайсинг присходит примерно так 14 2. Особенности генов эукариот: сложность регуляции и трудность детектирования сигналов 15 Сигнал • Прокариоты: – сайт посадки рибосомы – Шайн-Дальгарно – Полицистронная мРНК • Эукариоты: – Моноцистронная мРНК – Кэпирование мРНК, кэп узнается субъединицей рибосомы или IRES – специальныя вторичная структура мРНК, узнаваемая субъединицей рибосомы – Сигналы старта транскрипции – TATA бокс и др. – Поли-А сайт на 3’конце мРНК 16 Из презентации Скоблова 17 3. На чем основан поиск генов эукариот 18 Что учитывать • Открытая рамка считывания – НЕТ! (Вернее, только в зрелой РНК, если таковая известна) • Интрон-экзонная структура (взамен ORF) – Донорный и акцепторный сайты сплайсинга – ДА • Инициаторный и стоп кодон – ДА • Сигналы на границе кодирующей последовательности – сложно: – Сигналы старта трансляции – есть – Кэп и IRES – Сплайсинг ДО посадки рибосомы • Кодирующий потенциал - статистика встречаемости кодонов – ДА • Сравнение с генами из родственных организмов - ДА • Независимые экспериментальные данные об мРНК – ДА – – – – EST RNA-seq ChiP-seq – для регуляторных сигналов …. 19 Рис. из перзентации МГ 20 4. Идея алгоритма поиск генов эукариот 21 22 23 Вариант алгоритм поиска 1) Найдем все потенциальные сайты сплайсинга, донорные и акцепторные, инициаторные и стоп-кодоны 2) Построим график потенциала кодирования вдоль генома 3) Применим динамическое программирование, вес участка вычисляется по кодирующему потенциалу 24 25 26 Веса • Для каждого потенциального экзона вычислим число – кодирующий потенциал, чем больше, тем лучше • Для каждого потенциального интрона вычислим число – чем меньше кодирующий потенциал, тем лучше 27 28 5. AUGUSTUS Stanke et al., AUGUSTUS: ab initio prediction of alternative transcripts, NAR 2006 29 Алгоритм • Скрытая марковская модель (HMM) (а не динамическое программирование) • После обучения алгоритма каждому разбиению F последовательности S на экзоны, интроны, межгенные промежутки ставится в соответствие вероятность P(F|S) • Задача состоит в том, чтобы найти разбиение F последовательности S с наибольшей вероятностью. 30 В алгоритме учитываются • • • • • Окрестности донорного и акцепторного сайтов Окрестность точи ветвления Старт трансляции Участок перед стартом трансляции Кодирующая последовательность – Первый кодирующий экзон – Внутренний экзон – Последний кодирующий экзон • • • • • • Некодирующая последовательность Межгенный участок Распределение длин экзонов Распределение числа экзонов в гене Распределение длин интронов ….. Всего 23 параметра на каждую из цепочек ДНК 31 • Обучение Этапы AUGUSTUS – Вход: • Геном • Набор генов – Найденных пользователем или – Найденных по транскриптому – Результат – файл с • параметрами детекторов сигналов • Статистическими параметрами последовательностей в экзонах, интронах и межгенных промежутках • Поиск генов – Вход: • Геном или его часть • Файл с параметрами – Либо результат обучения – Либо рассчитанный по аннотированному геному ближайшего организма – Результат: предсказанные гены 32 КОНЕЦ 33