2. МОДЕЛИРОВАНИЕ СТРУКТУРЫ И ФУНКЦИИ РНК (ИЦиГ СО РАН, ИВМиМГ СО РАН) Цель работы - изучение фундаментальных закономерностей формирования структуры РНК и их функционирования. Изучение природы физического кода, определяющего взаимосвязи между первичной, вторичной и третичной структурами РНК, моделирование и предсказание структуры и специфической активности РНК по их нуклеотидным последовательностям. Разработка компьютерных методов для анализа и моделирования структурно-функциональной организации и функции РНК. Создание методов для компьютерного конструирования молекул РНК с заданными свойствами. 2.1 Создание базы данных по структурно-функциональной организации мРНК Решаемая задача – создание информационных ресурсов по структурно-функциональной организации мРНК. Накопление в базе данных GeneNet информации об основных типах генетических сетей организмов человека, животных и растений, контролирующих клеточный цикл, процессы дифференцировки клеток, морфогенез органов и тканей, поддержание гомеостаза биохимических и физиологических параметров организма, ответ на стрессовые воздействия внешней среды, контролирующих функцию систем кроветворения, нервной и эндокринной систем организма. Нами создана база данных “Samples-mRNA”. Помимо информации о последовательностях мРНК, эта база данных содержит также информацию об их структурно-функциональных особенностях, извлекаемую как из базы данных EMBL, так и из литературных источников. Она содержит следующую информацию: Выборки 5’-нетранслируемых последовательностей (НТП) мРНК высоко- и низкоэкспрессирующихся генов многоклеточных эукариот: млекопитающих, двудольных и однодольных растений; выборки мРНК одноклеточного организма – дрожжей Sacharomyces cerevisiae, каждая из которых включает 5’-НТП, белок-кодирующий район, и для многих последовательностей - 3’-НТП. Процедура формирования выборок. Последовательности мРНК для анализа были экстрагированы из базы данных EMBL (http://www.embl-heidelberg.de/srs5/). При этом мы использовали только ДНК-карточки, то есть карточки, заполненные на основе сиквенса клонированных фрагментов геномной ДНК, так как в них может содержаться информация о точном расположении точки старта транскрипции. РНК-карточки, которые описывают последовательности, полученные при секвенировании кДНК-библиотек, нами не использовались, поскольку 5'-конец клонированного фрагмента нельзя с уверенностью считать 5'-концом 5'НТП. Экстракцию последовательностей районов мРНК на основе ДНК-карточек осуществляли следующим образом: По первому полю карточки определяли принадлежность описываемой последовательности к определенным на основе геномной ДНК (ключ "DNA") По таблице особенностей (Feature Table – поле FT) выясняли, содержится ли в карточке разметка белок-кодирующей последовательности (поле "CDS") (при этом, левая граница должна быть без знака "<"). При отсутствии этого поля карточка исключалась из рассмотрения. Выделяли карточки, содержащие в таблице особенностей хотя бы одно из следующих полей: "mRNA", "prim_transcript", "precursor_RNA", "5'UTR" (при этом, левая граница должна быть без знака "<"). В поле "mRNA" обычно приведена разметка зрелой мРНК, в поле "prim_transcript" (первичный транскрипт) – структура непроцессированного транскрипта, в поле "precursor_RNA" (РНКпредшественник) – структура частично процессированного транскрипта, а в поле "5'UTR" (5' untranslated region) – структура нетранслируемого лидера. С использованием ключа "join" из вышеперечисленных полей таблицы особенностей осуществляли выделение последовательностей 5'НТП и кодирующей части молекул мРНК (в случае необходимости проводили вырезание интронов и сплайсинг). Для подтверждения правильности разметки мРНК, приведенной в карточке EMBL, проводили дополнительную проверку литературы, на которую ссылаются карточки. Нами отбирались только те входы, в которых старт транскрипции был определен хотя бы одним из следующих трех экспериментальных методов: наращивание олигонуклеотидного праймера, эксперимент по защите от расщепления РНК нуклеазами или RACE-ПЦР. Выборки высоко- и низкоэкспрессирующихся генов растений и млекопитающих Нами были сформированы выборки 5’НТП для 2-х групп генов: с высоким и низким уровнями экспрессии. Выборки были составлены для 3-х таксонов: млекопитающие, однодольные и двудольные 24 растения. В группу высокоэкспрессируемых генов нами были включены 92 гена, в том числе (см. таблицу 1) гены фактора элонгации трансляции альфа-1, рибосомальных белков, актинов, гены теплового шока hsp70, гистонов (для всех трех таксонов), тубулинов, миозинов (для млекопитающих), гены фотосинтеза (для растений). Продукты всех перечисленных генов являются жизненно необходимыми и нарабатываются в клетках в значительных количествах. Составляя таким образом выборку высокоэкспрессируемых генов, мы исходили из предположения, что соответствующие им мРНК должны эффективно транслироваться. В группу низкоэкспрессирующихся генов вошли 50 генов (см. таблицу), в том числе гены интерферонов, интерлейкинов, факторов роста, транскрипционных факторов, протеинкиназ, рецепторов, онкогены и гены ряда других регуляторных белков. Экспрессия этих генов находится под строгим контролем не только на уровне транскрипции, но и благодаря пониженнму времени жизни их мРНК (Chen and Shyu,1995) и белков (Pahl and Baeuerle,1996) в цитоплазме. Для отбора мРНК, кодирующих транскрипционные факторы, мы использовали базу данных TRANSFAC (Wingender et al.,1996). Выборки дрожжевых мРНК Для создания выборки дрожжевых мРНК мы также использовали базу данных EMBL. Процедура экстракции была в основном сходной с процедурой, описанной для млекопитающих и растений, с несущественными отличиями. Сначала были экстрагированы все ДНК-карточки, одновременно содержащие в поле OR (организм) словосочетание Sacharomyces cerevisiae, в поле FT (таблица особенностей) – ключи "CDS" и один из следующих ключей: "mRNA", "prim_transcript", "precursor_RNA", "5'UTR". Затем из них были отобраны те, у которых кодирующий район был полным. Это необходимо для вычисления индекса адаптации кодонов. На последнем этапе данные картирования 5'-конца транскрипта были проверены по литературным источникам. В результате мы получили выборку мРНК с полноразмерными кодирующими частями и лидерами, объёмом 171 последовательность. Из них 100 последовательностей имели один старт трансляции, 71 - несколько стартов. Мы использовали только наиболее короткие формы 5’НТП генов с несколькими стартами транскрипции, поскольку более длинные альтернативные лидеры могут сочетать свойства и 5’НТП, и базального промотора. Помимо последовательностей мРНК, в анализе использовались также последовательности промоторных обастей (-150..0 нт. от точки старта транскрипции). Таблица. Таксономический и генный состав выборок высоко- и низкоэкспрессирующихся генов растений и млекопитающих Высокая экспрессия объём гены выборки рибосомальных белков, актинов, гистонов, генов двудольные растения 44 белков теплового шока hsp70, гены фотосинтеза рибосомальных белков, актинов, гистонов, генов однодольные растения 15 белков теплового шока hsp70, гены фотосинтеза рибосомальных белков, актинов, тубулинов, млекопитающие 33 миозинов, гистонов, белков теплового шока hsp70, Низкая экспрессия объём гены выборки двудольные растения 22 гены интерферонов, интерлейкинов, факторов однодольные растения 11 роста, транскрипционных факторов, протеинкиназ, рецепторов, онкогены и др. млекопитающие 17 Формат представления информации в базе данных Samples-mRNA База данных “Samples-mRNA” имеет EMBL-подобный формат. Рассмотрим его особенности на примере карточки, представленной на рисунке. Один вход в базу данных соответствует отдельной выборке. Карточка базы данных включает следующие поля: FI - краткое название выборки (в данном случае – UTR_PLNT.DNA), NM - полное название выборки с разъяснением ее биологического смысла (…), DA и LU (дата создания и последнего пополнения), ST - формализованное описание функциональных районов данного типа, включающее название района (сайта) и, если есть, название связывающегося с ним trans-фактора. Описание последовательности сайта включает идентификатор (поле ID), accession number (поле AC), информацию о классификации организма (поля OS и OC), ссылки на базы данных-источники (поле DR), позиции сайта в последовательности, ориентация и метод – экспериментальный или программный – идентификации сайта (поле FT) (для обозначения методов используются сокращения, например, EXP – "экспериментальный"). Интерфейс базы данных "Samples-mRNA" База данных “Samples-mRNA” установлена в сети Internet по адресу: 25 http://wwwmgs.bionet.nsc.ru/cgi-bin/mgs/nsamples/auto2.exe?which_group=1 Входная страница WWW-интерфейса представлена на рисунке. WWW-интерфейс позволяет: выбрать из имеющегося списка выборку, получить информацию об этой выборке, вывести её в окне браузера в одном из следующих 6-ти форматов: формат хранения, формат базы данных EMBL, формат FASTA, простой формат (одна последовательность в строке), формат базы данных PIR и формат базы данных GCG. На рисунке представлен пример выдачи карточки из базы данных “Samples-mRNA”: входная страница и вывод выборки в формате html. 26 2.2 Генетический алгоритм для компьютерного анализа и моделирования структуры РНК Решаемая задача – создание на основе генетических алгоритмов (ГА) оптимизации метода для моделирования вторичной структуры РНК, выявления и анализа значимых контекстных и структурных особенностей мРНК. Моделирование взаимодействий антисенс-олигонуклеотидов с регуляторными районами РНК с целью разработки оптимальных стратегий генетической терапии и управления функцией геномов ГА моделирует эволюцию популяции искусственных особей. Каждая особь характеризуется своим генотипом. Генотип особи состоит из генов. Гены определяют признаки организма, на основе которых оценивается приспособленность особи и осуществляется отбор. Отбор в популяции ведется Начальная популяция в направлении оптимизации заданного интегрального признака, определяемого совокупностью генов. Эволюция популяции осуществляется в результате циклического Отбор действия трех так называемых генетических операторов: a) отбора решений по приспособленности; б) рекомбинаций Рекомбинации (скрещивания) решений, осуществляющих крупномасштабное зондирование пространства решений; в) мутаций, предотвращающих Мутации преждевременную сходимость. В случае оптимизации вторичной структуры РНК особь соответствует определенному варианту структуры. ВС РНК однозначно задана набором нет критерий стеблей, её составляющих. Поэтому фактически остановки все ГА рассматривают стебли в качестве генов. да Для такого выбора существует естественная мотивация, основанная на предположении, что Выход генетический алгоритм моделирует процесс укладки ВС РНК на основе последовательного формирования и распада стеблей (Gultyaev и др., Схема генетического алгоритма 1995). При таком рассмотрении генетические предсказания вторичной структуры РНК. операторы нашего алгоритма имеют следующий смысл: мутации воспроизводят локальные изменения вторичной структуры РНК, обусловленные образованием/распадом ограниченного числа стеблей; рекомбинации осуществляют обмен крупными фрагментами вторичных структур РНК; отбор отбраковывает менее стабильные вторичные структуры; структуры с более низкими энергиями обычно более компактны и, следовательно, меньше подвержены деградации. Полный протокол алгоритма даётся следующей последовательностью процедур (рис.): Для данной последовательности РНК построить список {h} всех возможных стеблей (ГЕНОВ); Создать начальную популяцию вторичных структур РНК (особей) численностью N. Каждая вторичная структура состоит из некоторого поднабора стеблей {g}⊂{h}; Вычислить энергию каждой вторичной структуры РНК в рассматриваемой популяции; Подвергнуть популяцию отбору, уменьшая ее численность до заданного уровня. Отбор ведется в соответствии с приспособленностью особи (вторичной структуры), определяемой ее энергией. Провести рекомбинации среди отобранных особей и заполнить образовавшиеся при отборе вакансии её продуктами. Провести множественные мутации (локальные изменения ВС). Возвращаться к шагу 3, пока не удовлетворено одно из двух условий: (1) достигнуто заданное вырождение популяции, то есть она содержит набор сходных вторичных структур (особей родственников); (2) проведено заданное число оптимизационных циклов (эволюционных поколений). Выбрать из последнего поколения особь с наинизшей свободной энергией - в качестве результата вычислений. Перейдем к описанию шагов алгоритма, более подробно останавливаясь на его особенностях. Построение набора {h} всех возможных стеблей для рассматриваемой молекула РНК. Минимальная длина стебля задается пользователем и может быть равна 2 или более комплементарных пар. Минимальная длина шпилечной петли равна 3-м нуклеотидам. Ограничений на максимальную длину стебля и шпилечной петли не накладывается. 27 2) Начальная популяция. Начальный размер популяции задается равным 100 особям и поддерживается постоянным в ходе эволюции. Начальные структуры формируются добавлением по стандарным правилам стереохимической совместимости стеблей из {h}. Список делится на два подсписка: {h}1 из стеблей, уже использованных при формировании, и {h}2 из еще не использованных. На первом этапе каждая начальная структура формируется в первую очередь из случайных стеблей из {h}2, которые после этого переходят в {h}1. Затем, если список {h}2 исчерпывается, пополнение популяции до заданного размера происходит из списка {h}1. Такая процедура задания начального набора особей обусловлена тем, что мы ставили задачу создавать набор наиболее отличающихся друг от друга вторичных структур РНК, то есть максимально равномерно покрыть начальной популяцией пространство потенциальных ВС РНК. Последнее необходимо во избежание преждевременной сходимости алгоритма из-за вырождения популяции в окрестности локального минимума. Вычисление энергии вторичной структуры РНК. Для вычисления энергии ВС РНК представляется в виде бинарного дерева. При этом узлами дерева представлены стебли, а ребрами - петли (за исключением шпилечных петель). Корнем дерева является первый с 5'- конца стебель, в то время как висящие вершины представляют шпильки (стебель со шпилечной петлей). Каждый узел имеет 2 указателя: a (на рисунке правый) указывает на поддерево (подструктуру), которое замыкается стеблем, соответствующим этому узлу; и b указывает на стебель, примыкающий к данному стеблю с 3' стороны. Энергия ВС РНК вычисляется упорядоченным обходом дерева с посещением всех узлов. Последовательность шагов для каждого узла следующая: сначала посещается поддерево по указателю a, затем по указателю b, и в последнюю очередь посещается сам рассматриваемый узел. Это так называемый "обход дерева снизу вверх", который позволяет реализовать расчет энергии в виде быстрой рекурсивной процедуры (Вирт, 1986). На примере, приведенном на рисунке, узлы посещаются в последовательности 123456. В силу аддитивности энергетических правил, энергия подструктуры с корнем в узле x есть сумма энергий подструктур более низкого уровня (по указателям a и b), энергии узла x, и энергий ребер, соответствующих указателям a и b, то есть петель. Дополнительное преимущество в скорости описанной процедуры определяется тем, что 5’ 3’ энергии узлов расчитываются заранее 1 - на шаге 1 алгоритма. Энергии a b 1 петель вычисляются непосредственно 6 2 5 в ходе выполнения процедуры. 2 6 b Термодинамические параметры, используемые при расчете, взяты из 3 компиляции (Jaeger et al., 1989). 3 b a 4) Отбор. Приспособленность особи 4 5 (вторичной структуры) в популяции 4 вычисляется следующим образом: f i = exp(− Ei ), ∆E а) б) Представление вторичной структуры (а) в виде бинарного дерева (б). где Ei - свободная энергия её ВС, ∆E>0 - эффективное энергетическое разрешение, то есть различие по энергии, при котором две структуры отличаются по приспособленности в e раз. Проведенные расчеты показали, что оптимальное значение ∆E = 3 kcal/mol. Уменьшение значения ∆E по сравнению с указанным снижает скорость сходимости алгоритма. При увеличении ∆E алгоритм сходится к более мелким минимумам. На каждом этапе селекции популяции решение об элиминации или выживании конкретной особи принимается на основе стохастической процедуры. Вероятность удаления структуры i из популяции вычисляется в соответствии с формулой: 28 1/ fi ì M N ï ï å1 / f i ïï i =1 pi = í ï 1 ï ï ïî , M 1/ fi ≤1 N å1 / f i i =1 , M 1/ fi >1 N å1 / f i i =1 Здесь параметр M (0<M<N) есть ожидаемое число погибающих при отборе особей. 5) Мутации. Общепринято, что в ГА мутациям соответствуют одиночные замены генов, обеспечивающие стохастическое движение в ближайшей окрестности (Ogata et al., 1995). В такой схеме слепого поиска мутации рассматриваются как минорный элемент ГА, так что на практике рекомендуют строго ограничивать их вклад с целью подавления вносимого ими шума (Ogata et al., 1995). Напротив, мутации, реализованные в нашем алгоритме, являются его важным элементом. Это обусловлено тем, что мы используем управляемый процесс мутирования. Он похож на реализацию мутаций, использовашуюся для вычисления конформаций шпильки на атомном уровне (Ogata et al., 1995). Для каждой выбранной для мутирования особи мутационный процесс включается (или выключается) в зависимости от наличия (отсутствия) в заданной окрестности рассматриваемой вторичной структуры другой более стабильной ВС. На этой основе осуществляется управляемая (зрячая) локальная минимизация вторичной структуры РНК. Выберем из популяции заданное количество особей. Рассмотрим процедуру множественной замены генов у конкретной особи, состоящую из двух этапов (рис.,а): удаления и добавления генов (стеблей). Заданное число структур определяется для проведения в них процедуры .мутации Фиксированное число стеблей, S, удаляется из каждой структуры. Для каждой структуры выполняется наискорейший спуск. Для этого в структуру последовательно добавляются стебли, дающие наибольший выигрыш по энергии. Этап (3) алгоритма идентичен некоторым алгоритмам моделирования укладки РНК (Martinez, 1984; Nussinov and Pieczenik, 1984; Abrahams et al., 1990). Если полученная структура уступет по энергии начальной структуре, то результат мутаций отвергается. Таким образом, слепой поиск обычными мутациями в нашем алгоритме заменен движением между отдельными локальными минимумами, которое иногда находит глобальный минимум само по себе. 6) Рекомбинации. Производя крупномасштабный поиск, рекомбинации являются тем уникальным элементом, который отличают ГА от других алгоритмов стохастической оптимизации. В нашем алгоритме рекомбинации реализованы таким образом, чтобы обеспечить равное и, следовательно, максимальное отличие потомков от обоих родителей (рис.,б). Выбранные случайно две структуры-родители сравниваются между собой и их общие стебли образуют дочернюю структуру. Эта структура достраивается по одному случайному стеблю поочередным добавлением из родительских структур. Когда все оставшиеся родительские стебли оказываются несовместимыми с уже добавленными, структура достраивается стеблями из общего списка {h} – до тех пор, пока в списке {h} есть совместимые стебли. Обычно выбор точки кроссовера и размер обменивающихся фрагментов равномерно случайны, и поэтому нет четкой границы между результатом мутаций и рекомбинаций. Описанная выше процедура симметричной рекомбинации дает наиболее крупномасштабный поиск. 7) Критерий остановки. Тестирование ГА показало,что при рассматривавшихся размерах популяции (100 особей) сильное вырождение популяции (то есть сходство составляющих популяцию вторичных структур) является критерием того, что процесс оптимизиции находится в области глобального или глубокого локального минимума и в дальнейшем не выходит из него. В этой ситуации дальнейшие вычисления приводят только к накоплению копий оптимальной структуры и поэтому процесс вычисления может быть здесь остановлен. Мы использовали следующий критерий для оценки вырожденности популяции: D= 2 N ( N − 1) max K i i åå k i≠ j ij , j где Ki - число стеблей в структуре i, kij - число стеблей, одинаковых в структурах i и j; N - размер популяции. D меняется в пределах от 0 до 1. При D=0 все особи (вторичные структуры) в популяции различны. При D=1 популяция представлена копиями одной особи. Вычисления прекращаются после того как параметрр D превысит критическое значение. В наших расчетах D полагалось равным 0.7. 29 a) б) + Рисунок. Схема опрераторов мутации (а) и рекомбинации (б) генетического алгоритма предсказания вторичной структуры РНК. 45 Модуль Свободной энергии, ккал/моль а) 35 25 15 y = 0.021x + 2.11 2 R = 0.9523 5 -5 0 100 200 300 400 длина последовательности Рисунок. Зависимость энергии вторичной структуры, вычисленной генетическим алгоритмом с достройкой набора стеблей до полного (а) и с удалением термодинамически невыгодных стеблей (неполный набор стеблей) (б). Обозначения: ∆ - средняя величина энергии вторичной структуры для набора из 50-ти случайных последовательностей заданной длины с соотношением нуклеотидов 1:1:1:1. • - стандартное отклонение величины энергии вторичной структуры для того же набора последовательностей. Благодаря удалению в последней версии алгоритма термодинамически невыгодных стеблей алгоритм сходится лучше, что вызвано удалением высокочастотного шума на поверхности свободной энергии РНК. Вследствие этого оптимум находится независимо от длины последовательности, и зависимость средней энергии вторичной структуры и её стандартного отклонения становятся линейными: E = 0.127⋅L + 2.17, (R2 = 0.998), σ = 0.01⋅L + 2.49, (R2 = 0.739), что совпадает с поведением рекурсивных алгоритмов (Zucker и Stiegler, 1989; Fontana и др., 1993; McCaskill и др., 1990; Bonhoeffer и др., 1993). 30 а) C GC C AAA AAACC GC C GC C GCGGC G CC GC GCGGC G б) C C CG GC A A C C GC GCG A A C C GC GG C G A A C C GC GC G A A C GC C GCGG A C C GC CG Учет "бегущих петель", хотя и не приводит к существенному улучшению достигаемого оптимума, важен для точности предсказания структуры. Как показывают наши расчеты на случайных последовательностях, с ростом их длины увеличивается и доля наблюдаемых бегущих петель (см. таблицу) (число их возможных вариантов растет опережающими темпами по отношению к возможным стеблям поскольку пропорционально приблизительно квадрату числа последних). Соответственно, значительно увеличивается пространство поиска для алгоритма. Однако, время счета изменяется не так сильно: по-прежнему оптимум коротких последовательностей часто находится за несколько первых шагов (табл.2: средние времена счета и число итераций примерно равны своим дисперсиям для последовательностей из 100 нуклеотидов). Cкорость оптимизации в зависимости от алфавита имеет следующий порядок: Vgc<Vat<Vatgc, что согласуется с более плавным ландшафтом свободной энергии для алфавитов с большей мощностью и меньшей энергетикой коплиментарных связей (Fontana и др., 1993). Таблица. Время счета (Pentium II – 300Mhz) и характеристики вторичной структуры для случайных последовательностей 2-х длин и 3-х составов, вычисленные генетическим алгоритмом (вариант с разрешенными частично совместимыми спиралями). Усреднение по 50-ти случайным последовательностям. алфавит AU (1:1) AU (1:1) AUGC (1:1:1:1) AUGC (1:1:1:1) GC (1:1) GC (1:1) Число шагов алгоритма 324 228 259 221 203 463 ±319 ±136 ±250 ±107 ±116 ±119 Время вычисления (мин.) Частота бегущих петель (%) длина (нт.) 0.73 ±0.87 7.0 ±4.2 0.35 ±0.45 3.1 ±1.6 0.42 ±0.26 8.3 ±20 0.25±0.19 0.29 ±0.12 0.15 ±0.14 0.18 ±0.08 0.31 ±0.15 0.39 ±0.10 100 300 100 300 100 300 свободная энергия вторичной структуры (ккал/моль) -5.4 ±2.0 -20.5±3.7 -11.9±3.8 -41.9±5.6 -63.4±5.0 -200.0±7.5 Исследованы закономерности эволюционного дрейфа синонимичных кодонов, формирующихся под воздействием общего для всех изученных организмов матричного способа синтеза белков. Результаты компьютерного динамического моделирования позволяют заключить, что матричный принцип трансляции должен оставить эволюционные следы на уровне частотного спектра использования синонимичных кодонов с учетом их позиции на мРНК. Предложена мера эффективности элонгации рибосомы, основанная на одновременном учете информации о частотах встречаемости кодонов и об уровне локальной комплементарности мРНК. Сделан вывод, что индекс эффективности элонгации может использоваться в качестве показателя эффективности экспрессии генов. 31