На правах рукописи Вальба Ольга Владимировна Топологические особенности РНК-подобных молекул со случайной первичной структурой 01.04.17 Химическая физика, горение и взрыв, физика экстремальных состояний вещества Автореферат диссертации на соискание учёной степени кандидата физико-математических наук Москва — 2014 Работа выполнена в Федеральном государственном бюджетном учреждении науки Институте химической физики им. Н.Н. Семенова Российской академии наук Научный руководитель: Аветисов Владик Аванесович доктор физико-математических наук ИХФ РАН, заведущий лабораторией Официальные оппоненты: Якушевич Людмила Владимировна доктор физико-математических наук ИБК РАН, ведущий научный сотрудник Горшков Михаил Владимирович кандидат физико-математических наук ИНЭПХФ РАН, заведущий лабораторией Ведущая организация: Федеральное государственное бюджетное учреждение науки Институт проблем передачи информации им. А.А. Харкевича Российской академии наук (ИППИ РАН) Защита состоится 15 октября 2014 г. в 1200 часов на заседании диссертационного совета Д.002.012.02 при Федеральном государственном бюджетном учреждении науки Институте химической физики Российской академии наук по адресу: 119991 Москва, ул. Косыгина, д.4, корп. 1. С диссертацией можно ознакомиться в библиотеке Федерального государственного учреждения науки Института химической физики им. Н.Н. Семенова Российской академии наук. Автореферат разослан 15 августа 2014 года. Автореферат размещен на сайте Высшей атестационной комиссии Министерства образования и науки Российской Федерации 16 апреля 2014 года. Ученый секретарь Диссертационного совета Д.002.012.02 Голубков М.Г. кандидат физико-математических наук ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ Актуальность работы. Структура важнейших биологических макромолекул, таких как дезоксирибонуклеиновые кислоты (ДНК), рибонуклеиновые кислоты (РНК) и белки, играет ключевую роль в их правильном функционировании в клетке. Различают несколько уровней структурной упорядоченности биомакромолекул. Последовательность звеньев в ДНК, РНК и белках индивидуального организма, которая называется первичной структурой, строго зафиксирована. Биополимерные цепи могут формировать спиралеобразные и складчатые участки небольшого масштаба, как в белках, или комплементарно спаренные и петлевые участки, как в РНК. Такие фрагменты называются элементами вторичной структуры. Различают также третичную и четвертичную пространственные структуры биополимеров. Данная работа посвящена исследованию топологических свойств вторичной структуры молекул РНК-типа. Известно, что биомакромолекулы являются «слабо отредактированными случайными гетерополимерами» [1,2]. Более того, для ряда свойств распределение мономерных звеньев в первичной структуре биополимера ( например, функциональных РНК) можно считать случайным [3, 4]. В этом случае, модель случайной первичной структуры является базовой моделью, описывающей основной (нулевой) вклад в наблюдаемые физические явления. Основное внимание при этом сфокусировано на нетривиальной вторичной структуре РНК-подобных полимеров, для описания которой привлекаются разнообразные техники, в том числе, техники квантовой теории поля и моделей Изинга [5]. Цель работы заключается в описании топологических особенностей РНК-подобных последовательностей методами статистической физики и теории случайных процессов. Для достижения поставленной цели необходимо было решить следующие задачи: 1. Разработать алгоритм вычисления свободной энергии РНК-подобной молекулы; 2. Установить зависимость статистических свойств распределения свободной энергии в ансамбле РНК-подобных структур со случайной последовательностью звеньев от длины цепи; 3. Рассмотреть зависимость топологических свойств РНК-подобных структур от количества типов мономерных звеньев (далее, алфавита), используемого в случайных первичных структурах; 4. Разработать алгоритм вычисления свободной энергии в модели первичной структуры со случайными расстояниями между мономерными звеньями вдоль по цепи и потенциалом взаимодействия между мономерами, заданного выпуклой функцией от расстояния. Научная новизна работы заключается в следующем. 1. Впервые методами статистической физики и теории случайных процессов установлена зависимость топологических свойств РНКподобных гетерополимеров со случайной первичной структурой от их длины и используемого в первичной структуре алфавита; 2. Теоретически обнаружено критическое изменение топологии РНКподобных структур при переходе от двухбуквенного алфавита к трехбуквенному и проведена аналитическая оценка точки перехода в рамках комбинаторного и матричного описания; 3. Установлена взаимосвязь между наблюдаемым критическим изменением топологии РНК-подобных структур и переходом в замороженное состояние, который обсуждался ранее в работах Т. Хва и Р. Бундшу [6]; 4. Впервые показано, что описание топологии РНК-подобной структуры может быть сведено к оптимизационной транспортной задаче. 2 Теоретическая и практическая значимость диссертационной работы обусловлена тем что, полученные результаты носят фундаментальный характер и дают более глубокое понимание физических закономерностей, лежащих в основе формирования вторичной структуры молекул РНК. Методы исследования. В работе использовалось компьютерное моделирование, включающее вычисление свободной энергии основного состояния РНК-подобных молекул и предсказание соответствующих вторичных структур. В аналитическом рассмотрении широко использовалась теория случайных процессов, а также описание вторичной структуры РНК случайными матрицами. Основные положения, выносимые на защиту: 1. Алгоритмы описания вторичной структуры РНК-подобной молекулы и вычисления свободной энергии основного состояния, учитывающие внутрипетлевое взаимодействие; 2. Свойства распределения свободной энергии в ансамбле РНКподобных структур со случайной последовательностью мономерных звеньев; 3. Зависимость топологических свойств РНК-подобных структур от используемого в первичной структуре числа различных мономерных звеньев (алфавита). Критическое изменение топологии РНК-подобных структур при переходе от двухбуквенного алфавита к трехбуквенному; 4. Топологические свойства РНК-подобных структур с выбранным распределением расстояний между мономерными звеньями и потенциалом взаимодействия между мономерами, заданным выпуклой вниз функцией от расстояния. Достоверность изложенных в работе результатов обеспечивается использованием широко апробированных методов. Результаты находятся в соответствии с данными, полученными ранее другими авторами. 3 Апробация работы. Основные результаты по теме диссертации изложены в 6 статьях ведущих российских и зарубежных журналах, рекомендованных ВАК и 8 тезисах к докладам конференций. Работа докладывалась и обсуждалась на конференциях: 1. International conference "Engineering of Chemical Complexity Berlin, Germany, 2011; 2. Conference on physics and biological systems, Orsay, France, 2011; 3. International conference on Statistical Physics, Larnaka, Cyprus, 2011; 4. Юбилейная конференция «Химическая физика вчера, сегодня, завтра», Москва, 2011; 5. Journées de Physique Statistique, Paris, France, 2012; 6. Конференция молодых ученых Института химической физики им. Н.Н. Семенова РАН, Звенигород, 2012; 7. Journee de LPTMS, Paris, France, 2012; 8. Spring School in Probability, Dubrovnik, Croatia, 2012; 9. 38th Conference of the Middle European Cooperation in Statistical Physics, Triest, Italie, 2013; 10. Conference on Biological Complexity, Krakow, Poland, 2013; 11. Всероссийская научная конференция «Химическая физика и строение вещества», Москва, 2013; 12. 9-ая Санкт-Петербургская конференция молодых ученых «Современные проблемы науки о полимерах», Санкт-Петербург, 2013; и семинарах: 1. Seminars on physical biology and complex systems, Paris, France, 2010; 4 2. Молодежный семинар лаборатории Ж.-В. Понселе по проблемам статистической физики неупорядоченных систем с приложением к биофизическим системам, Москва, 2010; 3. Seminars of LPTMS, Paris, France, 2011; 4. Добрушинский математический семинар Института Проблем Передачи Информации, Москва, 2012; 5. Семинар Физического Факультета МГУ, Москва, 2012; 6. Seminars of LPTMC, University Paris IV, Paris, France, 2012; 7. Seminar in Politecnico di Torino, Turin, Italy, 2012; 8. Seminar in University of Potsdam, Potsdam, Germany, 2012; 9. Seminar in University of Cologne, Cologne, Germany, 2013; 10. «Московский биоинформатический семинар», МГУ, Москва, 2013; 11. Семинар в Институте Высокомолекулярных Соединений, СанктПетербург, 2013; 12. Seminar in Princeton University, Princeton, 2014. Личный вклад автора заключается в развитии методов описания РНКподобных молекул со случайной первичной структурой. Им были разработаны соответствующие алгоритмы вычисления свободной энергии РНКподобных молекул. Все приведенные в работе расчеты и обобщение полученных результатов были выполнены автором лично. ОСНОВНОЕ СОДЕРЖАНИЕ РАБОТЫ Во Введении обосновывается актуальность исследований, проводимых в рамках данной диссертационной работы, формулируются цель и задачи работы, обсуждаются научная новизна и практическая значимость работы. Первая глава является обзором литературы. В этой главе перечислены основные характеристики РНК-подобных структур: 5 1. Связи между мономерами во вторичной структуре образуются согласно правилам комплементарности; 2. Вторичная структура имеет иерархическую вложенную структуру (Рис. 1). (a) (б) (в) (г) Рис. 1 Клеверная структура РНК (a) и псевдоузел (б); (в) и (г) — арочное представление (а) и (б), соответственно. Отдельно обсуждаются существующие подходы к предсказанию вторичной структуры молекул РНК. Здесь также рассматриваются термодинамические свойства РНК со случайной первичной структурой и обсуждается метод описания вторичной структуры РНК случайными матрицами. Вторая глава посвящена описанию разработанных алгоритмов вычисления свободной энергии основного состояния РНК-подобной структуры. Рассматривается вспомогательная статистическая модель, описывающая взаимодействие мономерных звеньев в РНК-подобной структуре с петлевыми участками. Пусть распределение мономерных звеньев во взаимодействующих фрагментах случайно и длины этих фрагментов, измеренные в единицах мономерных звеньев, равны 𝑚 и 𝑛, соответственно. Каждый мономер может быть выбран из 𝑐 различных мономеров 𝐴, 𝐵, 𝐶, 𝐷, ... (для РНК алфавит 𝑐 равен 4). Мономеры первой последовательности образуют связи с мономерами второй последовательности согласно правилам комплементарности. Задача заключается в вычислении свободной энергии описанной модели 6 при достаточно низких температурах, при которых энтропийным вкладом можно пренебречь по сравнению с энергетическим. Пусть 𝐺𝑚,𝑛 – статистическая сумма рассматриваемого комплекса. По смыслу 𝐺𝑚,𝑛 – это сумма по всем возможным конфигурациям связей. При низких температурах 𝐺𝑚,𝑛 можно представить как: ⎧ 𝑚,𝑛 ∑︁ ⎪ ⎪ ⎨ 𝐺𝑚,𝑛 = 1 + 𝑒𝜖𝑖,𝑗 /𝑇 𝐺𝑖−1,𝑗−1 , 𝑖,𝑗=1 ⎪ ⎪ ⎩𝐺 𝑚,0 = 1; 𝐺0,𝑛 = 1; 𝐺0,0 = 1. Здесь и далее, 𝑇 ≡ 𝑘𝐵 𝑇 . Смысл данной формулы очевиден: начиная с левого конца последовательностей (Рис. 2), находим первый существующий контакт между 𝑖-м мономером первой цепи и 𝑗 -м мономером второй, а далее суммируем по всем возможным расположениям этого контакта. Статистические веса связей определяются энергией контакта между 𝑖-ым и 𝑗 -ым мономерами −𝜖𝑖,𝑗 . Без потери общности, можно считать, что 𝜖 = 1 для комплементарной пары и 𝜖 = 0 при некомплементарном связывании. Отметим, что в этом случае значение свободной энергии 𝐹 в пределе нулевой температуры совпадает с количеством комплементарных пар в структуре основного состояния. В свою очередь, статистическая сумма связана со свободной энергией комплекса 𝐹𝑚,𝑛 и температурой 𝑇 известным соотношением 𝐺𝑚,𝑛 = exp{−𝐹𝑚,𝑛 /𝑇 }. Будем интересоваться значением свободной энергии с точностью до знака. Тогда после преобразований и перехода к пределу 𝑇 → 0, выражение на 𝐹˜𝑚,𝑛 = −𝐹𝑚,𝑛 примет вид: [︁ ]︁ ˜ ˜ ˜ ˜ 𝐹𝑚,𝑛 = max 𝐹𝑚−1,𝑛 , 𝐹𝑚,𝑛−1 , 𝐹𝑚−1,𝑛−1 + 𝜖𝑚,𝑛 , где функция 𝐹˜𝑚,𝑛 удовлетворяет начальным условиям: 𝐹˜0,𝑛 = 𝐹˜𝑛,0 = 𝐹˜0,0 = 0. Отметим что, переход к пределу нулевой температуры сохраняет смысл рассматриваемой задачи, так как энергия комплементарной пары в десятки раз превышает комнатную температуру. Полученное выражение для 7 Рис. 2 Взаимодействие мономерных звеньев в РНК-подобной структуре с петлевыми участками как выравнивание соответствующих последовательностей (первичных структур). свободной энергии аналогично уравнениям динамического программирования, описывающим, в частности, задачу о выравнивании или нахождении наибольшей общей подпоследовательности двух буквенных последовательностей [7]. Алгоритм динамического программирования можно разработать и для разветвленных полимеров с внутрипетлевой структурой, свойственной, в частности, молекулам РНК. В этом случае статистическая сумма двух таких взаимодействующих фрагментов описывается следующими соотношениями: ⎧ ⎪ ⎪ ⎨ 𝐺𝑚,𝑛 = (1) (2) 𝑔1,𝑚 𝑔1,𝑛 + 𝑚,𝑛 ∑︁ (1) (2) 𝑒𝜖𝑖,𝑗 /𝑇 𝐺𝑖−1,𝑗−1 𝑔𝑖+1,𝑚 𝑔𝑗+1,𝑛 , 𝑖,𝑗=1 ⎪ ⎪ (1) (2) ⎩𝐺 𝑚,0 = 𝑔1,𝑚 ; 𝐺0,𝑛 = 𝑔1,𝑛 ; 𝐺0,0 = 1, (1) (2) где 𝑔𝑖,𝑗 и 𝑔𝑖,𝑗 — статистические веса участков (с 𝑖-го нуклеотида до 𝑗 го) первой и второй последовательности соответственно, удовлетворяющие уравнениям [8]: ⎧ 𝑗−1 ∑︁ 𝑗 ∑︁ ⎪ ⎪ (𝑎) (𝑎) (𝑎) ⎨ 𝑔 =1+ 𝑒𝜖𝑘,𝑙 /𝑇 𝑔𝑘+1,𝑙−1 𝑔𝑙+1,𝑗 , 𝑖,𝑗 𝑘=𝑖 𝑙=𝑖+1+ℓ ⎪ ⎪ ⎩ 𝑔 (𝑎) = 1, 𝑎 = 1, 2. 𝑖,𝑖 8 Эти уравнения описывают иерархическую топологию петлевых участков, свойственную молекулам РНК (Рис. 1). Как и в случае взаимодействия последовательностей с петлевыми участками, для иерархических РНКподобных структур можно выполнить переход к пределу нулевой температуры: ⎧ [︁ (︁ )︁]︁ (1) (2) (1) (2) ⎪ ⎪ 𝐹 = max 𝑖=1,...,𝑚 𝑓1,𝑚 + 𝑓1,𝑛 , 𝐹𝑖−1,𝑗−1 + 𝑓𝑖+1,𝑚 + 𝑓𝑗+1,𝑛 + 𝜖𝑖,𝑗 , ⎪ 𝑗=1,...,𝑛 ⎨ 𝑚,𝑛 [︁ (︁ )︁]︁ (𝑎) (𝑎) (𝑎) (𝑎) (𝑎) 𝑓𝑖,𝑖+𝑘 = max 𝑓𝑖+1,𝑖+𝑘 , 𝑓𝑖+1,𝑠−1 + 𝑓𝑠+1,𝑖+𝑘 + 𝜖𝑖,𝑠 , ⎪ 𝑠 ⎪ ⎪ ⎩ 𝐹 = 0; 𝐹 = 𝑓 (1) ; 𝐹 = 𝑓 (2) , 0,0 𝑖,0 0,𝑗 1,𝑖 1,𝑗 [︁ ]︁ (𝑎) (𝑎) где 𝑓𝑖,𝑗 = lim 𝑇 ln 𝑔𝑖,𝑗 (𝑎 = 1, 2) – свободные энергии участка последо𝑇 →0 вательности с i-го нуклеотида по j-й. Разработанные алгоритмы были использованы для описания взаимодействия двух молекул РНК. На Рис. 3 представлены структуры получаемых комплексов. Следует отметить, что структура образующегося комплекса двух полимеров сильно зависит от деталей модели. Так, структуры (б) и (в) (Рис. 3) отличаются только одним параметром в модели — минимальным размером петли ℓ. Сильная чувствительность глобальной топологии оптимальной структуры к микроскопическим деталям модели ясно показывает, что для того чтобы получать экспериментально достоверные результаты, необходимо иметь подробную информацию о точных значениях петлевого фактора, об энергиях связей и о параметре кооперативности. При необходимости все эти параметры можно учесть, не выходя за рамки предложенной модели. Третья глава диссертации посвящена статистическому анализу ансамбля РНК-подобных структур со случайной последовательностью мономерных звеньев. На Рис. 4 представлены зависимости среднего значения свободной энергии и флуктуации свободной энергии для ансамбля случайных первичных структур РНК от длины последовательностей. Отметим основные особенности наблюдаемых зависимостей. Угловой коэффициент линейной зависимости свободной энергии от длины последовательности в случае связывания с петлевыми участками 𝑘l ≈ 0.65 9 (а) (б) (в) Рис. 3 Комплементарное связывание двух РНК: с петлевыми участками (a), с внутрипетлевым взаимодействием и минимальной длиной петли ℓ = 0 (б), и ℓ = 3 (в). (Рис. 4(a)) хорошо согласуется с величиной, вычисленной в рамках модели так называемого «бернуллиевского сравнения» [9], т.е. в предположении о том, что матричные элементы 𝜖𝑖,𝑗 являются независимыми случайными величинами, принимающими значения 1 с вероятностью 𝑝 = 𝑐−1 и 0 с вероятностью 𝑞 = 1 − 𝑝: ⟨𝐹𝑚,𝑛 ⟩ ≈ 2 √ 𝑛 + 𝑓 (𝑐) ⟨𝜒⟩ 𝑛1/3 , 1+ 𝑐 где 𝜒 – случайная величина с распределением Трейси–Видома (⟨𝜒⟩ = ⟨︀ ⟩︀ −1.7711... и 𝜒2 − ⟨𝜒⟩2 = 0.8132...). Флуктуации свободной энергии основного состояния, как в случае линейных, так и в случае РНК-подобных структур, характеризуется степенной зависимостью с показателями степени близкими к 1/3. Показатель 1/3 является типичным для стохастической динамики сильно коррелированных систем и относится к классу универсальности Кардара-Паризи-Занга [10]. Как и для взаимодействия с петлевыми участками, ⟨𝐹𝑛,𝑛 ⟩ (𝑛) = 𝑘𝑛 при 𝑛 ≫ 1 (Рис. 4), но угловой коэффициент прямой 𝑘 ≈ 0.92 гораздо выше, что обусловлено взаимодействием нуклеотидов внутри петель. Наблюдаемая высокая вероятность связывания во вторичной структуре, а также хорошая согласованность распределения длин петель в структуре 10 (а) (б) (в) (г) Рис. 4 Зависимость свободной энергии основного состояния 𝐹𝑛,𝑛 (а,в) и флуктуации свободной энергии 𝜎 (б,г) от длины случайной последовательности 𝑛: (а,б) — взаимодействие РНК с петлевыми участками; (в,г) — внутрипетлевое взаимодействие. Усреднение проводилось по ансамблю из 105 случайных пар последовательностей для каждого значения длины. с аналитическим предсказанием, основанным на модели случайных блужданий, послужили поводом детального анализа РНК-подобных структур от алфавита 𝑐. Этот анализ вынесен в отдельную Четвертую главу. Было показано, что топологические свойства РНК-подобных структур критическим образом зависит от алфавита, используемого в случайной первичной структуре. Такое критическое явление в диссертационной работе названо «топологическим переходом». В допереходной области, когда 𝑐 < 𝑐𝑐 , случайная последовательность образует полностью связанную вторичную структуру без пропусков (Рис. 5(б)), тогда как в области 𝑐 > 𝑐𝑐 всегда есть конечная доля несвязанных мономеров (делеций) (Рис. 5(а)). 11 Первым структурам соответствуют пути без горизонтальных участков в случайном блуждании— пути Дика, вторым — пути Моцкина [11]. (а) (б) Рис. 5 Вторичная структура РНК с пропусками (а) и без пропусков (б) и соответствующие им пути случайных блужданий. В диссертационной работе представлены аналитические оценки критической точки 𝑐𝑐 топологического перехода, основанные на сравнении числа всех полностью связанных вторичных структур (Рис. 5) и всех случайных последовательностей с величиной алфавита 𝑐 и заданной длиной 𝐿. В результате было показано, что 2 < 𝑐𝑐 < 3 (см. также [12]). Для более точного описания топологического перехода предложена модель Бернулли, в которой матрица 𝜖 возможных комплементарных пар является случайной матрицей, состоящей из единиц и нулей с вероятностями 𝑝 и 1 − 𝑝 соответственно. Мономеры цепи в данной модели не различаются по сортам и, в целом, любой мономер может образовать связь с любым другим, однако, в среднем, вероятность такого события равна 𝑝. Каждой 12 последовательности в рассматриваемой модели можно сопоставить граф Эрдёша–Реньи, изображающего все возможные контакты между 𝐿 мономерами. Для более точной оценки критической точки топологического перехода были расссмотрены ансамбли, состоящие из 𝑁 (𝑁 = 105 ) случайных бернуллиевских полимеров длины 𝐿. Доля последовательностей, образующих полностью связанную структуру в таком ансамбле 𝜂𝐿 есть функция от 𝑝 (см. Рис. 6), и естественно ожидать, что в пределе 𝐿 → ∞ (Рис. 6(а)), функция 𝜂𝐿 (𝑝) вырождается в ступенчатую функцию. Скейлинг-анализ полученных зависимостей 𝜂𝐿 (𝑝) обеспечивает критическое значение 𝑝𝑐 = 0.37, что соответствует алфавиту: 𝑐𝑐 ≈ 2.67. (а) (б) Рис. 6 Зависимость доли полностью связанных РНК-подобных структур в ансамбле случайных первичных структур различной длины (а) от параметра 𝑝 модели Бернулли; скейлинг-анализ полученных зависимостей (б). Для каждого значения 𝑝 и 𝐿 было выполнено 105 накоплений. Модель Бернулли позволяет провести более точную аналитическую оценку точки перехода. Для этого задачу удобнее формулировать в терминах случайных графов как задачу о размещении 𝐿/2 непересекающихся арок, принимая во внимание ограничения, накладываемые матрицей смежности 𝜖 графа с 𝐿вершинами. Для 𝑝 = 1 (когда все элементы 𝜖𝑖𝑗 равны 1), 13 количество всех возможных полностью связанных арочных структур определяется числами Каталана 𝐶𝐿/2 (количество путей Дика длины 𝐿): # = 𝐶𝐿/2 = 𝐿! ( 𝐿2 )!( 𝐿2 − 1)! При 𝑝 ̸= 1, некоторые из конфигураций # запрещены матрицей 𝜖. В предположении среднего поля, т.е, что связи (арки) между мономерами образуются независимо, вероятность иметь по крайней мере одну планарную конфигурацию для данной плотности 𝑝 матрицы 𝜖 определяется как: #(#−1) 2𝐿/2 𝑝 2 𝐿/2 # 𝒫 = #𝑝𝐿/2 − = 1 − (1 − 𝑝 3 3𝐿/2 + 𝐶# 𝑝 + ... ) = 1 − exp(−𝑝𝐿/2 #). В пределе 𝐿 → ∞, величина 𝒫 равна либо нулю, либо единице в зависимости от величины 𝑝𝐿/2 #. Таким образом, точка перехода характеризуется вероятностью: lim 𝑝𝑐 [#]2/𝐿 = 1. 𝐿→∞ Данное условие приводит к оценке 𝑐𝑐 = 4. Для учета корреляций между различными планарными диаграммами в работе введена функция 𝜉(𝑝): lim 𝜉(𝑝𝑐 ) [#]2/𝐿 = 1, 𝐿→∞ Полностью связанную планарную конфигурацию, состоящую из 𝐿/2 арок, соединяющих 𝐿 точек может быть построена как: i) 𝐿/4 непересекающихся единичных арок (𝑖, 𝑖 + 1) из 𝐿 − 1 возможных, разрешенных матрицой контактов 𝜖 и ii) 𝐿/4 арки большей длины. Такая процедура обусловлена тем, что арки разной длины встречаются в оптимальной планарной конфигурации с различной вероятностью, в частности, вероятность кратчайшей арки 𝑃 (𝑖, 𝑖 + 1) = 41 . Выделенность кратчайших арок в идеальной полностью связанной структуре учитывается непосредственно вычислением вероятности выбора 𝐿/4 арок из возможных 𝑝𝐿 (в предположении, что разрешенные арки равномерно «размазаны» по цепочке). Учет корреляций между планарными диаграммами на уровне единичных дуг, приводит 14 к следующему выражению для функции 𝜉(𝑝) [︁ ]︁ 𝑝(3𝐿/4−1) 3𝐿/4−1 −1 𝜉(𝑝)𝐿/2 = 𝑝𝐿/4 𝐶𝐿/4 𝐶𝐿/4 , ln 𝜉(𝑝) = 21 ln 𝑝 + 3𝑝 2 ln 3𝑝 2 − 3𝑝−1 2 3 3 ln 3𝑝−1 2 − 2 ln 2 . И соответственно, к величине 𝑐𝑐 = 2.87. Полученная оценка критического алфавита 𝑐𝑐 близка к наблюдаемой в численном моделировании. Другой подход к аналитической оценки точки перехода 𝑐𝑐 основан на матричном описании РНК-подобной структуры. Статистическая сумма 𝑍𝐿 (𝑁, 𝑉 ) в этом случае записывается через случайные эрмитовы матрицы 𝜑, (см., например, [13]) как: ∫︁ 1 𝑑𝜑1 ...𝑑𝜑𝐿 𝑒−𝑆0 tr (𝜑1 ...𝜑𝐿 ) 𝑁 ∫︁ ≡ ⟨𝜑1 ...𝜑𝐿 ⟩𝑆0 , 𝑍𝐿 (𝑁, 𝑉 ) = −𝑆0 𝑑𝜑1 ...𝑑𝜑𝐿 𝑒 ∑︀ 𝑆0 ≡ 𝑆0 {𝜖, 𝜑1 , . . . , 𝜑𝐿 } = 𝑁2 𝑖,𝑗 (𝜖−1 )𝑖𝑗 tr(𝜑𝑖 𝜑𝑗 ). Усреднение статистической суммы 𝑍𝐿 (𝑁, 𝑉 ) по матрицам 𝜖 выполняется c использованием стандартного преобразования Хаббарда-Стратоновича и последующим интегрированием по 𝜖. В диссертационной работе приведены необходимые математические выкладки. В первом приближении критическое значение 𝑐𝑐 достигается при 𝑝𝑐 = 0.25, что совпадает с оценкой, полученной в приближении среднего поля. Учет корреляций в разложении 𝑆0 обеспечивает небольшой сдвиг в сторону значения, полученного в численном моделировании. В главе также показана взаимосвязь рассматриваемого топологического перехода и фазовым переходом, который обсуждался ранее в [6] для РНК со случайной первичной структурой. Было показано, что в зависимости от температуры, РНК-подобные структуры со случайной последовательностью звеньев могут находится в одной из фаз: i) в «расплавленной» высокотемпературной фазе или ii) в «замороженной» низкотемпературной фазе. В высокотемпературной фазе большую роль играет энтропия цепочки, а не первичная структура. Данная фаза хорошо описывается в предположении, что связывание возможно для любых пар мономеров, т.е, эффективно, 15 все звенья можно считать мономерами одного типа 𝐴 и положить энергию пары 𝐴–𝐴 равной 𝜀. Низкотемпературная фаза, напротив, определяется первичной структурой РНК и основной вклад в свободную энергию обусловлен именно комплементарными связями. В работе [6] было показано, что температура перехода из высокотемпературной фазы в низкотемпературную фазу непосредственно связана со средним количеством комплементарно связанных мономеров в основном состоянии РНК-структуры. В диссертационной работе предполагается, что критическая точка топологического перехода между полностью связанной РНК-подобной структурой и структурой с пропусками является пороговым значением для температурного фазового перехода. В области 𝑝 > 𝑝𝑐 возможна только расплавленная фаза вне зависимости от температуры. Рис. 7 показывает фазовую диаграмму на (𝑇, 𝑝) плоскости. Это предположение подтверждается исследованием энергии пинча от длины случайной последовательности в точке 𝑇 = 0 (см. дополнительный график на Рис. 7). В заключительной части главы обсуждаются различные подходы к генерации случайной последовательности с эффективно нецелочисленным алфавитом. В частности, предлагается модель рационального алфавита, в которой правила комплементарности задаются искуственно в зависимости от величины алфавита 𝑐 = 𝑃 𝑄. В другой модели — модели коррелированного алфавита, последовательность описывается цепью Маркова. Для моделей приводятся соответствующие зависимости предельного значения средней свободной энергии основного состояния от величины алфавита. Заканчивается глава качественными доводами, почему алфавит в реальных молекулах РНК расположен вблизи критической величины. В Пятой главе развивается новый подход к описанию вторичной структуры РНК-подобной молекулы, основанный на использовании оптимизационной транспортной задачи. В работе формулируется модель РНКподобной молекулы со случайными интервалами между звеньями цепи 16 расплав структура с пропусками полностью связанная структура замороженное состояние Рис. 7 Фазовый переход в замороженное состояние, ограниченный топологическим переходом в модели Бернулли. Дополнительный график: зависимость энергии пинча в пределе 𝑇 → 0 от вероятности 𝑝. (Рис. 8). В рамках предложенной модели энергия взаимодействия мономеров 𝜀𝑖,𝑗 предполагается выпуклой функцией расстояния между мономерами вдоль цепи. С физической точки зрения, примером такого взаимодействия может служить электростатическое взаимодействие ∼ 1/𝑑𝑖,𝑗 . В численном моделировании использовалось 𝜀𝑖,𝑗 = −𝑢 ln |𝑥𝑖 − 𝑥𝑗 |; (𝑗 ̸= 𝑖), где 𝑢 — некоторая положительная величина, и 𝑥𝑖 , 𝑥𝑗 — координаты мономеров 𝑖 и 𝑗 вдоль цепи. Расстояния 𝑑𝑖 = |𝑥𝑖+1 − 𝑥𝑖 | между соседними мономерами подчиняются распределению 𝑃 (𝑑𝑖 = 𝑑). В [14] было показано, что свободная энергия основного состояния 𝐹 удовлетворяет рекурсивному соотношению, обладающему свойствами субаддитивности и субмодулярности: [︀ 𝐹𝑖,𝑖+𝑘 = min 𝜀𝑖,𝑖+𝑘 + 𝐹𝑖+1,𝑘−1 ; ]︀ 𝐹𝑖,𝑖+𝑘−2 + 𝐹𝑖+2,𝑖+𝑘 − 𝐹𝑖+2,𝑖+𝑘−2 . 17 di (a) 1 2 3 4 78 5 6 9 10 (b) Рис. 8 Модель РНК-подобной молекулы со случайными интервалов между звеньями цепи: арочное представление (a), и соответствующий путь Дика (б). В работе приводятся результаты аналитического описания и численного моделирования топологических особенностей структур РНК-подобных молекул для двух видов распределений 𝑓 (𝑑): распределения Гаусса и степенного распределения. Было показано, что для распределения Гаусса имеет место топологический переход между конфигурацией, в которой спарены лишь ближайшие по цепи соседи, и конфигурацией, имеющую структуру вложенных друг в друга арок. Параметр, контролирующий такой переход — величина дисперсии 𝜎 в распределении Гаусса 𝑓 (𝑑, 𝜎) (Рис. 9(а)). Для степенного распределения 𝑓 (𝑑, 𝛾) ∼ 𝑑−𝛾 , в котором вероятность большого расстояния между соседними мономерами не мала экспоненциально, характерна конфигурация иерархически вложенных арок в широком диапазоне значений показателя распределения 𝛾 . При этом, для величины максимального числа вложенных друг в друга арок в РНК-подобной структуре, ⟨ℎ(𝛾)⟩ имеет характерный максимум при 𝛾 = 1 (Рис. 9(с)). Вероятность появления вложенной топологии в оптимальной конфигурации определяется интегралом: ∫︁ 𝑑max ∫︁ 𝑑max ∫︁ 𝑃 = 𝑓 (𝑥) 𝑑𝑥 𝑓 (𝑦) 𝑑𝑦 𝑑min 𝑑min 𝑥+𝑦 2 (︁√︁ )︁ 4𝑥𝑦 1+ (𝑥+𝑦) 2 −1 𝑓 (𝑧) 𝑑𝑧, 𝑑min где 𝑑min и 𝑑max — наименьшее и наибольшее значение расстояний между соседними мономерами в распределении 𝑓 (𝑑). Рис. 9(б,г) показывает 18 (а) (б) (в) (г) Рис. 9 Зависимость высоты оптимальной конфигурации от параметров распределения: (а) — распределение Гаусса; (б) — степенное распределение; (в,г) — аналитическая вероятность "переключения" с последовательных на вложенные конфигурации. зависимость интеграла от параметров распределений. Видно, что аналитические кривые имеют те же особенности, что наблюдаются в численном моделировании. Важным результатом данного исследования является возможность перейти от нелокального уравнения для свободной энергии основного состояния РНК к локальным соотношениям. В рамках предположения выпуклого потенциала взаимодействия между мономерами, выражение для энергии основного состояния существенно упрощает алгоритм описания РНК-подобной структуры. 19 ОСНОВНЫЕ РЕЗУЛЬТАТЫ И ВЫВОДЫ 1. Получено выражение для статистической суммы, описывающие взаимодействие двух сополимеров, учитывающий способность каждого из сополимеров образовывать РНК-подобную структуру с иерархией петлевых участков. Разработан соответствующий алгоритм динамического программирования вычисления свободной энергии основного состояния таких РНК-подобных молекул. 2. Численно и аналитически показано критическое поведение РНКподобной структуры в зависимости от используемого в первичной структуре алфавита. Существует две области: для алфавитов 𝑐 < 𝑐𝑐 свойственна максимально связанная вторичная структура без пропусков, тогда как для 𝑐 > 𝑐𝑐 вторичная структура содержит конечную долю несвязанных мономеров. Аналитическая оценка точки топологического перехода 𝑐𝑐 = 2.87 близка к наблюдаемой в численном моделировании 𝑐𝑐 = 2.67. 3. Показано, что описание топологии РНК-подобной структуры может быть сведено к оптимизационной транспортной задаче. Разработан алгоритм вычисления свободной энергии в модели первичной структуры со случайными расстояниями между мономерными звеньями вдоль по цепи и потенциалом взаимодействия между мономерами, заданного выпуклой функцией от расстояния. Показана зависимость топологии РНК-подобной структуры от параметров распределения. 20 ЛИТЕРАТУРА 1. Птицын Б.О., Финкельштейн А. Физика белка: Курс лекций // Москва: Университет, 2002. — 376 C. 2. Гросберг Ю.А., Хохлов Р.А. Статистическая физика макромолекул / под ред. Главной редакции физико-математической литературы // Москва: Наука, 1989. — 344 С. 3. Workman C., Krogh A. No evidence that mRNAs have lower folding free energies than random sequences with the same dinucleotide distribution // Nucleic Acids Research. — 1999. — V. 27. — N. 24. — P. 4816-4822. 4. Clote P., Ferre F., Kranakis E., Krizanc D. Structural RNA has lower folding energy than randomRNA of the same dinucleotide frequency // RNA. — 2005. — V. 11. — N. 5. — P. 578-591. 5. Brezin E.E., Itzykson C., Parisi G., Zuber J.B. Planar diagrams // Communications in Mathematical Physics. — 1978. — V. 59. — N. 1. — P. 5-51. 6. Bundschuh R., Hwa T. Statistical mechanics of secondary structures formed by random RNA sequences // Physical Review E. — 2002. — V. 65. — N. 3. — P. 031903. 7. Waterman M.S., Vingron M. Sequence comparison significance and poisson approximation // Statistical Science. — 1994. — V. 9. — P. 367-381. 8. de Gennes P.G. Statistics of branching and hairpin helices for the dat copolymer // Biopolymers. — 1968. — V. 6. — N. 5. — P. 715-729. 9. Majumdar S.T., Nechaev S.K. Exact asymptotic results for the bernoulli matching model of sequence alignment // Physical Review E. — 2005. — V. 72. — N. 2. — P. 020901. 21 10. Kardar M., Parisi G., Zhang Y.C. Dynamic scaling of growing interfaces // Physical Review Letters. — 1986. — V. 56. — N. 9. — P. 889-892. 11. Ландо К. Лекции о производящих функциях // Москва: Московский центр непрерывного математического образования, 2007. — 144 C. 12. Владимиров А.А. Паросочетания без пересечений // Проблемы передачи информации. — 2013. — T. 49. — N. 1. — С. 61-65. 13. Orland H., Zee A. RNA folding and large N matrix theory // Nuclear Physics B. — 2002. — V. 620. — P. 456-476. 14. Delon J., Salomon J., Sobolevski A. Local matching indicators for transport problems with concave costs // Journal on Discrete Mathematics. — 2012. — V. 26. — N. 2. — P. 801-827. СПИСОК РАБОТ, ОПУБЛИКОВАННЫХ ПО ТЕМЕ ДИССЕРТАЦИИ 1. Nechaev S.K., Tamm M.V., Valba O.V. Statistics of noncoding RNAs: alignment and secondary structure prediction // Journal of Physics A: Mathematical and Theoretical. — 2011. — V. 44. — N. 19. — P. 195001. 2. Вальба О.В., Нечаев C.K., Тамм M.В. Сравнение молекул РНК: энергия связывания и статистические свойства случайных последовательностей // Журнал экспериментальной и теоретической физики. — 2012. — Т. 114. — N. 2. — C. 399-413. 3. Вальба О.В., Нечаев C.K., Тамм M.В. Взаимодействие молекул РНК: энергия связывания и статистические свойства случайных последовательностей // Химическая физика. — 2012. — Т. 31. — С. 23-25. 4. Valba O.V., Tamm M.V., Nechaev S.K. New Alphabet-Dependent Morphological Transition in Random RNA Alignment // Physical Review Letters. — 2012. — V. 109. — N. 1. — P. 018102. 22 5. Nechaev S.K., Sobolevskii A.N., Valba O.V. Planar diagrams from optimization for concave potentials // Physical Review E. — 2013. — V. 87. — N. 1. — P. 012102. 6. Lokhov A.Y., Valba O.V., Nechaev S.K., Tamm M.V. Phase transition in random planar diagrams and RNA-type matching // Physical Review E. — 2013. — V. 88. — N. 5. — P. 052117. 7. Valba O.V., Tamm M.V., Nechaev S.K. A new approach to comparison of two graphs // International conference "Engineering of Chemical Complexity Berlin, Germany, 4-8 July 2011. 8. Valba O.V., Tamm M.V., Nechaev S.K. Matching of RNA-type sequences and statistical analysis of random RNAs // International conference on Statistical Physics, Larnaka, Cyprus, 11-15 July 2011. 9. Вальба О.В., Нечаев C.K., Тамм M.В. Взаимодействие молекул РНК: энергия связывания и статистические свойства случайных последовательностей // Юбилейная конференция ИХФ РАН «Химическая физика вчера, сегодня, завтра», Москва, 11-14 октября 2011. 10. Вальба О.В., Нечаев C.K., Соболевский А.Н. Топологические переходы во вторичной структуре случайных РНК-подобных полимеров // Конференция молодых ученых ИХФ РАН, Звенигород, 1-4 марта 2012. 11. Valba O.V. On exclusivity of alphabets with four nucleotide types // Spring School in Probability, Dubrovnik, Croatia, 23-27 April 2012. 12. Valba O.V. Topological transition in secondary structure of RNA-like polymer// 38th Conference of the Middle European Cooperation in Statistical Physics, Triest, Italie, 25-27 March 2013. 13. Вальба О.В. Фазовый переход в случайных РНК-подобных полимерах // Всероссийская научная конференция «Химическая физика и строение вещества», Москва, 19-20 июня 2013. 23 14. Valba O.V., Lokhov A.Y., Nechaev S.K., Tamm M.V. New topological transition in secondary structure of random RNA-tlike polymer // 9-ая Санкт-Петербургская конференция молодых ученых «Современные проблемы науки о полимерах», Санкт-Петербург, 11-15 ноября 2013. 24