Топологические особенности РНК

реклама
На правах рукописи
Вальба Ольга Владимировна
Топологические особенности РНК-подобных
молекул со случайной первичной структурой
01.04.17 Химическая физика, горение и взрыв,
физика экстремальных состояний вещества
Автореферат
диссертации на соискание учёной степени
кандидата физико-математических наук
Москва — 2014
Работа выполнена в Федеральном государственном бюджетном учреждении науки
Институте химической физики им. Н.Н. Семенова Российской академии наук
Научный руководитель:
Аветисов Владик Аванесович
доктор физико-математических наук
ИХФ РАН, заведущий лабораторией
Официальные оппоненты:
Якушевич Людмила Владимировна
доктор физико-математических наук
ИБК РАН, ведущий научный сотрудник
Горшков Михаил Владимирович
кандидат физико-математических наук
ИНЭПХФ РАН, заведущий лабораторией
Ведущая организация:
Федеральное государственное бюджетное учреждение науки
Институт проблем передачи информации им. А.А. Харкевича
Российской академии наук (ИППИ РАН)
Защита состоится 15 октября 2014 г. в 1200 часов на заседании диссертационного совета Д.002.012.02 при Федеральном государственном бюджетном учреждении науки
Институте химической физики Российской академии наук по адресу: 119991 Москва,
ул. Косыгина, д.4, корп. 1.
С диссертацией можно ознакомиться в библиотеке Федерального государственного
учреждения науки Института химической физики им. Н.Н. Семенова Российской академии наук.
Автореферат разослан 15 августа 2014 года.
Автореферат размещен на сайте Высшей атестационной комиссии Министерства образования и науки Российской Федерации 16 апреля 2014 года.
Ученый секретарь
Диссертационного совета Д.002.012.02
Голубков М.Г.
кандидат физико-математических наук
ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ
Актуальность работы. Структура важнейших биологических макромолекул, таких как дезоксирибонуклеиновые кислоты (ДНК), рибонуклеиновые кислоты (РНК) и белки, играет ключевую роль в их правильном
функционировании в клетке. Различают несколько уровней структурной
упорядоченности биомакромолекул. Последовательность звеньев в ДНК,
РНК и белках индивидуального организма, которая называется первичной
структурой, строго зафиксирована. Биополимерные цепи могут формировать спиралеобразные и складчатые участки небольшого масштаба, как в
белках, или комплементарно спаренные и петлевые участки, как в РНК. Такие фрагменты называются элементами вторичной структуры. Различают
также третичную и четвертичную пространственные структуры биополимеров.
Данная работа посвящена исследованию топологических свойств вторичной структуры молекул РНК-типа. Известно, что биомакромолекулы являются «слабо отредактированными случайными гетерополимерами» [1,2].
Более того, для ряда свойств распределение мономерных звеньев в первичной структуре биополимера ( например, функциональных РНК) можно
считать случайным [3, 4]. В этом случае, модель случайной первичной
структуры является базовой моделью, описывающей основной (нулевой)
вклад в наблюдаемые физические явления. Основное внимание при этом
сфокусировано на нетривиальной вторичной структуре РНК-подобных полимеров, для описания которой привлекаются разнообразные техники, в
том числе, техники квантовой теории поля и моделей Изинга [5].
Цель работы заключается в описании топологических особенностей
РНК-подобных последовательностей методами статистической физики и
теории случайных процессов. Для достижения поставленной цели необходимо было решить следующие задачи:
1. Разработать алгоритм вычисления свободной энергии РНК-подобной
молекулы;
2. Установить зависимость статистических свойств распределения свободной энергии в ансамбле РНК-подобных структур со случайной
последовательностью звеньев от длины цепи;
3. Рассмотреть зависимость топологических свойств РНК-подобных
структур от количества типов мономерных звеньев (далее, алфавита),
используемого в случайных первичных структурах;
4. Разработать алгоритм вычисления свободной энергии в модели первичной структуры со случайными расстояниями между мономерными
звеньями вдоль по цепи и потенциалом взаимодействия между мономерами, заданного выпуклой функцией от расстояния.
Научная новизна работы заключается в следующем.
1. Впервые методами статистической физики и теории случайных
процессов установлена зависимость топологических свойств РНКподобных гетерополимеров со случайной первичной структурой от
их длины и используемого в первичной структуре алфавита;
2. Теоретически обнаружено критическое изменение топологии РНКподобных структур при переходе от двухбуквенного алфавита к трехбуквенному и проведена аналитическая оценка точки перехода в рамках комбинаторного и матричного описания;
3. Установлена взаимосвязь между наблюдаемым критическим изменением топологии РНК-подобных структур и переходом в замороженное
состояние, который обсуждался ранее в работах Т. Хва и Р. Бундшу [6];
4. Впервые показано, что описание топологии РНК-подобной структуры
может быть сведено к оптимизационной транспортной задаче.
2
Теоретическая и практическая значимость диссертационной работы
обусловлена тем что, полученные результаты носят фундаментальный характер и дают более глубокое понимание физических закономерностей,
лежащих в основе формирования вторичной структуры молекул РНК.
Методы исследования. В работе использовалось компьютерное моделирование, включающее вычисление свободной энергии основного состояния РНК-подобных молекул и предсказание соответствующих вторичных
структур. В аналитическом рассмотрении широко использовалась теория
случайных процессов, а также описание вторичной структуры РНК случайными матрицами.
Основные положения, выносимые на защиту:
1. Алгоритмы описания вторичной структуры РНК-подобной молекулы
и вычисления свободной энергии основного состояния, учитывающие
внутрипетлевое взаимодействие;
2. Свойства распределения свободной энергии в ансамбле РНКподобных структур со случайной последовательностью мономерных
звеньев;
3. Зависимость топологических свойств РНК-подобных структур от используемого в первичной структуре числа различных мономерных
звеньев (алфавита). Критическое изменение топологии РНК-подобных
структур при переходе от двухбуквенного алфавита к трехбуквенному;
4. Топологические свойства РНК-подобных структур с выбранным распределением расстояний между мономерными звеньями и потенциалом взаимодействия между мономерами, заданным выпуклой вниз
функцией от расстояния.
Достоверность изложенных в работе результатов обеспечивается использованием широко апробированных методов. Результаты находятся в
соответствии с данными, полученными ранее другими авторами.
3
Апробация работы. Основные результаты по теме диссертации изложены в 6 статьях ведущих российских и зарубежных журналах, рекомендованных ВАК и 8 тезисах к докладам конференций. Работа докладывалась
и обсуждалась на конференциях:
1. International conference "Engineering of Chemical Complexity Berlin,
Germany, 2011;
2. Conference on physics and biological systems, Orsay, France, 2011;
3. International conference on Statistical Physics, Larnaka, Cyprus, 2011;
4. Юбилейная конференция «Химическая физика вчера, сегодня, завтра», Москва, 2011;
5. Journées de Physique Statistique, Paris, France, 2012;
6. Конференция молодых ученых Института химической физики им.
Н.Н. Семенова РАН, Звенигород, 2012;
7. Journee de LPTMS, Paris, France, 2012;
8. Spring School in Probability, Dubrovnik, Croatia, 2012;
9. 38th Conference of the Middle European Cooperation in Statistical Physics,
Triest, Italie, 2013;
10. Conference on Biological Complexity, Krakow, Poland, 2013;
11. Всероссийская научная конференция «Химическая физика и строение
вещества», Москва, 2013;
12. 9-ая Санкт-Петербургская конференция молодых ученых «Современные проблемы науки о полимерах», Санкт-Петербург, 2013;
и семинарах:
1. Seminars on physical biology and complex systems, Paris, France, 2010;
4
2. Молодежный семинар лаборатории Ж.-В. Понселе по проблемам статистической физики неупорядоченных систем с приложением к биофизическим системам, Москва, 2010;
3. Seminars of LPTMS, Paris, France, 2011;
4. Добрушинский математический семинар Института Проблем Передачи Информации, Москва, 2012;
5. Семинар Физического Факультета МГУ, Москва, 2012;
6. Seminars of LPTMC, University Paris IV, Paris, France, 2012;
7. Seminar in Politecnico di Torino, Turin, Italy, 2012;
8. Seminar in University of Potsdam, Potsdam, Germany, 2012;
9. Seminar in University of Cologne, Cologne, Germany, 2013;
10. «Московский биоинформатический семинар», МГУ, Москва, 2013;
11. Семинар в Институте Высокомолекулярных Соединений, СанктПетербург, 2013;
12. Seminar in Princeton University, Princeton, 2014.
Личный вклад автора заключается в развитии методов описания РНКподобных молекул со случайной первичной структурой. Им были разработаны соответствующие алгоритмы вычисления свободной энергии РНКподобных молекул. Все приведенные в работе расчеты и обобщение полученных результатов были выполнены автором лично.
ОСНОВНОЕ СОДЕРЖАНИЕ РАБОТЫ
Во Введении обосновывается актуальность исследований, проводимых
в рамках данной диссертационной работы, формулируются цель и задачи
работы, обсуждаются научная новизна и практическая значимость работы.
Первая глава является обзором литературы. В этой главе перечислены
основные характеристики РНК-подобных структур:
5
1. Связи между мономерами во вторичной структуре образуются согласно правилам комплементарности;
2. Вторичная структура имеет иерархическую вложенную структуру
(Рис. 1).
(a)
(б)
(в)
(г)
Рис. 1 Клеверная структура РНК (a) и псевдоузел (б); (в) и (г) — арочное
представление (а) и (б), соответственно.
Отдельно обсуждаются существующие подходы к предсказанию вторичной структуры молекул РНК. Здесь также рассматриваются термодинамические свойства РНК со случайной первичной структурой и обсуждается
метод описания вторичной структуры РНК случайными матрицами.
Вторая глава посвящена описанию разработанных алгоритмов вычисления свободной энергии основного состояния РНК-подобной структуры.
Рассматривается вспомогательная статистическая модель, описывающая
взаимодействие мономерных звеньев в РНК-подобной структуре с петлевыми участками.
Пусть распределение мономерных звеньев во взаимодействующих фрагментах случайно и длины этих фрагментов, измеренные в единицах мономерных звеньев, равны 𝑚 и 𝑛, соответственно. Каждый мономер может
быть выбран из 𝑐 различных мономеров 𝐴, 𝐵, 𝐶, 𝐷, ... (для РНК алфавит 𝑐
равен 4). Мономеры первой последовательности образуют связи с мономерами второй последовательности согласно правилам комплементарности.
Задача заключается в вычислении свободной энергии описанной модели
6
при достаточно низких температурах, при которых энтропийным вкладом
можно пренебречь по сравнению с энергетическим. Пусть 𝐺𝑚,𝑛 – статистическая сумма рассматриваемого комплекса. По смыслу 𝐺𝑚,𝑛 – это сумма
по всем возможным конфигурациям связей. При низких температурах 𝐺𝑚,𝑛
можно представить как:
⎧
𝑚,𝑛
∑︁
⎪
⎪
⎨ 𝐺𝑚,𝑛 = 1 +
𝑒𝜖𝑖,𝑗 /𝑇 𝐺𝑖−1,𝑗−1 ,
𝑖,𝑗=1
⎪
⎪
⎩𝐺
𝑚,0 = 1; 𝐺0,𝑛 = 1; 𝐺0,0 = 1.
Здесь и далее, 𝑇 ≡ 𝑘𝐵 𝑇 . Смысл данной формулы очевиден: начиная с левого конца последовательностей (Рис. 2), находим первый существующий
контакт между 𝑖-м мономером первой цепи и 𝑗 -м мономером второй, а далее суммируем по всем возможным расположениям этого контакта. Статистические веса связей определяются энергией контакта между 𝑖-ым и 𝑗 -ым
мономерами −𝜖𝑖,𝑗 . Без потери общности, можно считать, что 𝜖 = 1 для
комплементарной пары и 𝜖 = 0 при некомплементарном связывании. Отметим, что в этом случае значение свободной энергии 𝐹 в пределе нулевой
температуры совпадает с количеством комплементарных пар в структуре
основного состояния.
В свою очередь, статистическая сумма связана со свободной энергией комплекса 𝐹𝑚,𝑛 и температурой 𝑇 известным соотношением 𝐺𝑚,𝑛 =
exp{−𝐹𝑚,𝑛 /𝑇 }. Будем интересоваться значением свободной энергии с точностью до знака. Тогда после преобразований и перехода к пределу 𝑇 → 0,
выражение на 𝐹˜𝑚,𝑛 = −𝐹𝑚,𝑛 примет вид:
[︁
]︁
˜
˜
˜
˜
𝐹𝑚,𝑛 = max 𝐹𝑚−1,𝑛 , 𝐹𝑚,𝑛−1 , 𝐹𝑚−1,𝑛−1 + 𝜖𝑚,𝑛 ,
где функция 𝐹˜𝑚,𝑛 удовлетворяет начальным условиям: 𝐹˜0,𝑛 = 𝐹˜𝑛,0 = 𝐹˜0,0 =
0.
Отметим что, переход к пределу нулевой температуры сохраняет смысл
рассматриваемой задачи, так как энергия комплементарной пары в десятки раз превышает комнатную температуру. Полученное выражение для
7
Рис. 2 Взаимодействие мономерных звеньев в РНК-подобной структуре с петлевыми
участками как выравнивание соответствующих последовательностей (первичных
структур).
свободной энергии аналогично уравнениям динамического программирования, описывающим, в частности, задачу о выравнивании или нахождении наибольшей общей подпоследовательности двух буквенных последовательностей [7].
Алгоритм динамического программирования можно разработать и для
разветвленных полимеров с внутрипетлевой структурой, свойственной, в
частности, молекулам РНК. В этом случае статистическая сумма двух таких
взаимодействующих фрагментов описывается следующими соотношениями:
⎧
⎪
⎪
⎨
𝐺𝑚,𝑛 =
(1) (2)
𝑔1,𝑚 𝑔1,𝑛
+
𝑚,𝑛
∑︁
(1)
(2)
𝑒𝜖𝑖,𝑗 /𝑇 𝐺𝑖−1,𝑗−1 𝑔𝑖+1,𝑚 𝑔𝑗+1,𝑛 ,
𝑖,𝑗=1
⎪
⎪
(1)
(2)
⎩𝐺
𝑚,0 = 𝑔1,𝑚 ; 𝐺0,𝑛 = 𝑔1,𝑛 ; 𝐺0,0 = 1,
(1)
(2)
где 𝑔𝑖,𝑗 и 𝑔𝑖,𝑗 — статистические веса участков (с 𝑖-го нуклеотида до 𝑗 го) первой и второй последовательности соответственно, удовлетворяющие
уравнениям [8]:
⎧
𝑗−1 ∑︁
𝑗
∑︁
⎪
⎪
(𝑎)
(𝑎)
(𝑎)
⎨ 𝑔 =1+
𝑒𝜖𝑘,𝑙 /𝑇 𝑔𝑘+1,𝑙−1 𝑔𝑙+1,𝑗 ,
𝑖,𝑗
𝑘=𝑖 𝑙=𝑖+1+ℓ
⎪
⎪
⎩ 𝑔 (𝑎) = 1, 𝑎 = 1, 2.
𝑖,𝑖
8
Эти уравнения описывают иерархическую топологию петлевых участков,
свойственную молекулам РНК (Рис. 1). Как и в случае взаимодействия
последовательностей с петлевыми участками, для иерархических РНКподобных структур можно выполнить переход к пределу нулевой температуры:
⎧
[︁
(︁
)︁]︁
(1)
(2)
(1)
(2)
⎪
⎪
𝐹
= max 𝑖=1,...,𝑚 𝑓1,𝑚 + 𝑓1,𝑛 , 𝐹𝑖−1,𝑗−1 + 𝑓𝑖+1,𝑚 + 𝑓𝑗+1,𝑛 + 𝜖𝑖,𝑗 ,
⎪
𝑗=1,...,𝑛
⎨ 𝑚,𝑛
[︁
(︁
)︁]︁
(𝑎)
(𝑎)
(𝑎)
(𝑎)
(𝑎)
𝑓𝑖,𝑖+𝑘 = max 𝑓𝑖+1,𝑖+𝑘 , 𝑓𝑖+1,𝑠−1 + 𝑓𝑠+1,𝑖+𝑘 + 𝜖𝑖,𝑠 ,
⎪
𝑠
⎪
⎪
⎩ 𝐹 = 0; 𝐹 = 𝑓 (1) ; 𝐹 = 𝑓 (2) ,
0,0
𝑖,0
0,𝑗
1,𝑖
1,𝑗
[︁
]︁
(𝑎)
(𝑎)
где 𝑓𝑖,𝑗 = lim 𝑇 ln 𝑔𝑖,𝑗 (𝑎 = 1, 2) – свободные энергии участка последо𝑇 →0
вательности с i-го нуклеотида по j-й.
Разработанные алгоритмы были использованы для описания взаимодействия двух молекул РНК. На Рис. 3 представлены структуры получаемых
комплексов. Следует отметить, что структура образующегося комплекса
двух полимеров сильно зависит от деталей модели. Так, структуры (б) и
(в) (Рис. 3) отличаются только одним параметром в модели — минимальным
размером петли ℓ. Сильная чувствительность глобальной топологии оптимальной структуры к микроскопическим деталям модели ясно показывает,
что для того чтобы получать экспериментально достоверные результаты,
необходимо иметь подробную информацию о точных значениях петлевого
фактора, об энергиях связей и о параметре кооперативности. При необходимости все эти параметры можно учесть, не выходя за рамки предложенной
модели.
Третья глава диссертации посвящена статистическому анализу ансамбля РНК-подобных структур со случайной последовательностью мономерных звеньев. На Рис. 4 представлены зависимости среднего значения свободной энергии и флуктуации свободной энергии для ансамбля случайных
первичных структур РНК от длины последовательностей.
Отметим основные особенности наблюдаемых зависимостей. Угловой
коэффициент линейной зависимости свободной энергии от длины последовательности в случае связывания с петлевыми участками 𝑘l ≈ 0.65
9
(а)
(б)
(в)
Рис. 3 Комплементарное связывание двух РНК: с петлевыми участками (a), с
внутрипетлевым взаимодействием и минимальной длиной петли ℓ = 0 (б), и ℓ = 3 (в).
(Рис. 4(a)) хорошо согласуется с величиной, вычисленной в рамках модели
так называемого «бернуллиевского сравнения» [9], т.е. в предположении
о том, что матричные элементы 𝜖𝑖,𝑗 являются независимыми случайными
величинами, принимающими значения 1 с вероятностью 𝑝 = 𝑐−1 и 0 с
вероятностью 𝑞 = 1 − 𝑝:
⟨𝐹𝑚,𝑛 ⟩ ≈
2
√ 𝑛 + 𝑓 (𝑐) ⟨𝜒⟩ 𝑛1/3 ,
1+ 𝑐
где 𝜒 – случайная величина с распределением Трейси–Видома (⟨𝜒⟩ =
⟨︀ ⟩︀
−1.7711... и 𝜒2 − ⟨𝜒⟩2 = 0.8132...).
Флуктуации свободной энергии основного состояния, как в случае линейных, так и в случае РНК-подобных структур, характеризуется степенной зависимостью с показателями степени близкими к 1/3. Показатель 1/3
является типичным для стохастической динамики сильно коррелированных
систем и относится к классу универсальности Кардара-Паризи-Занга [10].
Как и для взаимодействия с петлевыми участками, ⟨𝐹𝑛,𝑛 ⟩ (𝑛) = 𝑘𝑛 при
𝑛 ≫ 1 (Рис. 4), но угловой коэффициент прямой 𝑘 ≈ 0.92 гораздо выше,
что обусловлено взаимодействием нуклеотидов внутри петель.
Наблюдаемая высокая вероятность связывания во вторичной структуре,
а также хорошая согласованность распределения длин петель в структуре
10
(а)
(б)
(в)
(г)
Рис. 4 Зависимость свободной энергии основного состояния 𝐹𝑛,𝑛 (а,в) и флуктуации
свободной энергии 𝜎 (б,г) от длины случайной последовательности 𝑛: (а,б) —
взаимодействие РНК с петлевыми участками; (в,г) — внутрипетлевое взаимодействие.
Усреднение проводилось по ансамблю из 105 случайных пар последовательностей для
каждого значения длины.
с аналитическим предсказанием, основанным на модели случайных блужданий, послужили поводом детального анализа РНК-подобных структур от
алфавита 𝑐. Этот анализ вынесен в отдельную Четвертую главу.
Было показано, что топологические свойства РНК-подобных структур
критическим образом зависит от алфавита, используемого в случайной
первичной структуре. Такое критическое явление в диссертационной работе названо «топологическим переходом». В допереходной области, когда
𝑐 < 𝑐𝑐 , случайная последовательность образует полностью связанную вторичную структуру без пропусков (Рис. 5(б)), тогда как в области 𝑐 > 𝑐𝑐
всегда есть конечная доля несвязанных мономеров (делеций) (Рис. 5(а)).
11
Первым структурам соответствуют пути без горизонтальных участков в
случайном блуждании— пути Дика, вторым — пути Моцкина [11].
(а)
(б)
Рис. 5 Вторичная структура РНК с пропусками (а) и без пропусков (б) и
соответствующие им пути случайных блужданий.
В диссертационной работе представлены аналитические оценки критической точки 𝑐𝑐 топологического перехода, основанные на сравнении числа
всех полностью связанных вторичных структур (Рис. 5) и всех случайных
последовательностей с величиной алфавита 𝑐 и заданной длиной 𝐿. В результате было показано, что 2 < 𝑐𝑐 < 3 (см. также [12]).
Для более точного описания топологического перехода предложена модель Бернулли, в которой матрица 𝜖 возможных комплементарных пар является случайной матрицей, состоящей из единиц и нулей с вероятностями
𝑝 и 1 − 𝑝 соответственно. Мономеры цепи в данной модели не различаются
по сортам и, в целом, любой мономер может образовать связь с любым
другим, однако, в среднем, вероятность такого события равна 𝑝. Каждой
12
последовательности в рассматриваемой модели можно сопоставить граф
Эрдёша–Реньи, изображающего все возможные контакты между 𝐿 мономерами.
Для более точной оценки критической точки топологического перехода
были расссмотрены ансамбли, состоящие из 𝑁 (𝑁 = 105 ) случайных бернуллиевских полимеров длины 𝐿. Доля последовательностей, образующих
полностью связанную структуру в таком ансамбле 𝜂𝐿 есть функция от 𝑝 (см.
Рис. 6), и естественно ожидать, что в пределе 𝐿 → ∞ (Рис. 6(а)), функция
𝜂𝐿 (𝑝) вырождается в ступенчатую функцию. Скейлинг-анализ полученных
зависимостей 𝜂𝐿 (𝑝) обеспечивает критическое значение 𝑝𝑐 = 0.37, что соответствует алфавиту: 𝑐𝑐 ≈ 2.67.
(а)
(б)
Рис. 6 Зависимость доли полностью связанных РНК-подобных структур в ансамбле
случайных первичных структур различной длины (а) от параметра 𝑝 модели Бернулли;
скейлинг-анализ полученных зависимостей (б). Для каждого значения 𝑝 и 𝐿 было
выполнено 105 накоплений.
Модель Бернулли позволяет провести более точную аналитическую
оценку точки перехода. Для этого задачу удобнее формулировать в терминах случайных графов как задачу о размещении 𝐿/2 непересекающихся
арок, принимая во внимание ограничения, накладываемые матрицей смежности 𝜖 графа с 𝐿вершинами. Для 𝑝 = 1 (когда все элементы 𝜖𝑖𝑗 равны 1),
13
количество всех возможных полностью связанных арочных структур определяется числами Каталана 𝐶𝐿/2 (количество путей Дика длины 𝐿):
# = 𝐶𝐿/2 =
𝐿!
( 𝐿2 )!( 𝐿2 − 1)!
При 𝑝 ̸= 1, некоторые из конфигураций # запрещены матрицей 𝜖. В предположении среднего поля, т.е, что связи (арки) между мономерами образуются независимо, вероятность иметь по крайней мере одну планарную
конфигурацию для данной плотности 𝑝 матрицы 𝜖 определяется как:
#(#−1) 2𝐿/2
𝑝
2
𝐿/2 #
𝒫 = #𝑝𝐿/2 −
= 1 − (1 − 𝑝
3 3𝐿/2
+ 𝐶#
𝑝
+ ...
) = 1 − exp(−𝑝𝐿/2 #).
В пределе 𝐿 → ∞, величина 𝒫 равна либо нулю, либо единице в зависимости от величины 𝑝𝐿/2 #. Таким образом, точка перехода характеризуется
вероятностью:
lim 𝑝𝑐 [#]2/𝐿 = 1.
𝐿→∞
Данное условие приводит к оценке 𝑐𝑐 = 4. Для учета корреляций между
различными планарными диаграммами в работе введена функция 𝜉(𝑝):
lim 𝜉(𝑝𝑐 ) [#]2/𝐿 = 1,
𝐿→∞
Полностью связанную планарную конфигурацию, состоящую из 𝐿/2
арок, соединяющих 𝐿 точек может быть построена как: i) 𝐿/4 непересекающихся единичных арок (𝑖, 𝑖 + 1) из 𝐿 − 1 возможных, разрешенных
матрицой контактов 𝜖 и ii) 𝐿/4 арки большей длины. Такая процедура
обусловлена тем, что арки разной длины встречаются в оптимальной планарной конфигурации с различной вероятностью, в частности, вероятность
кратчайшей арки 𝑃 (𝑖, 𝑖 + 1) = 41 . Выделенность кратчайших арок в идеальной полностью связанной структуре учитывается непосредственно вычислением вероятности выбора 𝐿/4 арок из возможных 𝑝𝐿 (в предположении,
что разрешенные арки равномерно «размазаны» по цепочке). Учет корреляций между планарными диаграммами на уровне единичных дуг, приводит
14
к следующему выражению для функции 𝜉(𝑝)
[︁
]︁
𝑝(3𝐿/4−1)
3𝐿/4−1 −1
𝜉(𝑝)𝐿/2 = 𝑝𝐿/4 𝐶𝐿/4
𝐶𝐿/4
,
ln 𝜉(𝑝) = 21 ln 𝑝 +
3𝑝
2
ln 3𝑝
2 −
3𝑝−1
2
3
3
ln 3𝑝−1
2 − 2 ln 2 .
И соответственно, к величине 𝑐𝑐 = 2.87. Полученная оценка критического
алфавита 𝑐𝑐 близка к наблюдаемой в численном моделировании.
Другой подход к аналитической оценки точки перехода 𝑐𝑐 основан на
матричном описании РНК-подобной структуры. Статистическая сумма
𝑍𝐿 (𝑁, 𝑉 ) в этом случае записывается через случайные эрмитовы матрицы 𝜑, (см., например, [13]) как:
∫︁
1
𝑑𝜑1 ...𝑑𝜑𝐿 𝑒−𝑆0 tr (𝜑1 ...𝜑𝐿 )
𝑁
∫︁
≡ ⟨𝜑1 ...𝜑𝐿 ⟩𝑆0 ,
𝑍𝐿 (𝑁, 𝑉 ) =
−𝑆0
𝑑𝜑1 ...𝑑𝜑𝐿 𝑒
∑︀
𝑆0 ≡ 𝑆0 {𝜖, 𝜑1 , . . . , 𝜑𝐿 } = 𝑁2 𝑖,𝑗 (𝜖−1 )𝑖𝑗 tr(𝜑𝑖 𝜑𝑗 ).
Усреднение статистической суммы 𝑍𝐿 (𝑁, 𝑉 ) по матрицам 𝜖 выполняется
c использованием стандартного преобразования Хаббарда-Стратоновича и
последующим интегрированием по 𝜖. В диссертационной работе приведены необходимые математические выкладки. В первом приближении критическое значение 𝑐𝑐 достигается при 𝑝𝑐 = 0.25, что совпадает с оценкой,
полученной в приближении среднего поля. Учет корреляций в разложении 𝑆0 обеспечивает небольшой сдвиг в сторону значения, полученного в
численном моделировании.
В главе также показана взаимосвязь рассматриваемого топологического
перехода и фазовым переходом, который обсуждался ранее в [6] для РНК
со случайной первичной структурой. Было показано, что в зависимости
от температуры, РНК-подобные структуры со случайной последовательностью звеньев могут находится в одной из фаз: i) в «расплавленной» высокотемпературной фазе или ii) в «замороженной» низкотемпературной фазе.
В высокотемпературной фазе большую роль играет энтропия цепочки, а
не первичная структура. Данная фаза хорошо описывается в предположении, что связывание возможно для любых пар мономеров, т.е, эффективно,
15
все звенья можно считать мономерами одного типа 𝐴 и положить энергию
пары 𝐴–𝐴 равной 𝜀.
Низкотемпературная фаза, напротив, определяется первичной структурой РНК и основной вклад в свободную энергию обусловлен именно комплементарными связями. В работе [6] было показано, что температура
перехода из высокотемпературной фазы в низкотемпературную фазу непосредственно связана со средним количеством комплементарно связанных
мономеров в основном состоянии РНК-структуры.
В диссертационной работе предполагается, что критическая точка топологического перехода между полностью связанной РНК-подобной структурой и структурой с пропусками является пороговым значением для температурного фазового перехода. В области 𝑝 > 𝑝𝑐 возможна только расплавленная фаза вне зависимости от температуры. Рис. 7 показывает фазовую
диаграмму на (𝑇, 𝑝) плоскости. Это предположение подтверждается исследованием энергии пинча от длины случайной последовательности в точке
𝑇 = 0 (см. дополнительный график на Рис. 7).
В заключительной части главы обсуждаются различные подходы к генерации случайной последовательности с эффективно нецелочисленным
алфавитом. В частности, предлагается модель рационального алфавита, в
которой правила комплементарности задаются искуственно в зависимости
от величины алфавита 𝑐 =
𝑃
𝑄.
В другой модели — модели коррелированного
алфавита, последовательность описывается цепью Маркова. Для моделей
приводятся соответствующие зависимости предельного значения средней
свободной энергии основного состояния от величины алфавита. Заканчивается глава качественными доводами, почему алфавит в реальных молекулах
РНК расположен вблизи критической величины.
В Пятой главе развивается новый подход к описанию вторичной структуры РНК-подобной молекулы, основанный на использовании оптимизационной транспортной задачи. В работе формулируется модель РНКподобной молекулы со случайными интервалами между звеньями цепи
16
расплав
структура
с пропусками
полностью
связанная
структура
замороженное
состояние
Рис. 7 Фазовый переход в замороженное состояние, ограниченный топологическим
переходом в модели Бернулли. Дополнительный график: зависимость энергии пинча в
пределе 𝑇 → 0 от вероятности 𝑝.
(Рис. 8). В рамках предложенной модели энергия взаимодействия мономеров 𝜀𝑖,𝑗 предполагается выпуклой функцией расстояния между мономерами
вдоль цепи. С физической точки зрения, примером такого взаимодействия
может служить электростатическое взаимодействие ∼ 1/𝑑𝑖,𝑗 . В численном
моделировании использовалось
𝜀𝑖,𝑗 = −𝑢 ln |𝑥𝑖 − 𝑥𝑗 |;
(𝑗 ̸= 𝑖),
где 𝑢 — некоторая положительная величина, и 𝑥𝑖 , 𝑥𝑗 — координаты мономеров 𝑖 и 𝑗 вдоль цепи. Расстояния 𝑑𝑖 = |𝑥𝑖+1 − 𝑥𝑖 | между соседними
мономерами подчиняются распределению 𝑃 (𝑑𝑖 = 𝑑).
В [14] было показано, что свободная энергия основного состояния 𝐹
удовлетворяет рекурсивному соотношению, обладающему свойствами субаддитивности и субмодулярности:
[︀
𝐹𝑖,𝑖+𝑘 = min 𝜀𝑖,𝑖+𝑘 + 𝐹𝑖+1,𝑘−1 ;
]︀
𝐹𝑖,𝑖+𝑘−2 + 𝐹𝑖+2,𝑖+𝑘 − 𝐹𝑖+2,𝑖+𝑘−2 .
17
di
(a)
1 2
3
4
78
5 6
9
10
(b)
Рис. 8 Модель РНК-подобной молекулы со случайными интервалов между звеньями
цепи: арочное представление (a), и соответствующий путь Дика (б).
В работе приводятся результаты аналитического описания и численного
моделирования топологических особенностей структур РНК-подобных молекул для двух видов распределений 𝑓 (𝑑): распределения Гаусса и степенного распределения. Было показано, что для распределения Гаусса имеет
место топологический переход между конфигурацией, в которой спарены
лишь ближайшие по цепи соседи, и конфигурацией, имеющую структуру
вложенных друг в друга арок. Параметр, контролирующий такой переход
— величина дисперсии 𝜎 в распределении Гаусса 𝑓 (𝑑, 𝜎) (Рис. 9(а)).
Для степенного распределения 𝑓 (𝑑, 𝛾) ∼ 𝑑−𝛾 , в котором вероятность
большого расстояния между соседними мономерами не мала экспоненциально, характерна конфигурация иерархически вложенных арок в широком
диапазоне значений показателя распределения 𝛾 . При этом, для величины максимального числа вложенных друг в друга арок в РНК-подобной
структуре, ⟨ℎ(𝛾)⟩ имеет характерный максимум при 𝛾 = 1 (Рис. 9(с)).
Вероятность появления вложенной топологии в оптимальной конфигурации определяется интегралом:
∫︁ 𝑑max
∫︁ 𝑑max
∫︁
𝑃 =
𝑓 (𝑥) 𝑑𝑥
𝑓 (𝑦) 𝑑𝑦
𝑑min
𝑑min
𝑥+𝑦
2
(︁√︁
)︁
4𝑥𝑦
1+ (𝑥+𝑦)
2 −1
𝑓 (𝑧) 𝑑𝑧,
𝑑min
где 𝑑min и 𝑑max — наименьшее и наибольшее значение расстояний между соседними мономерами в распределении 𝑓 (𝑑). Рис. 9(б,г) показывает
18
(а)
(б)
(в)
(г)
Рис. 9 Зависимость высоты оптимальной конфигурации от параметров распределения:
(а) — распределение Гаусса; (б) — степенное распределение; (в,г) — аналитическая
вероятность "переключения" с последовательных на вложенные конфигурации.
зависимость интеграла от параметров распределений. Видно, что аналитические кривые имеют те же особенности, что наблюдаются в численном моделировании. Важным результатом данного исследования является
возможность перейти от нелокального уравнения для свободной энергии
основного состояния РНК к локальным соотношениям. В рамках предположения выпуклого потенциала взаимодействия между мономерами, выражение для энергии основного состояния существенно упрощает алгоритм
описания РНК-подобной структуры.
19
ОСНОВНЫЕ РЕЗУЛЬТАТЫ И ВЫВОДЫ
1. Получено выражение для статистической суммы, описывающие взаимодействие двух сополимеров, учитывающий способность каждого
из сополимеров образовывать РНК-подобную структуру с иерархией
петлевых участков. Разработан соответствующий алгоритм динамического программирования вычисления свободной энергии основного
состояния таких РНК-подобных молекул.
2. Численно и аналитически показано критическое поведение РНКподобной структуры в зависимости от используемого в первичной
структуре алфавита. Существует две области: для алфавитов 𝑐 < 𝑐𝑐
свойственна максимально связанная вторичная структура без пропусков, тогда как для 𝑐 > 𝑐𝑐 вторичная структура содержит конечную
долю несвязанных мономеров. Аналитическая оценка точки топологического перехода 𝑐𝑐 = 2.87 близка к наблюдаемой в численном
моделировании 𝑐𝑐 = 2.67.
3. Показано, что описание топологии РНК-подобной структуры может
быть сведено к оптимизационной транспортной задаче. Разработан
алгоритм вычисления свободной энергии в модели первичной структуры со случайными расстояниями между мономерными звеньями
вдоль по цепи и потенциалом взаимодействия между мономерами,
заданного выпуклой функцией от расстояния. Показана зависимость
топологии РНК-подобной структуры от параметров распределения.
20
ЛИТЕРАТУРА
1. Птицын Б.О., Финкельштейн А. Физика белка: Курс лекций // Москва:
Университет, 2002. — 376 C.
2. Гросберг Ю.А., Хохлов Р.А. Статистическая физика макромолекул / под
ред. Главной редакции физико-математической литературы // Москва:
Наука, 1989. — 344 С.
3. Workman C., Krogh A. No evidence that mRNAs have lower folding free
energies than random sequences with the same dinucleotide distribution //
Nucleic Acids Research. — 1999. — V. 27. — N. 24. — P. 4816-4822.
4. Clote P., Ferre F., Kranakis E., Krizanc D. Structural RNA has lower folding
energy than randomRNA of the same dinucleotide frequency // RNA. —
2005. — V. 11. — N. 5. — P. 578-591.
5. Brezin E.E., Itzykson C., Parisi G., Zuber J.B. Planar diagrams //
Communications in Mathematical Physics. — 1978. — V. 59. — N. 1. —
P. 5-51.
6. Bundschuh R., Hwa T. Statistical mechanics of secondary structures formed
by random RNA sequences // Physical Review E. — 2002. — V. 65. — N. 3.
— P. 031903.
7. Waterman M.S., Vingron M. Sequence comparison significance and poisson
approximation // Statistical Science. — 1994. — V. 9. — P. 367-381.
8. de Gennes P.G. Statistics of branching and hairpin helices for the dat
copolymer // Biopolymers. — 1968. — V. 6. — N. 5. — P. 715-729.
9. Majumdar S.T., Nechaev S.K. Exact asymptotic results for the bernoulli
matching model of sequence alignment // Physical Review E. — 2005. —
V. 72. — N. 2. — P. 020901.
21
10. Kardar M., Parisi G., Zhang Y.C. Dynamic scaling of growing interfaces //
Physical Review Letters. — 1986. — V. 56. — N. 9. — P. 889-892.
11. Ландо К. Лекции о производящих функциях // Москва: Московский
центр непрерывного математического образования, 2007. — 144 C.
12. Владимиров А.А. Паросочетания без пересечений // Проблемы передачи информации. — 2013. — T. 49. — N. 1. — С. 61-65.
13. Orland H., Zee A. RNA folding and large N matrix theory // Nuclear Physics
B. — 2002. — V. 620. — P. 456-476.
14. Delon J., Salomon J., Sobolevski A. Local matching indicators for transport
problems with concave costs // Journal on Discrete Mathematics. — 2012.
— V. 26. — N. 2. — P. 801-827.
СПИСОК РАБОТ, ОПУБЛИКОВАННЫХ ПО ТЕМЕ
ДИССЕРТАЦИИ
1. Nechaev S.K., Tamm M.V., Valba O.V. Statistics of noncoding RNAs:
alignment and secondary structure prediction // Journal of Physics A:
Mathematical and Theoretical. — 2011. — V. 44. — N. 19. — P. 195001.
2. Вальба О.В., Нечаев C.K., Тамм M.В. Сравнение молекул РНК: энергия связывания и статистические свойства случайных последовательностей // Журнал экспериментальной и теоретической физики. — 2012.
— Т. 114. — N. 2. — C. 399-413.
3. Вальба О.В., Нечаев C.K., Тамм M.В. Взаимодействие молекул РНК:
энергия связывания и статистические свойства случайных последовательностей // Химическая физика. — 2012. — Т. 31. — С. 23-25.
4. Valba O.V., Tamm M.V., Nechaev S.K. New Alphabet-Dependent
Morphological Transition in Random RNA Alignment // Physical Review
Letters. — 2012. — V. 109. — N. 1. — P. 018102.
22
5. Nechaev S.K., Sobolevskii A.N., Valba O.V. Planar diagrams from
optimization for concave potentials // Physical Review E. — 2013. — V. 87.
— N. 1. — P. 012102.
6. Lokhov A.Y., Valba O.V., Nechaev S.K., Tamm M.V. Phase transition in
random planar diagrams and RNA-type matching // Physical Review E. —
2013. — V. 88. — N. 5. — P. 052117.
7. Valba O.V., Tamm M.V., Nechaev S.K. A new approach to comparison
of two graphs // International conference "Engineering of Chemical
Complexity Berlin, Germany, 4-8 July 2011.
8. Valba O.V., Tamm M.V., Nechaev S.K. Matching of RNA-type sequences
and statistical analysis of random RNAs // International conference on
Statistical Physics, Larnaka, Cyprus, 11-15 July 2011.
9. Вальба О.В., Нечаев C.K., Тамм M.В. Взаимодействие молекул РНК:
энергия связывания и статистические свойства случайных последовательностей // Юбилейная конференция ИХФ РАН «Химическая физика вчера, сегодня, завтра», Москва, 11-14 октября 2011.
10. Вальба О.В., Нечаев C.K., Соболевский А.Н. Топологические переходы во вторичной структуре случайных РНК-подобных полимеров //
Конференция молодых ученых ИХФ РАН, Звенигород, 1-4 марта 2012.
11. Valba O.V. On exclusivity of alphabets with four nucleotide types // Spring
School in Probability, Dubrovnik, Croatia, 23-27 April 2012.
12. Valba O.V. Topological transition in secondary structure of RNA-like
polymer// 38th Conference of the Middle European Cooperation in
Statistical Physics, Triest, Italie, 25-27 March 2013.
13. Вальба О.В. Фазовый переход в случайных РНК-подобных полимерах
// Всероссийская научная конференция «Химическая физика и строение вещества», Москва, 19-20 июня 2013.
23
14. Valba O.V., Lokhov A.Y., Nechaev S.K., Tamm M.V. New topological
transition in secondary structure of random RNA-tlike polymer // 9-ая
Санкт-Петербургская конференция молодых ученых «Современные
проблемы науки о полимерах», Санкт-Петербург, 11-15 ноября 2013.
24
Скачать