Моделирование MDA

advertisement
Моделирование MDA
Корчемкин Дмитрий Александрович, гр. 422
Санкт-Петербургский государственный университет
Математико-механический факультет
Кафедра статистического моделирования
научный руководитель: к.ф.-м.н., доцент А. И. Коробейников
рецензент: м.н.с. С. Ю. Нурк
Санкт-Петербург
2015 г.
1/13
Корчемкин Дмитрий Александрович, гр. 422
Моделирование MDA
Мотивация: ДНК
ДНК – полимер состоящий из нуклеотидов
В клетке большую часть времени находится в виде двойной
спирали из нуклеотидов
Для многих приложений достаточно рассматривать как
последовательность символов из алфавита {𝐴, 𝑇, 𝐺, 𝐶}
Нити двойной спирали комплементарны
ДНК хранит информацию о синтезе белков
2/13
Корчемкин Дмитрий Александрович, гр. 422
Моделирование MDA
Мотивация: проблемы секвенирования
Для многих задач нужно знать исходную последовательность
целиком
«Прочтение» ДНК целиком невозможно, необходимо большое
количество перекрывающихся кусков
Увеличение количества ДНК обычным путём (делением клеток)
не всегда возможно без дополнительных условий
Процедура MDA позволяет добиться многократного увеличения
количества ДНК, но разные участки увеличиваются в разной
мере
3/13
Корчемкин Дмитрий Александрович, гр. 422
Моделирование MDA
Мотивация: проблемы секвенирования
Процедура MDA позволяет добиться многократного увеличения
количества ДНК, но разные участки увеличиваются в разной мере
Рис.: Результат применения MDA
104
102
100
0
500
1,000
1,500
2,000
2,500
3,000
3,500
4,000
4,500
KBases
Рис.: Пример увеличения количества ДНК в зависимости от позиции
3/13
Корчемкин Дмитрий Александрович, гр. 422
Моделирование MDA
Постановка задачи
Моделирование MDA с учётом возникающих ошибок и
параметров эксперимента
Изучение влияния параметров на «качество» увеличения
количества ДНК
4/13
Корчемкин Дмитрий Александрович, гр. 422
Моделирование MDA
Свойства процесса
Важные свойства MDA:
Вероятность ошибки в каждом копировании отдельного
нуклеотида < 10−3
Strand displacement: разрыв части связей со старыми цепочками
при образовании новых
Покрытие
Цель применения MDA — увеличение количества «копий»
исходной ДНК для её «прочтения»
Разумная характеристика «качества» увеличения ДНК —
количество пар связанных вхождений нуклеотида исходной
цепочки в результат
5/13
Корчемкин Дмитрий Александрович, гр. 422
Моделирование MDA
Формализация и моделирование
Предлагается рассматривать процесс применения MDA как
марковскую цепь; процесс одного этапа наращивания цепочек также
рассматривается как марковская цепь.
Исходная ДНК длиной порядка 106 увеличивается в 106 раз
(т.е. ∼ 1012 нуклеотидов)
Распределения покрытия не достаточно для идентификации
полного состояния
Позиции гибридизации праймеров присутствуют не только на
цепочках, появившихся на предыдущем этапе
Проблема:
Необходимость хранения описания полной структуры цепочек и
связей.
6/13
Корчемкин Дмитрий Александрович, гр. 422
Моделирование MDA
Формализация и моделирование
Проблема:
Необходимость хранения описания полной структуры цепочек и
связей.
В работе предлагается алгоритм моделирования и структуры данных
решающие проблему:
Моделирования многократных успешных исходов
Использования графоподобных структур для хранения
«похожих» фрагментов
Параллелизация за счёт уменьшения «зависимости»
моделирования цепочек
7/13
Корчемкин Дмитрий Александрович, гр. 422
Моделирование MDA
Параметры моделирования
Цель: изучить зависимость результата применения MDA от
параметров.
Параметры, варьируемые в экспериментах:
Последовательность ДНК:Escherichia coli, Rhodobacter
sphaeroides, Staphylococcus aureus
Средняя продолжительность жизни полимераз:
{104 , 2 · 104 , 4 · 104 }
1
1
1
«Плотность» праймеров: { 2000
, 1000
, 500
} (праймеров на общую
длину ДНК на начало этапа)
Наборы вероятностей событий:
Моделирование с ошибками
Моделирование без ошибок
(54 набора параметров)
8/13
Корчемкин Дмитрий Александрович, гр. 422
Моделирование MDA
Результаты
NC_S_10K_20_3
NC_S_10K_20_4
NC_S_10K_20_5
2.0
p
1.5
1.0
0.5
0.0
6
8
10
12
log(coverage)
Рис.: «Плотность» распределения логарифма покрытия
(на разных итерациях)
9/13
Корчемкин Дмитрий Александрович, гр. 422
Моделирование MDA
Сравнение с «классическими» распределениями
Сравним распределения покрытия, полученные путём
моделирования, с несколькими распределениями:
Гамма
Лог-нормальное
EVD-семейство
Распределение Вейбулла
Распределение Фреше
Параметры распределений получены из численных MLE оценок.
10/13
Корчемкин Дмитрий Александрович, гр. 422
Моделирование MDA
Сравнение с «классическими» распределениями
EVD
-Weibull
Frechet
Log-norm
Gamma
6e-04
EVD
-Weibull
Frechet
Log-norm
Gamma
5000
Empirical
density
4000
4e-04
2e-04
3000
2000
1000
0e+00
1000
2000
3000
4000
5000
1000
2000
data
(a) Сравнение плотностей
3000
4000
Theoretical
(b) QQ-plot
Рис.: Сравнение с «классическими» распределениями
11/13
Корчемкин Дмитрий Александрович, гр. 422
Моделирование MDA
5000
Сравнение с «классическими» распределениями
EVD
-Weibull
Frechet
Log-norm
Gamma
0.002
1000
0.001
500
0.000
0
0
500
1000
1500
EVD
-Weibull
Frechet
Log-norm
Gamma
1500
Empirical
density
0.003
0
500
data
(a) Сравнение плотностей
1000
Theoretical
(b) QQ-plot
Рис.: Сравнение с «классическими» распределениями
12/13
Корчемкин Дмитрий Александрович, гр. 422
Моделирование MDA
1500
Заключение
В работе рассмотрено моделирование процесса MDA, в частности:
Предложен эффективный алгоритм моделирования и
сопутствующие структуры данных, позволяющие моделировать
MDA в достаточно общей модели
Путём моделирования показано, что распределение покрытия
можно рассматривать как распределение из EVD семейства
В то же время, существуют задачи, решение которых продолжит
начатую работу:
Формальное доказательство принадлежности предельного
распределения к какому-либо семейству
Изучение различия между распределениями при отсутствии и
наличии ошибок
Исследование влияния параметров на хвосты распределения
13/13
Корчемкин Дмитрий Александрович, гр. 422
Моделирование MDA
Download