Лекция 4 - DNA punctuation

advertisement
Модели эволюции
нуклеотидных и аминокислотных
последовательностей.
BLOSUM62 Matrix
AAA
AAA
AAG
AAA
AGA
GGA
AGA
Допущения при построении
филогенетического дерева
ветвь
внутренний узел
лист
• Топология T : бифуркационная
– Листья - 1…N
– Внутренние узлы N+1 … 2N-2
• Длины t = { ti } для каждой ветви
• Филогенетическое дерево = (Топология, Длины)
= (T, t )
Метод максимального правдоподобия
Пусть филогенетическое дерево представляет собой
стохастический процесс
AAA
AAA
AAG
AAA
AGA
GGA
AGA
Ненаблюдаемые
Наблюдаемые
Вероятность перехода от символа a к символу b равна b|a.
Вероятность найти символ a в корне равна qa. Эти
параметры определяются через скорости изменения за
единицу времени, умноженное на время.
Имея полное дерево, вероятность данных определяются
через значения b|a и qa’.
Вероятностные методы
• Филогенетическое дерево представляет собой
обобщенную вероятностную модель для
наблюдаемых последовательностей.
• Корневые вероятности: q( a )
• Вероятности мутаций: P( a | b, t )
• Модели мутаций
– Модель Джукса-Кантора (Jukes Cantor,1969) JC69
– Двупараpsqметрическая модель Кимуры (Kimura, 1980)
K2P
– Модель Хасегава-Кишино-Яно (Hasegawa, Kishino and
Yano, 1985) HKY85
Накопление замен
• Две последовательности, происшедшие от общего
предка.
D - процент сайтов, которые различаются между собой
Предполагается, что замены происходят случайным образом
с постоянной скоростью
Число видимых замен меньше или равно числу реальных
замен
Отношение D и t
• На малых временах D пропорционально t
• На больших временах D растет медленнее, чем t
• Очень большое время -> очень много замен ->
получились случайные последовательности
• Выравненные случайные последовательности с
равновероятным распределением нуклеотидов ->
3/4 сайтов будут различными
• D=3/4 при t -> бесконечности
• Почему D плоха для использования?
нелинейная зависимость от t
неаддитивна (D12 не равно D01+D02)
Что необходимо?
• Определить эволюционное расстояние, которое было бы
аддитивно и линейно зависило от времени
• Пусть d - среднее число замен в каждом сайте между
двумя последовательностями
• Если замены происходят случайным образом с
постоянной скоростью, то d пропорционально t
• d аддитивно, так как d12=d01+d02 по определению
• Но d не подлежит наблюдению, в отличие от D
• Чтобы оценить d нужна эволюционная модель
Оценка эволюционного
расстояния d
• Пусть  скорость замены одного нуклеотида.
• 3 скорость замены одного нуклеотида на
любой другой
• t - время, прошедшее после расхождения двух
последовательностей
• d=3t=6t
Модель Джукса-Кантора (1969)
• Модель для скоростей мутации
• Мутации происходят с
постоянной скоростью
• Каждый нуклеотид
РАВНОВЕРОЯТНО
может перейти в любой
другой со скоростью .
Модель Джукса-Кантора
Нужно получить формулу эволюции ДНК через вероятности
Prob(y | x, t) , где x и y взяты из {A, C, G, T} и t временной интервал.
Модель Джукса-Кантора подразумевает равные скорости
переходов нуклеотидов:
A

C
-3
G


T
A
A  3
C  
R
G 

T 
C
G
T


 
 3

 

 3
 



 3 
Модель Джукса-Кантора
Пусть S(t) - матрица вероятностей переходов (транзиций):
 P( A1 | A1 , t ) P( A2 | A1 , t )
 P( A | A , t ) P( A | A , t )
1
2
2
2
S (t )  




 P( A1 | Ak , t ) P( A2 | AK , t )
 P( AK | A1 , t )   rt
 P( AK | A2 , t )   st

  st

 
 P( AK | AK , t )  st
st
rt
st
st
st
st
rt
st
st 
st 
st 

rt 
Мы предполагаем, что матрица мультипликативна, то есть
S(t+s)=S(t)S(s)
для любых интревалов времени s или t .
Модель Джукса-Кантора
Для короткого интервала времени :


 
1  3
 

1

3




S ( )  I  R  
 

1  3
 





1

3



Из свойства мультипликативности следует:
S(t+ ) = S(t) S()  S(t)(I+R)
Отсюда:
[S(t+ ) - S(t)] /  S(t) R
Приходим к линейному дифференциальному уравнению:
S’ (t)  S(t)R
С дополнительным условием, что в пределе при t,
стремящемся к бесконечности:
1
rt  st 
4
Модель Джукса-Кантора
Подставляя S(t) в дифференциальное уравнение,
получаем систему:
rt  3 rt  3 st
st   st   rt
Система имеет единственное решение, известное под
названием модели Джукса-Кантора:

1
rt  1  3e  4t
4
1
st  1  e  4t
4



Модель Джукса-Кантора
  вероятность мутации
1-3 вероятность отсутствия мутации
Процент идентичных сайтов - i(t); процент неидентичных сайтов n(t): i(t)+n(t)=1
За период времени (t+1), каждый идентичный сайт остается без
изменения с вероятностью 1-3
Вероятность, что обe последовательности не мутировали
(1-3)^2=1-6^2~1-6 <<1
Вероятность,что неидентичные сайты мутируют обратно к
идентичному состоянию =2n(t)
i(t+1)=i(t)(1-6 2n(t)=i(t)(1-6 2(1-i(t))
i(t+1)-i(t)= 2 i(t)
i(t) =1/4(1+3exp(-8 t))
n(t)=1-i(t)
d=6t
Зависимость D и d от t
Двупараметрическая модель
Кимуры
• Учитывает разные скорости для
транзиций и трансверсий.
Модель Кимуры K2P (1980)
Модель Джукса-Кантора не принимает во внимание, что
скорости транзиций (между пуринами) AG и (между
пиримидинами) CT отличаются от скоростей трансверсий
AC, AT, CG, GT.
Кимура предложил следующую матрицу скоростей:
A
A  2   
C  
R
G 

T 
C
G
T


 
 2  

 

 2  
 



 2   

Модель Кимуры K2P (1980)
Матрицу скоростей S(t) можно проинтегрировать,
так же как и для модели Джукса-Кантора, и получится
общая, зависящая от времени форма
 rt
s
S (t )   t
ut

 st
st
rt
ut
st
st
ut
rt
st
где


1
st  1  e  4 t
4
1
ut  1  e  4 t  2e  2(   )t
4
rt  1  2 st  ut


st 
ut 
st 

rt 
И эта модель еще далека от
реальности, так как частоты
нуклеотидов равны между
собой:
qA=qC=qG=qT=1/4
У многих организмов AT и GC
сильно сдвинуто.
Модель Кимуры K2P
• S - процент неидентичных сайтов, получившихся в
результате транзиции
• V - процент неидентичных сайтов, получившихся в
результате трансверсии
• D=S+V
• Аналогично подходу в модели Джукса-Кантора
D=0.3
d(JC69)=0.383
S=0.2
d(K2P)=0.402
V=0.1
Модель Хасегава-Кишино-Яно
HKY85 (Hasegawa-Kishino-Yano, 85)
• Частоты встречаемости нуклеотидов
неодинаковы - 
Модели эволюции аминокислотных
последовательностей.
• Аминокислотные последовательности (20
аминокислот)
• Протеин-кодирующие последовательности ДНК
Модели эволюции аа
последовательностей
1.
Эмпирические матрицы 20 x 20
–
–
–
–
–
Dayhoff et al. (1978) матрица основана на наблюдениях 1572
фиксированных мутаций в 34 суперсемействах достаточно близких
последовательностях
JTT матрица (Jones et al. 1992; Gonnett et al. 1992): методология такая
же как и у Dayhoff, но данные взяты из современных баз данных
(позднее были сделаны модификации для трансмембранных белков
Jones et al. 1994)
mtREV (Adachi and Hasegawa 1995, 1996) matrix derived from maximum
likelihood-inferred replacements in mitochondrial proteins of 20 vertebrate
species
WAG (Whelan and Goldman 2001) matrix derived from maximum likelihood
improvement of JTT
Poisson assumes equal stationary state frequencies and equal substitution
rates (equivalent to JC model for DNA). Not really empirical, but it is fixed
Матрица счета PAM250
Матрицы счета
S = [sij] дает число выравнивания символа i с
символом j для каждой пары i, j.
C
12
S
0
T
-2 1
3
P
-3 1
0
6
A
-2 1
1
1
2
C
T
P
A
STPP
CTCA
2
S
0 + 3 + (-3) + 1
=1
Типы матриц
•
•
•
•
•
•
PAM
BLOSUM
Gonnet
JTT
DNA matrices
матрицы PAM, Gonnet, JTT, и DNA PAM
основаны на явных эволюционных
моделях;
• Матрицы BLOSUM основаны на неявных
эволюционных моделях
Матрицы PAM основаны на
простой эволюционной модели
GAATC
GAGTT
Последовательность
Два изменения
GA(A/G)T(C/T) предка?
• Разрешены только мутации
• Сайты эволюционируют независимо
Матрицы замен PAM
• Point Accepted Mutation: точечные
мутации, которые распространяются и
фиксируются.
• Единица эволюционного изменения для
белковых последовательностей
[Dayhoff78].
• Единица PAM - это такая единица
эволюции, при которой в среднем
изменяется 1% аминокислот внутри
белковых последовательностей.
Матрица замен PAM
• Первая PAM Dayhoff et al.
1978
• 71 семейство
• 15 % - расхождение аа
последовательностей
• 1572 замены
• Дерево построено методом
максимальной бережливости.
Пример для 6 аа
Число фиксированных точечных мутаций
1572 мутации
A ij
Определение PAM
• Пусть P(i,j) - вероятность находиться
в состоянии j во время t, при условии,
что в при t=0 сайт находился в
состоянии i.
• Определим матрицу PAM1 как
где t - время одной единицы PAM
Ni - общее количество данной
аминокислоты
Итак
• Пусть частота аминокислот  =N /N
i
i
Atot - общее число элементов в матрице A
Вероятность, что данная аминокислота осталась
неизмененной за единицу времени PAM1.
total
PAM1
Значения умножены на 100 000, для удобства. Каждый ряд суммируется в 100 000.
m - способность к мутациям (вероятность мутировать >1% или <1%)
Экстраполяция модели на
большие растояния
-- PAM1 матрица вероятностей
мутаций.
-- PAM2
( 2 ) матрица вероятностей
M
мутаций?
M
(1)
-- Мутации, происшедшие за
эволюционное расстояние в
две единицы PAM1
В два интервала PAM1:
• {AR} = {AA and AR} or
{AN and NR} or
{AD and DR} or
… or
{AV and VR}
Матрица вероятностей замен PAM2
Pr( A  R in 2 periods) 
Pr(A  A in 1st period)  Pr(A  R in 2nd period) 
Pr(A  N in 1st period)  Pr(N  R in 2nd period) 
Pr(A  D in 1st period)  Pr(D  R in 2nd period) 

( 2)
PAR
 PAA  PAR  PAN  PNR  PAD  PDR  
Матрица замен PAM-k
M
( 2)
M
(K )
M
(1)
M
 {M }
(1) K
(1)
Матрица весов PAM-k
Матрица весов PAM250
Соответствия PAM-k
проценту схожести белков
• PAM60—60%, PAM80—50%,
• PAM120—40%
• матрица PAM-250 дает лучший вес
выравнивания по сравнению с более
низкими версиями PAM для белков со
схожестью 14-27%
Построение матриц BLOSUM
Blocks Substitution Matrices
Матрицы BLOSUM заданной
схожести
• отбираются последовательности
выше порогового значения.
• Если схожесть равна 62%,
окончательная матрица называется
BLOSUM62
Пример построения
матрицы BLOSUM
на основе 4
последовательностей
Построение матрицы BLOSUM.
1. Подсчет мутаций
2. Cуммирование частот
мутаций
3. Матрица мутационных
вероятностей.
4. Посчитать избыточность
каждого символа
(маргинальные вероятности)
5. Получаем матрицу BLOSUM
Построение реальной
матрицы BLOSUM62
1.2.3.Таблица частот
мутаций
Pij 1000
4. Расчет избыточности
аминокислот
pi
  pij
j
5. Получение матрицы
BLOSUM62
S ij  2  log 2
pij
pi p j
Оригинальная публикация
матрицы BLOSUM
• S. Henikoff and J. Henikoff (1992). “Amino
acid substitution matrices from protein
blocks”. PNAS 89: 10915-10919
• Данные для обучения: ~2000
консервативных блоков из базы данных
BLOCKS. Выравненные белковые участки
без пробелов. Каждый блок представляет
консервативный участок семейства белка.
Выбор матрицы счета
Сравнение матриц счета
BLOSUM
• Основана на
последовательностях
с разными
эволюционными
периодами.
• Консервативные блоки
• Поиск консервативных
доменов
PAM
• Основана на
экстраполяции
последовательностей с
малым эволюционным
периодом
• Отслеживает
эволюционное
происхождение
• Гомологичные
последовательности
Download