Филогенетические деревья Часть 1 B C D C 1 A A A B 2 D A D B C B A B C D D 3 4 C 5 Деревья как средство визуализации эволюции Genealogy (Church Ceiling, Santo Domingo, Oaxaca) Lamarck’s Tree of Life (1815) Page B26 from Charles Darwin’s (1809-1882) notebook (1837) “The tree of life should perhaps be called the coral of life, base of branches dead” Lebensbaum from Ernst Haeckel, 1874 Филогенетика: происхождение и эволюция набора организмов, обычно видов. От греческого phylon, род или класс, и -geneia, родиться. Дерево жизни согласно малой субъединице рибосомальной РНК • строго бифуркационоое • только родословные, существующие в настоящее время • основано на единственной молекулярной филогении • длины ветвей не пропорциональны времени Cenancestor, or Last Universal Common Ancestor (LUCA) К корню получается в результате древней дупликации генов (ATPases, Signal recognition particles) Haloferax ARCHAEA Methanospirillum Methanobacterium Thermoproteus Thermofilum BACTERIA Epulopiscium Bacillus chloroplast Synechococcus Treponema Thermus Deinococcus Thermotoga Aquifex EM 17 Methanococcus pSL 50 pSL 4 pSL 22 pSL 12 mitochondria Agrobacterium Chlorobium Cytophaga Methanosarcina Sulfolobus Marine group 1 Riftia E.coli Chromatium Thermococcus Methanopyrus pJP 27 pJP 78 0.1 changes per nt EUCARYA Tritrichomonas Hexamita Zea Homo Coprinus Paramecium Giardia Porphyra Vairimorpha Dictyostelium Physarum Encephalitozoon Trypanosoma Naegleria Entamoeba Euglena CPS V/A-ATPase Prolyl RS Lysyl RS Mitochondria Plastids Fig. modified from Norman Pace Что такое HGT? HGT - Horizontal Gene Transfer Гены могут передаваться вертикально – от родителя к детям Гены могут передаваться горизонтально – обмен генами между видами How Tree-like is Organismal Evolution? Горизонтальный обмен генов Мозаичные геномы Science,280 p.672ff (1998) Приблизительно такие процессы происходят в мире микробов + + = Cartoons from Science Made Stupid, T. Weller, 1986. = Welch RA, et al. Proc Natl Acad Sci U S A. 2002; 99:17020-4 Escherichia coli, strain CFT073, uropathogenic Escherichia coli, strain EDL933, enterohemorrhagic Escherichia coli K12, strain MG1655, laboratory strain, “… только 39.2% объединенного (без повторений) множества белков разделяется тремя штаммами.” Что такое “генеалогия организмов” в свете горизонтального обмена генов? На коротких интервалах времени генеалогия организмов может быть определена как согласованная генеалогия большинства генов. Веревка как метафора для описания генеалогии организма (Gary Olsen) Отдельные волокна = гены, которые путешествуют какоето время вместе с организмом. Хотя в конце может не быть ни одного волокна, присутствовавшего в начале, веревка (или генеалогия организмов), тем не менее, остается непрерывной. Однако геном, как единое целое, может приобретать свойства отдельных генов (веревка со временем окрашивается в красный цвет). From: Bill Martin (1999) BioEssays 21, 99-104 Tree, Web, or Coral of Life? “The tree of life should perhaps be called the coral of life, base of branches dead” Charles Darwin Photo by J. Cameron, 1869 Page B26 from Charles Darwin’s (1809-1882) notebook (1837/38) Присутствие горизонтально привнесенного гена может играть свою роль в систематике. Пинг-понг генов между различными генеалогиями может быть использован для построения корреляций между различными частями дерева/сети жизни. Деревья Элементы теории B C D C 1 A A A B 2 D A D B C B A B C D D 3 4 C 5 Основные свойства филогенетических деревьев A • Некорневое дерево ветви • внешние узлы B • Корневые деревья C D C B C B 2 D A A A 1 B • внутренние узлы A D C внешние узлы D гипотетический предок B A B C D D 3 4 C 5 Корневые и некорневые деревья •Основное различие между корневыми и некорневыми деревьями в филогенетике состоит в том, что в корневых деревьях делается предположение об общем предке, а в некорневых нет. C A • • D A B C • B D • В корневых деревьях какой-то один узел обозначен в качестве общего предка, и существует единственный путь по эволюционному времени от него к любому другому узлу. •Некорневые деревья указывают только на отношения между узлами и ничего не говорят о направлении, в котором произошла эволюция. •Корни могут быть присвоены некорневым деревьям с помощью внешней группы. Основные свойства филогенетических деревьев Число возможных корневых (NR) и некорневых (NU) деревьев для n последовательностей: NR = (2n-3)!/2n-2(n-2)! NU = (2n-5)!/2n-3(n-3)! n NR NU 2 1 1 • Заметьте, что только одно из 3 3 1 всех возможных деревьев может представлять настоящее дерево, которое отображает филогенетические взаимоотношения между последовательностями. 4 15 3 5 105 15 34459425 2027025 10 Дерево гена - Дерево видов Ген A События мутаций Ген B Ген C Ген D Ген E Дерево гена События видообразования Вид A Вид B Вид C Вид D Вид E Дерево видов Эти два события - мутация и видообразование - необязательно происходят в одно и то же время. Поэтому деревья генов не Дерево гена - дерево видов • Время Дупликация • Дупликация A C B Дерево видов Видообразование Видообразование A A B C B Дерево гена C Построение деревьев основные шаги 1. Отбор последовательностей для анализа; 2. Выравнивание последовательностей; 3. Применение методов построения филогенетических деревьев; 4. Статистическая оценка полученного филогенетического дерева Методология: 1- Множественное выравнивание; 2- Бутстрэп; 3- Построение консенсусного дерева и его оценка; Выравнивание - важный предварительный шаг для построения деревьев GACGACCATAGACCAGCATAG GACTACCATAGA-CTGCAAAG *** ******** * *** ** GACGACCATAGACCAGCATAG Две возможные позиции для вставки (indel) GACTACCATAGACT-GCAAAG *** ********* *** ** • Например, ошибки в расположении вставки во множественном выравнивании могу привести к построению неправильного дерева. Шаги при множественном выравнивании последовательностей Общая стратегия популярных алгоритмов множественного выравнивания: 1- создание попарной матрицы расстояний, основанной на всех возможных попарных выравниваниях последовательностей; 2- использование статистического подхода для построения начального дерева; 3- прогрессивное повторное выравнивание последовательностей в порядке их родства согласно начальному дереву; 4- построение нового дерева на основе парных расторяний, полученных из нового множественноо выравнивания; 5- повторить процесс до тех пор, пока новое дерево не совпадет с предыдущим. Steps in multiple alignment A- Pairwise alignment Example- 4 sequences, A, B, C, D A B C B D 6 pairwise comparisons then cluster analysis A C D Similarity B- Multiple alignment following the tree from A B D Align most similar pair Gaps to optimise alignment A C Align next most similar pair New gap to optimise alignment of (BD) with (AC) B D A C Align alignments- preserve gaps Методы построения филогенетических дервьев • Филогенетическое дерево характеризуется топологией (формой) и длиной (суммой всех длин ветвей) ; • Каждый узел дерева представляет собой предка элементов, включенных в этот узел; • Существует 3 основных типа филогенетических методов построения деревьев из последовательностей: Методы, прямым образом основанные на последовательностях : • Максимальная экономность : найти филогенетическое дерево, которое объясняет данные с максимально наименьшим числом изменений. • Максимальное правдоподобие : найти дерево, которое максимизирует вероятность данных для конкретного дерево. Методы, косвенным образом основанные на последовательностях : • Методы расстояний (Метод ближайшего соседа): найти такое дерево, у которого длина ветвей по путям между двумя последовательностями (видами) удовлетворяет матрице попарных расстояний между последовательностями. Метод расстояний • • • • • Откуда мы берем данные по расстояниям? Наблюдаемые и реальные расстояния Коррекция на скрытые изменения Не все расстояния “деревоподобны” Построение деревьев: кластерные методы – UPGMA – Метод ближайшего соседа (Neighbor-joining) • Построение деревьев: критерий оптимальности – Метод наименьших квадратов Что представляют собой длины ребер? • В некоторых деревьях ребра представляют собой время. В этом случае все последовательности должны находиться на одном и том же расстоянии от корня. • В других деревьях длины ребер представляют собой произведение μ∙t - скорости мутаций μ и времени t. В этом случае разные вершины находятся на разных расстояниях от корня при исловии, что скорость изменения тоже разная на разных ветвях дерева. Cat Rat 1 2 2 1 4 Dog Cow Матрицы расстояний • Матрица расстояний может состоять, например, из числа несовпадающих сайтов последовательностей A B C D Cat Dog Rat Cow Cat 0 2 4 7 B 400 - - - Dog 2 0 5 6 C 300 300 - - Rat 4 5 0 3 D 250 150 250 - Cow 7 6 3 0 E 250 250 500 200 Свойства расстояний • d(x,x) = 0 • d(x,y) = d(y,x) • d(x,y) + d(y,z) >= d(x,z) (неравенство треугольника) • Расстояния, используемые в филогенетике всегда обладают первыми двумя свойствами, но не всегда третьим. Какие расстояния подходят для построения деревьев? • Не все расстояния подходят для построения деревьев. • Методы построения деревьев не дискриминируют входные данные. Они возвратят дерево вне зависимости от того, дадут ли им расстояния с карт автодорог или расстояния, взятые из выравнивания последовательностей. • Некоторые расстояния могут быть совершенными “древоподобными”. Совершенные “деревоподобные” расстояния Cat Dog Rat Cat Rat 1 Dog 3 Rat 4 5 Cow 6 7 2 6 2 1 4 Dog Cow Совершенные “деревоподобные” расстояния Cat Dog Rat Cat Rat 1 Dog 3 Rat 4 5 Cow 6 7 2 6 2 1 4 Dog Cow Совершенные “деревоподобные” расстояния Cat Dog Rat Cat Rat 1 Dog 3 Rat 4 5 Cow 6 7 2 6 2 1 4 Dog Cow Совершенные “деревоподобные” расстояния Cat Dog Rat Cat Rat 1 Dog 3 Rat 4 5 Cow 6 7 2 6 2 1 4 Dog Cow Совершенные “деревоподобные” расстояния Cat Dog Rat Cat Rat 1 Dog 3 Rat 4 5 Cow 6 7 2 6 2 1 4 Dog Cow Совершенные “деревоподобные” расстояния Cat Dog Rat Cat Rat 1 Dog 3 Rat 4 5 Cow 6 7 2 6 2 1 4 Dog Cow Условие 4 точек • Расстояния, которые четко размещаются по ветвям дерева должны подчиняться условиям квартета i, j, k, l (условия, выполняющиеся для любых 4 видов) • Пусть d(x,y) - расстояние между x и y. j i Для любых 4 видов i, j, k, l, из трех сумм d(i,j) + d(k,l) d(i,k) + d(j,l) d(i,l) + d(j,k) k l Две наибольшие должны быть равны. • Расстояния, обладающие данным свойством называются аддитивными (additive), потому что веса путей вдоль дерева складываются (add up) в значения матрицы расстояний. Почему это условие верно для “деревоподобных” расстояний? i k i k i k j l j l j l d(i,j)+d(k,l) < d(i,k)+d(j,l) = d(i,l)+d(j,k) “Времяподобные” расстояния time • Более строгое условие применяется к расстояниям “времяподобного” дерева. • Расстояния с данным свойством называются ультраметрическими. d(i,k) = d(j,k) > d(i,j) i j k Откуда берутся расстояния? • Расстояния могут быть получены в результате множественного выравнивания. • Самые примитивные расстояния - число сайтов, которые отличаются между двумя последовательностями, деленное на длину последовательности. Иногда такие расстояния называют p-расстояниями. Cat Dog Rat Cow Cat Dog Rat Cow Cat 0 0.2 0.4 0.7 Dog 0.2 0 0.5 0.6 Rat 0.4 0.5 0 0.3 Cow 0.7 0.6 0.3 0 ATTTGCGGTA ATCTGCGATA ATTGCCGTTT TTCGCTGTTT Наблюдаемые расстояния обычно недооценивают реальное число изменений Коррекция на скрытые изменения В модели Джукса-Кантора (все точечные мутации равновероятны) коррекция будет: Dactual = ¾ ln(1 – 4/3*dobserved) Интересное наблюдение • Нескорректированные расстояния всегда подчиняются неравенству треугольника d(x,y) + d(y,z) >= d(x,z). • Cкорректированные расстояния не подчиняются неравенству треугольника. • Например, если последовательности a и b отличаются друг от друга на 10 / 100 сайтов и последовательности b и c отличаются друг от друга на 10 / 100 сайтов, нескорректированные расстояния d(a,b) = d(b,c) = 0.1, d(a,c) = 0.2, а скорректированные растояния (модель JC) D(a,b) = D(b,c) = 0.107, D(a,c) = 0.233 Построение деревьев - UPGMA (Unweighted Pair Group Method with Arithmetic Mean) UPGMA метод последовательно группирует наиболее близкие виды, с образованием корневого врямяподобного дерева. 1. Найти наименьшее значение в матрице расстояний - d(x,y). 2. Образовать новый внутренний узел, z, являющийся родителем по отношению к x и y, и сделать длину ветвей от z до x и от z до y половиной d(x,y). 3. Переделать матрицу расстояний с учетом нового узла z, пересчитав расстояния от всех видов к узлу z как среднее расстояние между x и y. ПОВТОРИТЬ, пока все группы не объединяться. Что такое среднее расстояние между группами? • При объединение двух групп i и j, которые уже состоят из ni и nj членов, расстояния пересчитываются по формуле D(i , j ),k nj ni ( ) Di ,k ( ) D j ,k ni n j ni n j Шаг 1 – Найти наименьшее расстояние в матрице расстояний x d(i,j) A B C D E F G A 2 4 4 7 5 8 B C D E F 4 4 7 5 8 2 7 5 8 7 5 8 6 9 5 Шаг 2 - Объединить виды A и B, сформировать новый внутренний узел I Посчитать длины новых ребер d(A,I)=d(B,I)=1/2 d(A,B)=1 B A A 1 B G 1 I C D C F E D F E G Шаг 3 – Пересчитать матрицу расстояний d(C,I) = ½(d(A,C) + d(B,C)) =4 и так далее... Шаг 1 – Найти наименьшее расстояние в матрице расстояний d(i,j) I (A+B) C D E F I (A+B) - C 4 - D 4 2 - E 7 7 7 - F 5 5 5 6 - G 8 8 8 9 5 Шаг 2 - Сгруппирвоать виды C и D, сформировать новый внутренний узел II. Посчитать длины новых ребер d(C,II)=d(D,II)=1/2 d(C,D)=1 A B 1 A 1 1 C I B 1 C 1 D 1 I II D E E F G F G Шаг 3 – Пересчитать матрицу расстояний d(I,II)=1/2(d(I,C)+d(I,D)) =4 d(E,II) = ½(d(E,C) + d(E,D)) =7 и т. д. И так далее A G C III B C D I CD I II G F A B C D I A D E 1 B B F 1 A G I III E E G F A B C D F II E G E F F A B C D 1 1 1 1 E F A B C D II 0.5 2.5 3.4 0.9 IV V 0.4 VI 3.8 I III II IV I III V G II IV E G …пока не получим корневое дерево. Но является ли оно настоящим деревом? UPGMA не согласуется с аддитивными расстояниями d(i,j) A B C D E F G A 2 4 4 7 5 8 B C D E F 4 4 7 5 8 2 7 5 8 7 5 8 6 9 5 C A D 1 1 1 1 B C = 4 1 I 1 1 II 2.5 1 1 3.4 III 0.5 3.8 0.9 IV 1 E 1 1 1 F D E 1 1 B A Дерево, которое удовлетворяет матрице расстояний, не совпадает с деревом, построенным методом UPGMA. V 4 0.4 F VI G G Неустойчивость • Когда методу предлагаются “идеальные” данные, но метод выдает неправильное дерево, метод называется неустойчивым. • UPGMA неустойчив для не ультраметрических (времяподобных) данных. • Нужен метод, который будет устойчив для любых аддитивных данных. Метод ближайшего соседа (Neighbor-joining, NJ) Метод NJ последовательно объединяет данные до тех пор, пока все виды не объединятся в некорневое дерево. 1. Вместо того, чтобы использовать матрицу расстояний напрямую, чтобы выяснить какой вид группируется с каким на каждой стадии, NJ использует матрицу S, где S(i,j) = (N-2)d(i,j) - R(i) - R(j) N число видов. R(i) сумма ряда i в матрице расстояний. R(j) сумма ряда j в матрице расстояний. 2. Найти наименьшее значение в матрице S - S(x,y). Вывод формулы для NJ Образовать новый внутренний узел, z, являющийся родителем x и y, и посчитать длину ребер от z до x и от z до y. d(x,z) = 1/(2(N-2))[(N-2)d(x,y) + R(x) – R(y)] d(y,z) = d(x,y) – d(x,z) 3. 4. Пересчитать матрицу расстояний d(w,z) = ½ (d(x,w) + d(y,w) – d(x,y)) ПОВТОРЯТЬ до тех пор пока для группировки не останутся два элемента. Пример NJ D= Cat Dog Rat Cow Dog Rat Step 1 3 4 6 Cat S= Dog Dog -22 Rat -20 -20 Cow -20 -20 Rat 5 7 6 R(cat) = 13 R(dog) = 15 R(rat) = 15 R(cow) = 19 e.g. S(cat,dog) = (4-2)x3 – 13 – 15 = -22 S(cat,rat) = (4-2)x4 – 13 – 15 = -20 -22 NJ Example D= Cat Dog Rat Cow Dog Rat Step 1 3 4 6 Cat S= Dog Dog -22 Rat -20 -20 Cow -20 -20 Rat Step 2 5 7 -22 6 Cat Step 3 d(cat,z) = ¼[2d(cat,dog) + R(cat) – R(dog)] = ¼ [6 + 13 – 15] =1 d(dog,z) = 3-1 =2 Rat z Dog Cow Step 4 d(z,rat) = ½ [d(cat,rat) + d(dog,rat) – d(cat,dog)] = ½ [4 + 5 – 3] =3 Cat d(z,cow) = ½ [6 + 7 – 3] =5 Rat z Dog Cow Глобальные и локальные методы • UPGMA и NJ - локальные методы. На каждом шагу они выбирают самую близкую пару видов для группировки, и, после того, как выбор был сделан, невозможно внести изменения. Это обеспечивает быструю работу программ. • Существуют глобальные методы, которые тоже основаны на расстояниях. Такие методы рассчитывают критерий оптимальности для каждого возможного дерева, и выбирают дерево с лучшим весом. Примеры глобальных методов, основанных на расстояниях, включают в сбея метод наименьших квадратов и минимальной эволюции. Но поскольку число деревьев растет очень быстро с числом видов, эти методы работают медленно. Критерии оценки деревьев Метод наименьших квадратов • Мы бы хотели, чтобы длины путей на дереве были близки к соответствующим значениям в матрице расстояний. • Имея аддитивные данные, мы всегда можем найти дерево, в котором расстояния в длинах путей и матрица расстояний точно совпадают. Однако, большинство данных не такие совершенные… • Мы можем минимизировать различия между наблюдаемыми расстояниями и расстояниями на дереве с помощью метода наименьших квадратов. Семейство методов наименьших квадратов n n Q wij ( Dij dij ) i 1 j 1 wij = 1 unweighted least squares (Cavalli-Sforza and Edwards 1967) wij =1/Dij wij = 1/Dij2 (Fitch and Margoliash 1967) 2 Выбор наилучших весов для данного дерева Расстояния дерева dij могут быть представлены уравнением dij xij,k ek k где xij,k - индикаторная переменная, равная 1, если ребро k лежит на пути от i до j и 0 в противном случае. Мы хотим найти вес ребер ek, который минимизирует n n Q wij ( Dij xij,k ek ) 2 i 1 j 1 k Индикаторные переменные могут быть представлены в виде матрицы B A e1 e3 e2 e4 e6 E 1 1 C 1 1 e5 0 X= 0 0 e7 D 0 0 0 1 1 1 0 0 0 1 0 1 0 1 0 0 0 1 1 1 0 0 0 Каждый ряд X соответствует пути по дереву Можно написать D = Xe 0 1 1 0 1 1 0 0 1 0 0 1 0 0 1 0 0 1 1 0 0 0 0 1 0 0 1 0 1 1 0 0 1 0 0 D= 1 0 1 0 1 DAB DAC DAD DAE DBC DBD DBE DCD DCE DDE e= e1 e2 e3 e4 e5 e6 e7 Метод минимальной эволюции • Использует метод наименьших квадратов, для нахождения длин ветвей каждого дерева • НО использует другой критерий оптимальности. • Выбирает дерево с наименьшей суммой длин ветвей. Выводы • Наблюдаемые расстояния, полученные из выравнивания последовательностей, всегда не дооценивают настоящее число мутаций. Поэтому всегда надо производить коррекцию на скрытые изменения. • Кластерные методы, такие как UPGMA и метод ближайшего соседа NJ очень быстрые, так как они принимают только локальные решения, и никогда не исользуют метод прогонки назад. Эти методы часто используются в качестве отправной точки для эвристических поисков. • Существуют методы, основаные на критериях оптимальности, которые используют расстояния в качестве входных данных, например, метод наименьших квадратов и минимальной эволюции. Выводы • Не все расстояния ложатся на дерево совершенным образом. • Методы могут быть неустойчивыми. Например для некоторых невремяподобных расстояний метод UPGMA гарантированно построит неправильное дерево. • UPGMA устойчив для времяподобных расстояний и NJ устойчив для любых аддитивных расстояний. Статистическая оценка полученного филогенетического дерева • Аккуратность зависит от множественного выравнивания; • В настоящее время только один метод выборок позволяет протестировать топологию филогенетического дерева: Бутстрэп (Bootstrap) Суть метода состоит в выборке с замещением колонок в в используемом для построения дерева множественном выравнивании, пока размер выборки не достигнет размера изначального выравнивания (обычно получается, что какие-то колонки выбраны несколько раз, а какие-то вообще не выбраны). Бутстрэп ATAGCCATA ATACCCATG ATACCCATA ATAGCCATA ATCCCCCAT TCAAATGCA TCGAATCCA TCAAATCCA TCAAATGCA TCAACACCC Методология 1. Выбрать последовательности для анализа; 2. Выравнить эти последовательности; 3. Применить методы построения филогенетических деревьев; 4. Произвести статистическую оценку полученных деревьев. 1- Множественное выравнивание; 2- Бутстрэп (100 выборок); 3. Применить методы построения филогенетических деревьев 4- Построить консенсусное дерево с оценочным весом; Программы множественного выравнивания http://biowulf.nih.gov/apps/clustalw.html and more… Пример использования clustalw Выбрали последовательности для выравнивания File hem_alpha.fasta Простое использование >clustalw -infile=$filename -align -type=protein В нашем случае >clustalw -infile=hem_alpha.fasta -align -type=protein результаты: hem_alpha.aln hem_alpha.dnd (guide tree) Откроем выравнивание hem_alpha.aln в JalView Откроем дерево hem_alpha.dnd в FigTree >clustalw -infile=hem_alpha.fasta -tree -outputtree=dist -kimura Results: Phylogenetic tree file created: [hem_alpha.ph] Distance matrix file created: [hem_alpha.dst] Программы множественного выравнивания Пакет филогенетических программ PHYLIP