Лекция 6 - DNA punctuation

реклама
Филогенетические деревья
Часть 1
B
C
D
C
1
A
A
A
B
2
D
A
D
B
C
B
A
B
C
D
D
3
4
C
5
Деревья как средство визуализации эволюции
Genealogy
(Church Ceiling,
Santo Domingo,
Oaxaca)
Lamarck’s Tree of Life
(1815)
Page B26 from
Charles Darwin’s
(1809-1882)
notebook (1837)
“The tree of life should
perhaps be called the
coral of life, base of
branches dead”
Lebensbaum from
Ernst Haeckel, 1874
Филогенетика:
происхождение и эволюция набора организмов, обычно видов.
От греческого phylon, род или класс, и -geneia, родиться.
Дерево жизни согласно малой субъединице
рибосомальной РНК
• строго
бифуркационоое
• только
родословные,
существующие в
настоящее время
• основано на
единственной
молекулярной
филогении
• длины ветвей не
пропорциональны
времени
Cenancestor, or
Last Universal Common
Ancestor (LUCA)
К корню
получается в результате древней
дупликации генов (ATPases,
Signal recognition particles)
Haloferax
ARCHAEA
Methanospirillum
Methanobacterium
Thermoproteus
Thermofilum
BACTERIA
Epulopiscium
Bacillus
chloroplast
Synechococcus
Treponema
Thermus
Deinococcus
Thermotoga
Aquifex
EM 17
Methanococcus
pSL 50
pSL 4
pSL 22
pSL 12
mitochondria
Agrobacterium
Chlorobium
Cytophaga
Methanosarcina
Sulfolobus
Marine
group 1
Riftia E.coli
Chromatium
Thermococcus
Methanopyrus
pJP 27
pJP 78
0.1 changes per nt
EUCARYA
Tritrichomonas
Hexamita
Zea
Homo
Coprinus
Paramecium
Giardia
Porphyra
Vairimorpha
Dictyostelium
Physarum
Encephalitozoon
Trypanosoma
Naegleria
Entamoeba
Euglena
CPS
V/A-ATPase
Prolyl RS
Lysyl RS
Mitochondria
Plastids
Fig. modified from
Norman Pace
Что такое HGT?
HGT - Horizontal Gene Transfer
Гены могут передаваться вертикально
– от родителя к детям
Гены могут передаваться
горизонтально – обмен генами между
видами
How Tree-like is Organismal
Evolution?
 Горизонтальный обмен генов
 Мозаичные геномы
Science,280 p.672ff (1998)
Приблизительно такие процессы
происходят в мире микробов
+
+
=
Cartoons from Science Made Stupid, T. Weller, 1986.
=
Welch RA, et al.
Proc Natl Acad Sci U S A. 2002; 99:17020-4
Escherichia coli, strain CFT073, uropathogenic
Escherichia coli, strain EDL933, enterohemorrhagic
Escherichia coli K12, strain MG1655, laboratory strain,
“… только 39.2%
объединенного (без
повторений) множества
белков разделяется
тремя штаммами.”
Что такое “генеалогия организмов” в
свете горизонтального обмена генов?
На коротких интервалах времени
генеалогия организмов может быть
определена как согласованная генеалогия
большинства генов.
Веревка как метафора для описания генеалогии
организма (Gary Olsen)
Отдельные волокна = гены, которые путешествуют какоето время вместе с организмом.
Хотя в конце может не быть ни одного волокна,
присутствовавшего в начале, веревка (или
генеалогия организмов), тем не менее, остается
непрерывной.
Однако геном, как единое целое, может приобретать
свойства отдельных генов (веревка со временем
окрашивается в красный цвет).
From:
Bill Martin (1999)
BioEssays 21, 99-104
Tree, Web, or Coral of Life?
“The tree of life should perhaps be called
the coral of life, base of branches dead”
Charles Darwin
Photo by J. Cameron, 1869
Page B26 from Charles Darwin’s (1809-1882)
notebook (1837/38)
Присутствие
горизонтально
привнесенного
гена может играть
свою роль в
систематике.
Пинг-понг генов
между различными
генеалогиями может
быть использован
для построения
корреляций между
различными
частями
дерева/сети жизни.
Деревья
Элементы теории
B
C
D
C
1
A
A
A
B
2
D
A
D
B
C
B
A
B
C
D
D
3
4
C
5
Основные свойства филогенетических деревьев
A
• Некорневое дерево
ветви
•
внешние узлы
B
• Корневые деревья
C
D
C
B
C
B
2
D
A
A
A
1
B
•
внутренние узлы
A
D
C
внешние узлы
D
гипотетический предок
B
A
B
C
D
D
3
4
C
5
Корневые и некорневые деревья
•Основное различие между корневыми и некорневыми деревьями в
филогенетике состоит в том, что в корневых деревьях делается
предположение об общем предке, а в некорневых нет.
C
A
•
•
D
A
B
C
•
B
D
• В корневых деревьях какой-то один узел обозначен в качестве общего
предка, и существует единственный путь по эволюционному времени от
него к любому другому узлу.
•Некорневые деревья указывают только на отношения между узлами и
ничего не говорят о направлении, в котором произошла эволюция.
•Корни могут быть присвоены некорневым деревьям с помощью внешней
группы.
Основные свойства филогенетических деревьев
Число возможных корневых (NR) и некорневых
(NU) деревьев для n последовательностей:
NR = (2n-3)!/2n-2(n-2)!
NU = (2n-5)!/2n-3(n-3)!
n
NR
NU
2
1
1
• Заметьте, что только одно из
3
3
1
всех возможных деревьев
может представлять настоящее
дерево, которое отображает
филогенетические
взаимоотношения между
последовательностями.
4
15
3
5
105
15
34459425
2027025
10
Дерево гена - Дерево видов
Ген A
События
мутаций
Ген B
Ген C
Ген D
Ген E
Дерево
гена
События видообразования Вид A
Вид B
Вид C
Вид D
Вид E
Дерево видов
Эти два события - мутация и видообразование - необязательно
происходят в одно и то же время. Поэтому деревья генов не
Дерево гена - дерево видов
•
Время
Дупликация
•
Дупликация
A
C
B
Дерево видов
Видообразование
Видообразование
A
A
B
C
B
Дерево гена
C
Построение деревьев основные шаги
1. Отбор последовательностей для анализа;
2. Выравнивание последовательностей;
3. Применение методов построения филогенетических
деревьев;
4. Статистическая оценка полученного
филогенетического дерева
Методология:
1- Множественное выравнивание;
2- Бутстрэп;
3- Построение консенсусного дерева и его оценка;
Выравнивание - важный предварительный
шаг для построения деревьев
GACGACCATAGACCAGCATAG
GACTACCATAGA-CTGCAAAG
*** ******** * *** **
GACGACCATAGACCAGCATAG
Две возможные
позиции для
вставки (indel)
GACTACCATAGACT-GCAAAG
*** *********
*** **
• Например, ошибки в расположении вставки во
множественном выравнивании могу привести к построению
неправильного дерева.
Шаги при множественном
выравнивании последовательностей
Общая стратегия популярных алгоритмов множественного
выравнивания:
1- создание попарной матрицы расстояний, основанной на всех
возможных попарных выравниваниях последовательностей;
2- использование статистического подхода для построения
начального дерева;
3- прогрессивное повторное выравнивание последовательностей
в порядке их родства согласно начальному дереву;
4- построение нового дерева на основе парных расторяний,
полученных из нового множественноо выравнивания;
5- повторить процесс до тех пор, пока новое дерево не совпадет с
предыдущим.
Steps in multiple alignment
A- Pairwise alignment
Example- 4 sequences, A, B, C, D
A
B
C
B
D
6 pairwise
comparisons then
cluster analysis
A
C
D
Similarity
B- Multiple alignment following the tree from A
B
D
Align most similar pair
Gaps to optimise alignment
A
C
Align next most similar pair
New gap to optimise alignment of (BD) with (AC)
B
D
A
C
Align alignments- preserve gaps
Методы построения филогенетических
дервьев
• Филогенетическое дерево характеризуется топологией (формой) и
длиной (суммой всех длин ветвей) ;
• Каждый узел дерева представляет собой предка элементов, включенных в
этот узел;
• Существует 3 основных типа филогенетических методов построения
деревьев из последовательностей:
Методы, прямым образом основанные на последовательностях :
• Максимальная экономность : найти филогенетическое дерево, которое
объясняет данные с максимально наименьшим числом изменений.
• Максимальное правдоподобие : найти дерево, которое максимизирует
вероятность данных для конкретного дерево.
Методы, косвенным образом основанные на последовательностях :
• Методы расстояний (Метод ближайшего соседа): найти такое дерево, у
которого длина ветвей по путям между двумя последовательностями
(видами) удовлетворяет матрице попарных расстояний между
последовательностями.
Метод расстояний
•
•
•
•
•
Откуда мы берем данные по расстояниям?
Наблюдаемые и реальные расстояния
Коррекция на скрытые изменения
Не все расстояния “деревоподобны”
Построение деревьев: кластерные методы
– UPGMA
– Метод ближайшего соседа (Neighbor-joining)
• Построение деревьев: критерий
оптимальности
– Метод наименьших квадратов
Что представляют собой длины
ребер?
• В некоторых деревьях ребра представляют собой время. В этом
случае все последовательности должны находиться на одном и
том же расстоянии от корня.
• В других деревьях длины ребер представляют собой
произведение μ∙t - скорости мутаций μ и времени t. В этом
случае разные вершины находятся на разных расстояниях от
корня при исловии, что скорость изменения тоже разная на
разных ветвях дерева.
Cat
Rat
1
2
2
1
4
Dog
Cow
Матрицы расстояний
• Матрица расстояний может состоять,
например, из числа несовпадающих сайтов
последовательностей
A
B
C
D
Cat
Dog
Rat
Cow
Cat
0
2
4
7
B
400
-
-
-
Dog
2
0
5
6
C
300
300
-
-
Rat
4
5
0
3
D
250
150
250
-
Cow
7
6
3
0
E
250
250
500
200
Свойства расстояний
• d(x,x) = 0
• d(x,y) = d(y,x)
• d(x,y) + d(y,z) >= d(x,z) (неравенство треугольника)
• Расстояния, используемые в филогенетике всегда
обладают первыми двумя свойствами, но не
всегда третьим.
Какие расстояния подходят для
построения деревьев?
• Не все расстояния подходят для построения
деревьев.
• Методы построения деревьев не
дискриминируют входные данные. Они
возвратят дерево вне зависимости от того,
дадут ли им расстояния с карт автодорог или
расстояния, взятые из выравнивания
последовательностей.
• Некоторые расстояния могут быть
совершенными “древоподобными”.
Совершенные
“деревоподобные” расстояния
Cat
Dog
Rat
Cat
Rat
1
Dog
3
Rat
4
5
Cow
6
7
2
6
2
1
4
Dog
Cow
Совершенные
“деревоподобные” расстояния
Cat
Dog
Rat
Cat
Rat
1
Dog
3
Rat
4
5
Cow
6
7
2
6
2
1
4
Dog
Cow
Совершенные
“деревоподобные” расстояния
Cat
Dog
Rat
Cat
Rat
1
Dog
3
Rat
4
5
Cow
6
7
2
6
2
1
4
Dog
Cow
Совершенные
“деревоподобные” расстояния
Cat
Dog
Rat
Cat
Rat
1
Dog
3
Rat
4
5
Cow
6
7
2
6
2
1
4
Dog
Cow
Совершенные
“деревоподобные” расстояния
Cat
Dog
Rat
Cat
Rat
1
Dog
3
Rat
4
5
Cow
6
7
2
6
2
1
4
Dog
Cow
Совершенные
“деревоподобные” расстояния
Cat
Dog
Rat
Cat
Rat
1
Dog
3
Rat
4
5
Cow
6
7
2
6
2
1
4
Dog
Cow
Условие 4 точек
• Расстояния, которые четко размещаются по ветвям
дерева должны подчиняться условиям квартета i, j, k, l
(условия, выполняющиеся для любых 4 видов)
• Пусть d(x,y) - расстояние между x и y.
j
i
Для любых 4 видов i, j, k, l, из трех сумм



d(i,j) + d(k,l)
d(i,k) + d(j,l)
d(i,l) + d(j,k)
k
l
Две наибольшие должны быть равны.
• Расстояния, обладающие данным свойством
называются аддитивными (additive), потому что веса
путей вдоль дерева складываются (add up) в
значения матрицы расстояний.
Почему это условие верно для “деревоподобных”
расстояний?
i
k
i
k
i
k
j
l
j
l
j
l
d(i,j)+d(k,l)
<
d(i,k)+d(j,l)
=
d(i,l)+d(j,k)
“Времяподобные” расстояния
time
• Более строгое условие применяется к
расстояниям “времяподобного” дерева.
• Расстояния с данным свойством
называются ультраметрическими.
d(i,k) = d(j,k) > d(i,j)
i
j
k
Откуда берутся расстояния?
• Расстояния могут быть получены в результате
множественного выравнивания.
• Самые примитивные расстояния - число сайтов,
которые отличаются между двумя
последовательностями, деленное на длину
последовательности. Иногда такие расстояния
называют p-расстояниями.
Cat
Dog
Rat
Cow
Cat
Dog
Rat
Cow
Cat
0
0.2
0.4
0.7
Dog
0.2
0
0.5
0.6
Rat
0.4
0.5
0
0.3
Cow
0.7
0.6
0.3
0
ATTTGCGGTA
ATCTGCGATA
ATTGCCGTTT
TTCGCTGTTT
Наблюдаемые расстояния
обычно недооценивают реальное
число изменений
Коррекция на скрытые изменения
В модели Джукса-Кантора (все точечные мутации
равновероятны) коррекция будет:
Dactual = ¾ ln(1 – 4/3*dobserved)
Интересное наблюдение
• Нескорректированные расстояния всегда
подчиняются неравенству треугольника d(x,y) +
d(y,z) >= d(x,z).
• Cкорректированные расстояния не подчиняются
неравенству треугольника.
• Например, если последовательности a и b
отличаются друг от друга на 10 / 100 сайтов и
последовательности b и c отличаются друг от
друга на 10 / 100 сайтов, нескорректированные
расстояния d(a,b) = d(b,c) = 0.1, d(a,c) = 0.2, а
скорректированные растояния (модель JC) D(a,b)
= D(b,c) = 0.107, D(a,c) = 0.233
Построение деревьев - UPGMA
(Unweighted Pair Group Method
with Arithmetic Mean)
UPGMA метод последовательно группирует наиболее близкие виды, с
образованием корневого врямяподобного дерева.
1.
Найти наименьшее значение в матрице расстояний - d(x,y).
2.
Образовать новый внутренний узел, z, являющийся родителем по
отношению к x и y, и сделать длину ветвей от z до x и от z до y
половиной d(x,y).
3.
Переделать матрицу расстояний с учетом нового узла z, пересчитав
расстояния от всех видов к узлу z как среднее расстояние между x и
y.
ПОВТОРИТЬ, пока все группы не объединяться.
Что такое среднее расстояние
между группами?
• При объединение двух групп i и j,
которые уже состоят из ni и nj членов,
расстояния пересчитываются по
формуле
D(i , j ),k
nj
ni
(
) Di ,k  (
) D j ,k
ni  n j
ni  n j
Шаг 1 – Найти наименьшее расстояние в матрице расстояний x
d(i,j)
A
B
C
D
E
F
G
A
2
4
4
7
5
8
B
C
D
E
F
4
4
7
5
8
2
7
5
8
7
5
8
6
9
5
Шаг 2 - Объединить виды A и B, сформировать новый внутренний узел I
Посчитать длины новых ребер d(A,I)=d(B,I)=1/2 d(A,B)=1
B
A
A
1
B
G
1
I
C
D
C
F
E
D
F
E
G
Шаг 3 – Пересчитать матрицу
расстояний
d(C,I) = ½(d(A,C) + d(B,C))
=4
и так далее...
Шаг 1 – Найти наименьшее расстояние в матрице расстояний
d(i,j)
I (A+B)
C
D
E
F
I (A+B)
-
C
4
-
D
4
2
-
E
7
7
7
-
F
5
5
5
6
-
G
8
8
8
9
5
Шаг 2 - Сгруппирвоать виды C и D, сформировать новый внутренний
узел II. Посчитать длины новых ребер d(C,II)=d(D,II)=1/2 d(C,D)=1
A
B
1
A
1
1
C
I
B
1
C
1
D
1
I
II
D
E
E
F
G
F
G
Шаг 3 – Пересчитать матрицу
расстояний
d(I,II)=1/2(d(I,C)+d(I,D))
=4
d(E,II) = ½(d(E,C) + d(E,D))
=7
и т. д.
И так далее
A
G
C
III
B C D
I
CD
I
II
G
F
A B C D
I
A
D
E
1
B
B
F
1
A
G
I
III
E
E
G
F
A B C D
F
II
E
G
E
F
F
A B C D
1
1
1
1
E
F
A B C D
II
0.5
2.5
3.4
0.9
IV
V
0.4
VI
3.8
I
III
II
IV
I
III
V
G
II
IV
E
G
…пока не получим корневое дерево.
Но является ли оно настоящим деревом?
UPGMA не согласуется с аддитивными расстояниями
d(i,j)
A
B
C
D
E
F
G
A
2
4
4
7
5
8
B
C
D
E
F
4
4
7
5
8
2
7
5
8
7
5
8
6
9
5
C
A
D
1
1
1 1
B C
=
4
1
I
1
1
II
2.5
1
1
3.4
III
0.5
3.8
0.9
IV
1
E
1
1
1
F
D
E
1
1
B
A
Дерево, которое
удовлетворяет
матрице
расстояний, не
совпадает с
деревом,
построенным
методом UPGMA.
V
4
0.4
F
VI
G
G
Неустойчивость
• Когда методу предлагаются
“идеальные” данные, но метод выдает
неправильное дерево, метод
называется неустойчивым.
• UPGMA неустойчив для не
ультраметрических (времяподобных)
данных.
• Нужен метод, который будет устойчив
для любых аддитивных данных.
Метод ближайшего соседа
(Neighbor-joining, NJ)
Метод NJ последовательно объединяет данные до тех пор, пока
все виды не объединятся в некорневое дерево.
1.
Вместо того, чтобы использовать матрицу расстояний
напрямую, чтобы выяснить какой вид группируется с каким на
каждой стадии, NJ использует матрицу S, где
S(i,j) = (N-2)d(i,j) - R(i) - R(j)
N число видов.
R(i) сумма ряда i в матрице расстояний.
R(j) сумма ряда j в матрице расстояний.
2.
Найти наименьшее значение в матрице S - S(x,y).
Вывод формулы для NJ
Образовать новый внутренний узел, z, являющийся
родителем x и y, и посчитать длину ребер от z до x и
от z до y.
d(x,z) = 1/(2(N-2))[(N-2)d(x,y) + R(x) – R(y)]
d(y,z) = d(x,y) – d(x,z)
3.
4.
Пересчитать матрицу расстояний
d(w,z) = ½ (d(x,w) + d(y,w) – d(x,y))
ПОВТОРЯТЬ до тех пор пока для группировки не
останутся два элемента.
Пример NJ
D=
Cat
Dog
Rat
Cow
Dog
Rat
Step 1
3
4
6
Cat
S=
Dog
Dog
-22
Rat
-20
-20
Cow
-20
-20
Rat
5
7
6
R(cat) = 13
R(dog) = 15
R(rat) = 15
R(cow) = 19
e.g. S(cat,dog) = (4-2)x3 – 13 – 15 = -22
S(cat,rat) = (4-2)x4 – 13 – 15 = -20
-22
NJ Example
D=
Cat
Dog
Rat
Cow
Dog
Rat
Step 1
3
4
6
Cat
S=
Dog
Dog
-22
Rat
-20
-20
Cow
-20
-20
Rat
Step 2
5
7
-22
6
Cat
Step 3
d(cat,z) = ¼[2d(cat,dog) + R(cat) – R(dog)]
= ¼ [6 + 13 – 15]
=1
d(dog,z) = 3-1
=2
Rat
z
Dog
Cow
Step 4
d(z,rat) = ½ [d(cat,rat) + d(dog,rat) – d(cat,dog)]
= ½ [4 + 5 – 3]
=3
Cat
d(z,cow) = ½ [6 + 7 – 3]
=5
Rat
z
Dog
Cow
Глобальные и локальные методы
• UPGMA и NJ - локальные методы. На каждом шагу
они выбирают самую близкую пару видов для
группировки, и, после того, как выбор был сделан,
невозможно внести изменения. Это обеспечивает
быструю работу программ.
• Существуют глобальные методы, которые тоже
основаны на расстояниях. Такие методы
рассчитывают критерий оптимальности для каждого
возможного дерева, и выбирают дерево с лучшим
весом. Примеры глобальных методов, основанных на
расстояниях, включают в сбея метод наименьших
квадратов и минимальной эволюции. Но поскольку
число деревьев растет очень быстро с числом видов,
эти методы работают медленно.
Критерии оценки деревьев
Метод наименьших квадратов
•
Мы бы хотели, чтобы длины путей на дереве были
близки к соответствующим значениям в матрице
расстояний.
• Имея аддитивные данные, мы всегда можем найти
дерево, в котором расстояния в длинах путей и
матрица расстояний точно совпадают. Однако,
большинство данных не такие совершенные…
•
Мы можем минимизировать различия между
наблюдаемыми расстояниями и расстояниями на
дереве с помощью метода наименьших квадратов.
Семейство методов
наименьших квадратов
n
n
Q   wij ( Dij  dij )
i 1 j 1
wij = 1
unweighted least squares
(Cavalli-Sforza and Edwards 1967)
wij =1/Dij
wij = 1/Dij2
(Fitch and Margoliash 1967)
2
Выбор наилучших весов для данного
дерева
Расстояния дерева dij могут быть представлены уравнением
dij   xij,k ek
k
где xij,k - индикаторная переменная, равная 1, если
ребро k лежит на пути от i до j и 0 в противном
случае.
Мы хотим найти вес ребер ek, который
минимизирует
n
n
Q   wij ( Dij   xij,k ek ) 2
i 1 j 1
k
Индикаторные переменные
могут быть представлены в
виде матрицы
B
A
e1
e3
e2
e4
e6
E
1
1
C
1
1
e5
0
X= 0
0
e7
D
0
0
0
1
1
1
0
0
0
1
0
1
0
1
0
0
0
1
1
1
0
0
0
Каждый ряд X соответствует пути по дереву
Можно написать D = Xe
0
1
1
0
1
1
0
0
1
0
0
1
0
0
1
0
0
1
1
0
0
0
0
1
0
0
1
0
1
1
0
0
1
0
0
D=
1
0
1
0
1
DAB
DAC
DAD
DAE
DBC
DBD
DBE
DCD
DCE
DDE
e=
e1
e2
e3
e4
e5
e6
e7
Метод минимальной
эволюции
• Использует метод наименьших
квадратов, для нахождения длин
ветвей каждого дерева
• НО использует другой критерий
оптимальности.
• Выбирает дерево с наименьшей
суммой длин ветвей.
Выводы
• Наблюдаемые расстояния, полученные из выравнивания
последовательностей, всегда не дооценивают настоящее число
мутаций. Поэтому всегда надо производить коррекцию на
скрытые изменения.
• Кластерные методы, такие как UPGMA и метод ближайшего
соседа NJ очень быстрые, так как они принимают только
локальные решения, и никогда не исользуют метод прогонки
назад. Эти методы часто используются в качестве отправной
точки для эвристических поисков.
• Существуют методы, основаные на критериях оптимальности,
которые используют расстояния в качестве входных данных,
например, метод наименьших квадратов и минимальной
эволюции.
Выводы
• Не все расстояния ложатся на дерево совершенным
образом.
• Методы могут быть неустойчивыми. Например для
некоторых невремяподобных расстояний метод
UPGMA гарантированно построит неправильное
дерево.
• UPGMA устойчив для времяподобных расстояний и
NJ устойчив для любых аддитивных расстояний.
Статистическая оценка полученного
филогенетического дерева
• Аккуратность зависит от множественного выравнивания;
• В настоящее время только один метод выборок позволяет
протестировать топологию филогенетического дерева:
Бутстрэп (Bootstrap)
Суть метода состоит в выборке с замещением колонок в в
используемом для построения дерева множественном
выравнивании, пока размер выборки не достигнет размера
изначального выравнивания (обычно получается, что какие-то
колонки выбраны несколько раз, а какие-то вообще не
выбраны).
Бутстрэп
ATAGCCATA
ATACCCATG
ATACCCATA
ATAGCCATA
ATCCCCCAT
TCAAATGCA
TCGAATCCA
TCAAATCCA
TCAAATGCA
TCAACACCC
Методология
1. Выбрать последовательности для анализа;
2. Выравнить эти последовательности;
3. Применить методы построения филогенетических деревьев;
4. Произвести статистическую оценку полученных деревьев.
1- Множественное выравнивание;
2- Бутстрэп (100 выборок);
3. Применить методы построения филогенетических деревьев
4- Построить консенсусное дерево с оценочным весом;
Программы множественного выравнивания
http://biowulf.nih.gov/apps/clustalw.html
and more…
Пример использования clustalw
Выбрали
последовательности
для выравнивания
File hem_alpha.fasta
Простое использование
>clustalw -infile=$filename -align -type=protein
В нашем случае
>clustalw -infile=hem_alpha.fasta -align -type=protein
результаты:
hem_alpha.aln
hem_alpha.dnd (guide tree)
Откроем выравнивание hem_alpha.aln в JalView
Откроем дерево hem_alpha.dnd в FigTree
>clustalw -infile=hem_alpha.fasta -tree -outputtree=dist -kimura
Results:
Phylogenetic tree file created: [hem_alpha.ph]
Distance matrix file created: [hem_alpha.dst]
Программы множественного выравнивания
Пакет филогенетических программ PHYLIP
Скачать