Множественное выравнивание С.А.Спирин, весна 2011 Множественное выравнивание … это то же, что парное, только последовательностей сколько угодно ROB_ECOLI GADX_ECOLI ENVY_ECOLI YDEO_ECOLI APPY_ECOLI GADW_ECOLI XYLR_ECOLI YDEC_BACSU : : : : : : : : * 20 * 40 * 60 RYQFWHDFLGNAPTIPPVLYGLNETRPSQDKDDEQEVFYTTALAQDQADGYVLTGHPVMLQ EW---------TLARIASELLMSPSLLKKKLREE-ETSYSQLLTECRMQ----RALQLIVI YW---------NLRIVASSLCLSPSLLKKKLKNE-NTSYSQIVTECRMR----YAVQMLLM PW---------KLKDICDCLYISESLLKKKLKQE-QTTFSQILLDARMQ----HAKNLIRV QW---------HLKDIAELIYTSESLIKKRLRDE-GTSFTEILRDTRMR----YAKKLITS RW---------YLRDIAERMYTSESLIKKKLQDE-NTCFSKILLASRMS----MARRLLEL HYIRNHACKGIKVDQVLDAVGISRSNLEKRFKEEVGETIHAMIHAEKLE----KARSLLIS NWIHLHYVEKITLEDIAKAGQLSRSECCRYFKRMLNKTPLRYVMDYRIQ----KSLLLLQH 5 s 3 e 6 a 66 : : : : : : : : 61 47 47 47 47 47 57 57 Для чего строят множественные выравнивания? ROB_ECOLI GADX_ECOLI ENVY_ECOLI YDEO_ECOLI APPY_ECOLI GADW_ECOLI XYLR_ECOLI YDEC_BACSU : : : : : : : : * 20 * 40 * 60 RYQFWHDFLGNAPTIPPVLYGLNETRPSQDKDDEQEVFYTTALAQDQADGYVLTGHPVMLQ EW---------TLARIASELLMSPSLLKKKLREE-ETSYSQLLTECRMQ----RALQLIVI YW---------NLRIVASSLCLSPSLLKKKLKNE-NTSYSQIVTECRMR----YAVQMLLM PW---------KLKDICDCLYISESLLKKKLKQE-QTTFSQILLDARMQ----HAKNLIRV QW---------HLKDIAELIYTSESLIKKRLRDE-GTSFTEILRDTRMR----YAKKLITS RW---------YLRDIAERMYTSESLIKKKLQDE-NTCFSKILLASRMS----MARRLLEL HYIRNHACKGIKVDQVLDAVGISRSNLEKRFKEEVGETIHAMIHAEKLE----KARSLLIS NWIHLHYVEKITLEDIAKAGQLSRSECCRYFKRMLNKTPLRYVMDYRIQ----KSLLLLQH 5 s 3 e 6 a 66 позволяет найти общее : : : : : : : : 61 47 47 47 47 47 57 57 позволяет оценить эволюционные отношения мотивы, паттерны, профили поиск активного центра предсказание 3D-структуры реконструкция эволюции Построение множественных выравниваний — необходимый этап решения многих задач молекулярной биологии Множественное выравнивание гомеодоменов Красным выделены консервативные (одинаковые у всех) остатки; желтым – на 80% консервативные (одинаковые почти у всех) остатки Красным выделены консервативные и функционально консервативные остатки Биологический смысл Тот же, что у парного: сопоставляемые остатки разных белков должны: • иметь общее происхождение; • выполнять аналогичную функцию; • одинаково располагаться в пространстве. Множественное выравнивание последовательностей использует больше информации, чем парное, поэтому (теоретически) должно в среднем чаще получаться биологически осмысленным. Парное и множественное выравнивание 1. Любое множественное выравнивание порождает набор парных выравниваний 2. Не любой набор парных выравниваний можно просто "сложить" во множественное выравнивание. Пример: P1 P2 + P1 P3 + P2 P3 ALGTEEICALGT--IAA AL-GTEEI-C ALVGTE-IAC AL-GT-IAA ALVGTEIAC P1 AL-GTEEI-C P2 AL-GT--IAA P3 ALVGTE-IAC Змей-Горыныч биоинформатики Биологическая задача поставить друг под другом гомологичные позиции Математическая задача найти способ количественного сравнения качества выравниваний. Программирование создание эффективного алгоритма и его реализация ROB_ECOLI GADX_ECOLI ENVY_ECOLI YDEO_ECOLI APPY_ECOLI GADW_ECOLI XYLR_ECOLI YDEC_BACSU : : : : : : : : * 20 * 40 * 60 RYQFWHDFLGNAPTIPPVLYGLNETRPSQDKDDEQEVFYTTALAQDQADGYVLTGHPVMLQ EW---------TLARIASELLMSPSLLKKKLREE-ETSYSQLLTECRMQ----RALQLIVI YW---------NLRIVASSLCLSPSLLKKKLKNE-NTSYSQIVTECRMR----YAVQMLLM PW---------KLKDICDCLYISESLLKKKLKQE-QTTFSQILLDARMQ----HAKNLIRV QW---------HLKDIAELIYTSESLIKKRLRDE-GTSFTEILRDTRMR----YAKKLITS RW---------YLRDIAERMYTSESLIKKKLQDE-NTCFSKILLASRMS----MARRLLEL HYIRNHACKGIKVDQVLDAVGISRSNLEKRFKEEVGETIHAMIHAEKLE----KARSLLIS NWIHLHYVEKITLEDIAKAGQLSRSECCRYFKRMLNKTPLRYVMDYRIQ----KSLLLLQH 5 s 3 e 6 a 66 : : : : : : : : 61 47 47 47 47 47 57 57 (С) А.Б.Рахманинова Парное выравнивание: вес Две последовательности: >P1 ALGTEEIC >P2 ALGTIAA Алгоритм Ниделмана – Вунша P1 ALGTEEICP2 ALGT--IAA Оптимальное полное выравнивание Параметры: • матрица замен • штрафы за пропуски Алгоритм Смита – Ватермана P1 ALGT P2 ALGT Оптимальное частичное выравнивание Множественное выравнивание: формализация и алгоритмизация Можно определить вес (хотя ситуация со штрафами за пропуски сложнее). Но ни для какого определения веса не существует приемлемого (по времени работы) алгоритма, который гарантировал бы нахождение оптимального по весу выравнивания. Аналог алгоритма Ниделмана – Вунша имеет приемлемое время работы лишь для очень малого числа последовательностей (до 4–5) В задаче множественного выравнивания приходится использовать эвристические алгоритмы «Эвристический алгоритм (эвристика) — алгоритм решения задачи, не имеющий строгого обоснования, но, тем не менее, дающий приемлемое решение задачи в большинстве практически значимых случаев» (из Википедии) Алгоритм ClustalW – пример эвристического алгоритма (так называемое «прогрессивное выравнивание») Руководящее дерево Множественное выравнивание получается из парных, получаемых алгоритмом Ниделмана – Вунша. В первую очередь выравниваем самые схожие последовательности. Очевидный недостаток:«один раз гэп – навсегда гэп», ошибки парного выравнивания невозможно исправить на основании информации от других последовательностей. Программы множественного выравнивания • ClustalW – к настоящему времени явно устарела, но по-прежнему очень популярна (впрочем, недавно вышла обновлённая версия) • Muscle – пожалуй, на текущий момент программа первого выбора • MAFFT – тоже очень популярная программа • DiAlign • T-Coffee • Kalign • ProbCons •… Всё это программы полного выравнивания Единственная популярная программа частичного множественного выравнивания – MEME (ищет блоки, то есть выравнивания без пропусков) Форматы хранения выравниваний • • • • • • Fasta Aln (он же Clustal) MSF (Multiple sequence format) PHYLIP NEXUS … См. http://emboss.sourceforge.net/docs/themes/SequenceFormats.html#mult Всё это текстовые файлы! Редакторы выравниваний • • • • • • GeneDoc (установлен у нас) BioEdit (тоже установлен) Mega (тоже установлена) JalView ClustalX … См. http://en.wikipedia.org/wiki/List_of_alignment_visualization_software