Отчет о результатах анализа множественного выравнивания последовательностей белков, гомологичных белку Каталаза II Бурков Б. Аннотация Проведен анализ семейства каталаз, представителем которого является белок Cate_Ecoli (Каталаза II). С помощью первичных последовательностей, а также данных 3D-структур белки семейства изучены на предмет наличия значимых для их функционирования позиций и оформленных подсемейств. Это позволяет сделать некоторые выводы о самом исходном белке. Введение. О белке Исходный белок представляет собой оксидоредуктазу II (т.е. его функция состоит в расщеплении перекиси водорода до воды и кислорода). Длина белка – 753 а. к. о., в его состав входят 2 аннотированных домена – Catalase и Catalase-related (соответственно 81-469 а. к. о. и 514-567 а. к. о.). Белок существует в виде тетрамера из четырех одинаковых субъединиц. О множественном выравнивания последовательностей гомологичных белков Множественное выравнивание последовательностей гомологичных белков должно отражать совпадение остовов полипептидных цепей и, во вторую очередь, сходство происхождения и функций соответствующих остатков. Программы множественного выравнивания при его построении руководствуются исключительно соображениями наибольшего веса и не способны отличить области, где нет никакого сходства последовательностей, кроме чисто статистического, от областей, где выравнивание действительно есть. Это может приводить при кластеризации к сдвигу соответствующих участков в последовательностях. С некоторыми проявлениями удается бороться с переменным успехом (например, динамическая кластеризация в Muscle), с другими – хуже. В любом случае, программы множественного выравнивания не в состоянии правильно выровнять неконсервативные с точки зрения радикалов, но консервативные по остову петли и тяжи. Все это означает, что их работа нуждается в «ручной» проверке. О выполненной работе С помощью сервиса PDBsum был проведен сравнительный анализ нескольких PDB-структур белков семейства, на основании полученных данных были выделены консервативные петли и тяжи. Далее было откорректировано выравнивание полных последовательностей (AC последовательностей были получены из seed Pfam [часть последовательностей отсеяна], поисковой системой SRS были найдены полные последовательности, выровнены Muscle) в соответствии с тем, что вставки в петлях и стрэндах должны быть в минимальном количестве. По исправленному выравниванию был составлен паттерн для поиска по семейству. С его помощью было найдено 583 белка семейства, не нашлось 182. Перепредсказания нет. Материалы и методы Найдено паттерном Не найдено паттерном Всего Семейство по данным Pfam 583 Другие белки Всего - 583 182 * * * 21 представитель семейства получен из выборки seed (файл Annotation) банка Pfam. Затем удалены 2 последовательности – претендент на фрагмент и случайная. Полноразмерные последовательности белков выборки получены с помощью SRS. Множественное выравнивание построено с помощью Muscle, файл сохранить забыл, есть уже отредактированное. Выравнивание размечено (и отредактировано) вручную с использованием программы GeneDoc на основании вторичных структур нескольких белков при помощи PDBSum, известной из пространственной структуры; (б) наличия консервативных участков в выравнивании (и редакции отдельных очевидных ляпов); (в) аннотации отдельных аминокислотных остатков, взятой из того же PDBSum. Паттерн построен по 6 позициям, которые весьма консервативны в данном seed (и в центре – каталитические остатки), но не настолько консервативны в целом по семейству, вследствие чего наблюдается некоторое недопредсказание. Профиль описывает участок выравнивания, где, собственно, есть выравнивание:) и находит все семейство без перепредсказания (по крайней мере, при поиске по Swiss-Prot, прогнать по TrEMBL я не успел, прошу прощения). Последовательности выборки разбиты на две подгруппы на основании функции (разные изозимы каталазы: 1, 2 и, в одном случае, 3), SDP подтверждает это разделение, что касается доменной структуры, везде, кроме двух каталаз 2 (моей из E.Coli и из Bacillus Subtilis) домен 1, а в этих двух есть еще Catalase-related. Для поиска диагностических признаков использовались доменная архитектура по данным Pfam, сервис SDPpred, сервис SVETKA, редактор GeneDoc, в частности, раскраска по консервативности в подгруппах. . Результаты 1. Семейство и выборка Изучаемое семейство состоит из белков, содержащих домен Catalase. Функция домена – расщепление перекиси до воды и кислорода. В банке Pfam к этому семейству отнесено 699 последовательностей. Белки семейства встречаются у [эукариот – xxx], [бактерий - yyy], [архей – zzz]. По данным Pfam, белки бывают 2 различных доменных архитектур (См. выше). Для исследования составлена выборка из 19 представителей семейства. Отбирались полноразмерные последовательности – не фрагменты. 2. Множественное выравнивания полноразмерных последовательностей белков выборки представлено в файле AnnotationEdited.msf. Домен Pfam соответствует участку от 81 до 541 позиции выравнивания (выделен по Cate_Ecoli, выравнивание есть не по всей его длине, т.к. у других белков семейства этот домен короче). В выравнивании отмечены элементы вторичной структуры в последовательности Secondary, определенные по пространственной структуре белка. Выравнивание отредактировано вручную на участках ~240-260 а.к.о., т.к. там программа разорвала спираль/спирали (по разным PDB считается поразному). Биологически обоснованное выравнивание, по моей оценке, отмечено в выравнивании в позициях 81-468. Паттерн семейства: N-N-x-P-x-F-[FY]-x-x-D. Он составлен по позициям, начиная с 201 выравнивания.