Автоматическая аннотация геномов Ирена Артамонова Алма-Ата, апрель 2006

реклама
Автоматическая аннотация
геномов
Ирена Артамонова
Алма-Ата, апрель 2006
Необходимость автоматической
аннотации
Технологии секвенирования => лавина данных;
≠>осознания механизмов функционирования
Рабочая единица живого – белок. Его
функция???
Сколько мы знаем из того, что хотим знать:
• <5% (Valencia, 2005)
• RefSeq (белки) : ‘reviewed’/ всего =
80296/2520485 = 3.2%
• Swiss-Prot/Trembl: 215741/2737104 = 7.9%
План
• Наиболее распространенные примеры
аннотационных систем
• Принципы автоматического определения
структуры белков
• Автоматическая аннотация функции белков:
– Перенесение функции по гомологии
– Предсказание функции ab initio
• Оценки достоверности автоматической
аннотации
• Автоматическая детекция ошибок аннотации
Примеры наиболее популярных
систем аннотации геномов
• Genome Browser
(http://genome.ucsc.edu/)
•
e!Ensembl
(http://www.ensembl.org/)
• PEDANT
(http://pedant.gsf.de/ )
Genome Browser (UCSC)
• 32 генома (из них - 13 позвоночных, 13
насекомых)
• Огромная коллекция данных
(экспериментальных), спроецированных на
геном
• Возможность настройки интерфейса
• Визуализация собственных данных наравне с
интегрированными в систему
• Использование общепринятых
идентификаторов (GenBank, RefSeq)
Genome Browser: user-friendly
интерфейс
Ensembl
• Геномы – 25 (из них - 12
млекопитающих; цель - позвоночные)
• Собственная система идентификаторов
• В последних релизах добавлены
системы соответствия внутренних
идентификаторов идентификаторов и
общепринятых (поиск – по внутренним)
• DAS (Distribution annotation system) –
новая технология интеграции данных
Основные принципы DAS
“A server system for the sharing of Reference
Sequences, a system conceptually composed of
a Reference Server and Annotation Server(s)”
PEDANT
• Геномы: 334, из них
10 – вручную
• Новая версия – удобный интерфейс
• Вся информация вычислена на месте
(интеграция программ)
• Собственная иерархическая система
функциональной классификации
(FunCat)
MIPS Functional Catalog
• Hierarchical
structure (up to 6 levels in
deep), e.g.:
10 CELLULAR COMMUNICATION/SIGNAL TRANSDUCTION
MECHANISM
10.01 intracellular signalling
10.01.05 enzyme mediated signal transduction
10.01.05.05 G-protein mediated signal transduction
10.01.05.05.01 small GTPase mediated signal transduction
•28 main groups, such as METABOLISM, ENERGY, CELL
CYCLE AND DNA PROCESSING, TRANSCRIPTION, PROTEIN
SYNTHESIS, etc.; in total 1307 different categories
•Protein can simultaneously belong to
several categories; some categories are
correlated and some are not correlated
PEDANT 3
Функциональная аннотация
белков
Перенос функции по гомологии:
• попарное выравнивание
• PSI-BLAST
• кластеризация пространства белков,
приписывание функции целому
кластеру (‘функциональный консенсус’)
• построение ортологичных рядов
• приписывание функции отдельным
доменам, вместо всего белка
Пространственная структура
белка: предсказание
функциональных доменов
InterPro – комбинированный ресурс,
объединяющий наиболее полные доменные
классификации
Избыточность информации,
интегрированной в InterPro
Coverage (%) l
Мы упорядочили методы в порядке убывания покрытия и по
одному добавляли, анализируя общее покрытие
отработанных методов и общее вычислительное время.
PFAM
PROFILE
SSF
TIGRFAMs
PANTHER
PRINTS
PRODOM
GENE3D
PIRSF
PROSITE
SMART
80
70
60
50
40
30
20
10
0
0
50
100
150
Runnung time (s)
200
250
Основные ограничения
перенесения функции по
гомологии
• Порог на уровень сходства сильно
зависит от функции
• Для весьма заметного количества
белков нет аннотированных гомологов
• Возможные ошибки аннотации
экспоненциально распространяются
Оценки достоверности перенесения
функции по гомологии (EC)
• <30%: общие аспекты функции (первый
уровень), >70%: детальное описание
(четвертый уровень) (Devos & Valencia,
2000)
• 30% ошибок в четвертом уровне, <3% - в
первом (Devos & Valencia, 2001)
• 95% четвертого уровня консервативно
вплоть до 30% сходства (Todd et al., 2001 )
• специфичные функции сохраняются до 40%
сходства (Wilson et al., 2000)
Автоматическое определение
функции: предсказание клеточной
локализации
• Идентификация сигнальных пептидов
(распознавание мотивов в последовательности –
нейронные сети) – 80% (70% - точность
предсказание стартового кодона)
• Определение внутренних сигналов клеточной
локализации (напр., сигнал ядерной локализации)
– 100% (неизвестные мотивы или опосредованная
секреция - ?)
• Аминокислотный состав зависит от клеточной
локализации
• Филогенетический профайлинг
• Комбинация методов
Посттрансляционные
модификации: принципы и методы
• Определение консервативных мотивов
в последовательностях
• Структурные свойства (более далекие
взаимодействия, экспонирование
остатков и т.п.)
• Нейронные сети, натренированные на
экспериментальных выборках сигналов
и их отсутствия
Посттрансляционные модификации:
точность предсказаний
• Сайты фосфорилирования (Ser/Thr/Tyr чувствительность – 69-96%)
• Сайты О-гликозилирования (млекопитающие,
НС – аа-состав, доступность, coil/turn участки:
76% гликозилированных и 93%
негликозилированных Ser/Thr)
• N-гликозилирование – 76% в среднем (86% модифицированные, 61% немодифицированные Asn-Xaa-Ser/Thr)
• Позиции ферментативного расщепления
(субтилизин/кексин-подобные ферменты) –
62% для всех ферментов, 95% - фурин
http://www.cbs.dtu.dk/services/
Белок-белковые взаимодействия
•
•
•
•
•
Ортологи взаимодействующей пары
Филогенетический профайлинг
Соседняя локализация в геноме
Потомки комбинированного белка
Коэволюция пары – мутации
скоррелированы
• Содержат ‘взаимодействующие’ домены
• Различные классификационные методы
– SVM, нейронные сети и т.п. – в
пространстве физико-химических
параметров и элементов структуры
Белок-белковые взаимодействия
– методы предсказания функции
Два белка функционально связаны, если:
• взаимодействуют;
• взаимодействие подтверждено
несколькими экспериментами;
• имеют много общих партнеров;
• находятся в одном кластере сети
(минимизируют количество
межкластерных взаимодействий)
Достоверность полногеномной
аннотации
Экспертные оценки аннотации геномов:
• 86-96% (Ouzounis et al.,1999)
• 87% (Galperin & Koonin, 1998)
• 92% (Brenner, 1999; согласованность
при cравнение аннотации генома
Mycoplasma genitalium тремя
независимыми группами экспертов)
Распределение ошибок
аннотации по категориям
Оценка достоверности аннотации генома
Chlamydia trachomatis (Iliopoulos et al., 2003)
Общий уровень
достоверной
информации – 6367%
Примеры алгоритмов
автоматической детекции ошибок
аннотации
• Binary property clustering (Kaplan & Linial,
2005)
• система Xanthippe (на основе метода
простых исключений и алгоритма C4.5
для построения дерева решений)
(Wieser et al., 2004)
• приложение метода ассоциативных
правил (положительных и
отрицательных)
Кластеризация на основе
бинарных свойств
• Исправляет ошибки, связанные с неверным
приписыванием свойств белкам в процессе
автоматической аннотации
• Использует кластеризацию белков, которым
приписано исследуемое свойство, на основе
следующего расстояния:
score(p1,p2) = - ∑I из (A1 ∩A2) log f(i)
• На определенном шаге итерационной
кластеризации, все белки, к которым верно
приписано исследуемое свойство, и только
они, образуют кластер
Xanthippe
Система дизайнирована для переноса
аннотации с белков Swiss-Prot на белки
TREMBL
2 части: 1. Выявление свойств,
несовместных с рассматриваемым
таксоном
2. Построение дерева решений на основе
алгоритма C4.5 для выведения ключевых
слов из имеющейся структурной и
таксономической информации
Дерево решений
Метод ассоциативных правил
(A1, A2 …AN, Z) – свойства белков
Положительное ассоциативное правило:
(A1&A2&…&AN) => Z ( здесь, N ≤ 4)
или “белки, обладающий всеми свойствами A1, …, AN,
вероятно обладает и свойством Z”
Здесь A1, …, An (левая часть правила, или LHS) и Z
(правая часть правила, или RHS) – различные белковые
свойства
Каждое правило характеризуется своим покрытием,
количеством белков, обладающих всеми свойствами
левой части; своей поддержкой, количеством белков,
обладающих всеми свойсвами как левой, так и правой
части правила; а также своей силой, то есть
отношением поддержки к покрытию, или вероятностью
обладать свойством правой части, при условии
удовлетворения левой части правила.
Приложение метода к
исправлению ошибок аннотации
Основная идея: если поддержка правила A & B => C весьма
высока и его сила близка к, но не равна, 1, то мы
полагаем, что свойства A, B и C биологически зависимы,
и исключения из этого правила являются ошибками
аннотации
Стратегия:
• Используя техники метода ассоциативных правил,
вычислить все правила для аннотации белков в базе
данных
• Выбрать только правила с силой, близкой к 1 (например, в
интервале силы)
• Возможно, как-либо отфильтровать данное множество
правил
• Выявить белки, составляющие исключения из этих правил
• Пометить соответствующие правилу комбинации свойств
Результаты
Общий процент ошибок среди исключений из
сильных правил (в интервале силы [0.97;1.0) ):
• Swiss-Prot - 60.2 % (анализ исправлений в
последующих релизах и на основе экспертной
проверки)
• PEDANT – 68.1% (ручная проверка; количество
‘несовместных’ комбинаций свойств ~115000)
Большинство ошибок:
• Swiss-Prot – пропуск свойства правой части
правила (недоаннотация)
• PEDANT – неверное приписывание одного ищ
свойств левой части правила (переаннотация)
Отрицательные ассоциативные
правила
Правила формы A & B => не C
Например, “Bacteria => not Nuclear protein”.
Отрицательные правила выявляют только проблемы
переаннотации (т.к. исключения из этих правил – это
белки, в аннотации которых определенную
комбинацию свойств мы считаем несовместной)
Иная статистика: отрицания свойств, в отличие от
самих свойств, очень часты в аннотации (так как из
всего разнообразия возможных свойств белков
каждый отдельный обладает лишь весьма
ограниченным списком свойств). Поэтому количество
количество исключений весьма существенно уже для
весьма сильных правил и они зачастую не отражают
биологических закономерностей.
Отрицательные правила стратегия
Благодаря различию статистики для
положительных и отрицательных правил,
аналогичный подход не работает
Новый подход (PEDANT). Вычислить
отрицательные правила на белках,
аннотированных очень хорошо, и применить
эти правила для всей, в том числе
автоматической, аннотации. То есть теперь мы
пометим в аннотации те комбинации свойств,
которые несовместны с точки зрения
полученных правил. Проверка – в 92% случаев
эти помеченные комбинации действительно
содержат неправильно приписанные свойства.
Благодарности
Были использованы преимущественно
литературные данные
Мои соавторы: Гоар и Дмитрий Фришманы,
Михаил Гельфанд
The BioSapiens project is funded by the European Commission
within its FP6 Programme, under the thematic area
"Life sciences, genomics and biotechnology for health”
contract number LHSG-CT-2003-503265
Спасибо всем присутствующим
за внимание!
Скачать