Функциональная аннотация М.Гельфанд «Сравнительная геномика» БиБи, набор 2004, 4 курс осень 2007 Цель аннотации • Что – функция • Когда – Регуляция • Экспрессии • Время жизни • Где – Локализация • Внутри/снаружи • Органеллы и компартменты • Как – Механизм • Специфичность, регуляция Функции (условно) • Ферменты – Метаболизм (катаболизм, анаболизм) – Биосинтез макромолекул • Транспортеры • Регуляторы – Рецепторы – Белки сигнальных каскадов – Факторы транскрипции и т.п. • Структурные и «вспомогательные» белки – Цитоскелет, движение, деление – Межклеточные взаимодействия (рецепторы) – Шапероны. Большие комплексы Gene Ontology Три иерархии • Молекулярная функция • Биологический процесс • Компонент клетки Пример: цитохром с – Транспорт электронов – Окислительное фосфорилирование – Внутренняя мембрана митохондрии Геномные базы: • FlyBase (дрозофила) • SGD (Saccharomyces Genome Database) • MGD (Mouse Genome Database) Молекулярная функция - примеры • Широкие категории: – Каталитическая активность – Транспортная активность – Связывание • Узкие категории: – Адениат-циклазная активность – Связывание Ca2+ Можно и по-другому (EC, TC) – это потом Биологический процесс - примеры • Широкие категории: – Cellular physiological processes – Перенос сигнала (signal transduction) • Узкие категории: – Метаболизм пиримидинов – Транспорт альфа-глюкозидов – Асимметричное деление клеток GO: процессы Структура иерархии: сеть Biological process • Cellular process – Cellular physiolgical process • Cell division – Asymmetric cell division » Regulation of asymmetric cell division – Regulation of cell division » Regulation of asymmetric cell division • Regulation of cellular physiological process – Regulation of cell division » Regulation of assymmetric cell division • Physiological process – Cellular physiolocical process • … – Regulation of physiological process • … Упражнение Нарисовать пути, ведущие к: (А-Д) (Е-К) (Л-Н) (О-П) (Р-С) (Т-Я) GO:0045782 : positive regulation of cell budding GO:0004612 : phosphoenolpyruvate carboxykinase (ATP) activity GO:0019568 : arabinose catabolism GO:0003726 : double-stranded RNA adenosine deaminase activity GO:0030660 : Golgi vesicle membrane GO:0030570 : pectate lyase activity GO:0019319 : hexose biosynthesis GO:0047689 : aspartate racemase activity GO:0006068 : ethanol catabolism GO:0004129 : cytochrome-c oxidase activity GO:0030334 : regulation of cell migration GO:0003705 : RNA polymerase II transcription factor activity, enhancer binding используя AmiGO http://www.geneontology.org AmiGo http://www.godatabase.org/cgi-bin/amigo/go.cgi? search_constraint=terms&action=replace_tree&session_id=7922b112 5244220 BLAST home page Параметры BLAST: wordsize • Цистеиновые протеазы из люцернового долгоносика и коровьего клеща: 61% тождества, а BLASTN не находит. Для ДНК Wordsize=11(min 7), для белков =3. Similarity ≠ homology • BLAST e-value is a measure of nonrandomness of sequence similarity • Possible causes of similarity: – homology – domain homology – low complexity, coiled-coil, transmembrane and other types of regions with non-standard amino acid composition • Homology ≠ same function. Normally: – similar (general) function (e.g. enzymatic activity) – maybe different specificity Предсказание специфичности: дерево распадается на две ветви – все нормально (A novel type of Ni /Co ABC transporters. Transmembrane component CbiM/NikM) + CbiN CbiM Ni2+ Co2+ NikM + NikN + NikL, NikK + NikL Предсказание специфичности: все смешалось – нет предсказания ( The NiCoT transporters family) Предсказание специфичности: смена специфичности – ошибки (The NikABCDE family of ABC transporters. Substrate-binding component NikA) Noradrenaline transporter in an archaeon? SOURCE ORGANISM FEATURES source Protein Methanococcus jannaschii. Methanococcus jannaschii Archaea; Euryarchaeota; Methanococcales; Methanococcaceae; Methanococcus. Location/Qualifiers 1..492 /organism="Methanococcus jannaschii" /db_xref="taxon:2190" 1..492 /product="sodium-dependent noradrenaline transporter" CDS 1..492 /gene="MJ1319" /note="similar to EGAD:HI0736 percent identity: 38.5; identified by sequence similarity; putative" /coded_by="U67572:71..1549" /transl_table=11 Now corrected: Hypothetical sodium-dependent transporter MJ1319. Lesson(s) 1. Avoid overprediction (homology does not necessarily mean same cellular role or specificity) Similarity to hypothetical proteins: somebody else’s errors… The only correct annotation! Genes with curious functional assignments • C75604: Probable head morphogenesis protein, Deinococcus radiodurans • O05360: Automembrane protein H, Yersinia enterocolitica • Q8TID9: Benzodiazepine (valium) receptor TspO, Methanosarcina acetivorans • NP_069403: DR-beta chain MHC class II, Archaeoglobus fulgidus Errors in experimental papers SwissProt: DEFINITION Hypothetical 43.6 kDa protein. ACCESSION ... KEYWORDS SOURCE ORGANISM P48012 Hypothetical protein. Debaryomyces occidentalis Debaryomyces occidentalis Eukaryota; Fungi; Ascomycota; Saccharomycotina; Saccharomycetes; Saccharomycetales; Saccharomycetaceae; Debaryomyces. [CAUTION] Was originally (Ref.1) thought to be 3-isopropylmalate dehydrogenase (LEU2). PIR: DEFINITION 3-isopropylmalate dehydrogenase ACCESSION KEYWORDS - yeast(Schwanniomyces occidentalis). S55845 oxidoreductase. (EC 1.1.1.85) SwissProt entry DSDX_ECOLI -!- CAUTION: An ORF called dsdC was originally (Ref.3) assigned to the wrong DNA strand and thought to be a D-serine deaminase activator, it was then resequenced by Ref.2 and still thought to be "dsdC", but this time to function as a D-serine permease. It is Ref.1 that showed that dsdC is another gene and that this sequence should be called dsdX. It should also be noted that the C-terminal part of dsdX (from 338 onward) was also sequenced (Ref.6 and Ref.7) and was thought to be a separate ORF (don't worry, we also had difficulties understanding what happened!). Lesson(s) 1. Avoid overprediction (homology does not necessarily mean same cellular role or specificity) 2. Check carefully the source(s) of annotations in the list of homologs mastermind protein of Drosophila Filtering of low-complexity segments • often insufficient • may lose non-trivial information Lesson(s) 1. Avoid overprediction (homology does not necessarily mean same cellular role or specificity) 2. Check the source(s) of annotations in the list of homologs 3. Beware of similarity in low-complexity regions, non-globular domains, transmembrane segments Homology of domains I64228: “DNA polymerase homolog” (in fact, 5’-3- exonuclease) Bacterial DNA polymerases Klenow fragment BLAST domains page InterPro domains Lesson(s) 1. Avoid overprediction (homology does not necessarily mean same cellular role or specificity) 2. Check the source(s) of annotations in the list of homologs 3. Beware of similarity in low-complexity regions, non-globular domains, transmembrane segments 4. Do not extend domain homology to annotation of the whole protein PROSITE • Множественное выравнивание консервативные позиции паттерны • Вырожденные паттерны • P-loop ATPases: • [GA]x(4)GK[ST] • Очень малая избирательность caspases/paracaspases/metacaspases Профили. PSI-BLAST • Значимость (E=0.005), 1 лишний на 200 поисков • Ручная прочистка при итерациях • Автоматически – до схождения • Асимметрия Lesson(s) 1. Avoid overprediction (homology does not necessarily mean same cellular role or specificity) 2. Check the source(s) of annotations in the list of homologs 3. Beware of similarity in low-complexity regions, non-globular domains, transmembrane segments 4. Do not extend domain homology to annotation of the whole protein 5. Правильный паттерн должен сохраняться у (близких) ортологов; должны сохраняться основные каталитические остатки Анализ белка в отсутствие гомологов • Сигнальные пептиды. SignalP (нейронная сеть) • Трансмембранные сегменты. Две дюжины серверов (TMHMM, PHDhtm, HMMTOP) – – – – – Гидрофобные/гидрофильные Сигнал на границе Топология (положительные внутри) Использование выравниваний Бета-белки. Порины • Локализация. PSORT, TargetP • Coiled coil. COILS, Parcoil/Multicoil • Вторичная и пространственная структура. Threading • Сравнительная геномика и негеномные данные