Сравнительная геномика и функциональная аннотация генов и геномов 24.III.2009, ИМБ М.С.Гельфанд Экспоненциальный рост объема данных 100000000000 10000000000 1000000000 100000000 10000000 1000000 100000 10000 1000 100 1982 1987 1992 красный – статьи (PubMed) синий – последовательности (GenBank) зеленый – объем в нуклеотидах (GenBank) 1997 2002 2007 из 18 миллионов ссылок, ~675 тыс. отвечают на “bioinformat* OR comput*” 16 тыс. “bioinformat*” 65 тыс. “bioinformat* OR computat*” 622 полных генома (прокариот) 186 200 180 142 160 140 120 100 80 60 40 81 66 48 3 3 6 6 7 30 25 19 20 0 1995 1996 1997 1998 1999 2000 2001 2002 2003 2004 2005 2006 2007 Цель аннотации • Что – функция • Когда – Регуляция • Экспрессии • Время жизни • Где – Локализация • Внутри/снаружи • Органеллы и компартменты • Как – Механизм • Специфичность, регуляция Поиск похожих последовательностей с известными функциями How much do we know about the Escherichia coli proteome? Characterized experimentally “Hypothetical” Function inferred by similarity only “Conserved hypothetical” Перепредсказания SOURCE ORGANISM FEATURES source Protein Methanococcus jannaschii. Methanococcus jannaschii Archaea; Euryarchaeota; Methanococcales; Methanococcaceae; Methanococcus. Location/Qualifiers 1..492 /organism="Methanococcus jannaschii" /db_xref="taxon:2190" 1..492 /product="sodium-dependent noradrenaline transporter" CDS 1..492 /gene="MJ1319" /note="similar to EGAD:HI0736 percent identity: 38.5; identified by sequence similarity; putative" /coded_by="U67572:71..1549" /transl_table=11 Now corrected: Hypothetical sodium-dependent transporter MJ1319. Анекдоты • C75604: Probable head morphogenesis protein, Deinococcus radiodurans • Q8TID9: Benzodiazepine (valium) receptor TspO, Methanosarcina acetivorans • NP_069403: DR-beta chain MHC class II, Archaeoglobus fulgidus Ошибки в экспериментальных статьях SwissProt: DEFINITION Hypothetical 43.6 kDa protein. ACCESSION ... KEYWORDS SOURCE ORGANISM P48012 Hypothetical protein. Debaryomyces occidentalis Debaryomyces occidentalis Eukaryota; Fungi; Ascomycota; Saccharomycotina; Saccharomycetes; Saccharomycetales; Saccharomycetaceae; Debaryomyces. [CAUTION] Was originally (Ref.1) thought to be 3-isopropylmalate dehydrogenase (LEU2). PIR: DEFINITION 3-isopropylmalate dehydrogenase ACCESSION KEYWORDS - yeast(Schwanniomyces occidentalis). S55845 oxidoreductase. (EC 1.1.1.85) SwissProt: DSDX_ECOLI -!- CAUTION: An ORF called dsdC was originally (Ref.3) assigned to the wrong DNA strand and thought to be a D-serine deaminase activator, it was then resequenced by Ref.2 and still thought to be "dsdC", but this time to function as a D-serine permease. It is Ref.1 that showed that dsdC is another gene and that this sequence should be called dsdX. It should also be noted that the C-terminal part of dsdX (from 338 onward) was also sequenced (Ref.6 and Ref.7) and was thought to be a separate ORF (don't worry, we also had difficulties understanding what happened!). SwissProt: DSDX_ECOLI -!- CAUTION: An ORF called dsdC was originally (Ref.3) assigned to the wrong DNA strand and thought to be a D-serine deaminase activator, it was then resequenced by Ref.2 and still thought to be "dsdC", but this time to function as a D-serine permease. It is Ref.1 that showed that dsdC is another gene and that this sequence should be called dsdX. It should also be noted that the C-terminal part of dsdX (from 338 onward) was also sequenced (Ref.6 and Ref.7) and was thought to be a separate ORF (don't worry, we also had difficulties understanding what happened!). Другие источники информации (для предсказания чего-то нового) • Много геномов => можем использовать слабые соображения: – Ко-локализация (в геноме): позиционные кластеры – Ко-локализация (геномах): филогенетические паттерны • «Омики»: – Транскриптомика – Протеомика – Интерактомика STRING: trpB – позиционные кластеры STRING: trpB – филогенетические паттерны STRING: trpB summary Новый универсальный фактор транскрипции Консервативный мотив перед генами рибонуклеотидредуктаз (nrd) в бактериальных геномах Идентификация фактора транскрипции • Филогенетический паттерн: список геномов, в которых присутствует/отсутствует обнаруженный сигнал => единственный ген с таким паттерном – ybaD (COG1327) – “макроуровень” – большие таксоны – “микроуровень” – в «смешанных» таксонах: • отсутствует в геномах паразитов в группах альфа- и гаммапротеобактерий • отсутствует в Desulfovibrio spp. среди дельта-протеобактерий • отсутствует в Nostoc sp. среди цианобактерий • отсутствует в Oenococcus и Leuconostoc среди Firmicutes • присутствует только в Treponema denticola среди четырех спирохет • COG1327: Гипотетический регулятор транскрипции, содержащий домены цинковая лента (ДНК- и РНК-связывающий) и АТФ-конус Bork, Koonin: YbaD=RibX, регулятор биосинтеза рибофлавина? Состав регулона • ген nrdR иногда образует (потенциальные) опероны с генами nrd genes или с генами репликации dnaB, dnaI, polA dN PnuC-like transporter dN N dN kinase • потенциальные сайты связывания NrdR обнаружены перед другими генами, связанными с репликацией: – – – – топоизомераза I инициатор репликации dnaA разделение (partitioning) хромосом ДНК-хеликаза II – ре-утилизация (salvage) dNTP dNMP NMP NMP/dNMP kinase dNDP NDP NDP/dNDP kinase dNTP DNA RNR NTP RNA Множественные сайты (гены nrd): FNR, DnaA, NrdR Механизм регуляции • репрессор – сайты перекрываются с промоторами • кооперативное связывание: – >90% генов имеет парные сайты – расстояние между сайтами (центрами палиндромов) равно целому числу витков спирали ДНК • как правило (94%) 30-33 пн, в 84% случаев 31-32 пн – 3 витка • в Vibrio spp. 21 пн (2 витка) • в некоторых фирмикутах 41-42 пн (4 витка) Экспериментальное подтверждение Транспортеры • Два основных класса – АТФ-зависимые • Трансмембранный белок (пермеаза) • АТФаза • Субстрат-связывающий (периплазматический) белок – Вторичные (симпортеры, антипортеры) • Сложный эксперимент (по сравнению с ферментами) • Относительно легко идентифицировать • Сложно предсказать специфичность H+ Разнообразие специфичностей в семействе транспортеров никеля и олигопептидов (субстрат-связывающий белок NikA) Семейство транспортеров кофакторов PnuC Функциональный анализ транспортеров • Предсказание общей функции – гомология (сходство с известными транспортерами) – анализ трансмембранных сегментов • Отнесение к функциональной подсистеме (метаболическому пути) – ко-локализация – ко-регуляция • Предсказание специфичности – анализ филогенетического профиля • конечный продукт биосинтетического пути: присутствует в геномах, не имеющих пути (импорт заменяет биосинтез) • промежуточный продукт биосинтетического пути; может заменять часть пути «выше по течению» • исходный продукт катаболического или биосинтетического пути: не встречается в геномах, где этот путь отсутствует Биосинтез рибофлавина PURINE BIOSYNTHESIS PATHWAY GTP ribA PENTOSE-PHOSPHATE PATHWAY ribA GTP cyclohydrolase II 2,5-diamino-6-hydroxy-4-(5`-phosphoribosylamino)pyrimidine ribG ribA Pyrimidine deaminase 5-amino-6-(5`-phosphoribosylamino)uracil ribulose-5-phosphate 3,4-DHBP synthase ribD ribB ribG 3,4-dihydroxy-2-butanone-4-phosphate ribD Pyrimidine reductase 5-amino-6-(5`-phosphoribitylamino)uracil ribH ribH Riboflavin synthase, -chain 6,7-dimethyl-8-ribityllumazine ribB ypaA ribE Riboflavin Riboflavin synthase, -chain 5’-области генов синтеза рибофлавина BS BQ BE HD Bam CA DF SA LLX PN TM DR TQ AO DU CAU FN TFU SX BU BPS REU RSO EC TY KP HI VK VC YP AB BP AC Spu PP AU PU PY PA MLO SM BME BS BQ BE CA DF EF LLX LO PN ST MN SA AMI DHA FN GLU 1 2 2’ 3 =========> ==> <== ===> TTGTATCTTCGGGG-CAGGGTGGAAATCCCGACCGGCGGT AGCATCCTTCGGGG-TCGGGTGAAATTCCCAACCGGCGGT TGCATCCTTCGGGG-CAGGGTGAAATTCCCGACCGGCGGT TTTATCCTTCGGGG-CTGGGTGGAAATCCCGACCGGCGGT TGTATCCTTCGGGG-CTGGGTGAAAATCCCGACCGGCGGT GATGTTCTTCAGGG-ATGGGTGAAATTCCCAATCGGCGGT CTTAATCTTCGGGG-TAGGGTGAAATTCCCAATCGGCGGT TAATTCTTTCGGGG-CAGGGTGAAATTCCCAACCGGCAGT ATAAATCTTCAGGG-CAGGGTGTAATTCCCTACCGGCGGT AACTATCTTCAGGG-CAGGGTGAAATTCCCTACCGGTGGT AAACGCTCTCGGGG-CAGGGTGGAATTCCCGACCGGCGGT GACCTCTTTCGGGG-CGGGGCGAAATTCCCCACCGGCGGT CACCTCCTTCGGGG-CGGGGTGGAAGTCCCCACCGGCGGT AATAATCTTCAGGG-CAGGGTGAAATTCCCGATCGGCGGT TTTAATCTTCAGGG-CAGGGTGAAATTCCCGATCGGTGGT GAAGACCTTCGGGG-CAAGGTGAAATTCCTGATCGGCGGT TAAAGTCTTCAGGG-CAGGGTGAAATTCCCGACCGGTGGT ACGCGTGCTCCGGG-GTCGGTGAAAGTCCGAACCGGCGGT -AGCGCACTCCGGG-GTCGGTGAAAGTCCGAACCGGCGGT GTGCGTCTTCAGGG-CGGGGTGAAATTCCCCACCGGCGGT GTGCGTCTTCAGGG-CGGGGCGAAATTCCCCACCGGCGGT TTACGTCTTCAGGG-CGGGGTGCAATTCCCCACCGGCGGT GTACGTCTTCAGGG-CGGGGTGGAATTCCCCACCGGCGGT GCTTATTCTCAGGG-CGGGGCGAAATTCCCCACCGGCGGT GCTTATTCTCAGGG-CGGGGCGAAATTCCCCACCGGCGGT GCTTATTCTCAGGG-CGGGGCGAAATTCCCCACCGGCGGT TCGCATTCTCAGGG-CAGGGTGAAATTCCCTACCGGTGGT GCGCATTCTCAGGG-CAGGGTGAAATTCCCTACCGGTGGT CAATATTCTCAGGG-CGGGGCGAAATTCCCCACCGGTGGT GCTTATTCTCAGGG-CGGGGTGAAAGTCCCCACCGGCGGT GCGCATTCTCAGGG-CAGGGTGAAAGTCCCTACCGGTGGT GTACGTCTTCAGGG-CGGGGTGCAATTCCCCACCGGCGGT ACATCGCTTCAGGG-CGGGGCGTAATTCCCCACCGGCGGT AACAATTCTCAGGG-CGGGGTGAAACTCCCCACCGGCGGT GTCGGTCTTCAGGG-CGGGGTGTAAGTCCCCACCGGCGGT GGTTGTTCTCAGGG-CGGGGTGCAATTCCCCACCGGCGGT AAACGTTCTCAGGG-CGGGGTGCAATTCCCCACCGGCGGT TAACGTTCTCAGGG-CGGGGTGCAACTCCCCACCGGCGGT TAACGTTCTCAGGG-CGGGGTGAAAGTCCCCACCGGCGGT TAAAGTTCTCAGGG-CGGGGTGAAAGTCCCCACCGGCGGT AAGCGTTCTCAGGG-CGGGGTGAAATTCCCCACCGGCGGT GCTTGTTCTCGGGG-CGGGGTGAAACTCCCCACCGGCGGT ATCAATCTTCGGGG-CAGGGTGAAATTCCCTACCGGCGGT GTCTATCTTCGGGG-CAGGGTGAAAATCCCGACCGGCGGT ATTCATCTTCGGGG-CAGGGTGAAATTCCCGACCGGCGGT AATGATCTTCAGGG-CAGGGTGAAATTCCCTACCGGCGGT GAAGATCTTCGGGG-CAGGGTGAAATTCCCTACCGGCGGT GTTCGTCTTCAGGGGCAGGGTGTAATTCCCGACCGGTGGT AAATATCTTCAGGG-CACCGTGTAATTCGGGACCGGCGGT GTTCATCTTCGGGG-CAGGGTGCAATTCCCGACCGGTGGT AAGAGTCTTCAGGG-CAGGGTGAAATTCCCGACCGGCGGT AAGTGTCTTCAGGG-CAGGGTGTGATTCCCGACCGGCGGT AAGTGTCTTCAGGG-CAGGGTGAGATTCCCGACCGGCGGT ATTCATCTTCGGGG-TCGGGTGTAATTCCCAACCGGCAGT TCACAGTTTCAGGG-CGGGGTGCAATTCCCCACTGGCGGT ACGAACCTTCGAGG-TAGGGTGAAATTCCCGACCGGCGGT AATAATCTTCGGGG-CAGGGTGAAATTCCCGACCGGTGGT ---TGTTCTCAGGG-CGGGGCGAAATTCCCCACCGGCGGT Add. 3’ -><<=== 21 AGCCCGTGAC-19 AGTCCGTGAC-20 AGCCCGCGA--19 AGTCCGTGAC-23 AGCCCGTGAC-2 AGCCCGCAA--2 AGCCCGCG---6 AGCCTGCGAC-2 AGCCCGCGA--2 AGCCCACGA--3 AGCCCGCGAG-15 AGCCCGCGAA-3 AGCCCGCGAA-2 AGTCCGCGA--2 AGTCCGCGA--20 AGCCCGCGA--2 AGTCCACG---3 AGTCCGCGAC-3 AGTCCGCGAC-30 AGCCCGCGAGCG 21 AGCCCGCGAGCG 31 AGCCCGCGAGCG 21 AGCCCGCGAGCG 17 AGCCCGCGAGCG 67 AGCCCGCGAGCG 20 AGCCCGCGAGCG 2 AGCCCACGAGCG 14 AGCCCACGAGCG 13 AGCCCACGAGCG 40 AGCCCGCGAGCG 25 AGCCCACGAGCG 18 AGCCCGCGAGCG 16 AGCCCGCGAGCA 34 AGCCCGCGAGCG 13 AGCCCGCGAGCG 17 AGCCCGCGAGCG 19 AGCCCGCGAGCG 19 AGCCCGCGAGCG 19 AGCCCGCGAGCG 16 AGCCCGCGAGCG 34 AGCCCGCGAGCG 17 AGCCCGCGAGCG 18 AGCCCGCGA--27 AGCCCGCGA—-20 AGCCCGCGA--2 AGCCCGCGAG-2 AGCCCGCG---3 AGTCCACGAC-21 ACTCCGCGAT-3 AGTCCACGAT-125 AGTCCGTG---14 AGTCCGCG---104 AGTCCGCG---6 AGCCTGCGAC-14 AGCCCGCGC--20 AGCCCGCAAC-2 AGTCCACG---28 AGCCCGCGAGCG Variable 4 4’ 5 5’ 1’ -> <====> <==== ==> <== <========= 8 4 8 -----TGGATTCAGTTTAA-GCTGAAGCCGACAGTGAA-AGTCTGGAT-GGGAGAAGGATGAT 8 5 8 -----TGGATCTAGTGAAACTCTAGGGCCGACAGT-AT-AGTCTGGAT-GGGAGAAGGATATG 3 4 3 -----AGGATCCGGTGCGATTCCGGAGCCGACAGT-AT-AGTCTGGAT-GGGAGAAGGATGCC 10 4 10 ----–TGGACCTGGTGAAAATCCGGGACCGACAGTGAA-AGTCTGGAT-GGGAGAAGGAAACG 8 4 8 ----–TGGATTCAGTGAAAAGCTGAAGCCGACAGTGAA-AGTCTGGAT-GGGAGAAGGATGAG 3 4 3 ------AGATCCGGTTAAACTCCGGGGCCGACAGTTAA-AGTCTGGAT-GAAAGAAGAAATAG 7 6 7 --------ATTTGGTTAAATTCCAAAGCCGACAGT-AA-AGTCTGGAT-GGAAGAAGATATTT 11 3 11 ----–CTGATCTAGTGAGATTCTAGAGCCGACAGTTAA-AGTCTGGAT-GGGAGAAAGAATGT 4 4 4 -----ATGATTCGGTGAAACTCCGAGGCCGACAGT-AT-AGTCTGGAT-GAAAGAAGATAATA 3 4 3 -----ATGATTTGGTGAAATTCCAAAGCCGACAGT-AT-AGTCTGGAT-GAAAGAAGATAAAA 5 4 5 ----–TTGACCCGGTGGAATTCCGGGGCCGACGGTGAA-AGTCCGGAT-GGGAGAGAGCGTGA 8 12 9 ----–CCGATGCCGCGCAACTCGGCAGCCGACGGTCAC-AGTCCGGAC-GAAAGAAGGAGGAG 5 4 5 -----CCGACCCGGTGGAATTCCGGGGCCGACGGTGAA-AGTCCGGAT-GGGAGAAGGAGGGC 7 7 7 -----AGGAACCGGTGAGATTCCGGTACCGACAGT-AT-AGTCTGGAT-GGAAGAAGATGAAA 13 4 12 -----AGGAACTAGTGAAATTCTAGTACCGACAGT-AT-AGTCTGGAT-GGAAGAAGAGCAGA 3 4 3 -----AGGACCCGGTGTGATTCCGGGGCCGACGGT-AT-AGTCCGGAT-GGGAGAAGGTCGGC 5 4 5 -------GATTTGGTGAAATTCCAAAACCGACAGT-AG-AGTCTGGAT-GGGAGAAGAATTAG 8 5 8 -----TGGAACCGGTGAAACTCCGGTACCGACGGTGAA-AGTCCGGAT-GGGAGGTAGTACGTG 8 5 8 -----TTGACCAGGTGAAATTCCTGGACCGACGGTTAA-AGTCCGGAT-GGGAGGCAGTGCGCG 137 GTCAGCAGATCTGGTGAGAAGCCAGAGCCGACGGTTAG-AGTCCGGAT-GGAAGAAGATGTGC 8 4 8 GTCAGCAGATCTGGTCCGATGCCAGAGCCGACGGTCAT-AGTCCGGAT-GAAAGAAGATGTGC 7 5 7 GTCAGCAGATCTGGTGAGAGGCCAGGGCCGACGGTTAA-AGTCCGGAT-GAAAGAAGATGGGC 11 3 11 GTCAGCAGATCCGGTGAGATGCCGGGGCCGACGGTCAG-AGTCCGGAT-GGAAGAAGATGTGC 8 4 8 GACAGCAGATCCGGTGTAATTCCGGGGCCGACGGTTAG-AGTCCGGAT-GGGAGAGAGTAACG 8 3 8 GTCAGCAGATCCGGTGTAATTCCGGGGCCGACGGTTAA-AGTCCGGAT-GGGAGAGGGTAACG 8 4 8 GTCAGCAGATCCGGTGTAATTCCGGGGCCGACGGTTAA-AGTCCGGAT-GGGAGAGAGTAACG 26 9 30 GTCAGCAGATTTGGTGAAATTCCAAAGCCGACAGT-AA-AGTCTGGAT-GAAAGAGAATAAAA 11 9 11 GTCAGCAGATTTGGTGAGAATCCAAAGCCGACAGT-AT-AGTCTGGAT-GAAAGAGAATAAGC 5 4 5 GTCAGCAGATCTGGTGAGAAGCCAGGGCCGACGGTTAC-AGTCCGGAT-GAGAGAGAATGACA 16 6 16 GTCAGCAGACCCGGTGTAATTCCGGGGCCGACGGTTAT-AGTCCGGAT-GGGAGAGAGTAACG 16 4 27 GTCAGCAGATTTGGTGCGAATCCAAAGCCGACAGTGAC-AGTCTGGAT-GAAAGAGAATAAAA 10 4 10 GTCAGCAGACCTGGTGAGATGCCAGGGCCGACGGTCAT-AGTCCGGAT-GAGAGAAGATGTGC 10 3 11 ---CGCAGATCTGGTGTAAATCCAGAGCCGACGGT-AT-AGTCCGGAT-GAAAGAAGACGACG 6 6 6 GTCAGCAGATCTGGTG 52 TCCAGAGCCGACGGT 31 AGTCCGGAT-GGAAGAGAATGTAA 7 3 7 GTCAGCAGATCTGGTGCAACTCCAGAGCCGACGGTCAT-AGTCCGGAT-GAAAGAAGGCGTCA 7 9 7 GTCAGCAGATCCGGTGAGAGGCCGGAGCCGACGGT-AT-AGTCCGGAT-GGAAGAGGACAAGG 19 4 18 GTCAGCAGACCCGGTGTGATTCCGGGGCCGACGGTCAC-AGTCCGGATGAAGAGAGAACGGGA 15 4 16 GTCAGCAGACCCGGTGTGATTCCGGGGCCGACGGTCAT-AGTCCGGATGAAGAGAGAGCGGGA 14 4 13 GTCAGCAGACCCGGTGCGATTCCGGGGCCGACGGTCAT-AGTCCGGATAAAGAGAGAACGGGA 8 5 8 GTCAGCAGATCCGGTGTGATTCCGGAGCCGACGGTTAG-AGTCCGGAT-GAAAGAGGACGAAA 8 3 8 GTCAGCAGATCCGGTCGAATTCCGGAGCCGACGGTTAT-AGTCCGGAT-GGAAGAGAGCAAGC 10 15 10 GTCAGCAGATCCGGTGAGATGCCGGAGCCGACGGTTAA-AGTCCGGAT-GGAAGAGAGCGAAT 5 4 5 -----AGGATTCGGTGAGATTCCGGAGCCGACAGT-AC-AGTCTGGAT-GGGAGAAGATGGAG 3 5 3 -----AGGATTTGGTGTGATTCCAAAGCCGACAGT-AT-AGTCTGGAT-GGGAGAAGATGGAG 3 4 3 -----AGGATCCGGTGCGAGTCCGGAGCCGACAGT-AT-AGTCTGGAT-GGGAGAAGATGAAG 3 4 3 ----TATGATCCGGTTTGATTCCGGAGCCGACAGT-AA-AGTCTGGAT-GAAAGAAGATATAT 6 4 6 -------GATTTGGTGAGATTCCAAAGCCGACAGT-AA-AGTCTGGAT-GAGAGAAGATATTT 5 3 5 ----ATTGAATTGGTGTAATTCCAATACCGACAGT-AT-AGTCTGGAT—-AAAGAAGATAGGG 4 4 4 ----–TTGAAGCAGTGAGAATCTGCTAGCGACAGT-AA-AGTCTGGAT-GGAAGAAGATGAAC 3 10 3 ----TTGACTCTGGTGTAATTCCAGGACCGACAGT-AT-AGTCTGGAT-GGGAGAAGATGTTG 3 4 3 -------GATGTGGTGAGATTCCACAACCGACAGT-AT-AGTCTGGAT-GGGAGAAGACGAAA 3 4 3 -------GATGTGGTGTAACTCCACAACCGACAGT-AT-AGTCTGGAT-GAGAGAAGACCGGG 3 4 3 -------GATGTGGTGAAATTCCACAACCGACAGT-AA-AGTCTGGAT-GGGAGAAGACTGAG 11 3 11 ----–CTGATCTAGTGAGATTCTAGAGCCGACAGT-AT-AGTCTGGAT-GGGAGAAGATGGAG 5 5 5 ------TGATCTGGTGCAAATCCAGAGCCAACGGT-AT-AGTCCGGAT-GGAAGAAACGGAGC 11 4 11 --CGACTGACTTGGTGAGACTCCAAGGCCGACGGT-AT-AGTCCGGAT-GGGAGAAGGTACAA 4 6 4 -------GATTTGGTGAAATTCCAAAACCGACAGT-AG-AGTCTGGAT-GAGAGAAGAAAAGA 10 4 10 GTCAGCAGATCCGGTTAAATTCCGGAGCCGACGGTCAT-AGTCCGGAT-GCAAGAGAACC--- RFN, вторичная структура additional stemloop variable stem-loop Ag Y u C N rU G CRY G N GY G 3 G C c A A N UC C c N a * GGgN N c G Y 2 x G G g rC U Y Y 1 y N N N N 5’ * * * * G A R R r N N N N KN R A RG K x Y yB RYC V Rr C 4 C G A U xN CRG N AG Y C UG A x R R 5 g x u GA Capitals: invariant (absolutely conserved) positions. Lower case letters: strongly conserved positions. Dashes and stars: obligatory and facultative base pairs N: any nucleotide. X: any nucleotide or deletion 3’ Регуляторный механизм Transcription attenuation Translation attenuation YpaA/RibU: транспортёр рибофлавина • 5 предсказанных ТМ-сегментов => потенциальный транспортёр • регуляторный RFN-элемент => корегуляция с генами метаболизма рибофлавина => транспорт рибофлавина или предшественника • S. pyogenes, E. faecalis, Listeria: есть ypaA, нет генов биосинтеза рибофлавина => транспорт рибофлавина Предсказание: YpaA – рибофлавиновый транспортёр (Gelfand et al., 1999) Проверка: • генетический анализ (Кренева и др., 2000) • биохимический эксперимент (Burgess et al., 2006) Биотиновый транспортер BioY • Идентификация: – ко-локализация – ко-регуляция – филогенетические паттерны • Дополнительные компоненты – АТФаза(?) bioM – Пермеаза(?) bioN Предсказание и подтверждение Биосинтез тиамина = thiN (confirmed) Transport of HMP Transport of HET (Gram-positive bacteria) (Gram-negative bacteria) yuaJ(=thiT): транспортер тиамина • 6 предсказанных TM-сегментов • Регуляция РНК-переключателями THI • Streptococci: есть ThiT, нет тиаминового пути ykoFEDC: АТФ-зависимый транспортер • Регуляция РНК-переключателями THI • Никогда не встречается в геномах, не имеющего тиаминового пути • Встречается только вместе с thiD и thiE • Иногда встречается в геномах без thiC Co и Ni • ко-локализация (хромосомные локусы) – транспортеры Ni – с генами никельзависимых ферментов – транспортеры Co – с генами синтеза кобаламина • ко-регуляция – транспортеры Ni – фактор транскрипции NikR – транспортеры Co – рибопереключатель В12 Add-I g aN t C t Gg cg N R N N P2 N A A G G G a N a a C c y G C d c P1 r C c G C P3 h a C BI K G T r a P4 r A G Y N g k c tG y G h C C d C G M B12 box k G C g A C BI I VS P6 P5 A g c C Add-I I CTG c gG GGY AG A The Bacillus/ Clostridium group -proteobacteria a g P0 F aculta tive stem-loop 5' 3' base stem Other taxonomic groups Структура локусов genes B12 riboswitch NikR binding site Пять семейств транспортеров Новое семейство транспортеров Co и Ni + CbiN CbiM Ni2+ Co2+ NikM + NikN + NikL, NikK + NikL Дмитрий Родионов Thomas Eitinger Предсказанные специфичности правильны Co Co Ni Ni Ni Co Структура: слишком много компонентов Биотиновый транспортер BioY • АТФаза BioM ~ CbiO = NikO • Пермеаза BioN ~ CbioQ = NikQ Для транспорта достаточно компонент МN (АТФаза и пермеаза не обязательны – первый пример такого транспортера) cbiMNQO cbiMNQ cbiMN cbiM контроль BioY тоже достаточно (даже в геномах, содержащих BioMN; у BioMNY более крутая кинетика Вершина айсберга? Экспериментальные подтверждения RibU: рибофлавин ThiT: тиамин FolT: фолат (ср. BioY) Унивесальное «заряжающее устройство» + специфические компоненты • Дмитрий Родионов – регуляция транскрипции – метаболическая реконструкция – идентификация транспортеров • Алексей Витрещак – РНК-переключатели • А.А. Миронов – программы • • • • Томас Хеббельн (Берлин) – Cо, Ni, биотин Андрей Остерман (Сан Диего) – рибофлавин Эндрю Хансон (Флорида) – тиамин Дирк Слотблум (Гронинген) – фолат • • • HHMI РФФИ «Молекулярная и клеточная биология» (РАН)