Получение белка в клетке. Мировые хранилища информации о геноме и протеноме Алексей Сальников Процессы в клетке Структура прокариотической клетки Структура эукариотической клетки Клеточное ядро ДНК CNOP ACGT Детали строения молекул в микроскоп не видны! ~ 0,00001 мм Существуют сложные и дорогие методы расшифровки структуры молекул Белок RRNFSKQASE ILNEYFYSHL SNPYPSEEAK EELARKCGIT VSQVSNWFGN KRIRYKKNI Пространственная структура Последовательность Этапы получения белка в клетке ● ● ● Транскрипция — получение РНК полекулы по последовательности гена Трансляция — синтез белковой цепочки Фолдинг — сворачивание белка в определённую структуру Транскрипция Транскрипция Транскрипция Регуляторные области (промотер) Регуляторные области (энхансер) Вторичная структура РНК Сплайсинг Альтернативный сплайсинг ● В человеческом геноме 30-40 тысяч генов, а различных матричных РНК, участвующих в трансляции 100-150 тысяч. Хранение генетической информации gatcctccatatacaacggtatctccacctcaggtttagatctcaacaacggaaccattg ccgacatgagacagttaggtatcgtcgagagttacaagctaaaacgagcagtagtcagct ctgcatctgaagccgctgaagttctactaagggtggataacatcatccgtgcaagaccaa gaaccgccaatagacaacatatgtaacatatttaggatatacctcgaaaataataaaccg ccacactgtcattattataattagaaacagaacgcaaaaattatccactatataattcaa agacgcgaaaaaaaaagaacaacgcgtcatagaacttttggcaattcgcgtcacaaataa attttggcaacttatgtttcctcttcgagcagtactcgagccctgtctcaagaatgtaat aatacccatcgtaggtatggttaaagatagcatctccacaacctcaaagctccttgccga gagtcgccctcctttgtcgagtaattttcacttttcatatgagaacttattttcttattc tttactctcacatcctgtagtgattgacactgcaacagccaccatcactagaagaacaga acaattacttaatagaaaaattatatcttcctcgaaacgatttcctgcttccaacatcta cgtatatcaagaagcattcacttaccatgacacagcttcagatttcattattgctgacag ctactatatcactactccatctagtagtggccacgccctatgaggcatatcctatcggaa aacaataccccccagtggcaagagtcaatgaatcgtttacatttcaaatttccaatgata cctataaatcgtctgtagacaagacagctcaaataacatacaattgcttcgacttaccga gctggctttcgtttgactctagttctagaacgttctcaggtgaaccttcttctgacttac tatctgatgcgaacaccacgttgtatttcaatgtaatactcgagggtacggactctgccg acagcacgtctttgaacaatacataccaatttgttgttacaaaccgtccatccatctcgc tatcgtcagatttcaatctattggcgttgttaaaaaactatggttatactaacggcaaaa acgctctgaaactagatcctaatgaagtcttcaacgtgacttttgaccgttcaatgttca ctaacgaagaatccattgtgtcgtattacggacgttctcagttgtataatgcgccgttac ccaattggctgttcttcgattctggcgagttgaagtttactgggacggcaccggtgataa actcggcgattgctccagaaacaagctacagttttgtcatcatcgctacagacattgaag gattttctgccgttgaggtagaattcgaattagtcatcggggctcaccagttaactacct ctattcaaaatagtttgataatcaacgttactgacacaggtaacgtttcatatgacttac ctctaaactatgtttatctcgatgacgatcctatttcttctgataaattgggttctataa В конце 1970-х годов был изобретён относительно быстрый и дешёвый метод экспериментального определения последовательности оснований в ДНК выделение Организм секвенирование ДНК «в пробирке» ...TGCCACAAATCAC... Последовательность Для хранения все возрастающей информации о последовательностях ДНК в 1982 году был основан GenBank GenBank — хранилище последовательностей нуклеиновых кислот в виде компьютерных файлов Объем GenBank’а: 1982: 680 338 букв в 606 последовательностях 1992: 101 008 486 букв в 78 608 последовательностях 2002: 28 507 990 166 букв в 22 318 883 последовательностях 2005: 56 037 734 462 букв в 52 016 762 последовательностях 2007: 71 292 211 453 букв в 67 218 344 последовательностях (из ~200 000 организмов) Размер файлов — 251 Gb Первый “банк данных” 1965 -1978 Атлас белковых последовательностей и их структур Первая версия атласа содержала описание 65 (!) последовательностей белков Банки данных • Архивные (примеры: PDB, GenBank) за содержание каждой записи отвечает её автор-экспериментатор • Курируемые за содержание записей отвечают специальные люди — кураторы • Автоматические записи генерируются компьютерными программами International Nucleotide Sequence Database Collaboration GenBank (США) DDBJ (Япония) Ежедневный обмен данными EMBL (Европа) Банки структурной биологической информации GenBank, EMBL, DDBJ RefSeq Архивные базы последовательностей нуклеиновых кислот TrEMBL Автоматическая база предсказаний последовательностей белков Автоматическая база различных посл-ей ДНК/РНК SwissProt Курируемая база последовательностей белков PDB Архивная база пространственных структур макромолекул И многие другие... Банк данных TrEMBL TrEMBL (Translated EMBL) Формальная трансляция всех кодирующих нуклеотидных последовательностей из банка EMBL Автоматическая классификация и аннотация Текущий релиз 37.8 (5 февраля 2008) содержит 5 329 119 записей Банк данных Swiss-Prot С 1987 поддерживается в сотрудничестве между Swiss Institute of Bioinformatics (SIB) European Bioinformatics Institute (EBI) Амос Байрох Руководитель группы Swiss-Prot в Швейцарском Институте Биоинформатики Банк данных Swiss-Prot Статистика роста количества документов 1986 2001 2006 Текущий релиз 54.8 (5 февраля 2008) содержит 349 480 записей Структура документа GenBank’а Описание Последовательность Документ Swiss-Prot Описание документа: идентификатор, имя, дата создания и модификации Аннотация последовательности Последовательность