Федеральное государственное автономное образовательное учреждение высшего профессионального образования «СИБИРСКИЙ ФЕДЕРАЛЬНЫЙ УНИВЕРСИТЕТ» Институт фундаментальной биологии и биотехнологий Кафедра биохимической физики РЕФЕРАТ По дисциплине: «Информационно- коммуникационные технологии в естественнонаучных исследованиях» 011200.68.01 Магистерская программа Биофизика «Преобразование Фурье в исследовании распределения триплетов в геномах организмов» Преподаватель Студент ________ __________________ подпись, дата должность, ученая степень И.Е. Суковатая ________ Е.Ю. Бушмелёв подпись, дата инициалы, фамилия Красноярск 2013 Содержание Введение ......................................................................................................... 3 1 Актуальность проблемы ............................................................................. 4 2 Материалы и методы ................................................................................... 4 2.1 Прямое преобразование Фурье ................................................................ 5 2.2 Быстрое преобразование Фурье............................................................... 6 Список литературы ........................................................................................ 8 2 Введение Символьные последовательности являются классическим объектом математики, а также встречаются как предмет изучения во многих прикладных задачах — от теоретического программирования и теории управления до биологии и лингвистики. Изучение символьных последовательностей позволяет ответить на множество сопряжённых друг с другом вопросов из различных областей науки, смежных с чистой или прикладной математикой. Как объект прикладного исследования символьные последовательности возникают во всех областях, где рассматриваются те или иные объекты, состоящие из большого числа одинаковых фрагментов. При этом одинаковость (подобие, тождество) может носить искусственный — до определённой степени — характер. Связано это с тем, что именно исследователь по своему усмотрению начинает рассматривать некоторые фрагменты целого — например, нуклеотиды в молекуле нуклеиновой кислоты или символы в текстах того или иного естественного языка, записанные в алфавитной системе записи — как тождественные друг другу, не отличающиеся ничем, кроме своего положения в рассматриваемом объекте — в символьной последовательности.[1,2,3] Биологические макромолекулы играют ключевую роль во многих процессах, протекающих в живых организмах. С момента установления Дж.Уотсоном и Ф.Криком первичной структуры нуклеиновых кислот не прекращается поток исследований, посвященных выяснению роли и места информации, содержащейся в этих молекулах. Изучение структуры, а также функциональных, химических, физико-химических и проч. свойств нуклеиновых кислот активно ведется специалистами в различных областях, и одним из важных направлений является изучение нуклеиновых кислот как символьных последовательностей. В настоящей работе предполагается исследовать лишь те свойства нуклеиновых кислот, которые определяются только взаимным расположением нуклеотидов друг относительно друга в одной изучаемой молекуле; никакие другие факторы — физико-химическое окружение, особенности состава нуклеотидов и т.п. — не рассматриваются. 1 Актуальность проблемы Даже самый поверхностный взгляд на последовательности ДНК позволяет смело утверждать, что в этих последовательностях содержится большое количество самых разных структур, часть из которых имеет прямое отношение к жизни клетки, а часть является (математическим) следствием комбинаторных ограничений на возможные комбинации нуклеотидов. Задача систематического анализа такого рода структур зачастую осложняется тем, что многие из них ещё не выявлены, либо выявлены не полностью, в совокупности с другими структурами, что приводит к их интереференции и затрудняет анализ. 2 Материалы и методы В настоящей работе представлены результаты поиска и описания структуры в ДНК, определяемой взаимным расположением триплетов (не кодонов). В исследованиях такого рода всегда встаёт проблема выбора опорной последовательности, т.е. такой последовательности, которую следует считать точкой отсчёта и которая является тем объектом, с которым сравниваются результаты, полученные на реальных генетических последовательностях. В нашем случае такой опорной последовательностью была так называемая эталонная последовательность — случайная нескоррелированная последовательность, созданная с помощью бернуллиевского потока из того же алфавита, той же длины и с тем же составом нуклеотидов, для неё также проводился вычислительный эксперимент по определению функции распределения до ближайшего соседа. Теоретическая оценка поведения функции (1) представляется достаточно трудоёмкой задачей, поэтому имитационный эксперимент здесь становится важным средством исследования распределения триплетов. Случайная нескоррелированная последовательность является весьма плохой моделью реальной нуклеотидной последовательности [4]; несмотря на это, она является базовой для нашего исследования — выделение «сигнала» следует проводить последовательно, продвигаясь от самых грубых 4 моделей последовательности к всё более точным, с тем, чтобы можно было выявить все эффекты упорядоченности в распределении триплетов вдоль последовательности. Кроме Бернуллиевских моделей, можно также использовать Марковские модели ГТ, однако эта задача выходит за рамки настоящей работы. Далее, после получения количественного распределения пар триплетов вдоль геномной последовательности, эти данные подвергались преобразованию Фурье. Дискретное преобразование Фурье (в англоязычной литературе DFT, Discrete Fourier Transform) — это одно из преобразований Фурье, широко применяемых в алгоритмах цифровой обработки сигналов (его модификации применяются в сжатии звука в MP3, сжатии изображений в JPEG и др.), а также в других областях, связанных с анализом частот в дискретном (к примеру, оцифрованном аналоговом) сигнале. Дискретное преобразование Фурье требует в качестве входа дискретную функцию. Такие функции часто создаются путём дискретизации (выборки значений из непрерывных функций). Дискретные преобразования Фурье помогают решать частные дифференциальные уравнения и выполнять такие операции, как свёртки. Дискретные преобразования Фурье также активно используются в статистике, при анализе временных рядов. Существуют многомерные дискретные преобразования Фурье.[5] Общий вид функции преобразования Фурье имеет вид: (1) 2.1 Прямое преобразование Фурье Прямое преобразование Фурье имеет вид: , где 5 (3) - количество значений сигнала, измеренных за период, а также количество компонент разложения; – измеренные значения сигнала (в дискретных временных точках с номерами , которые являются входными данными для прямого преобразования и выходными для обратного; – N комплексных амплитуд синусоидальных сигналов, слагающих исходный сигнал; являются выходными данными для прямого преобразования и входными для обратного; поскольку амплитуды комплексные, то по ним можно вычислить одновременно и амплитуду, и фазу; – индекс частоты. Частота k-го сигнала равна , где — период времени, в течение которого брались входные данные.[6] 2.2 Быстрое преобразование Фурье БПФ это алгоритм быстрого вычисления дискретного преобразования Фурье (ДПФ). То есть, алгоритм вычисления за количество действий, меньшее чем , требуемых для прямого (по формуле) вычисления ДПФ. Иногда под БПФ понимается один из быстрых алгоритмов, называемый алгоритмом прореживания по частоте/времени основанию 2, имеющего сложность или алгоритмом . Дискретное преобразование Фурье для вектора , состоящего из N элементов, имеет вид: элементы матрицы по имеют вид: Пусть N четно, тогда ДПФ можно переписать следующим образом: 6 Коэффициенты и можно переписать следующим образом (M=N/2): В результате получаем: (4) То есть дискретное преобразование Фурье от вектора, состоящего из N отсчетов, свелось к линейной композиции двух ДПФ от для первоначальной задачи требовалось композиции отсчетов, и если операций, то для полученной . Если M является степенью двух, то это разделение можно продолжать рекурсивно до тех пор, пока не дойдем до двухточечного преобразования Фурье.[7, 8] 7 Список литературы 1. Садовский М. Г. Информационно-статистический анализ нуклеотидных последовательностей // Дис. д-ра физ.-мат. Наук М. Г. Садовского : Красноярск, 2004 394 c. РГБ ОД, 71:05-1/208 2. C. A. Ouzounis and A. Valencia Early bioinformatics: the birth of a discipline— a personal view// Bioinformatics// Ouzounis C.A.// Oxford University Press –2003, 200319(17), pages 2176–2190 3. R. C. Guimaraes ,C. Moreira, T. de Farias A self-referential model for the formation of the genetic code// Theory Biosci// R.C.Guimaraes – 2008 127:249– 270. 4. M. G. Sadovsky, A. S. Shchepanovsky, Yu. A. Putintzeva. Genes, Information and Sense: Complexity and Knowledge Retrieval/ M. G. Sadovsky // Theory in Bio-sciences// Springer , 127:69–78, 2008. 5. Сергиенко А. Б.Цифровая обработка сигналов.— 2-е.— Спб: Питер, 2006.— С.751. 6. Grafakos, Loukas (2004), Classical and Modern Fourier Analysis, Prentice-Hall. 7. Александров А.А., Александров Н.Н., Бородовский М.Ю. и др. Компьютерный анализ генетических текстов. М.: Наука, 1990. 8. Bracewell, R. N. (2000), The Fourier Transform and Its Applications (3rd ed.), Boston: McGraw-Hill, ISBN 0-07-116043-4. 8