Описание различных вариантов поиска гомологов и идентичных последовательностей (занятия 7 и 8). Поиск гомологов белка AQPZ_ECOLI в геноме бактерии Pasteurella multocida посредством программы TBLASTN: использованные команды UNIX: formatdb – создание индексного файла для программы BLAST; параметры: -i – входной файл, -p – тип последовательности во входном файле (значение F – нуклеотидная), -n – базовое имя индексных файлов; blastall – вызов пакета программ BLAST; параметры: -p – выбор версии BLAST (необходимое значение tblastn), -i – файл исследуемой последовательности, -d – базовое имя индексных файлов, -o – выходной файл, -e – максимальное значение e-value. AC записи базы данных EMBL соответствующей лучшему найденному гомологу – AE006181; координаты выравнивания в записи: 1345 – 1593; соответствующий CDS в записи проаннотирован, его координаты: 1345 – 2133, AC соответствующего белка в UniProt: Q9CL03; e-value находки: 1e-06; других гомологов с e-value < 0,01 нет (ближайший – 1,3). Поиск гомологов белка AQPZ_ECOLI в геномах трех бактерий (Pasteurella multocida, Pseudomonas aeruginosa и Vibrio cholerae) программой TBLASTN: использованные команды UNIX: formatdb – создание индексного файла для программы BLAST; для задания сразу трех входных файлов была использована возможность оператора командной строки bash задавать текстовые переменные; blastall – вызов пакета программ BLAST; параметры: вышеописанные. e-value прошлой находки несколько увеличился, теперь он составляет 6e-06, что, очевидно, связано с увеличением объема БД, по которой производился поиск; всего было найдено 3 гомолога с e-value < 0,01. Поиск гомологов белка AQPZ_ECOLI в геномах трех бактерий программой BLASTN: использованные команды UNIX: blastall – вызов пакета программ BLAST; параметры: вышеописанные, значение параметра –p – blastn BLASTN нашел единственного гомолога с e-value: 5e-07, при этом AC этого хита совпадает с AC лучшего хита, найденного в трех геномах программой TBLASTN, несмотря на то, что выравнивание BLASTN довольно короткое: ~100 нуклеотидов. Поиск гомологов белка AQPZ_ECOLI в геноме бактерии Pseudomonas aeruginosa программой Fasta34: использованные команды UNIX: fasta34 – вызов программы Fasta34; необходимые параметры были введены в диалоговом режиме, значение параметра ktup было оставлено по умолчанию (=6). e-value лучшей находки составляет 2,7e-66, при этом AC соответствующей записи EMBL (AE004820) совпадает с лучшим хитом, найденным программой TBLASTN в данном геноме, хотя координаты выравнивания несколько шире: в выравнивании TBLASTN – 4239-4928, а в произведенном Fasta34: 4220-4990 при этом . Скорее всего это связано с тем что программы пакета BLAST отображая выравнивание обрезают последовательность найденного хита по длине анализируемой, а Fasta34 показывает найденный хит полностью, по какому-то своему алгоритму, определяя его начало и конец. Поиск идентичной последовательности программой Megablast, а также изучение влияния числа и характера замен в вводимой последовательности на результаты поиска: использованные команды UNIX: megablast – вызов программы Megablast; параметры: -i – файл исследуемой последовательности, -d – базовое имя индексных файлов, -o – выходной файл, -D – формат файла выдачи (значение 2 – стандартная выдача BLAST). Исходная последовательность: (первые 100 нуклеотидов фрагмента AE004440 генома Pseudomonas aeruginosa): tttaaagagaccggcgattctagtgaaatcgaacgggcaggtcaatttccaaccagcgatgacgtaatagatagatacaaggaagtcatttttcttttaa Измененная последовательность (заменен каждый 28 нуклеотид, всего замен - 3: tttaaagagaccggcgattctagtgaattcgaacgggcaggtcaatttccaaccatcgatgacgtaatagatagatacaaggatgtcatttttcttttaa Megablast не находит измененную последовательность т.к. длина слова (фрагмента базового выравнивания, при полном совпадении которого последовательность рассматривается как потенциальный хит) в нем составляет 28 пар нуклеотидов, соответственно, при замене каждого 28ого нуклеотида исходная последовательность не рассматривается как возможный хит для измененной и отбрасывается в процессе поиска.