Описание различных вариантов поиска гомологов и идентичных

реклама
Описание различных вариантов поиска гомологов и идентичных
последовательностей
(занятия 7 и 8).

Поиск гомологов белка AQPZ_ECOLI в геноме бактерии Pasteurella multocida посредством
программы TBLASTN:
использованные команды UNIX:
 formatdb – создание индексного файла для программы BLAST;
параметры: -i – входной файл, -p – тип последовательности во входном
файле (значение F – нуклеотидная), -n – базовое имя индексных файлов;
 blastall – вызов пакета программ BLAST;
параметры: -p – выбор версии BLAST (необходимое значение tblastn),
-i – файл исследуемой последовательности, -d – базовое имя индексных
файлов, -o – выходной файл, -e – максимальное значение e-value.
AC записи базы данных EMBL соответствующей лучшему найденному гомологу – AE006181;
координаты выравнивания в записи: 1345 – 1593;
соответствующий CDS в записи проаннотирован,
его координаты: 1345 – 2133,
AC соответствующего белка в UniProt: Q9CL03;
e-value находки: 1e-06; других гомологов с e-value < 0,01 нет (ближайший – 1,3).

Поиск гомологов белка AQPZ_ECOLI в геномах трех бактерий (Pasteurella multocida, Pseudomonas
aeruginosa и Vibrio cholerae) программой TBLASTN:
использованные команды UNIX:
 formatdb – создание индексного файла для программы BLAST;
для задания сразу трех входных файлов была использована возможность
оператора командной строки bash задавать текстовые переменные;
 blastall – вызов пакета программ BLAST;
параметры: вышеописанные.
e-value прошлой находки несколько увеличился, теперь он составляет 6e-06, что, очевидно, связано
с увеличением объема БД, по которой производился поиск;
всего было найдено 3 гомолога с e-value < 0,01.

Поиск гомологов белка AQPZ_ECOLI в геномах трех бактерий программой BLASTN:
использованные команды UNIX:
 blastall – вызов пакета программ BLAST;
параметры: вышеописанные, значение параметра –p – blastn
BLASTN нашел единственного гомолога с e-value: 5e-07, при этом AC этого хита совпадает с AC
лучшего хита, найденного в трех геномах программой TBLASTN, несмотря на то, что
выравнивание BLASTN довольно короткое: ~100 нуклеотидов.

Поиск гомологов белка AQPZ_ECOLI в геноме бактерии Pseudomonas aeruginosa программой
Fasta34:
использованные команды UNIX:
 fasta34 – вызов программы Fasta34;
необходимые параметры были введены в диалоговом режиме, значение
параметра ktup было оставлено по умолчанию (=6).
e-value лучшей находки составляет 2,7e-66, при этом AC соответствующей записи EMBL
(AE004820) совпадает с лучшим хитом, найденным программой TBLASTN в данном геноме, хотя
координаты выравнивания несколько шире: в выравнивании TBLASTN – 4239-4928, а в
произведенном Fasta34: 4220-4990 при этом . Скорее всего это связано с тем что программы пакета
BLAST отображая выравнивание обрезают последовательность найденного хита по длине
анализируемой, а Fasta34 показывает найденный хит полностью, по какому-то своему алгоритму,
определяя его начало и конец.

Поиск идентичной последовательности программой Megablast, а также изучение влияния числа и
характера замен в вводимой последовательности на результаты поиска:
использованные команды UNIX:
 megablast – вызов программы Megablast;
параметры: -i – файл исследуемой последовательности, -d – базовое
имя индексных файлов, -o – выходной файл, -D – формат файла выдачи
(значение 2 – стандартная выдача BLAST).
Исходная последовательность:
(первые 100 нуклеотидов фрагмента AE004440 генома Pseudomonas aeruginosa):
tttaaagagaccggcgattctagtgaaatcgaacgggcaggtcaatttccaaccagcgatgacgtaatagatagatacaaggaagtcatttttcttttaa
Измененная последовательность (заменен каждый 28 нуклеотид, всего замен - 3:
tttaaagagaccggcgattctagtgaattcgaacgggcaggtcaatttccaaccatcgatgacgtaatagatagatacaaggatgtcatttttcttttaa
Megablast не находит измененную последовательность т.к. длина слова (фрагмента базового
выравнивания, при полном совпадении которого последовательность рассматривается как
потенциальный хит) в нем составляет 28 пар нуклеотидов, соответственно, при замене каждого 28ого нуклеотида исходная последовательность не рассматривается как возможный хит для
измененной и отбрасывается в процессе поиска.
Скачать