Программа прямого обобщенного докинга FLM: валидация и исследование спектра энергетических минимумов комплексов

реклама
Программа прямого обобщенного докинга
FLM: валидация и исследование спектра
энергетических минимумов комплексов
белок-лиганд
И.В. Оферкин, Е.В. Каткова, А.В. Сулимов, В.Б. Сулимов
f
Dimonta, Ltd and Research Computing Center of Lomonosov
Moscow State University
2
Действие лекарства
Болезнь
Белок Вируса
Белок Человека
Белок
Активный Центр Белка
Блокировка
работы
активного
центра
10.03.2010
В.А.Садовничий, В.Б.Сулимов, НИВЦ МГУ
Органическая
молекула -
ингибитор
2
3 Работа фермента
Enzyme
скорость реакции
Substrate
концентрация субстрата
𝜐𝑚𝑎𝑥 [𝑆]
𝜐=
𝐾𝑚 + [𝑆]
константа Михаэлиса
(Белок Человека Белок Вируса)
ES
Product
4
Работа фермента в присутствии ингибитора:
competitive inhibition
Inhibitor
𝐾𝑖 =
𝐸 [𝐼]
[𝐸𝐼]
𝜐=
𝐾𝑚
𝜐𝑚𝑎𝑥 [𝑆]
[𝑰]
𝟏+
+ [𝑆]
𝑲𝒊
[E] - концентрация свободного
фермента
[I] - концентрация свободного
ингибитора
[EI] - концентрация
заингибированного фермента
5
Для многих болезней известны белки-мишени, блокирование работы
которых лечит болезнь
Блокирование работы белка осуществляется молекулами –
ингибиторами
$500 M
Основа нового лекарства – новые ингибиторы
Активный Центр Белка-Мишени
15 Лет!
50% времени
затрачивается
на разработку
ингибиторов:
экспериментально
методом проб и
ошибок
Ингибитор
Белок
Суперкомпьютеры ускоряют разработку ингибиторов
10.03.2010
В.А.Садовничий, В.Б.Сулимов, НИВЦ МГУ
5
6
Стадии разработки нового лекарства
Ключевой Самый
дешевый этап
Начальный этап
Разработка базового соединения
Lead compound
Доклинические испытания базового соединения на животных
Клинические испытания на людях
10-15 лет
10.03.2010
$ 500 000 000
В.А.Садовничий, В.Б.Сулимов, НИВЦ МГУ
6
7
Молекулярное Моделирование
Помогает быстрее и дешевле
выполнять начальную стадию разработки
Докинг, скоринг и скрининг – основа
конструирования лекарств
• Докинг – позиционирование лиганда в активном
центре белка
• Скоринг – оценка энергии связывания лиганда с белком
• Скрининг – перебор больших баз данных молекул с
целью поиска кандидатов в ингибиторы – нужны
суперкомпьютеры
10.03.2010
В.А.Садовничий, В.Б.Сулимов, НИВЦ МГУ
7
8
Влияние ингибитора на скорость реакции
𝜐=
𝐾𝑚
𝜐𝑚𝑎𝑥 [𝑆]
[𝑰]
𝟏+
+ [𝑆]
𝑲𝒊
1) 𝐼 = 0
2) 𝐼 = 𝐾𝑖
3) 𝐼 = 3𝐾𝑖
𝜐
0
[𝑆]
9
Задача: найти ингибитор с низкой Ki
[𝐸][𝐼]
𝐾𝑖 =
[𝐸𝐼]
константа
ингибирования
свободная энергия
связывания белка с
ингибитором
𝑅𝑇 ∗ 𝐿𝑛 𝐾𝑖 = ∆𝐺 = 𝐺𝐸𝐼 − 𝐺𝐸 − 𝐺𝐼
газовая постоянная
(8.31 Дж/К*моль)
энтальпия
температура
(310 К)
энтропия
𝐺 = 𝐻 − 𝑇𝑆
ΔG = -10 ккал/моль лучше, чем ΔG = -5 ккал/моль
10
Движение лиганда в белке-мишени
𝐺 = −𝑅𝑇 ∗ 𝐿𝑛(𝑍)
1
Z
(2) 3n
(U W ) / kT
e
dx1 ...dx3n dp1 ...dp3n
статистическая сумма (configuration integral)
11
Вычисление ΔG [1]
• Белок состоит из 103-104 атомов, лиганд из 101-102 атомов
• Точность вычисления ΔG должна быть лучше, чем 1
ккал/моль = 0.04 эВ
• Она не достигнута в существующих программах докинга
• Многие программы докинга используют подгоночные коэффициенты в
функции скоринга
• Хорошие результаты получаются только для определенных белков и лигандов,
но не для произвольно взятого белка и лиганда
• Правильное позиционирование лиганда еще не означает правильное
вычисление ΔG
12
Вычисление ΔG [2]
• Обычно используется силовое поле, которое плохо описывает
межмолекулярные взаимодействия, в частности, водородные связи
• Взаимодействие с растворителем не описывается или описывается весьма
грубо, в то время как оно весьма существенно: ε=78.5
• Находится только одно положение связывания лиганда
• Сложно учесть подвижность не только атомов лиганда, но и атомов белка, хотя
бы водородов белка в активном центре
• Должен производиться поиск минимума(ов) и комплекса лиганд-белок, и
свободного белка, и свободного лиганда
В программах докинга слишком много разных допущений и приближений,
возможно, компенсирующих друг друга
13 SOL: программа классического докинга
расчет свободной энергии
торсионно подвижный
лиганд
<--
поиск потенциальной
энергии глобального
минимума
силовое поле MMFF94
жесткий белок,
представленный
сеткой потенциалов
Силовое поле MMFF94
14
E(r1, ..., rN) = [valence interactions] + [nonvalence interactions]
EBij + EAijk + EBAijk + ETijkl + EOOPijkl
EQij + EvdWij
r1
r2
EBij =
Aij*Δrij2 +
Bij*Δrij3 +
Cij*Δrij4
r3
Δrij
EAijk =
Aijk*αijk2 +
Bijk*αijk3
αijk
EQij = Aqiqj/(Δrij+0.05)
Δrij
15
Ограничения SOL
1. расчет потенциальной энергии вместо свободной
2. использование сетки потенциалов
3. очень упрощенная модель растворителя
4. упрощенная MMFF-типизация
5. учет энтропии через число торсионов, что неправильно
[Chang, C.A.; Chen, W.; Gilson, M.K. Ligand configurational
entropy and protein binding. PNAS, 2007, 104, 1534-1539]
16
CSAR benchmark 2012
17 𝐺 = −𝑅𝑇 ∗ 𝐿𝑛(𝑍)
1
Z
(2) 3n
(U W ) / kT
e
dx1 ...dx3n dp1 ...dp3n
Аппроксимация U(x) независимыми
гармоническими ямами
18
G = -kT*ln(Z)
Z = Z 1 + Z2
Zi
  j i / 2 kT
i
e
 e *

E0
kT
j
  j i / kT
1 e
19
1C5Y
Q=+1
NA=20
NT=2
1SQO
Q=+1
NA=34
NT=4
1VJA
Q=+1
NA=61
NT=17
22 комплекса для тестирования FLM
- 4 complexes of CHK1 (4FT0, 4FT9,
4FSW, 4FTA);
- 2 complexes of ERK2 (4FV5, 4FV6);
- 3 complexes of PIN1 (3IKD, 3IKG, 3JYJ);
- 3 complexes of RNase A (3D6O, 3D6P,
3D8Z);
- 2 complexes of thrombin (1DWC,
1TOM);
- 6 complexes of urokinase (1C5Y, 1F5L,
1O3P, 1SQO, 1VJ9, 1VJA);
- 2 complexes of factor Xa (2P94, 3CEN).
20
22 комплекса для тестирования FLM
экспериментально известно
положение связывания лиганда
(нативное положение лиганда)
константа ингибирования Ki
∆𝐺 = 𝑅𝑇 ∗ 𝐿𝑛 𝐾𝑖
Корреляция теоретических
энергий связывания с
логарифмом констант
ингибирования
Геометрическая
близость (RMSD) к
нативному положению
21
Программа FLM [1]
Выбор системы: комплекс, свободный белок или свободный лиганд
Анализ торсионных и декартовых степеней свободы
Задание случайных начальных конфигураций в торсионах (~108)
c1
c2
c3
c4
c5
Локальная оптимизация LBFGS в декартовых (~106)
m1
m2
m3
m4
Проверка на совпадение
m1
m2
(всего ~103)
Пересчет пот. энергии с растворителем, расчет частот, Gi, Hi, TSi
22
Программа FLM [2]
23
Программа FLM [3]
• силовое поле MMFF94
• отсутствует учет растворителя
• задание начального положения лиганда - в торсионных
координатах
• локальная оптимизация начального положения лиганда - в
декартовых координатах - методом L-BFGS: квазиньютоновский
градиентный метод, критерий остановки - неубывание энергии
вдоль градиента на шаге > 10-5 Å
24
Быстродействие FLM
Докинг 1 комплекса 25 000 CPU*hours
3*106 пробных оптимизаций
1C5Y (NA = 20, NT = 2)
9*105 пробных оптимизаций
3*105 пробных оптимизаций
1VJ9 (NA = 74, NT = 19)
3*105 пробных оптимизаций
Докинг 1 свободного лиганда 100 CPU*hours
Всего затрачено на 22 комплекса ~500 000 CPU*hours
Эффективность на 8192 ядрах ~90%
Одна пробная оптимизация лиганда в комплексе: 1-10 минут
Сравнимо с single point MOPAC-расчетом или mcbhSOLV-расчетом
25
Быстродействие MOPAC
Быстродействие MOPAC in vacuo [PM7 MOZYME]
свободный лиганд оптимизация
свободный белок single point
комплекс оптимизация по лиганду
1C5Y
4 sec
14 min
7 hours
1VJ9
2 min
12 min
8 hours
26
Пример нижних мод 1sqo в двух
минимумах
ω102 = 4.7*1012 Hz, ω102 = 3.3*1012 Hz
27
Пример результатов FLM для урокиназы 1vja
28
22 комплекса - "8" хороших и "14" плохих
Protein-ligand complex
Protein
CHK1
ERK2
PIN1
RNase A
thrombin
urokinase
factor Xa
PDBID
∆E,
kcal/mol
NN
ENN-E1,
kcal/mol
4FT0
4FT9
4FSW
4FTA
4FV5
4FV6
3IKD
3IKG
3JYJ
3D6O
3D6P
3D8Z
1DWC
1TOM
1C5Y
1F5L
1O3P
1SQO
1VJ9
1VJA
2P94
3CEN
70.5
44.7
264
69.7
39.8
15.8
16.5
15.9
15.1
25.2
25.9
44.8
27.0
15.3
670
76.3
20.8
99.2
14.2
11.3
20.3
20.2
38
30
7
Ø
419
Ø
9
29
Ø
Ø
Ø
Ø
958
Ø
1
1
45
1
1
7
3
1
24.8
15.1
14.8
Ø
33.0
Ø
2.08
6.72
Ø
Ø
Ø
Ø
26.4
Ø
0.00
0.00
5.09
0.00
0.00
1.18
0.92
0.00
Free ligand
Eopt.nat.∆E,
E1,
kcal/mol
kcal/mol
29.5
18.3
15.4
91.2
36.6
19.3
2.25
19.4
15.2
49.2
30.9
55.6
41.5
62.3
0.00
0.00
5.20
0.08
6.60
4.66
9.55
14.0
1.08
28.2
0.00
17.4
14.8
5.07
20.3
18.8
13.3
33.7
34.3
33.4
12.8
9.76
0.00
20.4
20.6
2.96
4.87
6.30
15.1
17.4
Nminima
32
25
1
56
> 1024
> 1024
> 1024
> 1024
> 1024
197
121
122
> 1024
> 1024
4
10
104
32
> 1024
> 1024
> 1024
> 1024
29
Пример результатов FLM для урокиназы 1vja
~4*105 пробных оптимизаций,
~3*104 CPU-часов
E
G
-275.046
-275.052
-272.593
-272.597
-274.507
-273.159
-273.164
-272.248
-273.446
-272.245
H
-19.4813
-19.444
-18.5788
-18.5334
-18.4823
-18.4117
-18.3745
-17.679
-17.6338
-17.6104
TS
60.22173 79.70305
60.21667 79.66067
62.55772 81.13655
62.5546 81.08802
60.87013 79.35244
62.10252 80.51422
62.09804 80.47256
62.82974 80.50879
62.02548 79.6593
62.83353 80.44392
30 Результаты FLM для урокиназы и фактора Xa (6+2)
расчет
(сравнение с экспериментом)
эксперимент
31
MMFF94, PM7, PM7 COSMO сравнение с
экспериментом
32 MMFF94, PM7, PM7 COSMO энергии минимумов 4FT0
MMFF94
PM7
PM7 COSMO
33
Выводы [1]
1. Получен валидационный набор минимумов
2. Нативное положение может быть далеко от
глобального минимума (как по RMSD, так и по энергии)
3. Парадигма докинга неточна: глобальный минимум
энергии может лежать далеко от нативного положения
4. Основную роль играет потенциальная энергия
глобального минимума
34
Выводы [2]
1. Теоретические энергии связывания на порядок
превосходят экспериментальные
2. Диапазон изменений PM7 COSMO энергий связывания
существенно меньше, чем у MMFF94 и PM7 энергий
3. PM7 COSMO чаще получает близкое к нативному
положению в глобальном минимуме
4. Изменение способа расчета энергии существенно
переупорядочивает минимумы
35
Перспективы развития
• Уточнение расчета потенциальной энергии
• Учет растворителя (PCM)
• Ускорение PCM-расчетов (MCBHSOLV)
• Более адекватное силовое поле
• Квантово-химические расчеты межмолекулярного
взаимодействия
• Учет подвижности белка
• Учет ангармонизма колебаний?
• Ускорение вычислений (требуется по крайней мере в
1000 раз):
– Более направленный, чем Монте-Карло, алгоритм поиска
низкоэнергетичных минимумов (TTDOCK?)
– Неполная оптимизация
– Иерархический расчет энергий (MMFF94 -> PCM -> PM7)
Спасибо за внимание
Скачать