Программа прямого обобщенного докинга FLM: валидация и исследование спектра энергетических минимумов комплексов белок-лиганд И.В. Оферкин, Е.В. Каткова, А.В. Сулимов, В.Б. Сулимов f Dimonta, Ltd and Research Computing Center of Lomonosov Moscow State University 2 Действие лекарства Болезнь Белок Вируса Белок Человека Белок Активный Центр Белка Блокировка работы активного центра 10.03.2010 В.А.Садовничий, В.Б.Сулимов, НИВЦ МГУ Органическая молекула - ингибитор 2 3 Работа фермента Enzyme скорость реакции Substrate концентрация субстрата 𝜐𝑚𝑎𝑥 [𝑆] 𝜐= 𝐾𝑚 + [𝑆] константа Михаэлиса (Белок Человека Белок Вируса) ES Product 4 Работа фермента в присутствии ингибитора: competitive inhibition Inhibitor 𝐾𝑖 = 𝐸 [𝐼] [𝐸𝐼] 𝜐= 𝐾𝑚 𝜐𝑚𝑎𝑥 [𝑆] [𝑰] 𝟏+ + [𝑆] 𝑲𝒊 [E] - концентрация свободного фермента [I] - концентрация свободного ингибитора [EI] - концентрация заингибированного фермента 5 Для многих болезней известны белки-мишени, блокирование работы которых лечит болезнь Блокирование работы белка осуществляется молекулами – ингибиторами $500 M Основа нового лекарства – новые ингибиторы Активный Центр Белка-Мишени 15 Лет! 50% времени затрачивается на разработку ингибиторов: экспериментально методом проб и ошибок Ингибитор Белок Суперкомпьютеры ускоряют разработку ингибиторов 10.03.2010 В.А.Садовничий, В.Б.Сулимов, НИВЦ МГУ 5 6 Стадии разработки нового лекарства Ключевой Самый дешевый этап Начальный этап Разработка базового соединения Lead compound Доклинические испытания базового соединения на животных Клинические испытания на людях 10-15 лет 10.03.2010 $ 500 000 000 В.А.Садовничий, В.Б.Сулимов, НИВЦ МГУ 6 7 Молекулярное Моделирование Помогает быстрее и дешевле выполнять начальную стадию разработки Докинг, скоринг и скрининг – основа конструирования лекарств • Докинг – позиционирование лиганда в активном центре белка • Скоринг – оценка энергии связывания лиганда с белком • Скрининг – перебор больших баз данных молекул с целью поиска кандидатов в ингибиторы – нужны суперкомпьютеры 10.03.2010 В.А.Садовничий, В.Б.Сулимов, НИВЦ МГУ 7 8 Влияние ингибитора на скорость реакции 𝜐= 𝐾𝑚 𝜐𝑚𝑎𝑥 [𝑆] [𝑰] 𝟏+ + [𝑆] 𝑲𝒊 1) 𝐼 = 0 2) 𝐼 = 𝐾𝑖 3) 𝐼 = 3𝐾𝑖 𝜐 0 [𝑆] 9 Задача: найти ингибитор с низкой Ki [𝐸][𝐼] 𝐾𝑖 = [𝐸𝐼] константа ингибирования свободная энергия связывания белка с ингибитором 𝑅𝑇 ∗ 𝐿𝑛 𝐾𝑖 = ∆𝐺 = 𝐺𝐸𝐼 − 𝐺𝐸 − 𝐺𝐼 газовая постоянная (8.31 Дж/К*моль) энтальпия температура (310 К) энтропия 𝐺 = 𝐻 − 𝑇𝑆 ΔG = -10 ккал/моль лучше, чем ΔG = -5 ккал/моль 10 Движение лиганда в белке-мишени 𝐺 = −𝑅𝑇 ∗ 𝐿𝑛(𝑍) 1 Z (2) 3n (U W ) / kT e dx1 ...dx3n dp1 ...dp3n статистическая сумма (configuration integral) 11 Вычисление ΔG [1] • Белок состоит из 103-104 атомов, лиганд из 101-102 атомов • Точность вычисления ΔG должна быть лучше, чем 1 ккал/моль = 0.04 эВ • Она не достигнута в существующих программах докинга • Многие программы докинга используют подгоночные коэффициенты в функции скоринга • Хорошие результаты получаются только для определенных белков и лигандов, но не для произвольно взятого белка и лиганда • Правильное позиционирование лиганда еще не означает правильное вычисление ΔG 12 Вычисление ΔG [2] • Обычно используется силовое поле, которое плохо описывает межмолекулярные взаимодействия, в частности, водородные связи • Взаимодействие с растворителем не описывается или описывается весьма грубо, в то время как оно весьма существенно: ε=78.5 • Находится только одно положение связывания лиганда • Сложно учесть подвижность не только атомов лиганда, но и атомов белка, хотя бы водородов белка в активном центре • Должен производиться поиск минимума(ов) и комплекса лиганд-белок, и свободного белка, и свободного лиганда В программах докинга слишком много разных допущений и приближений, возможно, компенсирующих друг друга 13 SOL: программа классического докинга расчет свободной энергии торсионно подвижный лиганд <-- поиск потенциальной энергии глобального минимума силовое поле MMFF94 жесткий белок, представленный сеткой потенциалов Силовое поле MMFF94 14 E(r1, ..., rN) = [valence interactions] + [nonvalence interactions] EBij + EAijk + EBAijk + ETijkl + EOOPijkl EQij + EvdWij r1 r2 EBij = Aij*Δrij2 + Bij*Δrij3 + Cij*Δrij4 r3 Δrij EAijk = Aijk*αijk2 + Bijk*αijk3 αijk EQij = Aqiqj/(Δrij+0.05) Δrij 15 Ограничения SOL 1. расчет потенциальной энергии вместо свободной 2. использование сетки потенциалов 3. очень упрощенная модель растворителя 4. упрощенная MMFF-типизация 5. учет энтропии через число торсионов, что неправильно [Chang, C.A.; Chen, W.; Gilson, M.K. Ligand configurational entropy and protein binding. PNAS, 2007, 104, 1534-1539] 16 CSAR benchmark 2012 17 𝐺 = −𝑅𝑇 ∗ 𝐿𝑛(𝑍) 1 Z (2) 3n (U W ) / kT e dx1 ...dx3n dp1 ...dp3n Аппроксимация U(x) независимыми гармоническими ямами 18 G = -kT*ln(Z) Z = Z 1 + Z2 Zi j i / 2 kT i e e * E0 kT j j i / kT 1 e 19 1C5Y Q=+1 NA=20 NT=2 1SQO Q=+1 NA=34 NT=4 1VJA Q=+1 NA=61 NT=17 22 комплекса для тестирования FLM - 4 complexes of CHK1 (4FT0, 4FT9, 4FSW, 4FTA); - 2 complexes of ERK2 (4FV5, 4FV6); - 3 complexes of PIN1 (3IKD, 3IKG, 3JYJ); - 3 complexes of RNase A (3D6O, 3D6P, 3D8Z); - 2 complexes of thrombin (1DWC, 1TOM); - 6 complexes of urokinase (1C5Y, 1F5L, 1O3P, 1SQO, 1VJ9, 1VJA); - 2 complexes of factor Xa (2P94, 3CEN). 20 22 комплекса для тестирования FLM экспериментально известно положение связывания лиганда (нативное положение лиганда) константа ингибирования Ki ∆𝐺 = 𝑅𝑇 ∗ 𝐿𝑛 𝐾𝑖 Корреляция теоретических энергий связывания с логарифмом констант ингибирования Геометрическая близость (RMSD) к нативному положению 21 Программа FLM [1] Выбор системы: комплекс, свободный белок или свободный лиганд Анализ торсионных и декартовых степеней свободы Задание случайных начальных конфигураций в торсионах (~108) c1 c2 c3 c4 c5 Локальная оптимизация LBFGS в декартовых (~106) m1 m2 m3 m4 Проверка на совпадение m1 m2 (всего ~103) Пересчет пот. энергии с растворителем, расчет частот, Gi, Hi, TSi 22 Программа FLM [2] 23 Программа FLM [3] • силовое поле MMFF94 • отсутствует учет растворителя • задание начального положения лиганда - в торсионных координатах • локальная оптимизация начального положения лиганда - в декартовых координатах - методом L-BFGS: квазиньютоновский градиентный метод, критерий остановки - неубывание энергии вдоль градиента на шаге > 10-5 Å 24 Быстродействие FLM Докинг 1 комплекса 25 000 CPU*hours 3*106 пробных оптимизаций 1C5Y (NA = 20, NT = 2) 9*105 пробных оптимизаций 3*105 пробных оптимизаций 1VJ9 (NA = 74, NT = 19) 3*105 пробных оптимизаций Докинг 1 свободного лиганда 100 CPU*hours Всего затрачено на 22 комплекса ~500 000 CPU*hours Эффективность на 8192 ядрах ~90% Одна пробная оптимизация лиганда в комплексе: 1-10 минут Сравнимо с single point MOPAC-расчетом или mcbhSOLV-расчетом 25 Быстродействие MOPAC Быстродействие MOPAC in vacuo [PM7 MOZYME] свободный лиганд оптимизация свободный белок single point комплекс оптимизация по лиганду 1C5Y 4 sec 14 min 7 hours 1VJ9 2 min 12 min 8 hours 26 Пример нижних мод 1sqo в двух минимумах ω102 = 4.7*1012 Hz, ω102 = 3.3*1012 Hz 27 Пример результатов FLM для урокиназы 1vja 28 22 комплекса - "8" хороших и "14" плохих Protein-ligand complex Protein CHK1 ERK2 PIN1 RNase A thrombin urokinase factor Xa PDBID ∆E, kcal/mol NN ENN-E1, kcal/mol 4FT0 4FT9 4FSW 4FTA 4FV5 4FV6 3IKD 3IKG 3JYJ 3D6O 3D6P 3D8Z 1DWC 1TOM 1C5Y 1F5L 1O3P 1SQO 1VJ9 1VJA 2P94 3CEN 70.5 44.7 264 69.7 39.8 15.8 16.5 15.9 15.1 25.2 25.9 44.8 27.0 15.3 670 76.3 20.8 99.2 14.2 11.3 20.3 20.2 38 30 7 Ø 419 Ø 9 29 Ø Ø Ø Ø 958 Ø 1 1 45 1 1 7 3 1 24.8 15.1 14.8 Ø 33.0 Ø 2.08 6.72 Ø Ø Ø Ø 26.4 Ø 0.00 0.00 5.09 0.00 0.00 1.18 0.92 0.00 Free ligand Eopt.nat.∆E, E1, kcal/mol kcal/mol 29.5 18.3 15.4 91.2 36.6 19.3 2.25 19.4 15.2 49.2 30.9 55.6 41.5 62.3 0.00 0.00 5.20 0.08 6.60 4.66 9.55 14.0 1.08 28.2 0.00 17.4 14.8 5.07 20.3 18.8 13.3 33.7 34.3 33.4 12.8 9.76 0.00 20.4 20.6 2.96 4.87 6.30 15.1 17.4 Nminima 32 25 1 56 > 1024 > 1024 > 1024 > 1024 > 1024 197 121 122 > 1024 > 1024 4 10 104 32 > 1024 > 1024 > 1024 > 1024 29 Пример результатов FLM для урокиназы 1vja ~4*105 пробных оптимизаций, ~3*104 CPU-часов E G -275.046 -275.052 -272.593 -272.597 -274.507 -273.159 -273.164 -272.248 -273.446 -272.245 H -19.4813 -19.444 -18.5788 -18.5334 -18.4823 -18.4117 -18.3745 -17.679 -17.6338 -17.6104 TS 60.22173 79.70305 60.21667 79.66067 62.55772 81.13655 62.5546 81.08802 60.87013 79.35244 62.10252 80.51422 62.09804 80.47256 62.82974 80.50879 62.02548 79.6593 62.83353 80.44392 30 Результаты FLM для урокиназы и фактора Xa (6+2) расчет (сравнение с экспериментом) эксперимент 31 MMFF94, PM7, PM7 COSMO сравнение с экспериментом 32 MMFF94, PM7, PM7 COSMO энергии минимумов 4FT0 MMFF94 PM7 PM7 COSMO 33 Выводы [1] 1. Получен валидационный набор минимумов 2. Нативное положение может быть далеко от глобального минимума (как по RMSD, так и по энергии) 3. Парадигма докинга неточна: глобальный минимум энергии может лежать далеко от нативного положения 4. Основную роль играет потенциальная энергия глобального минимума 34 Выводы [2] 1. Теоретические энергии связывания на порядок превосходят экспериментальные 2. Диапазон изменений PM7 COSMO энергий связывания существенно меньше, чем у MMFF94 и PM7 энергий 3. PM7 COSMO чаще получает близкое к нативному положению в глобальном минимуме 4. Изменение способа расчета энергии существенно переупорядочивает минимумы 35 Перспективы развития • Уточнение расчета потенциальной энергии • Учет растворителя (PCM) • Ускорение PCM-расчетов (MCBHSOLV) • Более адекватное силовое поле • Квантово-химические расчеты межмолекулярного взаимодействия • Учет подвижности белка • Учет ангармонизма колебаний? • Ускорение вычислений (требуется по крайней мере в 1000 раз): – Более направленный, чем Монте-Карло, алгоритм поиска низкоэнергетичных минимумов (TTDOCK?) – Неполная оптимизация – Иерархический расчет энергий (MMFF94 -> PCM -> PM7) Спасибо за внимание