Комбинаторный анализ эффектов взаимодействия множественных факторов с приложением в генетике Скурат Евгения Петровна, гр. 522 Санкт-Петербургский государственный университет Математико-механический факультет Кафедра статистического моделирования Научный руководитель: к.ф.-м.н., доц. Алексеева Н.П. Рецензент: мл. научн. сотр. Ананьевская П.В. Санкт-Петербург 2013г. 1/17 Скурат Евгения Петровна, гр. 522 Комбинаторый анализ взаимодействия факторов Цель и методы решения Цель Решение некоторых актуальных задач, связанных с разработкой конечно-линейного подхода анализа категориальных данных, и его апробация на примере исследования эффектов взаимодействия генетических факторов Основные обозначения Случайный вектор X = (X1 , . . . , Xm )T со значениями в (Fq , 2Fq ), заданный на (Ω, F, P) Матрица A = {aij } , 1 ≤ i ≤ k, 1 ≤ j ≤ m, задающая X̃ = AX = (Xτ1 , . . . , Xτk )T : Xτi = ai1 X1 + · · · + aim Xm над Fq Метод решения Описание эффектов взаимодействия факторов через линейные комбинации признаков над конечным полем Fq 2/17 Скурат Евгения Петровна, гр. 522 Комбинаторый анализ взаимодействия факторов Дискретная оптимизация в задаче классификации Вектор X = (X1 , . . . , Xm )T над (Fq , 2Fq ) и строка A = A(1, m), AX = a1 X1 + · · · + am Xm над Fq Поиск наилучшего предсказания конечной дискретной случайной величины Y по AX Мера отличия двух случайных величин ρ1 (AX, Y ) = min (1 − P(AX = f (Y ))) f :Fq →Fq Оптимизационная задача Поиск точки минимума функции σ(A) = ρ1 (AX, Y ) на множестве строк A = A(1, m) Одно из решений опирается на построение алгоритма дискретной оптимизации, основанного на векторной параметризации Грассмана [П. В. Ананьевская, 2013г] 3/17 Скурат Евгения Петровна, гр. 522 Комбинаторый анализ взаимодействия факторов Флаг и согласованность с флагом Определение Пусть на Vm = (Fq )m задана последовательность линейных подпространств (полный флаг F ) V0 = {0} ⊂ V1 = hX1 i ⊂ . . . ⊂ Vm = hX1 , . . . , Xm i такая, что ∪Vi = V и если Vi ⊂ M ⊂ Vi+1 , то либо Vi = M , либо Vi+1 = M . Тогда отношение линейного порядка ≺ называется согласованным с флагом, если для всех i = 0, 1, . . . , m − 1 и v ∈ Vi , w ∈ Vm \Vi v ≺ w. Замечание Выбор флага F однозначно задает клеточное разбиение многообразия Грассмана, определяющего множество всех k-мерных подпространств m-мерного линейного пространства [Ф. Гриффитс, Дж. Харрис, 1982г.] 4/17 Скурат Евгения Петровна, гр. 522 Комбинаторый анализ взаимодействия факторов Симметричный порядок векторов в пространстве (Fq )m Пространство Vm = (Fq )m такое, что Vm = hX1 , . . . , Xm i Векторы Xki = (x1 , . . . , xk−1 , xki , 0, . . . , 0)T ∈ Vk \Vk−1 , где xki ∈ Fq , xki 6= 0, k = 1, . . . , m, i = 1, . . . q − 1 Определение q m −1 Последовательность векторов {Yj }j=0 пространства Vm = (Fq )m обладает свойством симметричного порядка, если Y0 = 0m , Yj = sXki + Yt для j = sq k−1 + t > 0, где k = 1, . . . , m, i = 1, . . . , q − 1, s ∈ Fq , s 6= 0, t = 0, . . . , q k−1 − 1 Частные случаи Лексикографический порядок Xki = (0, . . . , 0, 1, 0, . . . , 0)T Обобщенный порядок Грея Xki = (0, . . . , 0, −1, 1, 0, . . . , 0)T 5/17 Скурат Евгения Петровна, гр. 522 Комбинаторый анализ взаимодействия факторов Теорема о согласованности с флагом Таблица: Лексикографический порядок над F3 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 2 2 2 0 1 2 0 1 2 0 1 2 Таблица: Обобщенный порядок Грея над F3 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 2 2 2 0 1 2 2 0 1 1 2 0 Теорема Симметричный порядок согласован с полным флагом F на пространстве Vm = (Fq )m . 6/17 Скурат Евгения Петровна, гр. 522 Комбинаторый анализ взаимодействия факторов Вероятность случайной классификации Случайные вектор Y = (Y1 , . . . , Yn )T и матрица X = Xn,m = (X1 , . . . , Xm ) над Fq , заданные на (Ω, F, P); Xi независимы и одинаково распределены Линейное преобразование Xτ = a1 X1 + · · · + am Xm над Fq Функция, равная количеству ошибок классификации ρ1 (Xτ , Y ) = ρ(X, Y ) = min (1 − P(Xτ = f (Y ))) f :Fq →Fq min Xτ ∈L(X) ρ1 (Xτ , Y ), где L(X) = hX1 , . . . , Xm i F (t) = P(ρ(X, Y ) < t) — вероятность случайной классификации Известны асимптотическая оценка F (t) [Н. П. Алексеева, 2009г.] и верхняя оценка [П. В. Ананьевская, 2013 г.] Проблема существования точной оценки F (t) 7/17 Скурат Евгения Петровна, гр. 522 Комбинаторый анализ взаимодействия факторов Точная оценка вероятности случайной классификации Задача поиска точной оценки: Вычисление количества невырожденных матриц Xn,m с весом L = 1, . . . , M линейной оболочки L(X) для нулевого вектора n P классификации Y = 0n , где L = min l(Xi ) = min xj i=1,...,m i=1,...,m j=1 Теорема Число невырожденных матриц Xn,m , порождающих линейную оболочку с весом L = 1, вычисляется по формуле: Xn,m = Xn−1,m + m−1 X t Cm · ((Xn−1,m−t · (Vn−1,t + t · Vn−1,t−1 )) + t=0 +(Vn−1,m−t − Xn−1,m−t ) · ((m − t) · t · Vn−1,t−1 + t · Vn−1,t−1 )) + +(n − 1) · 2n−2 · 2 + (Vn−1,m−1 − (n − 1)) · m, где Vn,m = Qm−1 j=0 (2n − 2j ) — общее число невырожденных матриц. Тогда точная оценка F (t) = P(ρ(X, Y ) = 1) имеет вид 8/17 Скурат Евгения Петровна, гр. 522 Xn,m . Vn,m Комбинаторый анализ взаимодействия факторов Апробация разработанных методов. Описание данных Исследовательские центры: НИИ фармакологии им. А.В. Вальдмана СПбГМУ им. акад. И.П. Павлова и Ленинградский областной наркологический диспансер. Профилактика рецидива опийной наркомании. Индивиды — больные героиновой зависимостью (n = 245), проходившие курс (26 недель) психотерапии в сочетании с рандомизированным исследованием эффективности налтрексона. Переменные — гены опиатных рецепторов (m = 15), отвечающие за когнитивную функцию, моторику и энергетику. Ковариата — способы терапии (двойное плацебо, пероральный налтрексон, продетоксон). Итоговые характеристики количество положительных тестов на опиаты; длительность удержания в программе; отсутствие рецидива. 9/17 Скурат Евгения Петровна, гр. 522 Комбинаторый анализ взаимодействия факторов Проблема анализа эффектов взаимодействия Проявление совокупного воздействия двух и более переменных не в виде суммы отдельных факторов. Таблица: Средние количество (+) тестов на героин в сочетаниях генов A (мигрени, беспокойства) и B (никотиновая зависимость). A B A + B (mod 2) среднее 0 0 0 5.0 0 1 1 5.4 1 0 1 6.8 1 1 0 1.0 В явном виде эффекты взаимодействия могут быть выражены как конечно-линейные комбинации над Fq , которые для удобства работы с приложениями названы симптомами [Н. П. Алексеева, 2008г.] 10/17 Скурат Евгения Петровна, гр. 522 Комбинаторый анализ взаимодействия факторов Задача и структура решения Задача Выявление совокупности генетических факторов, значимо влияющих на тяжесть наркотической зависимости Выбор признаков индикатора рецессивности генотипов Построение линейных комбинаций признаков над F2 (симптомов) с ограничением на ранг без ограничения на ранг с применением алгоритма дискретной оптимизации в случае обобщенного порядка Грея Исследование влияния симптомов на результат лечения в качестве фактора в статистических критериях В задаче классификации проверка случайности относительно итогового фактора безрецидивности 11/17 Скурат Евгения Петровна, гр. 522 Комбинаторый анализ взаимодействия факторов Алгоритм отбора симптомов c ограничением на ранг Начальные параметры уровень значимости α информативность симптома M предельный ранг k Последовательный перебор симптомов Xτ , |τ | = 1, . . . , k Применение статистического критерия p = p(Xτ ), где симптом выступает в качестве фактора в дисперсионном анализе в анализе данных типа времени жизни в информационной статистике Включение значимых симптомов Xτ p(Xτ ) < α H(Xτ ) > M , где H(Xτ ) = − q P pi log2 pi i=1 Исключение симптомов Xτ , не вносящих дополнительной информации: для δ > 0, > 0 |τ | > |τ0 |, H(Xτ \τ0 ) < δ и H(Xτ ) − H(Xτ0 ) < 12/17 Скурат Евгения Петровна, гр. 522 Комбинаторый анализ взаимодействия факторов Двухфакторный дисперсионный анализ Модель с фиксированными эффектами факторов A и B yijk = µ + αi + βj + (αβ)ij + ξijk yijk — количество положительных тестов на героин αi — дифференциальный эффект фактора A симптома Xτ , |τ | < 4 βj — дифференциальный эффект фактора B терапии (αβ)ij — эффект взаимодействия A и B ξijk — ошибки независимые, N (0, σ 2 ) X1 , . . . Xm , m = 15 — факторы рецессивности генотипов H0 τ (15) (8, 13) (1, 5, 12) : αi = 0 p 0.043 0.018 0.019 H(Xτ ) 0.068 0.196 0.261 H0 : (αβ)ij = 0 τ p H(Xτ ) (9) 0.021 0.114 (7, 13) 0.029 0.135 (1, 5, 12) 0.049 0.261 Положительный эффект психотерапии без налтрексона при парном сочетании генов: никот-вая зав-ть (1) , депрессия (5), алког-ая зав-ть (12) 13/17 Скурат Евгения Петровна, гр. 522 Комбинаторый анализ взаимодействия факторов Анализ данных типа времени жизни Критерий Гехана-Вилкоксона о равенстве медиан продолжительности участия в программе при разной терапии Ковариата — симптом Xτ , |τ | < 4 Правое цензурирование, индикатор — результат выполнения программы Интервальное цензурирование, [t1 , t2 ], t1 — точка последнего наблюдения; t2 = t1 + 1 Рис.: Значимое влияние X1,5,12 на дожитие (плацебо, p=0.0006) Рис.: Положительный эффект X6,7,8 при продетоксоне, p=0.044 X6 – гиперактивность, X7 – болезнь Паркинсона, X8 – шизофрения 14/17 Скурат Евгения Петровна, гр. 522 Комбинаторый анализ взаимодействия факторов Информационная статистика Критерий Пирсона независимости категориальных признаков на основе таблиц сопряженности Значимое влияние факторов энергетики X1,5,12 (p=0.047) и когнитивности X6,7,8 (p=0.047) на рецидив Количество ошибок прогнозирования рецидива по значимым симптомам Xτ , |τ | > k и верхние оценки вероятности случайной классификации Xτ X(1,5,12),(7,8),(3,11) X(1,5,12),(7),(3,11) X(1,5,12),(6,7,8),(3,11) ошибки 93 90 101 случайность 0.00502 0.00049 0.15899 p 0.031 0.028 0.043 H(Xτ ) 0.275 0.263 0.289 X3 – импульсивность, X11 – дискинезия 15/17 Скурат Евгения Петровна, гр. 522 Комбинаторый анализ взаимодействия факторов Взаимодействие генов и эффект лечения Y = X1,5,12 ⊕ X6,7,8 ⊕ X3,11 X3,11 моторика X6,7,8 когнитивность X1,5,12 энергетика число инд-дов 245 0 0 0 128 Y =0 0 1 1 0 1 1 8 11 1 1 0 2 0 0 1 50 Y =1 0 1 1 0 0 0 40 4 1 1 1 2 Рис.: Зависимость от продетоксона эффекта лечения при одной генетической особенности, p=0.011. 16/17 Скурат Евгения Петровна, гр. 522 Комбинаторый анализ взаимодействия факторов Основные результаты Проведение комбинаторного анализа эффектов взаимодействия множественных факторов на примере данных о программе лечения героиновой наркомании Реализация программы разработанного математического метода исследования категориальных данных в статистическом пакете R Определение симметричного порядка и обобщение теоремы о согласованности с флагом для введенного порядка Доказательство формулы точной оценки вероятности случайной классификации в частном случае 17/17 Скурат Евгения Петровна, гр. 522 Комбинаторый анализ взаимодействия факторов