Биостатистика 5. Анализ зависимостей Рубанович А.В. Институт общей генетики им. Н.И. Вавилова РАН Чем мы занимались на предыдущем занятии? В основном методами сравнения дискретных распределений, например теоретического с экспериментальным Мы припомнили, что такое критерий «хи-квадрат» и для каких целей его можно использовать Таковых мы определили три: - проверка согласования данных с ожидаемым распределением - проверка независимости 2 признаков - проверка однородности совокупности выборок Пора перейти к рассмотрению характеристик степени сопряженности признаков Регрессионный анализ Вернемся к количественным признакам и для нашего учебного файла построим зависимость веса от роста 140 Среднее Вес 120 182 112 76 100 155 81 … … 60 179 86 40 155 76 20 Вес Рост 80 100 120 140 160 155180 Рост 200 Ясно, что существует тенденция: чем больше рост, тем больше вес человека. Можно попытаться выразить эту зависимость линейным уравнением: y = a + bx , где в x – рост, y – вес человека. Вопрос в том, как провести эту прямую. Ясно, что д. б. y a bx Но каков наклон? Регрессионный анализ Строгий ответ но этот вопрос дает Метод наименьших квадратов Гаусса x y x1 y1 x2 y2 … … xn yn xy n 2 ( a bx y ) min i i i 1 b xi yi n xy x y 2 x a y bx 2 x 2 ( x x ) i x x i n n Запоминать не нужно, но постарайтесь прочувствовать: если x и y не связаны, то xy pxy xy px p y xy px x p y y x y x, y x, y Если x и y независимы, то x xy x y, y откуда b = 0 Уравнение линейной регрессии Наклон линейной регрессии b = 0.505 =НАКЛОН(массив y; массив x) Свободный член a = -2.90 =ОТРЕЗОК(массив y; массив x) 140 120 Теперь мы можем нарисовать: Вес 100 80 60 40 20 0 100 120 140 160 180 Рост В статье указываем: Вес = -2,9 + 0,5 Рост Уравнение регрессии можно использовать для прогнозов: При росте 220 прогноз веса = -2,9 + 0,5 220 = 107.1 200 Уравнение линейной регрессии Построение средствами Excel Строим график «Мастером диаграмм», Мастер диаграмм / Точечная / Ряды а затем добавляем линию тренда: Диаграмма / Линия тренда 140 120 Вес 100 y = 0,5054x - 2,9011 R2 = 0,3566 80 60 40 20 0 100 120 140 160 Рост 180 200 Уравнение линейной регрессии Ошибки коэффициентов уравнения WinStat / Stattistics / Regression / Multiple Multiple Regression X-variables: Рост Y-Variable: Вес Equation 95% Coefficie nt Conf. (±) Std.Error a b Constant Рост T P -2,90113 21,41167 10,78789 -0,268925 0,788559 0,505426 0,13682 0,068934 7,332006 6,85E-11 Значим только наклон b Обобщения Регрессия может быть: многомерной: y = a + b1x1 + b2x2 WinStat / Stattistics / Regression / Multiple нелинейной: y = a + b1x+ b2x2 WinStat / Stattistics / Regression / Polynomial Корреляционный анализ Коэффициент корреляции – самый удобный и популярный показатель сопряженности количественных признаков r Свойства: -1 ≤ r ≤ 1 xy x y x y x b y Карл Пирсон r = 0 при отсутствии линейной связи между признаками r = 1 при линейной положительной связи между признаками r = -1 при линейной отрицательной связи между признаками r2 - доля изменчивости признака y, которая определяется признаком x (коэффициент детерминации) Корреляционный анализ r=1 r = -1 r = 0.8 r = -0.8 r=0 Упражняемся … Чему равна корреляция оценок по физике и физкультуре Физика Физку льтура Физика Физку льтура Физика Физку льтура 4 4 3 4 4 5 3 3 2 3 3 5 5 5 4 5 5 5 4 4 3 4 4 5 r=1, a=0, b=1 r=1, a=1, b=1 r=0, a=5, b=0 Для файла «Примеры» посчитаем корреляцию между весом и ростом 0.6 =КОРРЕЛ(массив 1; массив 2) Корреляционный матрица Bird-view обзор взаимосвязей между признаками WinStat / Stattistics / Correlations / Pearson Возраст Вес Рост Болезнь АберХр GSTP 1 99 0 0,081031343 99 0,212631308 0,102742805 99 0,155774789 0,411338313 99 1,1706E-05 -0,039707473 99 0,348186691 0,129775505 99 0,100224658 Correlation coefficient valid cases one-sided significance 0,081031343 99 0,212631308 1 99 0 0,597148266 99 3,42389E-11 0,048280271 99 0,317550821 -0,013515914 -0,034468782 99 99 0,447183784 0,367415964 Рост Correlation coefficient valid cases one-sided significance 0,102742805 99 0,155774789 0,597148266 99 3,42389E-11 1 99 0 0,074449181 99 0,231971561 -0,003411387 99 0,486633195 0,047342958 99 0,320845774 Болезнь Correlation coefficient valid cases one-sided significance 0,411338313 99 1,1706E-05 0,048280271 99 0,317550821 0,074449181 99 0,231971561 1 99 0 0,16720552 99 0,049042182 0,30957366 99 0,000910186 АберХр Correlation coefficient valid cases one-sided significance -0,039707473 -0,013515914 -0,003411387 99 99 99 0,348186691 0,447183784 0,486633195 0,16720552 99 0,049042182 1 99 0 0,440207969 99 2,56444E-06 GSTP Correlation coefficient valid cases one-sided significance 0,129775505 99 0,100224658 0,30957366 99 0,000910186 0,440207969 99 2,56444E-06 1 99 0 Возраст Correlation coefficient valid cases one-sided significance Вес -0,034468782 99 0,367415964 0,047342958 99 0,320845774 Важные предупреждения Наличие корреляции не является указанием на причинно следственные связи! Например, систолическое давление у преподавателей КазГУ наверняка коррелирует с их зарплатой. Но не означает, что подвышенное давление приводит к повышению зарплаты! Отсутствие корреляции означает отсутствие линейной связи. Но связь может быть нелинейной, причем такой, что r = 0. r=0 r=0 Неоднородность выборки может привести к парадоксальным выводам! Неоднородные выборки Отрицательная корреляция между температурой и расходом энергии! Температура в комнате, оС 30 Август 25 Сентябрь Температура на даче в зависимости Октябрь от расхода электроэнергии 20 15 10 0 5 10 15 20 Расход энергии, 25 кВт/день Неоднородные выборки Не следует считать корреляции для таких случаев: r = 0.6 r = -0.6 При работе с неоднородными данными возникают невероятные ситуации. Всегда ищите страты! Стратификация – разбиение выборки на страты, т.е на группы, объединенные неким признаком (время проведения опыта, возраст, образование, национальность, курение и т.д.) Этот признак может быть незримым конфаундером, т.е. признаком, создающим ложный эффект за счет неоднородности выборки Неоднородные выборки Отрицательная корреляция между температурой и расходом энергии! Температура в комнате, оС 30 Август 25 Сентябрь Октябрь 20 15 10Осторожно, 0 5 страты! 10 15 20 Расход энергии, 25 кВт/день Чем чревато объединение выборок? При объединении гетерогенных выборок возможно все! Эффект может: Появиться Исчезнуть Осторожно, страты! У студентов РУДН 70% высоко полиморфных SNP «ассоциированы» с успеваемостью (p<0.05) Конфаундер - цвет кожи! Приобрести противоположное направление! Парадокс Симпсона Парадокс Симпсона (1951) Мальчики поступали лучше девочек! 10 выпускников (5 мальчиков и 5 девочек) поступают в КазГУ: Мальчики поступали хуже девочек 5 девочек 5 мальчиков Мехмат Поступили 3 из 4 (75%) < Поступили 1 из 1 (100%) Биофак Поступили 0 из 1 (0%) < Всего 3 из 5 (60%) > Поступили 1 из 4 (25%) 2 из 5 (40%) Первые сообщения о парадоксе: Карл Пирсон (1899), Джордж Юле (1903) Это не статистка! Это геометрия … Объединяем данные двух экспериментов… Число лиц с эффектом 25 Опыты 1+2 (контроль) Опыт 2 (контроль) 20 Опыт 2 (больные) 15 10 Опыты 1+2 (больные) В обоих экспериментах среди После слияния выборок больных частота лиц с эффектом частотавыше, лиц счем эффектом в контроле в контроле выше! Опыт 1 (больные) 5 Опыт 1 (контроль) 0 50 100 Наклон равен частоте лиц с наблюдаемым эффектом (в данном случае 3/100) 150 200 Объем выборки Сравнение двух групп по частотам аберраций Контрольная группа 100 Нет аберраций Экспонированная группа 99 + 1 Анализируем по 100 метафаз на человека # людей Нет аберраций 6 аберраций # метафаз # аберраций Частота Контроль 100 10 000 0 0 Экспонированные 100 10 000 6 0.0006 0 от 6 По частоте людей аберрациями: числе просмотренных метафаз При содинаковом 1 от 9 «1 из 100» против «0 из 100»: p=0.5только (one-tailed значимость отличий зависит отFisher) числа аберраций: 2 от 10 .......... По частоте аберраций: «6 на 10 000» против «0 на 10 000»: p=0.014 (one-tailed Fisher) Многие исследователи, определяя групповую частоту Сравнение индивидуальных частот аберраций по тесту Манна-Уитни: p=0.317 аберраций, складывают все аберрации в группе и делят на общее число просмотренных метафаз Показатели степени сопряженности признаков Для количественных признаков: r - коэффициент корреляции Для качественных признаков: OR - отношение шансов Сопряженность качественных признаков И снова таблица сопряженности 22 Больные Case Здоровые Control D D Носители маркера M a b Свободны от маркера M c d Отношение шансов (Odd Ratio): ad OR bc Случаи, когда маркер не сработал Случаи, когда маркер сработал Упражняемся … 10 больных 10 здоровых 7 9 OR 21 3 1 Больные Здоровые Носители маркера Свободны от маркера D D M 7 M 3 1 9 Заодно посчитаем значимость: р = 0.02 Свойства показателя OR OR = 1 - нет эффекта (маркер не сопряжен с заболеванием) OR >> 1 - сильный эффект, сильная положительная ассоциация (маркер сопряжен с заболеванием) OR << 1 - сильный эффект, сильная отрицательная ассоциация (маркер сопряжен со здоровьем). Например, в случае генетического маркера, говорят о протективном действии гена И все-таки, что такое OR ? И почему шансы? Отношение шансов и относительный риск Карточный термин: вероятность выиграть к Вероятность и проиграть шанс – в чем разница? вероятности Частота (доля) Шанс (odd) Больные Здоровые Носители маркера Свободны от маркера D D Сумма Частоты Шансы M a b a+b р1=a/(a+b) a/b M c d c+d р0=c/(c+d) c/d Отношение рисков (Risk Ratio) Отношение шансов (Odd Ratio) Всегда OR ≥ RR . OR RR при p0, p1< 0.1 FAQ: почему OR, а не RR ? Отношение рисков наглядно, но не симметрично Частота Частота гибели выживания Погибли Выжили Облучение 5 95 100 0.05 0.95 Контроль 1 99 100 0.01 0.99 По смертности: отношение рисков RR = 0.05/0.01=5 По выживаемости: отношение рисков RR = 0.99/0.95=1.04 Отношение шансов в любом случае равно OR = 599/951 =5.21 Напомню, всегда OR ≥ RR Но главная причина не в этом. Дело в том, что в ассоциативных генетических исследованиях берут выборки больных и здоровых (т.н. «case-control»). В этом случае непосредственно оценить RR невозможно Парадокс Симпсона при использовании OR Повышенное давление у больных диабетом: Больные Здоровые Молодые Пожилые Все вместе 50 из 150 (33.3%) OR=25 1 из 51 (2%) 50 из 51 (98%) OR=25 100 из 150 (66.7%) 100 из 201 (49.8%) OR=0.98 101 из 201 (49.8%) OR=25 + OR=25 OR=0.98 !!! Если бы мы игнорировали стратификацию по возрасту, то обнаружили, что у здоровых повышенное давление бывает чаще, чем у диабетиков Осторожно, страты! На сегодня это все Напоследок хочу посоветовать: Прикиньте с помощью 2 – соотношение мальчиков и девочек в вашей группе отличается значимо от 1:1 ? Классифицируйте своих знакомых на 4 группы: красивый умный, красивый неумный, некрасивый умный, некрасивый неумный. Постройте таблицу 2х2 и посчитайте OR, 2, p . Как по вашим данным связаны красота и ум? Пристально рассматривайте свою выборку. Ищите страты! Неоднородная выборка – источник фальшивых открытий и упущенных возможностей!