Биостатистика 7. Статистика в медицине и эпидемиологии Рубанович А.В. Институт общей генетики им. Н.И. Вавилова РАН Биостатистика 6. Статистика в медицине и эпидемиологии или как представить результаты так, чтобы они нравились не только нам, но и в министерствах Чем мы занимались на предыдущем занятии? Мы рассмотрели способы описания степени сопряженности признаков Для количественных признаков – коэффициент корреляции r Для качественных принаков – отношение шансов OR Сегодня мы продолжим обсуждение таблиц сопряженности и рассмотрим ряд новых понятий, широко используемых в медицинской статистике ФЦП «Исследования и разработки по приоритетным направлениям развития научно-технологического комплекса России на 2007-2012 годы» Лот № 2. 2011-1.2-512-014. Разработка постгеномных методов для молекулярно-генетической диагностики соматических заболеваний 17 22 32 НИИ общей патологии и патофизиологии РАМН ГНИИ генетики и селекции промышленных микроорганизмов Российский онкологический научный центр имени Н.Н. Блохина РАМН Разрабатываемая молекулярно-диагностическая тест-система для ранней диагностики генетической предрасположенности к развитию особо опасных и распространенных заболеваний обеспечит следующие диагностические характеристики: 1. специфичность - не менее 80%; 2. чувствительность - не менее 83%; 3. точность - не менее 90%; высокий (до 98%) уровень информативности (чувствительность/специфичность) создаваемых систем полиморфных маркеров, основанных на идентификации этиологических вариантов геновкандидатов; высокая чувствительность создаваемого нового способа диагностики предрасположенности к сахарному диабету типа 1 (95% или более). -создание списка генов-кандидатов и их «горячих точек» - мутаций и значимых полиморфных вариантов, вовлеченных в канцерогенез наследственных и спорадических форм рака молочной железы, рака яичников и рака щитовидной железы; -определение чувствительности и специфичности применяемых методик О чем это они? Лот № 6. 2011-1.2-512-027. Исследование вариантов генов, ассоциированных с устойчивостью и чувствительностью человека к воздействию радиации 57 ГНИИ генетики и селекции промышленных микроорганизмов Высокий (до 98%) уровень информативности (чувствительность/специфичность) создаваемых молекулярногенетических систем, основанных на идентификации вариантов геновкандидатов. Высокая чувствительность нового способа диагностики устойчивости человека к воздействию радиации (95% или более). Чувствительность – специфичность: старые добрые медицинские понятия Чувствительность (SE) – это доля носителей маркера среди больных (тест сработал!) SE P(M D) Специфичность (SP) - это доля здоровых, которые не являются носителем маркера (тест сработал!) SP P(M D) 10 больных 10 здоровых 7 9 OR 21 3 1 при p 0.02 Чувствительность = 0.7 Специфичность = 0.9 Условные вероятности Чувствительность (SE) – это доля носителей маркера среди больных (тест сработал!) SE P(M D) Специфичность (SP) - это доля здоровых, которые не являются носителем маркера (тест сработал!) SP P(M D) P( M , D) SE P(M D) P( D) - условная вероятность, т.е. вероятность носительства маркера, при условии, что ты болен Если маркер не связан с болезнью, то P(M, D) = P(M)P(D), и SE = P(M) Вроде все просто, но посмотрите, что бывает SE больше нуля даже в с условными вероятностями! отсутствии ассоциаций Условные вероятности ? ? 1. В стакане шар, который с вероятностью ½ белый и с вероятностью ½ - черный 2. Подбрасываю туда белый шар 3. Вынимаю шар наугад, и он белый Какова вероятность, того, что оставшийся в стакане шар тоже белый? ½ ? Нет, 2/3 !!! Р(оба белые) Р(вытащить первым белый) = ½ ½+½½ = ½ 3/4 = 2/3 SE vs. SP: противоборство показателей Маркер у всех, и все больны! SE=1, SP=0 Маркер Все без маркера, и все здоровы! SE=0, SP=1 Специфичность Чувствительность Выигрывая в чувствительности, обычно теряем специфичность (et converso) Так что важнее: чувствительность или специфичность? Тест должен быть высокочувствительным, если важно не пропустить ни одного больного (пусть даже будет гипердиагностика). Тест должен быть высокоспецифичным, если важно не объявлять здорового больным (серьезная психологическая травма либо сильные побочные эффекты лечения – гипердиагностика нежелательна) Все зависит от ситуации, но лучше всего ориентироваться на среднее. Это простой и эффективный показатель прогностических возможностей маркера (отличать больного от здорового): 1 SE SP AUC 2 Area Under Curve? SE AUC 0 1 - SP 1 Почему величина AUC=(SE+SP)/2 характеризует прогностическую эффективность маркера? Берем 1 здорового и 1 больного Без использования маркера вероятность угадать, кто есть кто = 1/2 Используем тест и носителя маркера объявляем больным вероятность угадать, 1 1 SE SP кто есть кто = AUC 2 2 В качестве больного выбираем: - любого AUC – это вероятность любого отличить больного-от здорового, ориентируясь на маркер! - с маркером AUC>1/2, если OR>1 AUC Прогностическая ценность 0.5 Случайный классификатор 0.5-0.6 Плохой классификатор 0.6-0.7 Средний классификатор 0.7-0.8 Хороший классификатор >0.8 Отличный классификатор А зачем все это? Раньше мы считали достоверность различий, и все было в порядке Почему бы не обойтись привычным набором показателей ассоциирования – r, OR, p и т.п. ? Тревожные заголовки последних лет: Маркеры с воспроизводимыми значимыми OR могут быть плохими классификаторами Относительная полезность OR и RR …брешь между статистической значимостью и диагностической дискриминацией Ограниченная полезность OR при использовании диагностических и прогностических маркеров По ту сторону OR – риск заболеваемости на основе генетических профилей Прогноз генетического риска – умеем ли мы уже это делать ? George Poste, chief scientist at the Complex Adaptive Systems Initiative, and Regents professor of health innovation at Arizona State University Нашествие «Bring on theбиомаркеров biomarkers» Nature , v 469, 2011 150 000 Не более 100 биомаркеров Капля в океане: , рутинного Хорошая ассоциация обычно необходимое, но Good association is usually a necessary, использования претендующих на не not достаточное условие для хорошей классификации в клиниках but a sufficient, condition for good classification открытие биомаркеров работ Проф. Алексей Кондрашов, Life Sciences Institute, University of Michigan Мегагрант-2010 (МГУ). Лекция в Полит.РУ (2010) «Эволюционная биология человека и охрана здоровья»: Надежды 90-х не оправдались: эпоха GWAS буксует «У меня 10-15 генов предрасположенности? В этой информации очень мало проку!» Пример, когдав низкой сильный эффекттеста: не Причина парадокса чувствительности обеспечивает эффективность прогноза 50/500=0.1, т.е. только 10% больных являются носителями маркера Популяционное обследование: 1000 человек Заболеваемость – 50% 500 здоровых 500 больных Суперэффект! 50 с маркером 450 без маркера 5 с маркером 495 без маркера 1 Это немаркера 1 50в 10 495маркер 1 плох. выше, означает, что У больных 0.1 чем AUC частота ( SE SP) раз 0.99у здоровых: 0.545 2 2 500 p=710 500 -112 Он «плохой классификатор», но «хороший диагност». OR=11, Ведь с другой стороны 50/5591% носителей больны! Сколько раз тест сработал? Вероятность того,маркера что случайно выбранный человек будет правильно идентифицирован равна: 50 495 0.545 1000 - почти монета!!! Как и было Как часто возникают подобные ситуации? Разберемся в исходных понятиях… Все начинается с банальностей: таблица сопряженности 22 Носители маркера Свободны от маркера M M Больные Case Здоровые Control D D a b К сожалению, обозначение совпадает со стандартной ошибкой среднего. Поэтому c часто пишут d Se a Чувствительность SE P(M D) ac d Специфичность SP P(M D) bd Интерпретация в терминах ошибок I и II рода Больные Case Тест сработал! Носители маркера M Свободны от маркера M Тест не сработал: ошибка Плоховато запоминается лучше частота маркера II рода D Здоровые Тест не Control сработал: ошибка I рода D False True a b Positives Positives False True c d Negative Negative среди больных SE TN TP SP TP FN FP TN Двойственность показателей по столбцам и по строкам D M M a c D b d a SE= P(M D) ac Доля носителей маркера среди больных Positive Predicted Values: вероятность заболеть при носительстве маркера, диагностическая ценность a P(D M)=PPV ab Доля больных среди носителей маркера Доля дур среди блондинок, это не то же самое, что доля блондинок среди дур! Двойственность показателей по столбцам и по строкам D M M D Positive Predicted Values: вероятность заболеть при носительстве маркера, диагностическая ценность b a P(D M)=PPV ab c d d P(D M) =NPV cd a ac d bd a P(M D) P ( M D) SE SP Negative Predicted Values: вероятность не заболеть при отсутствии маркера, диагностическая ценность И это еще не все! Универсальный показатель ассоциирования OR D M M D - это не относительный риск! Risk Ratio - это во сколько раз возрастает вероятность заболеть при наличии маркера b a P(D M)=PPV ab c d d P(D M) =NPV cd a ac d bd a ad bc P(D M) P(M D) P ( M D) PPV RR P(D M) 1 NPV SE SP Всегда OR > RR Не слишком ли много показателей для таблички из 4 чисел? Универсальный показатель ассоциирования: OR Во всех случаях можно оценить только отношение шансов! ценность По столбцам: SE, SP, AUC - прогностическая (прогнозы в эпидемиологии, скрининг, подбор групп риска, профессиональный отбор) По строчкам: PPV, NPV, RR - диагностическая ценность (индивидуальный пост-тестовый прогноз, клиническая практика) Не все эти показатели поддаются непосредственной оценке – все зависит от дизайна эксперимента Дизайн ассоциативных исследований Выборка 1 Выборка 2 D Выборка 1 M Выборка 2 M D Набираем выборку, a b заранее не зная, кто болен и кто носитель c маркера d P(M D) P ( D M) P ( D M) P(M D) Case-control study: подбор групп «больные-здоровые» Cohort study: подбор групп «с маркером – без маркера» Population study: случайная выборка без подбора групп Основной вариант OR,ассоциативных SE, SP, AUC исследований Обычно OR, RR, PPV, NPV «экспонированные контроль» Редкий вариант любые (дорого!) Возможность непосредственной оценки зависит pD – встречаемость (распространенность) заболевания от дизайна эксперимента! pM – популяционная встречаемость (частота) маркера Study Case-control OR RR √ Cohort √ Population √ SE SP √ √ PPV NPV pD pM ? ? √ √ √ При case-control мы не можем оценить и√ частоту √ заболеваемость √ √ √ маркера √ √ непосредственно в своем эксперименте Однако в большинстве случаев в отношении pD и pM имеется априорная информация (эпидемиологические сводки, базы данных PubMed, HapMap и т.д.) Зная OR, pD и pM можно оценить все остальные показатели (например, относительный риск RR для case-control) На что можно рассчитывать, используя бинарный маркер? Какими могут быть чувствительность, специфичность и риски для бинарного теста? .... Рассмотрим крайности: Идеальный маркер M M D a 0 OR = ∞ D 0 d SE = 1 SP = 1 AUC = 1 PPV = 1 NPV = 1 RR = ∞ На что можно рассчитывать, используя бинарный маркер? Какими могут быть чувствительность, специфичность и риски для бинарного теста? .... Рассмотрим крайности: Идеальный маркер OR = ∞ D D 0 d В общем случае показатели эффективности от1 SE = 1 SPтеста = 1 зависят AUC = заболевания и маркера. Mчастотaвстречаемости 0 RR = ∞ PPV = 1 образом! NPV = 1 Притом весьма нетривиальным M Маркер не В каждой клетке произведения вероятностей работает (например, фамилия SE и PPV больше нуля «встретить – не встретить» D M M pM pD даже в отсутствии ассоциаций D pM (1- pD) (1- pM) pD (1- pM) (1- pD) с гласной буквы) OR = 1 SE=pM SP = 1-pM AUC = 1/2 PPV = pD NPV = 1-pD RR = 1 Зависимость чувствительности (SE) от pD и pM при фиксированном OR (=5) Чувствительность слегка убывает при увеличении заболеваемости Чувствительность минус «чувствительность в 0.5 отсутствии ассоциаций» Так сказать, «за вычетом контроля» 0.4 SE 0.3 SE - pM 1 Заболеваемость для популяции в целом 0.2 0.1 0 Популяционная 0.2 частота маркера 0.8 0.6 D 0.4 0.4 Чувствительность существенно зависит 0.2 и от частоты pMM 0.6встречаемости маркера произвольно мала для редких маркеров 0.8 (даже при больших OR) 1 pD Зависимость специфичности от pD и pM при фиксированном OR(=5) Специфичность Поворот на 180 слегка возрастает при увеличении заболеваемости Специфичность минус «специфичность в отсутствии 0.5 ассоциаций» 0.4 SP 0.3 SP – (1-pM)0.2 0.8 0.1 0.6 0 0 0.2 0.4 pDD 0.4 pM M 0.6 0.2 Специфичность слабо зависит от 0.8 частоты маркера и приблизительно равна1 1- pM при pD< 0.4 Зависимость AUC=(SE+SP)/2 от pD и pM Величина максимально возможного AUC не зависит от pM и pD и равна OR / OR 1 OR OR 1 1 0.9 1 AUC AUC 0.8 0.7 0.6 0.5 0 0.75 OR=20 OR=10 OR=5 0.5 D 0.25 1 pM OR 1 В этой точке pM 0.5 SE=SP M pD 0.25 0.75 0 1 При каких OR маркер является хорошим классификатором? Когда OR>5, а частота маркера не менее 30%: 1 1 OR При OR>5 маркер «хорошим но0.3 OR > 5.4 при pклассификатором», max AUC 0.7может быть M OR 1 5.44 1 ORлишь 1 при высокой частоте встречаемости При низких OR (< 2.5) маркер является заведомо плохим классификатором при любых частотах заболевания и маркера: max AUC OR 0.6 OR 1 OR < 2.4 При OR<2 маркер является «плохим классификатором», и это уже не зависит от заболеваемости и частоты встречаемости маркера OR OR 1 0.9 0.8 AUC 0.7 0.8 0.6 0.6 0.5 D 0.2 0.4 0.4 1 pM OR 1 0.2 0.6 M 0.8 1 Распределение значений OR для рисковых аллелей ассоциированных с одним из 16 широко распространенных заболеваний (92 SNP, подтвержденные в нескольких GWAS - исследованиях) В подавляющем большинстве случаев SNP, выявляемые в ассоциативных исследованиях являются заведомо «плохими классификаторами»: OR<2.5 N. Wray, M. Goddard, P. Visscher. Prediction of individual genetic risk of complex disease. Current Opinion in Genetics & Development 2008, 18:257–263 Рассмотрением «комбинированных» генотипов можно увеличить OR Обычно по числу рисковых аллелей в подтвержденных SNP: GWAS на 1172 больных раком простаты – 7 SNP rs4242382 (8q24) pM OR rs6983267 (8q24) rs4430796 (HNF1B) rs10993994 (MSMB) rs10896449 (11q13) rs4962416 (CTBP2) rs10486567 (JAZF1) 10-12 < p < 10-6 3.0 0.23 2.0 0.15 1.0 Генотипы с высоким OR имеют низкую частоту 0.08 встречаемости 0.00 3 4 5 6 7 8 Число рисковых аллелей 9 Thomas, G. et al. Multiple loci identified in a genome-wide association study of prostate cancer. Nature Genet. 40, 310–315 (2008). Почему высокое OR не всегда гарантирует эффективность прогнозов, и когда подобное происходит? Суперэффект! 50 с маркером 5 с маркером 450 без маркера D D M 50 5 M 450 495 D M D pM M pD-pM pD Возьмем крайний случай: OR=∞ pM 0 1-pD 1-pM 1-pD 495 без маркера OR велико (=11) потому, что это число мало Почему высокое OR не всегда гарантирует эффективность прогнозов, и когда подобное происходит? При низкой частоте встречаемости маркера тест прогностически неэффективен. Точнее … даже при очень больших OR маркер является плохим классификатором, если pM/ pD<0.2 (тогда AUC<0.6). Но при этом он идеальный «диагност»: PPV=1. Вычисляем 1 1 pM AUC SE SP 1 2 2 pD M D pM M pD-pM SE = pM/pD SP = 1 PPV = 1 pD D pM 0 1-pD 1-pM 1-pD AUC1/2 при pM0, хотя OR=∞ SE vs. PPV Прогностическая Диагностическая ценность ценность Простая связь PPV pD SE pM - простые следствия: SE = PPV, если pM=pD При низкой заболеваемости (pD << pM) диагностическая ценность маркера заведомо мала (PPV << 1). Тем не менее чувствительность (SE) может быть высокой (при OR>>1) Маркер-классификатор D M При низкой частоте встречаемости маркера (pM << pD) чувствительность теста заведомо мала (SE << 1). Тем не менее диагностическая ценность маркера (PPV) может быть высокой (при OR>>1). Маркер-диагност M D Маммография – «маркер-классификатор» D M Диагностическая ценность положительного результата всего Рак молочной лишьжелезы: 14% !!! pD=0.006 Маммография: pM=0.037 OR=197 p=10-300 D D M 629 3 885 PPV=0.14 M 97 117 744 NPV=0.999 SE=0.87; SP=0.97 RR=169 AUC=0.92 ценность Диагностическая отрицательного результата почти 100% Banks E., Reeves G., Beral V., et. al. Influence of personal characteristics of individual women on sensitivity and specificity of mammography in the Million Women Study: cohort study. 2004, BMJ; 329; 477 Leiden V – «маркер-диагност» M D Тромбоз вен: Мутация Arg506Gln Leiden V: pM=0.072 pD=0.32 D D M 41 26 PPV=0.61 M 260 604 NPV=0.70 OR=3.7 SE=0.14; SP=0.96 p=510-7 AUC=0.547 RR=2.0 Относительный риск существенно меньше OR. Это типично при высокой заболеваемости A. Folsom, M. Cushman, M. Tsai, et al. A prospective study of venous thromboembolism in relation to factor V Leiden and related factors BLOOD, 2002, 99, 8 OR может сильно завышать оценку Если ген сильно ассоциирован (OR=10) с широко распространенным заболеванием pD=0.5), то это не относительного риска (напр., при высокой значит, что носители этого гена заболевают в 10 раз чаще. заболеваемости На самом деле только в 2 раза чаще. RR слабо зависит от частоты маркера 1 0.8 … и уменьшается 0.8 при увеличении заболеваемости 0.6 RR OR 0.6 RR/OR 0.4 0.2 0 RR 1 OR 1 pD pD OR 0.4 0.2 0.4 pD D 0.2 0.6 0.8 pMM Бинарные и количественные маркеры (тесты) Бинарный тест: маркер «есть-нет» M M Количественный тест: маркер является количественным показателем приходим к таблице 2х2 0.25 D b d Контроль Больные 0.2 Частота D a c 0.15 0.1 0.05 0 0 После выбора порогового значения маркера 5 10 15 Признак - маркер 20 Количественный тест: выбор порога Частота 0.25 Контроль Больные 0.2 0.15 низкая 0.1 специфичность высокая чувствительность 0.05 Признак маркер 0 Низкий порог Количественный тест: выбор порога Порог Частота 0.25 Контроль Больные 0.2 высокая специфичность Специфичность 0.15 Чувствительность низкая чувствительность 0.1 0.05 Признак маркер 0 Низкий порог Высокий порог Как выбрать порог, чтобы соотношение чувствительность/специфичность было оптимальным? ROC – анализ Receiver Operator Characteristics Термин времен 2-ой мировой войны, который придумали операторы первых радарных установок Как отличить шум и помехи от вражеского самолета? Современные применения ROC-анализа: Медицинская диагностика, радиология и физиология Распознавание образов, машинное обучение Погода и любые прогнозы по приметам Борьба со спамом ROC – кривая: зависимость SE от (1-SP) при плавном изменении порога Частота SE 0.25 0.2 Контроль Больные 1 0.15 0.5 0.1 0.05 0 Пороговое значение Признак - маркер 0 0.5 1 1 - SP Оптимальный выбор порога: выбирается точка на ROC-кривой, которая ближе всех к левому верхнему углу (0,1), т.е. (1 SP) 2 (1 SE ) 2 min Форма ROC-кривых 1 Маркер не работает SE 0 1 - SP 1 0 1 1 - SP 1 0 1 - SP 1 1 Идеальный маркер 1-ый тест лучше, чем 2-ой SE SE AUC – интегральный показатель прогностической эффективности маркера 1 AUC - это площадь под ROC-кривой (Area Under Curve) SE AUC = Вероятность того, что значение признака-маркера у случайно выбранного больного больше, чем у случайно выбранного здорового AUC 0 1 - SP 1 AUC 0.5 Случайный классификатор 0.5-0.6 Плохой классификатор 0.6-0.7 Средний классификатор 0.7-0.8 Хороший классификатор >0.8 Отличный классификатор U=N1·N2·AUC - непараметрический критерий Манна-Уитни ROC-анализ используют для проверки эффективности внедрения маркеров Мы их не знаем, новых но они должны быть, судя по «близнецовой 5241 больных раком простаты: PSA +наследуемости» 35 подтвержденных SNP, в основном: 8q24: OR=1.40; p<10-4 19q13: OR=1.31; p<10-4 Гипотетическая модель, включающая 1.0 неизвестные генетические маркеры: AUC0.8 (дальше не улучшить) 0.8 Традиционные маркеры (PSA, семейная история): AUC=0.64 0.6 Традиционные + генетические маркеры: AUC=0.67 0.4 0.2 0.0 0.2 0.4 0.6 0.8 1.0 Aly M,et al. Polygenic Risk Score Improves Prostate Cancer Risk Prediction: Results from the Stockholm-1 Cohort Study. Eur Urol (2011), doi:10.1016/j.eururo.2011.01.017 Вычисления при ROC-анализе Значения признака-маркера 3 2 1 0 Контроль Больные Вычисления при ROC-анализе Контроль 25 Больные Частота, % 20 15 10 5 0 0- 0.25- 0.5- 0.75- 1- 1.25- 1.5- 1.75- 2- 2.25- 2.5- 2.75- 30.25 0.5 0.75 1 1.25 1.5 1.75 2 2.25 2.5 2.75 3 3.25 Значения признака (маркера) Все делается в Excel: Интервал 0-0.25 0.25-0.5 0.5-0.75 0.75-1 1-1.25 1.25-1.5 1.5-1.75 1.75-2 2-2.25 2.25-2.5 2.5-2.75 2.75-3 3-3.25 Контроль # Доля 22 0.22 22 0.22 14 0.14 19 0.19 11 0.11 7 0.07 5 0.05 0 0 0 0 0 0 0 0 0 0 0 0 Больные # Доля 0 0 3 0.03 9 0.09 15 0.15 11 0.11 15 0.15 16 0.16 10 0.10 11 0.11 5 0.05 3 0.03 2 0.02 0 0 SE SP 0.88 0.58 Все делается в Excel: Чувствительность Интервал 0-0.25 0.25-0.5 0.5-0.75 0.75-1 1.0 1-1.25 1.25-1.5 0.8 1.5-1.75 0.61.75-2 2-2.25 0.4 2.25-2.5 2.5-2.75 0.2 2.75-3 0.03-3.25 0.0 0.2 Контроль # Доля 22 0.22 22 0.22 14 0.14 19 0.19 11 0.11 7 0.07 5 0.05 0 0 0 0 0 0 0 0 0 0 0 0 0.4 0.6 1-Cпецифичность Больные # Доля 0 0 3 0.03 9 0.09 15 0.15 11 0.11 15 0.15 16 0.16 10 0.10 11 0.11 5 0.05 3 0.03 2 0.02 0 0 0.8 1.0 SE SP 1 0,97 0,88 0,73 0,62 0,47 0,31 0,21 0,1 0,05 0,02 0 0 0,22 0,44 0,58 0,77 0,88 0,95 1 1 1 1 1 1 1 Все делается в Excel: Чувствительность Интервал 0-0.25 0.25-0.5 0.5-0.75 0.75-1 1.0 1-1.25 1.25-1.5 0.8 1.5-1.75 0.61.75-2 2-2.25 0.4 2.25-2.5 2.5-2.75 0.2 2.75-3 0.03-3.25 0.0 0.2 Контроль # Доля 22 0.22 22 0.22 14 0.14 19 0.19 11 0.11 7 0.07 5 0.05 0 0 0 0 0 0 0 0 0 0 0 0 0.4 0.6 1-Cпецифичность Больные SE SP # Доля 1 0,22 0 0 3 0.03 0,97 0,44 0.09 (91 SP ) 2 (10,88 SE ) 20,58 15 0.15 0,73 0,77 11 0.11 0,62 0,88 15 0.15 0,47 0,95 16 0.16 0,31 1 10 0.10 0,21 1 11 0.11 0,1 1 5 0.05 0,05 1 3 0.03 0,02 1 2 0.02 0 1 0 0 0 1 0.8 1.0 L(0,1) Все делается в Excel: Чувствительность Интервал 0-0.25 0.25-0.5 0.5-0.75 0.75-1 1.0 1-1.25 1.25-1.5 0.8 1.5-1.75 0.61.75-2 2-2.25 0.4 2.25-2.5 2.5-2.75 0.2 2.75-3 0.03-3.25 0.0 0.2 Контроль # Доля 22 0.22 22 0.22 14 0.14 19 0.19 11 0.11 7 0.07 5 0.05 0 0 0 0 0 0 0 0 0 0 0 0 0.4 0.6 1-Cпецифичность Больные # Доля 0 0 3 0.03 9 0.09 15 0.15 11 0.11 15 0.15 16 0.16 10 0.10 11 0.11 5 0.05 3 0.03 2 0.02 0 0 0.8 1.0 SE SP L(0,1) 1 0,97 0,88 0,73 0,62 0,47 0,31 0,21 0,1 0,05 0,02 0 0 0,22 0,44 0,58 0,77 0,88 0,95 1 1 1 1 1 1 1 0,780 0,561 0,437 0,355 0,398 0,532 0,690 0,790 0,900 0,950 0,980 1,000 1,000 Наименьшее расстояние до точки (0,1) Все делается в Excel: Контроль Больные SE # Доля # Доля 1 0-0.25 22 0.22 0 0 Оптимальное 0.25-0.5 22пороговое 0.22 3 0.03 0,97 значение 0.5-0.75 14 0.14 9 0.09 0,88 0.75-1 19 0.19 15 0.15 0,73 1-1.25 11 0.11 11 0.11 0,62 1.25-1.5 7 0.07 15 0.15 0,47 При выборе этого мы 1.5-1.75 5 0.05 этого 16 порога, 0.16 0,31 правильно идентифицируем 73% 1.75-2 0 0 10 0.10 0,21 больных и 77% здоровых 2-2.25 0 0 11 0.11 0,1 2.25-2.5 0 0 5 0.05 0,05 2.5-2.75 0 0 3 0.03 0,02 2.75-3 0 0 2 0.02 0 3-3.25 0 0 0 0 0 Интервал SP L(0,1) 0,22 0,44 0,58 0,77 0,88 0,95 1 1 1 1 1 1 1 0,780 0,561 0,437 0,355 0,398 0,532 0,690 0,790 0,900 0,950 0,980 1,000 1,000 Наименьшее расстояние до точки (0,1) Все делается в Excel: Чувствительность Интервал 0-0.25 0.25-0.5 0.5-0.75 0.75-1 1.0 1-1.25 1.25-1.5 0.8 1.5-1.75 0.61.75-2 2-2.25 0.4 2.25-2.5 2.5-2.75 0.2 2.75-3 0.03-3.25 0.0 0.2 Контроль # Доля 22 0.22 22 0.22 14 0.14 19 0.19 11 0.11 7 0.07 5 0.05 0 0 0 0AUC 0 0 0 0 0 0 0 0 0.4 0.6 1-Cпецифичность Больные # Доля 0 0 3 0.03 9 0.09 15 0.15 11 0.11 15 0.15 16 0.16 10 0.10 11 0.11 5 0.05 3 0.03 2 0.02 0 0 0.8 1.0 SE SP L(0,1) AUC 1 0,97 0,88 0,73 0,62 0,47 0,31 0,21 0,1 0,05 0,02 0 0 0,22 0,44 0,58 0,77 0,88 0,95 1 1 1 1 1 1 1 0,780 0,561 0,437 0,355 0,398 0,532 0,690 0,790 0,900 0,950 0,980 1,000 1,000 0,220 0,217 0,130 0,153 0,072 0,038 0,020 0 0 0 0 0 0 0.85 AUC = На сегодня это все Напоследок еще раз напомню - не ORом единым! Необходимо также оценивать чувствительность (SE), относительный риск (RR), диагностическую ценность (PPV) и прогностическую эффективность маркера (AUC ) Чувствительность теста (SE) всегда мала при pM<<pD. Диагностическая ценность теста (PPV) заведомо мала при pM>>pD. Хороший классификатор – это когда OR>5, а частота маркера не менее 30% При OR<2.5 маркер является заведомо плохим классификатором (AUC<0.6 при любых частотах заболевания и маркера) Редкие мутации - малоэффективные классификаторы. Если частота маркера мала (pM<0.2pD ), то прогностическая эффективность теста (AUC) крайне низка даже при OR>>1 В ситуации «case-control» не надо думать про OR, что это относительный риск. Оцените RR как OR/(1-pD+pDOR)