Принять нельзя отвергнуть (проверка гипотез)

advertisement
Биостатистика
2. Принять нельзя отвергнуть
(проверка гипотез)
Рубанович А.В.
Институт общей генетики им. Н.И. Вавилова РАН
Вероятность упустить и вероятность обознаться
До этого момента нас интересовало лишь одно:
могут ли наблюдаемые эффекты появиться случайно?
Другой аспект той же проблемы: если эффекты не обнаружены,
то возможно это тоже проявление случайности?
Гипотезы и статистики: необходима формализация
 Гипотеза – это предположение о виде распределения
или значении параметра генерального распределения
(например о среднем)
 Нулевая гипотеза (H0) - обычно предположение о случайном характере
наблюдаемых различий или об отсутствии эффектов
 Альтернативная гипотеза (H1) формулируется в зависимости от характера
теста – односторонний или двусторонний. Это совсем не обязательно H 0
 Статистический критерий – это правило, согласно которому принимается
или отвергается гипотеза.
 Статистика – это функция от выборочных наблюдений, с помощью которой
строится статистический критерий (t, 2, Z, … )
Вероятность упустить и вероятность обознаться
В жизни, а также при проведение статистических тестов
возможны два типа ошибок:
- отвергнуть правильную нулевую гипотезу
- принять неправильную нулевую гипотезу
Нулевая гипотеза – обычно предположение об отсутствии
различий, например, 2 выборки взяты из одной общей
(генеральной) совокупности
Ошибка I рода ()
Вероятность отвергнуть правильную нулевую гипотезу =
Вероятность обнаружить различия там, где их нет =
Вероятность совершить фальшивое открытие
Ошибка II рода ()
Вероятность принять неправильную нулевую гипотезу =
Вероятность не обнаружить существующие различия =
Вероятность упустить открытие
Вероятность упустить и вероятность обознаться
Н0 – беременности нет
Отвергнута
правильная нулевая
гипотеза. Сделано
фальш-положительное
открытие
Принята неправильная
нулевая гипотеза.
Фальш-негативный
вывод. Открытие
упущено
Вероятность упустить и вероятность обознаться
«Тест» св. Фомы Неверующего (0033):
всегда принимаем Н0
(т.е. различий нет, и все всегда случайно )
Караваджо (1573-1610). Фома Неверующий
Каковы ошибки I и II рода для такого теста?
=0  =1
Вероятность упустить и вероятность обознаться
Простейшая ситуация: тестируем монеты на симметричность
Р(0, 1, 2 «орлов» в 10 бросаниях) =БИНОМРАСП(2;10;0,5;1) = 0.0547
Р(0, 1, «орлов» в 10 бросаниях)
сумму
=БИНОМРАСП(1;10;0,5;1) Считать
= 0.0107
от 0 до 2
Но это односторонний тест! Для двустороннего вдвое больше:
Р(0, 1 или 9, 10 «орлов» в 10 бросаниях) = 2  0.0107 = 0.0214
Т.о. можно предложить следующий тест на «симметричность»
монеты: кидаем 10 раз, и …
 если #«орлов» = 0, 1 или 9, 10, то монета несимметрична
 если #«орлов» = 2, 3, …,8 то монета симметрична
Каковы ошибки I и II рода для такого теста?
Вероятность упустить и вероятность обознаться
Н0 – монета симметрична
Отвергаем Н0, которая на самом деле верна (ошибка I рода)
  P(0, 1 или 9, 10 | p  0.5) 
= 2 * БИНОМРАСП(1;10;0,5;1) = 0.021
Неплохо! Лишь 2% «честных» монет будут неправильно
объявлены несимметричными
Если уж тест сработал, то монета и впрямь скорей всего несимметрична!
Принимаем Н0, которая на самом деле неверна (ошибка II рода)
  P(2,3...,8 | p  0.4) 
= БИНОМРАСП(8;10;0,4;1) - БИНОМРАСП(1;10;0,4;1) = 0.952
На картинке это выглядит так:
Биномиальное распределение при р = 0,5 и р = 0,4
Н1: монета
несимметрична
(например, р = 0.4)
Н0: монета
симметрична
(р = 0.5)
Ошибка I рода:  = сумма красных полосок
Ошибка II рода:  = сумма желтых полосок
Вероятность упустить и вероятность обознаться
Н0 – монета симметрична
Отвергаем Н0, которая на самом деле верна (ошибка I рода)
  P(0, 1 или 9, 10 | p  0.5) 
= 2 * БИНОМРАСП(1;10;0,5;1) = 0.021
Неплохо! Лишь 2% «честных» монет будут неправильно
объявлены несимметричными
Если уж тест сработал, то монета и впрямь скорей всего несимметрична!
Принимаем Н0, которая на самом деле неверна (ошибка II рода)
  P(2,3...,8 | p  0.4) 
= БИНОМРАСП(8;10;0,4;1) - БИНОМРАСП(1;10;0,4;1) = 0.952
Плохо! 95% «нечестных» монет будет пропущено
Вероятность упустить и вероятность обознаться
В каких случая их следует оценивать?
 Ошибка I рода оценивается всегда! Это гарантия того, что мы не
подсунем научной общественности фальшивый результат.
Обычно ошибку I рода характеризуют величиной p-value
(или просто р): p-value = Р(data | Н0 )
Не вполне точно!
p-value = Р(data + data* | Н0 )
где data* - данные с еще более «крутыми» эффектами,
Например, проверяя значимость отклонения 1/10 от 0.5,
мы вычисляли не P(1 | H 0 ) , а P(0, 1 или 9, 10 | H 0 )
 Когда необходимо оценивать ошибку II рода? Это вероятность
упустить эффект, если он реально существует. Казалось бы, это наши
проблемы
Но только не в том случае, если мы публикуем отрицательный
результат, т.е. сообщаем об отсутствии эффектов.
В этом случае, необходимо приводить ошибку II рода и оценивать
при каких объемах выборок она сделается приемлемой.
Мощность теста
это вероятность правильно отвергнуть нулевую гипотезу
или вероятность не упустить открытие
Мощность теста = 1- 
 Мощность 80% считается приемлемой
 Консервативный тест - это тест с низкой мощностью
 Мощностью теста резко возрастает при увеличении
объемов выборок
 При планировании экспериментов имеет смысл прикинуть
возможную мощность тестов
Например,
Compare2/ Power/ Comparison of proportions
Size A - 100 Size B – 100
Мощность =
a/A – 0.2
b/B – 0.1
44%
… и необходимый объем выборок
Например,
Compare2/ Sample size/ Proportions
Size A/ Size B =1
a/A – 0.2
b/B – 0.1
Общий объем выборок = 398
Прямые и косвенные оценки значимости
Для чего придумали статистики – все эти t, 2, Z и т.д. ?
Дело в том, что в реальных задачах посчитать напрямую
ошибки I и II рода практически невозможно
Особенно в случае оценок и сравнений параметров
распределений количественных признаков
Поэтому, как правило, мы вынуждены поступать по другому:
вычисляется некая функция от выборочных наблюдений
(т.н. статистика теста), характер распределения которой при
нулевой гипотезе заведомо известен.
Прямые и косвенные оценки значимости
Знакомый пример
Эксперимент: 470 орлов в 1000 бросаниях  оценка р = 0.47 при n = 1000
Н0 - нулевая гипотеза: р = ½
Н1 - альтернативная гипотеза:
р < ½ - односторонний тест
0,4
x  0,   1
 Прямая оценка
0,3
f (x )
Вероятность «менее 470 из 1000» при выполнении Н0 (т.е. при условии р = ½ )
 = 0.031
0,2
= БИНОМРАСП(470; 1000; 0,5; 1)
Принимаем Н1, потому что вероятность отвергнуть правильную Н0 меньше 0.05
Площадь?
0,1
0
 Косвенная оценка
-4
-3
-2
-1
0
1
2
3
Используем т.н. «Z-статистику»:
1.9
x
4
Z
x1  x 2
 x x
1
Z
2
p  0.5
= (0,5-0,47)/КОРЕНЬ(0,47*0,53/1000)
= 1.9
p(1  p)
n
 = 0.029
=1- НОРМРАСП(1,9; 0; 1;1)
Однако по двустороннему тесту (р≠1/2) нам следует отвергнуть Н0: 20.031>0.05
Значимость отличия среднего от нуля
Даже в этом простейшем случае получить прямые оценки
вероятностей ошибок довольно затруднительно
Среднее  ошибка среднего
Проверяем значимость отличий 21 от 0 (при n = 100).
Z - статистика 
Ошибка I рода
x0
x
2
 2
1
=1- НОРМРАСП(2; 0; 1; 1)
= 0.023
21 vs 0 в STATISTICA (ошибка I рода)
SD 
n  SE  100  1  10
21 vs 0 в STATISTICA (ошибка II рода)
21 vs 0 в STATISTICA (ошибка II рода)
1 Sample t-Test: Power Calculation
One Mean, t-Test (H0: Mu = Mu0)
Power vs. N (Es = 0,2, Alpha = 0,05)
,6
,5
Power
,4
,3
,2
,1
0,0
0
10
20
30
40
50
60
Sample Size (N)
70
80
90
100
110
21 vs 0 в STATISTICA (ошибка II рода)
1 Sample t-Test: Power Calculation
One Mean, t-Test (H0: Mu = Mu0)
Power vs. Alpha (Es = 0,2, N = 100)
,9
,8
Power
,7
,6
,5
,4
,3
,2
0,00
0,05
0,10
0,15
Type I Error Rate (Alpha)
0,20
0,25
0,30
Вероятность упустить и вероятность обознаться
 vs.  :
противоборство показателей теста
Всегда
отвергаем Н0
=1, =0
Тест
Всегда принимаем
Н0 =0, =1
Ошибка I рода
Ошибка II рода
Гарантирована
Уменьшая ошибку I рода, увеличиваем
ошибку плохая
II рода,
воспроизводимость
т.е. теряем мощность теста (et converso)
Вопрос: рассмотрим варианты 1)  = 0.02,  = 0.8; 2)  =  = 0.1; 3)  =  = 0.5
В каких случаях можно печататься? Какой результат самый надежный?
Вероятность упустить и вероятность обознаться
В реальных ситуациях мы проверяем обнаруженные эффекты на
«случайность» с помощью вспомогательных функций - статистик
Частота
0.25
При условии Н0
При условии Н1
0.2
Ошибка I рода
0.15 велика
Ошибка II рода
велика
0.1
Ошибка II рода
мала
0.05
Ошибка I рода
мала
0
Высокий
Низкий
уровень
уровень
значимости значимости
Статистика теста,
например, t или 2
От чего зависят ошибки статистических тестов?
 От размаха реально существующих отличий и разброса данных
 От объемов выборок
• Ошибка I рода (вероятность фальшивого открытия) слабо
зависит от объемов выборок, если они сравнимы по величине
В каком смысле?
Ситуация, типичная для эпидемиологии
(или для ассоциативных исследований «case-control»)
Среди n больных
– 9 носителей маркера
Среди n контрольных лиц – 1 носитель маркера
Рассмотрим случай равных
по объему выборок
1 vs 9
1 vs 5
n
p-value
p-value
30
50
100
200
300
500
0.012
0.016
0.018
0.020
0.020
0.021
0.195
0.204
0.212
p-value почти не зависит
0.215
от n при n > 50
0.216
0.217
При сравнении больших выборок одного порядка ошибка I рода
зависит лишь от абсолютных значений эффекта
От чего зависят ошибки статистических тестов?
 От размаха реально существующих отличий и разброса данных
 От объемов выборок
• Ошибка I рода (вероятность фальшивого открытия) слабо
зависит от объемов выборок, если они сравнимы по величине
• С увеличением объема выборки вероятность ошибки II
рода (вероятность упустить открытие) всегда уменьшается
 Ошибки I и II рода однозначно не связаны. В целом
ошибка II рода растет при уменьшении ошибки I рода
На сегодня это все
Напоследок хочу посоветовать:
 Односторонние тесты можно использовать лишь в исключительных случаях
 Попробуйте оценить мощность правила «4 мажоров»
 Подумайте над тем, ошибки какого рода Вы чаще совершаете – I или II рода?
Download