Тестирование гипотез

реклама
Занятие 2
Тестирование гипотез в
статистике.
Критерии Стьюдента
Три основные концепции в анализе данных:
1. Что такое РАСПРЕДЕЛЕНИЕ переменной и как его
описывать
2. Что такое распределение ВЫБОРОЧНЫХ СРЕДНИХ
и как оно связано с распределением переменной
3. Что такое СТАТИСТИКА КРИТЕРИЯ
Описательная статистика (descriptive statistics):
ОПИСЫВАЕМ ВЫБОРКУ на основе свойств частотного
распределения. «Количественный результат»
Индуктивная статистика (inferential statistics): на основе
свойств выборки (параметров выборки) делаем
заключения о СВОЙСТВАХ ПОПУЛЯЦИИ. «Качественный
результат»
выборка
популяция
(генеральная совокупность)
Гипотеза – предположение о свойстве популяции
(каком-либо параметре, форме распределения…).
Тестирование гипотезы (hypothesis testing) – –
процедура, в которой мы решаем, принять гипотезу
(«accept») или отвергнуть (reject).
Предполагается, что мы формулируем гипотезу ДО сбора данных.
Пример:
Мы хотим знать, являются ли студенты МГУ случайной
выборкой из популяции с IQ μ=100.
?
Примечание. На самом деле мы никогда не можем действительно принять гипотезу:
можем либо отвергнуть, либо не иметь достаточных оснований, чтобы её отвергнуть.
Тестирование гипотез в статистике
Очевидно, ДА
Различия неочевидны
Очевидно, НЕТ
Тестирование гипотез в статистике
Гипотеза формулируется о свойствах ПОПУЛЯЦИИ
= генеральной совокупности, (предположения о самой
выборке легко проверить без статистики).
Опровергнуть гипотезу в принципе легче, чем
подтвердить (пример с IQ=100,2).
Формулируем ДВЕ взаимоисключающие гипотезы:
H0 (нулевая гипотеза, null hypothesis) – её мы собираемся
опровергать; обычно говорит, что нет различий, нет эффекта, нет
изменений…
H1 (альтернативная гипотеза, alternative hypothesis) – её мы примем,
если удастся отвергнуть H0 .
Решение о том, принять или отвергнуть гипотезу
принимается на основе статистики критерия (test statistic).
Тестирование гипотез в статистике
Пример.
Мы хотим узнать, отличается ли средняя масса землероек
в особом Заповеднике для землероек от массы
землероек, указанной в «Mammalian species» - 90 г?
H0: μ = 90 г;
H1 : μ ≠ 90 г
μ – среднее в популяции землероек
из Заповедника, которая, как мы
думаем, отличается от 90 г
Тестирование гипотез в статистике
Заметим, что мы могли поставить вопрос по-другому
– мы на глаз уверены в том, что в заповеднике
зверьки крупные (т.е., их средняя масса не меньше
90 г). Но весят ли они больше 90 г?
Двусторонняя
альтернатива
(two-tailed hypothesis)
H0: μ = 90 г;
H1 : μ ≠ 90 г
Односторонняя
альтернатива
(one-tailed hypothesis)
H0: μ ≤ 90 г;
H1 : μ > 90 г
Тестирование гипотез в статистике
Истинное (но неизвестное нам)
положение дел
Верна H0
Мы «приняли»
H0
Мы отвергли H0
ПРАВИЛЬНО! 1-α
(чувствительность
критерия)
Верна H1
β
ОШИБКА 2-го
рода
ПРАВИЛЬНО!
ОШИБКА 1-го рода
(уровень
(мощность
значимости) α 1-β критерия)
Заметим: ошибку 1-го рода можно сделать только отвергая Н0, а
ошибку 2-го рода – только «принимая» Н0 (нельзя сделать
одновременно обе ошибки).
Тестирование гипотез в статистике
ОШИБКА 1 рода: вероятность найти различия, где их
нет.
(Землеройки в Заповеднике всё равно весят 90 г в среднем. Но нам
показалось, глядя на выборку, что они отличаются от остальных).
Это – нездоровые сенсации, которые могут принести
большой вред.
ОШИБКА 2 рода: вероятность не увидеть различий, где
они есть.
(На самом деле землеройки в заповеднике гораздо жирнее. Но мы
были слишком строги к себе и посчитали, что этих различий
недостаточно.)
Это «близорукость», или «слепота» критерия, вред от неё
не очень большой. Её контролировать мы не можем*.
* Ошибку 2-го рода можно минимизировать корректным
подбором статистической процедуры
Тестирование гипотез в статистике
Ошибка 1-го рода (уровень значимости α):
Мы можем её КОНТРОЛИРОВАТЬ, например, можем
задать минимальное различие между средними
значениями, меньше которого, мы будем считать, что их
нет, а больше - есть
А задать такое расстояние нам помогают свойства
нормального распределения (и его площади), см. занятие 1.
Обычно принимают α = 0.05.
Мощность (Power):
Вероятность НАЙТИ различия, когда они ЕСТЬ,
что сродни мощности микроскопа.
Пример с судом или с шизофренией
Тестирование гипотез в статистике
Итак, позволяют ли наши
данные отвергнуть Н0?
Это мы решаем на основе
СТАТИСТИКИ КРИТЕРИЯ
(test statistic).
Понятие точечной оценки параметров
популяции через параметры выборки
(μ через Х, σ через s).
Статистика критерия
рассчитывается на основе
параметров ВЫБОРКИ, и её
распределение известно (и
соотношение площадей под ним).
Тестирование гипотез в статистике
Общий принцип формирования статистики критерия:
параметр выборки – параметр популяции
Статистика = стандартная ошибка параметра выборки
Параметр популяции – определяется гипотезой Н0.
Параметр выборки – оценка этого параметра.
Стандартная ошибка этого параметра выборки. Она
определяет, насколько большими могут быть СЛУЧАЙНЫЕ
отличия между параметром выборки и популяции.
Статистики критериев: z, t, F, U, χ2…
Одновыборочные критерии
сравнивающие среднее значение с заданным числом.
Мы хотим узнать, отличается ли средняя масса
землероек в Заповеднике от массы землероек = 90 г.
Мы знаем, что μ=90, σ=20; собираемся поймать 25 зверьков.
1. Формулируем Н0 и Н1 :
H 0 :   90
H1 :   90
Рисуем 3 распределения:
• просто масса землероек этого вида со средним=90 г.
• распределение выборочных средних для выборок N=25
• распределение статистики критерия z
Одновыборочные критерии
сравнивающие среднее значение с заданным числом.
параметр выборки – параметр популяции
Статистика = стандартная ошибка параметра выборки
разность выборочного
среднего и
популяционного
z
ошибка среднего
X 
X
Всё это мы производим ДО взвешивания землероек! Это пока
распределения возможных результатов взвешивания
Одновыборочные критерии
сравнивающие среднее значение с заданным числом.
2. Устанавливаем условия,
при которых мы отвергнем
Н0
α = 0.05
Критическое значение – начало
критической области (rejection region)
3. Считаем реальные
иz
X
Одновыборочные критерии
сравнивающие среднее значение с заданным числом.
4. Интерпретируем результаты
Мы не отвергаем Н0, т.е., мы не нашли достоверных
различий по массе между землеройками.
В статьях приводят точное р-значение (оно означает, что Н0 будет
отвергнуто при любом α , большем, чем это р)
d – effect size index.
Одновыборочные критерии
сравнивающие среднее значение с заданным числом.
Односторонняя альтернатива
(one-tailed hypothesis)
H0: μ ≤ 90 г;
H1 : μ > 90 г
Мы отвергаем Н0, т.е., масса
землероек в заповеднике достоверно
(с уровнем значимости 0.05)
отличается от 90 г.
Общая схема тестирования гипотезы:
1. Формулируем Н0 и Н1. Строим распределения такие, как
будто Н0 верна:
•
•
•
распределение исследуемой переменной;
распределение параметра выборки;
распределение статистики критерия.
2. Устанавливаем условия, при которых мы отвергнем Н0 –
это делает
определяем:
•
•
•
уровень значимости;
односторонний или двусторонний будет тест;
критическое значение статистики критерия.
человек, а не
компьютер
3. Считаем параметр выборки и статистику критерия для
реальной выборки, сравниваем их с критическими
значениями.
4. Интерпретируем результаты:
•
•
Можем ли мы отвергнуть Н0? Т.е., достоверны ли результаты
статистически?
Если да, достоверны ли они ПРАКТИЧЕСКИ?
Тестирование гипотез в статистике
Хорошая практика при изложении результатов в
публикации –
Приводить точную оценку вероятности ошибки 1-го
рода p (например, р=0.025, р=0.0001). Тогда
читатель может сам выбирать уровень значимости.
* - достоверные различия – р<0.05
** - высокодостоверные различия - р<0.01
*** - р<0.001
Если вероятность ошибки близка к α, лучше всего
провести дополнительные исследования и не
делать окончательных выводов (Zar, 2010)
Одновыборочные критерии
сравнивающие среднее значение с заданным числом.
Одновыборочный t-критерий (в случае,
если дисперсия в популяции неизвестна)
Превышает ли масса землероек в заповеднике 90г?
Мы знаем, что μ=90, но не знаем σ ; исследовали 25
зверьков.
Формулируем Н0 и Н1, создаём
распределения выборочных средних и
статистики критерия - t
H 0 :   90
H1 :   90
William Sealy Gosset
(1876–1937) = “Student”
Одновыборочные критерии
сравнивающие среднее значение с заданным числом.
Статистика =
параметр выборки – параметр популяции
стандартная ошибка параметра выборки
разность выборочного
среднего и
популяционного
ошибка среднего
X 
t
sX
s
s X  SE 
n
df = n-1
Мы не отвергаем Н0! (Критическое значение t превышает критическое
значение z).
Одновыборочные критерии
сравнивающие среднее значение с заданным числом.
На основе критического значения t (или другой статистики
критерия) можно определить 95% доверительный интервал
для популяционного параметра (в данном случае, для
среднего значения μ).
Его середина – выборочное среднее.
  X  z   X 
  X  t  s X 
с вероятностью 95%
Про нулевое значение, обрезающее распределение
Одновыборочный t-критерий
В данном случае
нам пришлось
отвергнуть
гипотезу о том, что
масса тела у
землероек = 90г.
Одновыборочные критерии
сравнивающие среднее значение с заданным числом.
Как приводить среднее значение в статье? Какой
параметр разброса использовать?
• цель – описать популяцию (показать изменчивость в ней): X  SD
выборочное среднее (стандартное отклонение);
• цель – показать точность оценки популяционного
среднего μ: X  SE X  95%CI
Среднее±2SE не рекомендуется.
Важно везде указывать:
•N (чтобы читатель при желании мог перевести SD в SE и обратно);
• какой показатель разброса используется (особенно в таблицах).
Для распределений, отличных от нормального, лучше приводить медиану и
межквартильный размах как показатели центра распределения и разброса в нём.
Одновыборочные критерии проверяют гипотезы
относительно:
Медианы
Дисперсии
Коэффициента вариации
Симметрии
Эксцесса
Двухвыборочные критерии.
Сравнение между собой средних
значений 2-х выборок
Зависимая переменная – собственно та, которая нас
интересует (dependent variable).
Независимая – определяет нахождение в той или
иной группе. В статистике – grouping variable.
Двухвыборочные критерии.
Различаются ли по массе тигры-самцы и тигры-самки
в зоопарке?
Сравниваем средние массы наших зверьков.
Мы анализируем влияние пола на массу тигров.
Зависимая переменная – масса.
Независимая (группирующая) – пол (группы: 1. самцы; 2.
самки)
самец
самка
Двухвыборочные критерии.
Критерий Стьюдента для независимых выборок (t-test for
independent samples)
Общий вопрос: получены ли выборки из одной популяции?
Частный вопрос: равны ли средние значения между
собой?
H 0 : 1  2
H1 : 1  2
1. Размеры выборок могут отличаться
2. Выборки должны иметь нормальное распределение, и их
дисперсии должны быть равны.
3. Ограничение на размер выборки: N ≥ 10 в каждой группе.
4. Критерий может быть односторонним и двусторонним
Двухвыборочные критерии.
От чего будет зависеть, отвергнем ли мы
гипотезу Н0 или нет?
1. Непосредственно от различий в средних
значениях;
2. От изменчивости в обеих группах;
3. От размера выборок.
Двухвыборочные критерии.
параметр выборки – параметр популяции
Статистика =
стандартная ошибка параметра выборки
H 0 : 1  2
H1 : 1  2
H 0 : 1   2  0
( X 1  X 2 )  ( 1   2 ) X 1  X 2
t

s X1  X 2
s X1  X 2
df  n1  n2  2
разность
выборочных
средних
ошибка
Ошибка считается из средних
квадратов стандартных
отклонений в выборках
Основное распределение - t-распределение (Стьюдента)
* Это статистика для двустороннего критерия
Двухвыборочные критерии.
Стандартная ошибка РАЗНОСТИ между средними
s X1  X 2
s X1  X 2 
Взвешенная по размерам
выборок средняя дисперсия
s
2
pooled
n1

s
2
pooled
n2
Идея в том, что стандартная ошибка разности средних
определяется дисперсиями в обеих выборках и размерами
этих выборок
Показать картинку с распределениями
Двухвыборочные критерии.
Группы классифицированы по одному признаку
– действующий фактор один
t-test for independent samples
Двухвыборочные критерии.
Итак,
1. В соответствии с уровнем значимости 0.05
отвергаем Н0;
2. Однако, гипотеза о равенстве дисперсий в выборках тоже
отвергнута;
3. Поскольку размеры выборок одинаковы, и всем остальным
требованиям выборки удовлетворяют, мы можем этим фактом
пренебречь (!);
Средняя масса тигров-самцов и тигров-самок
неодинакова.
4. Для разрешения всех сомнений можно воспользоваться
непараметрической статистикой.
Двухвыборочные критерии.
Что ещё можно сравнить у 2-х выборок:
 Медианы (занятие 6)
 Дисперсии
 Индексы разнообразия! (занятие 6)
Двухвыборочные критерии.
Критерий Стъюдента для связанных выборок (t-test for
dependent samples)
К тиграм-самцам пришёл новый служитель, и возможно,
они стали по-другому питаться. Мы хотим узнать, не
изменилась ли их масса.
Мы анализируем влияние служителя
на массу тигров-самцов.
Зависимая переменная – масса.
Независимая – группы: 1. до нового
служителя; 2. после)
Пример с левой и правой ногами
Двухвыборочные критерии.
Каждый тигр два раза участвует в наблюдениях:
он входит в обе группы.
ДО ПОСЛЕ
Di  X i1  X i 2
1 тигр 356 363
Таких D столько, сколько пар.
2 тигр 351 361
У них есть среднее.
3 тигр 353 358
4 тигр 355 356
H 0 :  D  0 Идентично
одновыборочному
5 тигр 354 359
H
:


0
t-критерию!
1
D
6 тигр 355 355
Статистика:
D  D
t
sD
D
t
sD
Тест может быть односторонним и двусторонним
df  n  1
Двухвыборочные критерии.
t-test for dependent samples
Двухвыборочные критерии.
Отвергаем Н0:
Масса тигров в среднем
достоверно увеличилась
после прихода нового
служителя.
Двухвыборочные критерии.
В принципе, можно использовать тест для независимых
выборок и для связанных выборок.
Но мы рискуем не увидеть существующих различий,
особенно при большой изменчивости в выборках!
Тесты для связанных выборок как раз для того и существуют,
чтобы исключить из анализа внутригрупповую изменчивость.
Задания
1. охарактеризовать распределения:






Длины травинок на только что покошенном газоне
Массы детёнышей при рождении
Массы всех зверьков в популяции
Размера выводков в популяции
Длины картошинок-фри в Мак-Дональдсе
принадлежности учеников в школе к классам
2. В институте каждый год проводят экзамен по статистике,
и средний результат = 81 балл. Преподаватель решил
удвоить количество домашних заданий и посмотреть,
повлияло ли это на знания учеников на экзамене.



Какими будут нулевая и альтернативная гипотезы?
Альтернатива в тесте односторонняя или двусторонняя?
Предположим, учитель проводит статистический анализ и отвергает
нулевую гипотезу. Возможна ли при этом ошибка 1-го рода? 2-го
рода? Что будут представлять из себя эти ошибки в данном случае?
2. Д-р Симонс решил узнать, как утренняя зарядка
влияет на самочувствие людей. Он померил ЧСС у 52
человек и заставил их 8 недель каждое утро делать
зарядку, после чего померил ЧСС вновь.
Какими будут нулевая и альтернативная гипотезы?
Какой статистический тест доктор будет
использовать для анализа?
3. зоолог обнаружил две изолированные популяции
белок – северную и южную. Ему кажется, что в северной
популяции белки крупнее (различается их масса). Он
хочет проверить своё предположение статистически.
Какими будут нулевая и альтернативная гипотезы?
Какой статистический тест доктор будет
использовать для анализа?
Скачать