Занятие 2 Тестирование гипотез в статистике. Критерии Стьюдента Три основные концепции в анализе данных: 1. Что такое РАСПРЕДЕЛЕНИЕ переменной и как его описывать 2. Что такое распределение ВЫБОРОЧНЫХ СРЕДНИХ и как оно связано с распределением переменной 3. Что такое СТАТИСТИКА КРИТЕРИЯ Описательная статистика (descriptive statistics): ОПИСЫВАЕМ ВЫБОРКУ на основе свойств частотного распределения. «Количественный результат» Индуктивная статистика (inferential statistics): на основе свойств выборки (параметров выборки) делаем заключения о СВОЙСТВАХ ПОПУЛЯЦИИ. «Качественный результат» выборка популяция (генеральная совокупность) Гипотеза – предположение о свойстве популяции (каком-либо параметре, форме распределения…). Тестирование гипотезы (hypothesis testing) – – процедура, в которой мы решаем, принять гипотезу («accept») или отвергнуть (reject). Предполагается, что мы формулируем гипотезу ДО сбора данных. Пример: Мы хотим знать, являются ли студенты МГУ случайной выборкой из популяции с IQ μ=100. ? Примечание. На самом деле мы никогда не можем действительно принять гипотезу: можем либо отвергнуть, либо не иметь достаточных оснований, чтобы её отвергнуть. Тестирование гипотез в статистике Очевидно, ДА Различия неочевидны Очевидно, НЕТ Тестирование гипотез в статистике Гипотеза формулируется о свойствах ПОПУЛЯЦИИ = генеральной совокупности, (предположения о самой выборке легко проверить без статистики). Опровергнуть гипотезу в принципе легче, чем подтвердить (пример с IQ=100,2). Формулируем ДВЕ взаимоисключающие гипотезы: H0 (нулевая гипотеза, null hypothesis) – её мы собираемся опровергать; обычно говорит, что нет различий, нет эффекта, нет изменений… H1 (альтернативная гипотеза, alternative hypothesis) – её мы примем, если удастся отвергнуть H0 . Решение о том, принять или отвергнуть гипотезу принимается на основе статистики критерия (test statistic). Тестирование гипотез в статистике Пример. Мы хотим узнать, отличается ли средняя масса землероек в особом Заповеднике для землероек от массы землероек, указанной в «Mammalian species» - 90 г? H0: μ = 90 г; H1 : μ ≠ 90 г μ – среднее в популяции землероек из Заповедника, которая, как мы думаем, отличается от 90 г Тестирование гипотез в статистике Заметим, что мы могли поставить вопрос по-другому – мы на глаз уверены в том, что в заповеднике зверьки крупные (т.е., их средняя масса не меньше 90 г). Но весят ли они больше 90 г? Двусторонняя альтернатива (two-tailed hypothesis) H0: μ = 90 г; H1 : μ ≠ 90 г Односторонняя альтернатива (one-tailed hypothesis) H0: μ ≤ 90 г; H1 : μ > 90 г Тестирование гипотез в статистике Истинное (но неизвестное нам) положение дел Верна H0 Мы «приняли» H0 Мы отвергли H0 ПРАВИЛЬНО! 1-α (чувствительность критерия) Верна H1 β ОШИБКА 2-го рода ПРАВИЛЬНО! ОШИБКА 1-го рода (уровень (мощность значимости) α 1-β критерия) Заметим: ошибку 1-го рода можно сделать только отвергая Н0, а ошибку 2-го рода – только «принимая» Н0 (нельзя сделать одновременно обе ошибки). Тестирование гипотез в статистике ОШИБКА 1 рода: вероятность найти различия, где их нет. (Землеройки в Заповеднике всё равно весят 90 г в среднем. Но нам показалось, глядя на выборку, что они отличаются от остальных). Это – нездоровые сенсации, которые могут принести большой вред. ОШИБКА 2 рода: вероятность не увидеть различий, где они есть. (На самом деле землеройки в заповеднике гораздо жирнее. Но мы были слишком строги к себе и посчитали, что этих различий недостаточно.) Это «близорукость», или «слепота» критерия, вред от неё не очень большой. Её контролировать мы не можем*. * Ошибку 2-го рода можно минимизировать корректным подбором статистической процедуры Тестирование гипотез в статистике Ошибка 1-го рода (уровень значимости α): Мы можем её КОНТРОЛИРОВАТЬ, например, можем задать минимальное различие между средними значениями, меньше которого, мы будем считать, что их нет, а больше - есть А задать такое расстояние нам помогают свойства нормального распределения (и его площади), см. занятие 1. Обычно принимают α = 0.05. Мощность (Power): Вероятность НАЙТИ различия, когда они ЕСТЬ, что сродни мощности микроскопа. Пример с судом или с шизофренией Тестирование гипотез в статистике Итак, позволяют ли наши данные отвергнуть Н0? Это мы решаем на основе СТАТИСТИКИ КРИТЕРИЯ (test statistic). Понятие точечной оценки параметров популяции через параметры выборки (μ через Х, σ через s). Статистика критерия рассчитывается на основе параметров ВЫБОРКИ, и её распределение известно (и соотношение площадей под ним). Тестирование гипотез в статистике Общий принцип формирования статистики критерия: параметр выборки – параметр популяции Статистика = стандартная ошибка параметра выборки Параметр популяции – определяется гипотезой Н0. Параметр выборки – оценка этого параметра. Стандартная ошибка этого параметра выборки. Она определяет, насколько большими могут быть СЛУЧАЙНЫЕ отличия между параметром выборки и популяции. Статистики критериев: z, t, F, U, χ2… Одновыборочные критерии сравнивающие среднее значение с заданным числом. Мы хотим узнать, отличается ли средняя масса землероек в Заповеднике от массы землероек = 90 г. Мы знаем, что μ=90, σ=20; собираемся поймать 25 зверьков. 1. Формулируем Н0 и Н1 : H 0 : 90 H1 : 90 Рисуем 3 распределения: • просто масса землероек этого вида со средним=90 г. • распределение выборочных средних для выборок N=25 • распределение статистики критерия z Одновыборочные критерии сравнивающие среднее значение с заданным числом. параметр выборки – параметр популяции Статистика = стандартная ошибка параметра выборки разность выборочного среднего и популяционного z ошибка среднего X X Всё это мы производим ДО взвешивания землероек! Это пока распределения возможных результатов взвешивания Одновыборочные критерии сравнивающие среднее значение с заданным числом. 2. Устанавливаем условия, при которых мы отвергнем Н0 α = 0.05 Критическое значение – начало критической области (rejection region) 3. Считаем реальные иz X Одновыборочные критерии сравнивающие среднее значение с заданным числом. 4. Интерпретируем результаты Мы не отвергаем Н0, т.е., мы не нашли достоверных различий по массе между землеройками. В статьях приводят точное р-значение (оно означает, что Н0 будет отвергнуто при любом α , большем, чем это р) d – effect size index. Одновыборочные критерии сравнивающие среднее значение с заданным числом. Односторонняя альтернатива (one-tailed hypothesis) H0: μ ≤ 90 г; H1 : μ > 90 г Мы отвергаем Н0, т.е., масса землероек в заповеднике достоверно (с уровнем значимости 0.05) отличается от 90 г. Общая схема тестирования гипотезы: 1. Формулируем Н0 и Н1. Строим распределения такие, как будто Н0 верна: • • • распределение исследуемой переменной; распределение параметра выборки; распределение статистики критерия. 2. Устанавливаем условия, при которых мы отвергнем Н0 – это делает определяем: • • • уровень значимости; односторонний или двусторонний будет тест; критическое значение статистики критерия. человек, а не компьютер 3. Считаем параметр выборки и статистику критерия для реальной выборки, сравниваем их с критическими значениями. 4. Интерпретируем результаты: • • Можем ли мы отвергнуть Н0? Т.е., достоверны ли результаты статистически? Если да, достоверны ли они ПРАКТИЧЕСКИ? Тестирование гипотез в статистике Хорошая практика при изложении результатов в публикации – Приводить точную оценку вероятности ошибки 1-го рода p (например, р=0.025, р=0.0001). Тогда читатель может сам выбирать уровень значимости. * - достоверные различия – р<0.05 ** - высокодостоверные различия - р<0.01 *** - р<0.001 Если вероятность ошибки близка к α, лучше всего провести дополнительные исследования и не делать окончательных выводов (Zar, 2010) Одновыборочные критерии сравнивающие среднее значение с заданным числом. Одновыборочный t-критерий (в случае, если дисперсия в популяции неизвестна) Превышает ли масса землероек в заповеднике 90г? Мы знаем, что μ=90, но не знаем σ ; исследовали 25 зверьков. Формулируем Н0 и Н1, создаём распределения выборочных средних и статистики критерия - t H 0 : 90 H1 : 90 William Sealy Gosset (1876–1937) = “Student” Одновыборочные критерии сравнивающие среднее значение с заданным числом. Статистика = параметр выборки – параметр популяции стандартная ошибка параметра выборки разность выборочного среднего и популяционного ошибка среднего X t sX s s X SE n df = n-1 Мы не отвергаем Н0! (Критическое значение t превышает критическое значение z). Одновыборочные критерии сравнивающие среднее значение с заданным числом. На основе критического значения t (или другой статистики критерия) можно определить 95% доверительный интервал для популяционного параметра (в данном случае, для среднего значения μ). Его середина – выборочное среднее. X z X X t s X с вероятностью 95% Про нулевое значение, обрезающее распределение Одновыборочный t-критерий В данном случае нам пришлось отвергнуть гипотезу о том, что масса тела у землероек = 90г. Одновыборочные критерии сравнивающие среднее значение с заданным числом. Как приводить среднее значение в статье? Какой параметр разброса использовать? • цель – описать популяцию (показать изменчивость в ней): X SD выборочное среднее (стандартное отклонение); • цель – показать точность оценки популяционного среднего μ: X SE X 95%CI Среднее±2SE не рекомендуется. Важно везде указывать: •N (чтобы читатель при желании мог перевести SD в SE и обратно); • какой показатель разброса используется (особенно в таблицах). Для распределений, отличных от нормального, лучше приводить медиану и межквартильный размах как показатели центра распределения и разброса в нём. Одновыборочные критерии проверяют гипотезы относительно: Медианы Дисперсии Коэффициента вариации Симметрии Эксцесса Двухвыборочные критерии. Сравнение между собой средних значений 2-х выборок Зависимая переменная – собственно та, которая нас интересует (dependent variable). Независимая – определяет нахождение в той или иной группе. В статистике – grouping variable. Двухвыборочные критерии. Различаются ли по массе тигры-самцы и тигры-самки в зоопарке? Сравниваем средние массы наших зверьков. Мы анализируем влияние пола на массу тигров. Зависимая переменная – масса. Независимая (группирующая) – пол (группы: 1. самцы; 2. самки) самец самка Двухвыборочные критерии. Критерий Стьюдента для независимых выборок (t-test for independent samples) Общий вопрос: получены ли выборки из одной популяции? Частный вопрос: равны ли средние значения между собой? H 0 : 1 2 H1 : 1 2 1. Размеры выборок могут отличаться 2. Выборки должны иметь нормальное распределение, и их дисперсии должны быть равны. 3. Ограничение на размер выборки: N ≥ 10 в каждой группе. 4. Критерий может быть односторонним и двусторонним Двухвыборочные критерии. От чего будет зависеть, отвергнем ли мы гипотезу Н0 или нет? 1. Непосредственно от различий в средних значениях; 2. От изменчивости в обеих группах; 3. От размера выборок. Двухвыборочные критерии. параметр выборки – параметр популяции Статистика = стандартная ошибка параметра выборки H 0 : 1 2 H1 : 1 2 H 0 : 1 2 0 ( X 1 X 2 ) ( 1 2 ) X 1 X 2 t s X1 X 2 s X1 X 2 df n1 n2 2 разность выборочных средних ошибка Ошибка считается из средних квадратов стандартных отклонений в выборках Основное распределение - t-распределение (Стьюдента) * Это статистика для двустороннего критерия Двухвыборочные критерии. Стандартная ошибка РАЗНОСТИ между средними s X1 X 2 s X1 X 2 Взвешенная по размерам выборок средняя дисперсия s 2 pooled n1 s 2 pooled n2 Идея в том, что стандартная ошибка разности средних определяется дисперсиями в обеих выборках и размерами этих выборок Показать картинку с распределениями Двухвыборочные критерии. Группы классифицированы по одному признаку – действующий фактор один t-test for independent samples Двухвыборочные критерии. Итак, 1. В соответствии с уровнем значимости 0.05 отвергаем Н0; 2. Однако, гипотеза о равенстве дисперсий в выборках тоже отвергнута; 3. Поскольку размеры выборок одинаковы, и всем остальным требованиям выборки удовлетворяют, мы можем этим фактом пренебречь (!); Средняя масса тигров-самцов и тигров-самок неодинакова. 4. Для разрешения всех сомнений можно воспользоваться непараметрической статистикой. Двухвыборочные критерии. Что ещё можно сравнить у 2-х выборок: Медианы (занятие 6) Дисперсии Индексы разнообразия! (занятие 6) Двухвыборочные критерии. Критерий Стъюдента для связанных выборок (t-test for dependent samples) К тиграм-самцам пришёл новый служитель, и возможно, они стали по-другому питаться. Мы хотим узнать, не изменилась ли их масса. Мы анализируем влияние служителя на массу тигров-самцов. Зависимая переменная – масса. Независимая – группы: 1. до нового служителя; 2. после) Пример с левой и правой ногами Двухвыборочные критерии. Каждый тигр два раза участвует в наблюдениях: он входит в обе группы. ДО ПОСЛЕ Di X i1 X i 2 1 тигр 356 363 Таких D столько, сколько пар. 2 тигр 351 361 У них есть среднее. 3 тигр 353 358 4 тигр 355 356 H 0 : D 0 Идентично одновыборочному 5 тигр 354 359 H : 0 t-критерию! 1 D 6 тигр 355 355 Статистика: D D t sD D t sD Тест может быть односторонним и двусторонним df n 1 Двухвыборочные критерии. t-test for dependent samples Двухвыборочные критерии. Отвергаем Н0: Масса тигров в среднем достоверно увеличилась после прихода нового служителя. Двухвыборочные критерии. В принципе, можно использовать тест для независимых выборок и для связанных выборок. Но мы рискуем не увидеть существующих различий, особенно при большой изменчивости в выборках! Тесты для связанных выборок как раз для того и существуют, чтобы исключить из анализа внутригрупповую изменчивость. Задания 1. охарактеризовать распределения: Длины травинок на только что покошенном газоне Массы детёнышей при рождении Массы всех зверьков в популяции Размера выводков в популяции Длины картошинок-фри в Мак-Дональдсе принадлежности учеников в школе к классам 2. В институте каждый год проводят экзамен по статистике, и средний результат = 81 балл. Преподаватель решил удвоить количество домашних заданий и посмотреть, повлияло ли это на знания учеников на экзамене. Какими будут нулевая и альтернативная гипотезы? Альтернатива в тесте односторонняя или двусторонняя? Предположим, учитель проводит статистический анализ и отвергает нулевую гипотезу. Возможна ли при этом ошибка 1-го рода? 2-го рода? Что будут представлять из себя эти ошибки в данном случае? 2. Д-р Симонс решил узнать, как утренняя зарядка влияет на самочувствие людей. Он померил ЧСС у 52 человек и заставил их 8 недель каждое утро делать зарядку, после чего померил ЧСС вновь. Какими будут нулевая и альтернативная гипотезы? Какой статистический тест доктор будет использовать для анализа? 3. зоолог обнаружил две изолированные популяции белок – северную и южную. Ему кажется, что в северной популяции белки крупнее (различается их масса). Он хочет проверить своё предположение статистически. Какими будут нулевая и альтернативная гипотезы? Какой статистический тест доктор будет использовать для анализа?