Uploaded by baranova

Презентация Проверка статистических гипотез итог

advertisement
ПРОВЕРКА СТАТИСТИЧЕСКИХ
ГИПОТЕЗ
Статистическая гипотеза это гипотеза
 о
видах неизвестного распределения
или
 о параметрах известного распределения.
Проверка статистической
гипотезы:
заключается в сопоставлении некоторых
статистических
показателей,
вычисленных по данным выборки со
значениями
этих
же
показателей,
определенных
теоретически
в
предположении,
что
проверяемая 2
Классификация гипотез
Выдвинутая (нулевая)
 Конкурирующая (альтернативная).

Выдвинутая (нулевая) гипотеза Н0 –
гипотеза, подлежащая проверке.
Конкурирующая (альтернативная) гипотеза
Н1 – каждая допустимая гипотеза, отличная от
нулевой.
Пример:
Если Н0 состоит в предположении, что
математическое ожидание М(Х) нормального
распределения равно 10, то Н1 может состоять в
предположении, что М(Х) не равно 10.
Н0: М(Х)=10.
Н1: М(Х)≠10
3
Проверка статистических гипотез
Любое предположение H о распределении выборочных
наблюдений называется статистической гипотезой H.
Процедура обоснованного сопоставления
гипотезы
с
выборочными
данными
статистической проверкой гипотезы.
высказанной
называется
Гипотеза называется простой, если она однозначно
определяет распределение, в противном случае гипотеза
называется сложной. Если гипотез всего две, то одна из них
обычно называется основной (обозначается H0), гипотеза же,
принимаемая при отклонении H0, называется альтернативной
(обозначается H1, H2, …).
4
Примеры:
Если λ – параметр распределения
Пуассона, то гипотеза H0: λ = 5 является
простой.

Нулевая гипотеза о том, что
математическое ожидание нормального
распределения равно 3 (при известной
дисперсии) H0 : а=3 также является
простой.


Сложная гипотеза H0 : λ >7 состоит из
множества простых гипотез вида Hi :
λ=ki , где ki - любое число, большее
семи.
5
Статистический критерий

Статистический критерий - правило,
по которому гипотеза Н0 принимается
или отвергается.
6
Проверка статистических гипотез

Правило  ( X ) , по которому на основе выборочных значений
принимается одна из гипотез {H 1, H 2 ,, H k } , называется

статистическим критерием  ( X ) .
Статистический критерий не отвечает на вопрос – верна или
нет проверяемая гипотеза. Он лишь решает, противоречат
или нет выдвинутой гипотезе выборочные данные.
Если есть одна основная гипотеза, а все остальные нежелательные отклонения от нее, то вывод “данные
противоречат гипотезе” всегда весомее, чем “данные не
противоречат гипотезе”.
7
Статистика критерия



Согласно большинству статистических
критериев проверка статистической гипотезы
осуществляется путем вычисления
специальных функций от наблюдаемых
значений (вариант выборки)
Такая функция называется статистикой
критерия
Статистики строятся так, чтобы их
распределения при Н0 и при Н1 сильно
различались  поскольку распределения
статистик хорошо известны, достаточно
вычисленное значение статистики сравнить с
некоторым табличным значением
8
Уровень значимости и мощность
критерия


Уровень значимости - вероятность
ошибочно отвергнуть гипотезу, когда она
верна (т.е. вероятность ошибки первого
рода); обозначается через  и заранее
принимается достаточно малым
Мощность критерия - вероятность
принять гипотезу, когда она верна (т.е.
вероятность недопущения ошибки
второго рода); обозначается через  и
выбирается по возможности близким к
1 (при заранее заданном )
9
Уровень значимости


Уровнем значимости назовем допустимую вероятность
совершить ошибку первого рода, то есть принять неверную
гипотезу. Обозначим .
Уровень значимости  выбирается исследователем до того, как
будет проверяться гипотеза. Значение обычно выбирается
небольшим, например, 0,10; 0,05 или 0,01.
10
Общая схема проверки гипотез
1. Формулируются гипотезы Н0 и Н1.
2. Выбирается уровень значимости критерия . Он равен
вероятности допустить ошибку первого рода.
3. По выборочным данным вычисляется значение некоторой
случайной величины, называемой статистикой критерия, или
просто статистическим критерием, который имеет известное
стандартное распределение (нормальное, Т-распределение
Стьюдента и т.п.)
4. Вычисляется критическая область и область принятия
гипотезы. То есть находят критическое (граничное) значение
критерия при выбранном уровне значимости.
5. Найденное значение критерия сравнивается с критическим и
по результатам сравнения делается вывод: отвергнуть
гипотезу или не отвергнуть.
 Если вычисленное по выборке значение критерия меньше чем
критическое, то нулевую гипотезу Но не отвергают на
заданном уровне значимости.
 Если вычисленное значение критерия больше критического,
то гипотеза Н0 отклоняется в пользу гипотезы Н1 при данном
уровне значимости.
11
Проблемная ситуация


Будучи управляющим компании Oxford Cereal Company, вы
отвечаете за процесс расфасовки кукурузных хлопьев по
коробкам. Необходимо убедиться, что конвейер работает
нормально, и каждая коробка содержит в среднем 368 г зерна.
Для этого вы извлекаете из генеральной совокупности 25
коробок, взвешиваете их и оцениваете отклонение реального
веса от номинального. Коробки из этой выборки могут
содержать либо слишком мало, либо слишком много хлопьев. В
этом случае следует остановить производство и определить
причину неполадок. Анализируя
разности между реальным весом и номинальным, необходимо
решить, равно ли математическое ожидание генеральной
совокупности 368 г или нет. Если равно, процесс расфасовки не
требует вмешательства, если нет — следует остановить
конвейер.
12
Примеры основной и
альтернативной гипотезы

Средний вес выпускаемых коробок равен 368
г, конвейер работает нормально
Основная гипотеза:
H 0 : a  368
H1 : a  368

Средний вес выпускаемых коробок отличен от
368 г, конвейер требует наладки
Альтернативная гипотеза:
13
Еще одна проблемная ситуация



В прошлом году компания А провела исследование и выяснила, что
5% покупателей заинтересованы в выпуске стирального порошка,
который отстирывает чернильные пятна на белых рубашках.
Компания начала выпуск такого порошка и спустя год после начала
выпуска провела новое исследование, в ходе которого из 6000
опрошенных 335 положительно отнеслись к выпуску нового
продукта.
Можно ли с высокой долей уверенности утверждать, что интерес
покупателей к новому продукту возрос? Как это проверить?
14
Примеры основной и
альтернативной гипотезы

Основная гипотеза:

Альтернативная гипотеза:

H1 : p  0,05
H 0 : p  0,05
В порошке по прежнему заинтересованы 5%
покупателей
В порошке заинтересовано больше 5%
покупателей, интерес вырос
15
Ошибки проверки статистических
гипотез
Ошибка первого рода или «ложная
тревога» состоит в том, что будет
отвергнута правильная гипотеза.
Вероятность ошибки первого рода
называется уровнем значимости и
обозначается α.
Ошибка второго рода или «пропуск
цели» состоит в том, что будет
принята неправильная гипотеза.
Вероятность ошибки второго рода
16
Ошибки первого и второго рода


Статистические гипотезы проверяются статистическими методами,
на основании выборки, полученной из генеральной совокупности.
Из-за случайности выборки в результате проверки могут возникать
ошибки и приниматься неправильные решения.
Назовем ошибкой первого рода ситуацию, в которой мы
отвергаем верную гипотезу H0. При ошибке второго рода
принимается гипотеза H0 в то время, как она неверна.
Основная
гипотеза верна
Основная
гипотеза неверна
Мы приняли
основную гипотезу
Верное решение
Ошибка II рода
Мы отклонили
основную гипотезу
Ошибка I рода
Верное решение
17
Статистика - критерий проверки гипотезы




Каким образом на основании выборки принимается решение?
Для этого необходима специальная функция, называемая
статистикой. Эта функция зависит от выборки и потому
является случайной функцией.
Множество значений статистики включает:
область принятия гипотезы, то есть множество тех значений
статистики, при которых гипотеза H0 принимается
критическую область, то есть множество тех значений
статистики, при которых гипотеза H0 отклоняется и
принимается альтернативная гипотеза
Критическая
область
Область принятия
гипотезы
Критическая
область
Возможные
значения
статистики
18
Критическая область и ее границы

•
•
•

Критическая область строится для каждой статистики, основываясь
на ее свойствах, и зависит от:
объема выборки
уровня значимости, задаваемого исследователем
вида альтернативной гипотезы
Критическая область ограничена критическими значениями, или
границами критической области, которые вычисляются для
каждой статистики при помощи таблиц.
Критическая
область
Область принятия
гипотезы
Критические
значения
Критическая
область
Возможные
значения
статистики
19
Получение вывода

После построения критической области вычисляется значение
статистики по выборке. Затем сравнивается полученное
значение статистики с критической областью.

Если значение статистики попало в область принятия
гипотезы,
 то гипотеза H0 принимается

Если значение статистики попало в критическую
область,
 то гипотеза H0 отклоняется
 и принимается альтернативная гипотеза H1
20
Статистический критерий
Для проверки Н0, используют специально подобранную случайную
величину, точное или приближенное значение которой известно.
Эту величину обозначают через:
U или Z, если она распределена нормально;
F или ² - по закону Фишера;
² - по закону «хи квадрат»;
Т или t - по распределению Стьюдента.
Статистическим критерием называют случайную величину,
служащую для проверки Н0.
Наблюдаемым значением критерия называют значение
критерия, выраженное по данным выборки.
Критическая область
После выбора определенного критерия
множество всех его возможных значений
разбивается на два подмножества:
 содержит значения критерия, при котором Н0
отвергается;
 содержит значения критериев, при которых Н0
принимается.
Критической областью называют,
совокупность значений критерия, при которой
Н0 отвергается.
Областью принятия гипотезы (областью
допустимых значений), называют совокупность
значений критерия, при которой Н0 принимают.
Основной принцип проверки
статистических гипотез:
 если наблюдаемое значение критерия принадлежит критической
области, то гипотезу отвергают;
 если наблюдаемое значение критерия принадлежит области
покрытия гипотезы, то гипотезу принимают.
Критическая область и область покрытия гипотез – это интервалы,
следовательно существует точка которая их разделяет.
Критической точкой (границей), называют точку (квантиль),
отделяющую критическую область от области принятия гипотез.
Типы критической области
1. Односторонняя критическая область:

Левосторонняя - определяемая неравенством К<Ккр

Правосторонняя - определяемая неравенством К>Ккр
2. Двусторонняя критическая область –
определяемая двумя неравенствами
К<Кı и К>К2; Кı>К2
24
 При отыскании критической области задают α (уровень
значимости)
 Ищут критические точки, исходя из требований, что
критерий К примет значение, лежащее в критической
области.
 При этом вероятность такого события равна принятому
уровню значимости α, т.е.
для правосторонней области Р(К>Ккр)= α;
для левосторонней области Р(К<Ккр)= α;
для двусторонней области Р(К>|Ккр|)= α/2
Если наблюдаемое значение критерия принадлежит
критической области, нулевую гипотезу отвергают, если не
принадлежит, то нет оснований отвергать Н0.
Для многих критериев составлены таблицы:
Стьюдента; χ²; Фишера
25
Общая схема проверки гипотез
1. Формулируются гипотезы Н0 и Н1.
2. Выбирается уровень значимости критерия . Он равен
вероятности допустить ошибку первого рода.
3. По выборочным данным вычисляется значение некоторой
случайной величины, называемой статистикой критерия, или
просто статистическим критерием, который имеет известное
стандартное распределение (нормальное, Т-распределение
Стьюдента и т.п.)
4. Вычисляется критическая область и область принятия
гипотезы. То есть находят критическое (граничное) значение
критерия при выбранном уровне значимости.
5. Найденное значение критерия сравнивается с критическим и
по результатам сравнения делается вывод: отвергнуть
гипотезу или не отвергнуть.
 Если вычисленное по выборке значение критерия меньше чем
критическое, то нулевую гипотезу Но не отвергают на
заданном уровне значимости.
 Если вычисленное значение критерия больше критического,
то гипотеза Н0 отклоняется в пользу гипотезы Н1 при данном
уровне значимости.
26
Критерии значимости
1. Параметрические - критерии значимости,
которые служат для проверки гипотез о
параметрах распределений генеральной
совокупности (чаще всего нормального
распределения). Эти критерии называются
параметрическими.
2. Непараметрические - критерии, которые для
проверки гипотез не используют предположений
о распределении генеральной совокупности. Эти
критерии не требуют знания параметров
распределений.
3. Критерии согласия, служащие для проверки
гипотез о согласии распределения генеральной
совокупности, из которой получена выборка, с
ранее принятой теоретической моделью (чаще
всего нормальным распределением): критерий
27
Пирсона;
критерий
Колмогорова;
критерий
Проверка однородности выборок
в прикладных задачах
В прикладных исследованиях часто возникает
необходимость выяснить:
 различаются ли генеральные совокупности, из которых
взяты две независимые выборки;
 изменилась ли генеральная совокупность после
воздействия.
В математико-статистических терминах постановка
задачи такова:
имеются две выборки x1, x2,...,xm и y1, y2,...,yn, требуется
проверить их однородность, т.е. требуется проверить,
есть ли различие между выборками.
Если имеющееся различие средних значений нельзя
объяснить случайными статистическими колебаниями,
то говорят о значимом различии.
28
Однородность выборок
Понятие «однородность», т. е. «отсутствие различия»,
может быть формализовано в терминах вероятностной
модели различными способами:
1 способ:
 Обе выборки взяты из одной генеральной совокупности,
т. е. справедлива нулевая гипотеза
H0 : F(x)=G(x) при всех х.

Отсутствие однородности означает, что верна
альтернативная гипотеза, согласно которой
H1 : F(x0) G(x0) хотя бы при одном значении
аргумента x0.
Если гипотеза H0 принята, то выборки можно объединить
в одну, если нет - то нельзя.
29
2 способ:
В некоторых случаях целесообразно проверять не
совпадение
функций
распределения,
а
совпадение
некоторых характеристик случайных величин Х и Y математических
ожиданий,
медиан,
дисперсий,
коэффициентов вариации и др.
Например,
однородность
математических
ожиданий
означает, что справедлива гипотеза
H'0 : M(X)=M(Y), где M(Х) и M(Y) - математические
ожидания
случайных
величин
Х
иY,
результаты
наблюдений над которыми составляют первую и вторую
выборки соответственно.
Доказательство
различия
между
выборками
в
рассматриваемом
случае
это
доказательство
справедливости альтернативной гипотезы H'1 : M(X)  M(Y) .
Если гипотеза H0 верна, то и гипотеза H'0 верна, но из
справедливости H'0 не следует обязательно справедливость
H0: математические ожидания могут совпадать для
различающихся между собой функций распределения.
30
Независимость выборок
Если можно установить гомоморфную пару (то есть,
когда одному случаю из выборки X соответствует
один и только один случай из выборки Y и
наоборот) для каждого случая в двух выборках (и
это основание взаимосвязи является важным для
измеряемого признака), такие выборки называются
зависимыми.
Примеры зависимых выборок: пары близнецов, два
измерения какого-либо признака до и после
экспериментального воздействия и т. п.
 В случае, если такая взаимосвязь между выборками
отсутствует, то эти выборки считаются
независимыми, например: психологи и математики.
 Соответственно, зависимые выборки всегда имеют
одинаковый объём, а объём независимых может
отличаться.

31
Параметрические методы проверки
однородности выборок
Традиционный метод проверки однородности двух
независимых выборок (критерий Стьюдента)
 Выдвигаются: нулевая гипотеза о равенстве средних и
альтернативная, о том, что средние не равны.
 Вычисляют выборочные средние арифметические и
дисперсии в каждой выборке и статистику Стьюдента t, на
основе которой принимают решение.
 По заданному уровню значимости  и числу степеней
свободы (m+n - 2) из таблиц распределения Стьюдента
находят критическое значение tкр.
 Если |t| > tкр, то гипотезу однородности (отсутствия
различия) отклоняют,
если же |t| <tкр,то принимают.
32
Проверка статистических гипотез
33
Гипотеза о среднем
Гипотезы


Требуется проверить предположение о значении среднего для
нормально распределенной генеральной совокупности.
Нулевая гипотеза:
H 0 : a  a0
Альтернативная
гипотеза:
H1 : a  a0
35
Статистика

В качестве статистики выбираем следующую случайную
функцию:
x  a0
t
s/ n





где
x
a0
s
n
- выборочное среднее
- гипотетическое генеральное среднее
- стандартное отклонение выборки
- размер выборки
36
Используемая статистика имеет t-распределение (распределение Стьюдента)
c количеством степеней свободы df = n - 1.

Альтернативная гипотеза:
H1 : a  a0
Критическое значение находим по таблице
t-распределения или через функцию Excel

СТЬЮДРАСПОБР(уровень значимости
;степени свободы n-1)
1
 /2
 t / 2
0
 /2
t / 2
Получение выводов

Для получения выводов мы должны проверить, попало ли
выборочное значение статистики t в критическую область. Мы
отвергаем нулевую гипотезу, если:
t  t / 2
или
t  t / 2
Критическая область
38
Последовательность действий






Шаг 1. Сформулировать основную и альтернативную
гипотезы.
Шаг 2. Задать уровень значимости .
Шаг 3. По таблице найти критические значения и
построить критическую область.
Шаг 4. По выборке сосчитать значение статистики.
Шаг 5. Сравнить полученное значение с критической
областью. Если значение попало в критическую область –
отклонить основную гипотезу, не попало – принять.
Шаг 6. Написать ответ.
39
Пример


В Италии сберегательным банкам разрешено осуществлять
страхование жизни. В процедуру оформления страховки входят
изучение запроса, проверка медицинской информации,
возможные дополнительные медицинские исследования и
проверка информации, поступившей из полиции. Чтобы
страхование жизни было прибыльным для банка, необходимо
ускорить оформление страховки. Банк создал выборку, в
которой указано время, затраченное на оформление 27
страховок в течение одного месяца.
Предыдущие исследования показывают, что средний срок
оформления заявки равен 45 дней. Можно ли утверждать, что
средний
срок
оформления изменился, если уровень
значимости равен 0,05?
40
Пример


Основная гипотеза
H 0 : a  45
Альтернативная гипотеза H 0
: a  45
Пример
Данные
Описательные статистики
t-статистика
t
x  a0 43,89  45

 0,23
s / n 25,28/ 27
Пример
Находим критические значения и строим критическую область
=СТЬЮДРАСПОБР(0,05;27-1)
0,95
0,05/ 2
2,06
0,23
0,05/ 2
2,0
6
43
Пример
0,05/ 2
0,95
0,05/ 2
2,0
0,23
2,06
6
Статистика не попала в критическую область. Принимаем
H 0 : a  45
Вывод: Средний
срок
оформления страховок не изменился.
44
Условия применимости критерия
проверки гипотезы о среднем
Выборка извлечена из нормальной генеральной совокупности
Проверить условие можно, построив гистограмму
12
10
8
6
4
2
0
15
30,4
45,8
61,2
76,6
Распределение не нормальное!
Выводы могут быть ошибочны.
45
Строим критическую область
Нулевая гипотеза:
H 0 : a  45
Альтернативная
гипотеза:
H1 : a  45
0,05
0,95
1,71
СТЬЮДРАСПОБР(0,1
0
;24)
46
0,05
0,95
2,5 1,71
0
Статистика t=-2,5 попала в критическую область.
Принимаем H1 : a  45
Вывод: Средний вес булочек ниже нормативного. Партию не
принимаем.
47
Гипотеза о доли
Гипотезы
Требуется проверить предположение о значении доли генеральной
совокупности.

Нулевая гипотеза:

Нулевая гипотеза:
Нулевая гипотеза:
H 0 : p  p0
H 0 : p  p0
H 0 : p  p0
Альтернативная
гипотеза:
Альтернативная
гипотеза:
Альтернативная
гипотеза:
H1 : p  p0
H1 : p  p0
H1 : p  p0
I
II
III
49
Статистика

В качестве статистики выбираем следующую случайную
функцию:
z




где
p  p0
p0 (1  p0 )
n
p
- выборочная доля
p0
- гипотетическая доля генеральной совокупности
n
- размер выборки
50
Используемая статистика имеет нормальное распределение
Критическое значение находим по таблице нормального
распределения или через функцию Excel.
Для случая I (двусторонний
критерий)
=НОРМСТОБР(1- / 2 )
В скобках площадь ЛЕВЕЕ
критического значения
1
 /2
 z / 2
0
 /2
z / 2
Для случая II (односторонний критерий)
H 0 : p  p0
H1 : p  p0
=НОРМСТОБР( 1  
)
В скобках площадь ЛЕВЕЕ
критического значения
1
0

z
Для случая III (односторонний критерий)
H 0 : p  p0
H1 : p  p0
=НОРМСТОБР(

)
В скобках площадь ЛЕВЕЕ
критического значения

1
0
Получение выводов

Построив критическую область, вычислим значение статистики по
выборке. Для получения выводов мы должны проверить, попало ли
выборочное значение статистики в критическую область. Мы
отвергаем нулевую гипотезу, если:
Альтернативная
гипотеза:
H1 : p  p0
Альтернативная
гипотеза:
H1 : p  p0
Альтернативная
гипотеза:
H1 : p  p0
Критическая область: Критическая область: Критическая область:
z   z
I
z  z
z  z / 2
z   z / 2
II
III
54
Критерии согласия (критерии значимости)
55
Критерии согласия (критерии значимости)
56
Критерии согласия (критерии значимости)
57
Схема проверки статистических гипотез
Содержательное
предположение
Выбор
критерия
Сравнение
с критической
точкой
Статистическая
гипотеза
Вычисление
наблюдаемого
значения
критерия
гипотеза отвергается
гипотеза принимается
58
Карл Пирсон
(1857 – 1936)




В 1900 году основал журнал «Biometrika», посвящённый
применению статистических методов в биологии
Опубликовал основополагающие труды по
математической статистике (более 400 работ)
Разработал теорию корреляции, критерии согласия,
алгоритмы принятия решений и оценки параметров
С его именем связаны такие широко используемые
термины и методы, как кривые Пирсона, распределение
Пирсона, критерий согласия Пирсона (критерий хиквадрат), коэффициент корреляции
Пирсона и корреляционный анализ, ранговая
корреляция, множественная регрессия, коэффициент
вариации, нормальное распределение и многие другие
59
Распределение хи-квадрат

60
Гипотеза о законе распределения
Критерий хи-квадрат (Пирсона)
Пусть { X 1 , X 2 ,, X n } выборка из генеральной совокупности F.
Проверяется гипотеза
H 0 : F  F0 , где
F0 - некоторое
распределение, против альтернативы H1 : F  F0 . Представим
выборку в виде интервального ряда, разбив предполагаемую
область значений случайной величины на m интервалов. Пусть
ni - число элементов выборки попавших в i-ый интервал, а pi теоретическая вероятность попадания в этот интервал при
условии истинности H0. Составим статистику:
m

ni  npi 2
( X )  
npi
i 1
61
Гипотеза о законе распределения
Критерий хи-квадрат (Пирсона)
m

ni  npi 2
( X )  
i 1
npi
Данная статистика характеризует сумму квадратов отклонения
наблюдаемых значений от ожидаемых по всем интервалам
группирования. Если H0 верна, то:
m

ni  npi 2
( X )  
 2m 1
npi
i 1
Пусть 1  - квантиль распределения хи-квадрат с m-1 степенью

свободы уровня α. Тогда:

 H 0 , ( X )  1 
( X )  

 H1, ( X )  1 
62
Статистика критерия хи-квадрат

p(2)
=k–r-l
S=
0
-2
2кр
2
63
Критерий хи-квадрат для сложной
гипотезы
64
Критерий хи-квадрат для сложной
гипотезы
65
Критерий хи-квадрат (Пирсона)
По критерию Пирсона при уровне значимости  = 0.025
проверить гипотезу о распределении случайной величины Х по
показательному закону, если задано nk попаданий выборочных
значений случайной величины Х в подинтервал k = (ak , bk ):
k
(0; 1)
(1; 2)
(2; 4)
(4; 8)
(8; 12)
(12; 30)
xср
0,5
1,5
3
6
10
21
nk
8
15
10
10
10
7
Плотность распределения для показательного
параметром   0 :
0, x  0
f x    x
e , x  0
закона
66
с
Метод максимального правдоподобия
Плотность распределения для показательного закона:
0, x  0
f x    x
e , x  0
Функция правдоподобия:
n

i 1
Логарифмическая функция правдоподобия:
 

  X 1 , X 2 ,..., X n ,     e  X i
n
n
n

 X i
L X ,    ln e
  ln   X i   n ln    X i


i 1
i 1
i 1
Ищем максимум логарифмической функции правдоподобия.
Вычисляем производную L /  , и приравнивая к нулю,
находим оценку для  :
L n
   Xi  0
  i 1
n
  
n
*
1

X
n
X
i 1
i
67
Критерий хи-квадрат (Пирсона)
k
(0; 1)
(1; 2)
(2; 4)
(4; 8)
(8; 12)
(12; 30)
xk
0,5
1,5
3
6
10
21
nk
8
15
10
10
10
7
Оценка ММП параметра  показательного распределения:
m
1 n
1 m
X   X i   xk k   xk nk 
n i 1
n k 1
k 1
1
 (0,5  8  1,5  15  3  10  6  10  10  10  21 7)  6,058
60
1
   0,165
X
*
68
Критерий хи-квадрат (Пирсона)
k
(0; 1)
(1; 2)
(2; 4)
(4; 8)
xk
0,5
1,5
3
6
10
21
nk
8
15
10
10
10
7
pk*
0,181
0,148
0,221
0,247
0,111
0,088
np k*
10,99
8,90
13,26
14,85
6,67
5,29
Функция распределения
показательного закона:
(8; 12) (12; 30)

0,9975
0, x  0
F x   
 x
1

e
, x0

0, x  0
F x   
0,165x
1

e
, x0

Оценки вероятностей попадания в интервал k:
Оценка функции распределения:
pk*  P* ( ak  X  bk )  F * bk   F * ak 
*
69
Критерий хи-квадрат (Пирсона)
k
(0; 1)
(1; 2)
(2; 4)
(4; 8)
xk
0,5
1,5
3
6
10
21
nk
pk*
8
15
10
10
10
7
0,181
0,148
0,221
0,247
0,111
0,088
np k*
10,99
8,90
13,26
14,85
6,67
5,29
( nk  npk* )2
npk*
0,76
4,17
0,80
1,58
1,66
0,55
Наблюдаемое значение статистики:
(8; 12) (12; 30)

0,9975
9,52
набл  9,52
2
Критическое значение статистики: крит   (0,025; 6  1  1)  11,14
набл  крит  принимаем гипотезу
H0
70
Гипотеза однородности. Критерий
хи-квадрат
71
Гипотеза однородности. Критерий
хи-квадрат
Составим статистику:
q
m n  n p 2


ij
i
j
~( X ,  , X ) 


1
q
ni p j
i 1 j 1
72
Гипотеза однородности. Критерий хи-квадрат
73
Гипотеза однородности. Критерий хиквадрат
74
Гипотеза однородности. Критерий хи-квадрат
75
Критерий Стьюдента (Т- критерий)
Проверка при заданном уровне значимости
нулевой гипотезы о равенстве
математических ожиданий (генеральных
средних) двух нормальных генеральных
совокупностей с неизвестными, но
одинаковыми дисперсиями при
альтернативе их неравенства
(малые независимые выборки)
76
Стьюдент - Госсетт, Уильям
Сили (1876 – 1937)




Изучал химию в дублинском университете
Мастер-пивовар у Гиннесса (с 1899), поставить пивоварение на
научную основу. Работа в биометрической лаборатории Карла
Пирсона. Решил проблему вариаций данных и развил новые
методы.
В 1907 вернулся к Гиннессу главным пивоваром.
Из-за связей с фирмой не мог публиковаться под настоящим
именем.
Метод для работы с малыми выборками – критерий Стьюдента.
77
Критерий Стьюдента (Т- критерий)

1. Вычисление наблюдаемого значения
критерия
Т набл 
xy
(n  1) s12  (m  1) s22
nm(n  m  2)
nm
78
Критерий Стьюдента (Т- критерий)


2.
По таблице критических точек распределения Стьюдента,
по заданному уровню значимости  и числу степеней свободы 
= n+m-2 найти критическую точку (двустороннюю) - t.
3. Если |Тнабл| > t, нулевую гипотезу отвергают. Иначе нет
оснований отвергнуть гипотезу.
79
Критерий Стьюдента (Т- критерий)
S=1-
S=/2
S=/2
-tкр
0
tкр
80
Критерий Стьюдента (Т- критерий)
Даны два ряда выборочных значений X
и Y. Полагая, что имеет место
нормальное распределение двумерной
генеральной совокупности, проверить
нулевую гипотезу о равенстве нулю
генерального коэффициента
корреляции.
81
Критерий Стьюдента (Т- критерий)


1. Найти выборочный коэффициент
корреляции r.
2. Вычислить наблюдаемое значение
критерия
r n  2 / 1 r
2
Тнабл =
82
Критерий Стьюдента (Т- критерий)


3. По таблице критических точек
распределения Стьюдента, по
заданному уровню значимости  и
числу степеней свободы  = n-2 найти
критическую точку двусторонней
критической области t.
4. Если Тнабл < t - нет оснований
отвергнуть нулевую гипотезу. Иначе
нулевая гипотеза отвергается
83
Критерий Стьюдента (Т- критерий)

Если нулевая гипотеза принимается, то
X и Y некоррелированы, в противном
случае - коррелированы.
84
Критерий Фишера – Снедекора
(F-критерий)
Проверка при данном уровне значимости
гипотезы (нулевой гипотезы) о
равенстве генеральных дисперсий (т.е.
дисперсий двух генеральных
совокупностей) при конкурирующей
гипотезе неравенства этих дисперсий.
85
Фишер, Рональд Эйлмер
(1890-1962)



статистик (с 1919) на старейшей опытной
агрономической станции в
Великобритании.
Формальные статистические методы для
анализа экспериментальных данных.
Выводы по выборке.
Табак и рак легких (статистический спор).
86
Снедекор, Джордж Уоддел
(1881-1974)




американский математик и статистик.
ученик знаменитого статистика Рональда
Фишера.
Существует мнение, что
F-распределение рассчитал именно он и
назвал его в честь своего учителя.
основал первый в США факультет
статистики в Государственном
Университете Айовы.
87
Критерий Фишера – Снедекора
(F-критерий)



1. Вычислить наблюдаемое значение
критерия - отношение большей
исправленной дисперсии к меньшей.
F набл = s12 / s22
2. Найти число степеней свободы
исправленных дисперсий:


1 = n1- 1 (большая)
2 = n2-1 (меньшая)
88
Критерий Фишера – Снедекора
(F-критерий)


3. По таблице критических точек распределения ФишераСнедекора по уровню значимости  /2 (вдвое меньше заданного
значения) и числам степеней свободы 1 и 2 найти Fкр критическую точку.
4. Если Fнабл<Fкр - нет оснований отвергать нулевую гипотезу.
Если Fнабл>Fкр - нулевую гипотезу отвергают.
89
Критерий Фишера – Снедекора
(F-критерий)
S=
0
F, 1, 2
90
Односторонние критерии проверки
гипотез
Пример. Фабрика по производству полуфабрикатов закупает булочки
на хлебозаводе, чтобы использовать их при изготовлении котлет.
Хлебозавод гарантирует средний вес одной булочки 45 г. Фабрика
проводит ежедневный контроль качества поставки. При проверке
выборки из 25 булочек средний вес оказался равен 44 г. Будет ли
принята партия? .
Нулевая гипотеза:
H 0 : a  45
Альтернативная
гипотеза:
Гипотезы формулируются так,
чтобы знак равенства был у
основной гипотезы!
H1 : a  45
91
Односторонние критерии проверки
гипотез
Пример. Банкоматы должны содержать достаточное количество денег,
чтобы удовлетворить запросы клиентов на протяжении выходных.
Допустим, что в конкретном отделении банка среднее количество
денег, извлекаемых клиентами из банкомата, равно 160 долл.
Предположим, что для анализа из генеральной совокупности
извлечена выборка, состоящая из 36 транзакций. Выборочное
среднее оказалось равным 172 долл.
Есть ли основания утверждать, что среднее количество денег, снятых
клиентами, больше 160 долл. ?
Нулевая гипотеза:
H 0 : a  160
Альтернативная
гипотеза:
Гипотезы формулируются так,
чтобы знак равенства был у
основной гипотезы!
H1 : a  160
92
Односторонние критерии проверки
гипотез
Нулевая гипотеза:
H 0 : a  a0
Альтернативная
гипотеза:
H1 : a  a0
I
Нулевая гипотеза:
H 0 : a  a0
Альтернативная
гипотеза:
H1 : a  a0
II
93
Односторонние критерии проверки
гипотез
Нулевая гипотеза:
H 0 : a  a0
Альтернативная
гипотеза:
H1 : a  a0
1

t
СТЬЮДРАСПОБР( 2
0
;степени свободы n-1)
Функция Excel СТЬЮДРАСПРОБР рассчитана на двусторонний
критерий, поэтому при использовании одностороннего задается
2
уровень значимости
94
Односторонние критерии проверки
гипотез
Нулевая гипотеза:
H 0 : a  a0
Альтернативная
гипотеза:
1

H1 : a  a0
t
СТЬЮДРАСПОБР( 2
;степени свободы n-1)
Функция Excel СТЬЮДРАСПРОБР рассчитана на двусторонний
критерий, поэтому при использовании одностороннего задается
2
уровень значимости
95
Задача. Булочки для котлет
Фабрика по производству полуфабрикатов закупает булочки на
хлебозаводе, чтобы использовать их при изготовлении котлет.
Хлебозавод гарантирует средний вес одной булочки μ = 45 г.
Фабрика проводит ежедневный контроль качества поставки. При
проверке выборки из 25 булочек средний вес оказался равен 44 г.,
среднеквадратичное отклонение 2 г. Будет ли принята партия?
Уровень значимости α=0,05.
Нулевая гипотеза:
H 0 : a  45
Альтернативная
гипотеза:
H1 : a  45
96
Задача. Булочки для котлет
Фабрика по производству полуфабрикатов закупает булочки на
хлебозаводе, чтобы использовать их при изготовлении котлет.
Хлебозавод гарантирует средний вес одной булочки μ = 45 г.
Фабрика проводит ежедневный контроль качества поставки. При
проверке выборки из 25 булочек средний вес оказался равен 44 г.,
среднеквадратичное отклонение 2 г. Будет ли принята партия?
Уровень значимости α=0,05.
Рассчитываем t-статистику
x  a0 44  45 1
t


 2,5
s / n 2/ 25 0,4
97
Пример


В ходе общенационального опроса, проведенного организацией
Peter D. Hart Research Associates, 357 человек из 811
опрошенных владельцев персональных компьютеров указали,
что считают защиту информации об их кредитных карточках
основным препятствием для развития электронной торговли.
Проверьте нулевую гипотезу о том, что 50% всех владельцев
персональных компьютеров в США считают защиту информации
об их кредитных карточках основной проблемой.
Альтернативная гипотеза утверждает, что доля таких
респондентов не равна 50%. Уровень значимости равен 0,05.
98
Расчет Z статистики
z
p
p  p0
p0 (1  p0 )
n
357
 0,44
811
p0  0,5
0,44  0,5
0,06
z

 2,42
0,5(1  0,5) 0,025
811
99
Расчет критического значения
=НОРМСТОБР(1-0,05/2 )
0,95
0,05/ 2
2,42
1,96
0,05/ 2
1,9
6
100
Расчет критического значения
0,05/ 2
0,95
0,05/ 2
1,9
2,42
1,96
6
Статистика попала в критическую область. Принимаем
H1 : p  0,5
Вывод: Доля владельцев персональных компьютеров, считающих
защиту информации о кредитных карточках основной проблемой
существенно отличается от 50%.
101
t-критерий можно использовать лишь
при выполнении следующих условий:
1.
Наблюдения в каждой из рассматриваемых групп
взяты случайным образом из одной и той же
генеральной совокупности (например, две группы
студентов одного курса или дети одного возраста
и т.д.)
2. Наблюдения имеют нормальные распределения
или объем каждой выборки превышает 30
значений.
102
ПРИМЕР.
Табл. 1
Данные диагностики до начала экспериментального обучения
Студент
ы
Баллы
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
14
16
16
17
17
18
18
18
18
18
20
20
24
25
27
27
1
7
2
7
1
8
2
8
1
9
2
8
2
0
2
8
вс
ег
о
42
4
Х
≈
21,
2
Табл. 2
Данные диагностики по окончании экспериментального обучения
Студент
ы
Баллы
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
1
7
1
8
1
9
20
16
18
18
19
20
20
20
20
22
24
24
25
26
26
27
28
2
8
2
8
2
9
30
вс
ег
о
44
8
Х
24
,3
5
Задача:
выяснить с помощью t-критерия Стьюдента, являются ли
различия в показателях до начала экспериментального
обучения и после такого обучения статистически
значимыми.
103
Решение:
Для сравнения полученных результатов, применив t
– критерий Стьюдента сформулируем гипотезы:
нулевая гипотеза H0 – разница между показателями
до экспериментального обучения и после такого
обучения имеет лишь случайные различия;
альтернативная гипотеза H1 – разница между
показателями до экспериментального обучения и
после такого обучения имеет не случайные
различия.
104
Решение:
Для равночисленных выборок Д1
X Y
и Д2
t эмп  х  у    у  у 
2
i
=
n  1  n
2
i
ВЫВОД. Так как t эмп2 больше t кр, то гипотеза H0 отклоняется
и принимается гипотеза H1 . Это означает, что разница между
показателями до экспериментального обучения и после
такого обучения имеет не случайные различия.
105
Сравнение среднего с нормативом
(t-тест одной выборки)

Этот тест позволяет выяснить, отличается ли среднее
значение, полученное на основе данной выборки, от
предварительно заданного контрольного значения.
Выдвигаются гипотезы

Вычисляется значение статистики t по формуле



Значимость отличия среднего от заданного значения
определяется на основании сравнения полученной
статистики t с критической или в зависимости от
полученной величины наблюдаемого уровня значимости.
Если наблюдаемый уровень значимости меньше
необходимого (например, 0,05), то считается, что среднее
значение существенно отличается от нормативной
величины.
106
Сравнение двух независимых
выборок. Тест Колмогорова-Смирнова





Данный критерий позволяет оценить существенность
различий между двумя выборками. Его применение
возможно также для сравнения эмпирического
распределения с теоретическим.
Объёмы рассматриваемых выборок должны
быть достаточно большими: n1 ≥50, n2 ≥50.
Для использования теста выборки должны быть
представлены в виде частотного распределения, при этом
число категорий должно быть небольшим (до 7-9).
Нулевая гипотеза H0={различия между двумя
распределениями недостоверны}.
Критерий позволяет найти категорию, в которой сумма
частот расхождений между двумя распределениями
является наибольшей, и оценить достоверность этого
расхождения.
107
Алгоритм проверки:
1.
2.
3.
4.
5.
6.
7.
8.
Определяются категории значений признака.
Строится частотное распределение каждой выборки по
выделенным категориям.
Вычисляются относительные частоты f, равные частному
от деления частот на объём выборки, для каждой из
имеющихся выборок.
Определяется модуль разности соответствующих
относительных частот.
Определяется наибольший модуль, который
обозначается dmax.
Вычисляется эмпирическое значение критерия эмп:
Определяется критическое значение критерия для
выбранного уровня значимости.
Если эмпирическое значение критерия больше
критического, то нулевая гипотеза отвергается, и группы
по рассмотренному признаку отличаются существенно.
108
Пример сравнения двух независимых выборок с
использованием теста Колмогорова-Смирнова
Являются ли значимыми различия между творческой
активностью контрольной и экспериментальной
группами студентов?
Уровень
усвоения
Частота в
экспериментальной группе
Частота в контрольной
группе
Хороший
172 чел.
120 чел.
Приблизител
ьный
36 чел.
49 чел.
Плохой
15 чел.
36 чел.
Объём
выборки
n1=172+36+15=223
n2=120+49+36=205
109
Вычисляем относительные частоты , равные частному от
деления частот на объём выборки, для каждой из имеющихся
выборок.
Определяем модуль разности соответствующих
относительных частот для контрольной и экспериментальной
Относительная частота
выборок.
Относительная частота
Модуль разности частот
экспериментальной группы
контрольной группы (fконтр
)
|fэксп –
fконтр|
В результате
следующий
вид:
(fэксп) исходная таблица примет
172/223≈0.77
120/205≈0.59
0.18
36/223≈0.16
49/205≈0.24
0.08
15/223≈0.07
36/205≈0.17
0.1
Среди полученных модулей разностей относительных частот
выбираем наибольший модуль, который
обозначается dmax=0.18.
Эмпирическое значение критерия λэмп определяется с
помощью формулы:
Считая, что =0,05, по таблице определяем критическое
значение критерия:
следовательно, нулевая гипотеза отвергается, и группы по
рассмотренному признаку отличаются существенно.
110
Сравнение двух дисперсий
Рассмотрим гипотезу о параметрах нормального распределения.
Пусть имеется две серии опытов, регистрирующие значение некоторой
случайной величины.
Х: х1, х2 … хn
Y: y1, y2 … уn
Осуществим проверку нулевой гипотезы о равенстве дисперсий при
неизвестных математических ожиданиях.
Н0: Dx =Dy
Постановка задачи.
Пусть даны две случайные величины Х и Y, распределенные
нормально. По данным выборки объем их nx и ny подсчитаны
выборочные дисперсии.
Цель работы: при заданном уровне значимости α проверить нулевую
гипотезу о равенстве дисперсий.
Такая задача возникает при сравнении точности двух приборов, или
при сравнении различных методов измерения. Т.е. когда выборочные
дисперсии отличаются, возникает вопрос значимости или не
значимости этого различия.
Если различие неразличимо, то имеет место нулевая гипотеза, т.е.
приборы, например, имеют одинаковую точность. А различия
выборочных дисперсий объясняются случайными причинами.
111
Механизм проверки
По данным выборок значений nх и nу, вычисляют
наблюдаемое значение критерия как отношение большей
2
2
дисперсии к меньшей:2
max(S
,
S
x
y)
S большая
Fнабл 
Fнабл  2
min(S 2x , S 2y )
S
меньшая
Критическая область строится в зависимости от
конкурирующей гипотезы.
По таблицам распределения Фишера, по заданному уровню
значимости α и вычисленным степеням свободы υx,
находят табличное значение критерия:
 для альтернативной гипотезы Н1: D
x >Dy
Fкр в зависимости от параметров Fкр (α, υx, υy)
 для альтернативной гипотезы Н1: Dx ≠ Dy
Fкр в зависимости от параметров Fкр (α/2, υx, υy)
υy
Если Fнаб >Fкр, то Н0 отвергают.
Если Fнаб <Fкр, то нет оснований отвергать Н0,
предположение о том что Dx, Dy, принимается с уровнем α,112
ПРИМЕР:
По двум малым независимым выборкам объемов nx=11 и
ny=14 из нормальных распределений найдены исправленные
выборочные дисперсии S²x =0.76 и S2y=0.38. При уровне
значимости α=0.05 проверить нулевую гипотезу Н0: Dx=Dy о
равенстве дисперсий при конкурирующей гипотезе Н1: Dx>Dy.
Решение: Найдем отношение большей исправленной
дисперсии к меньшей:
Fнабл = S²б / S²м = 0.76 / 0.38 = 2
По условию конкурирующая гипотеза имеет вид Н1: Dx>Dy,
поэтому критическая область – правосторонняя. По таблице
критических точек распределения Фишера, по уровню
значимости α=0,05 и числам степеней свободы k1 = nx – 1 = 11
– 1 = 10 и
k2 = ny – 1 = 14 – 1 = 13 находим критическую точку:
Fкр (α, kı, k2) = Fкр (0.05,10,13) = 2.67
Так как Fнабл = 2. < Fкр = 2.67, то нет оснований отвергать Но о
равенстве дисперсий.
Другими словами, исправленные выборочные дисперсии 113
Сравнение мат.ожиданий
Для проверки гипотезы, соответствие двух выборок принад-лежности к одной и той же генеральной
совокупности, рассмотрим вопрос о значимости расхождений между выборочным значением
математических ожиданий. Выдвинем нулевую гипотезу о равенстве математических ожиданий.
Н0: Мx =Мy
Тестирование такой гипотезы основано:
 на нормальном распределении в случае большого объема выборок (n>30), когда дисперсии считаются
известными
 на распределении Стьюдента в случае малого объема выборок (n<30) когда дисперсии являются
неизвестными.
Сравнительные графики плотностей распределения нормального и Стьюдента приведены на рисунке:
синей и розовой линиями показано
распределение Стьюдента,
красной – нормальное
114
Проверка гипотезы о равенстве
средних при известных дисперсиях
Для того чтобы при заданном уровне значимости α =0.05 проверить нулевую гипотезу Н0:
Мх=Му о равенстве математических ожиданий двух больших нормальных выборок с известными
дисперсиями Dх и Dу, необходимо:
1. Вычислить наблюдаемое значение критерия:
Dx D y
Z набл  X  Y

nx n y
Построить критическую область в зависимости от конкурирую-щей гипотезы:
 при конкурирующей гипотезе Н1: Мх ≠ Му по таблице функции Лапласа находят критическую
точку zкр из равенства Ф(zкр) = (1 – α) /2.
Если |Zнабл| < zкр, то нет оснований отвергать нулевую гипотезу.
Если |Zнабл| > zкр, то нулевую гипотезу отвергают.
 при конкурирующей гипотезе Н1: Мх > Му по таблице функции Лапласа находят критическую
точку zкр из равенства
Ф(zкр) = (1 – 2α) /2.
Если Zнабл < zкр, то нет оснований отвергать нулевую гипотезу.
Если Zнабл > zкр, то нулевую гипотезу отвергают.
 при конкурирующей гипотезе Н1: Мх < Му по таблице функции Лапласа находят
«вспомогательную критическую точку» zкр из равенства
Ф(zкр) = (1 – 2α) /2.
Если Zнабл > - zкр, то нет оснований отвергать нулевую гипотезу.
Если Zнабл < - zкр, то нулевую гипотезу отвергают.
115
Проверка гипотезы о равенстве
средних при неизвестных дисперсиях
Постановка задач: пусть генеральные
совокупности распределены нормально,
причем их дисперсии Dx и Dy заранее не
известны. Взяты две выборки малого объема,
требуется сравнить средние этих генеральных
совокупностей.
Методика проверки задач: заключается в
использовании критерия Стьюдента при
условии, что генеральные дисперсии не
известны, однако в предположении, что они
116
равны между собой.
Алгоритм проверки
1) Прежде чем сравнивать средние требуется проверить Н0: Dх=Dу
2) Если гипотеза подтвердилась нужно вычислить наблюдаемое значение критерия:
Тн 
Х Y
 x  S x2  y  S y2

nx n y (nx  n y  2)
nx  n y
3) Строим критическую область в зависимости от конкурирующей гипотезы
а) Если Н1: Мх ≠ Му – двусторонняя критическая область строится исходя из условия чтобы
вероятность попадания наблюдаемого значения критерия в эту область была равна принятому уровню
значимости α взятого из таблицы Стьюдента для числа степеней свободы в верхней части таблицы,
т.е. для двусторонней критической области при условии |Тнабл| < tкр(α,υ), то нет основания отвергать
нулевую гипотезу; если |Тнабл| > tкр(α,υ), то нулевую гипотезу отвергают.
б) Если Н1: Мх >Му строится правосторонняя критическая область, а критическую точку находят по
таблице Стьюдента из нижней части.
Если Тнабл < tкр, то нет основания отвергать нулевую гипотезу .
Если Тнабл > tкр, то нулевую гипотезу отвергают.
в) При конкурирующей гипотезе Н1: Мх < Му по таблице критических точек распределения
Стьюдента, по заданному уровню значимости α,помещенному в нижней строке таблицы ,и числу
степеней свободы k= nх + nу–2 найти «вспомогательную критическую точку» tкр односторонней
2
критической области.
2
2
2


S


Sx
Если Тнабл < - tкр, то нет основания отвергать нулевую гипотезу.
 y


2
2
2
n  n 
Если Тнабл > - tкр, то нулевую гипотезу отвергают.
Sx S y
S 2 Sy
 x  y
Т набл  X  Y
Тнабл и число степеней свободы.
nx

ny

x
nx

ny
x

y
Проверка гипотезы о законе
распределения генеральной совокупности
Если закон распределения не известен, но есть основание
предположить, что он имеет определенный вид (А), то проверяют
нулевую гипотезу:
Н0: генеральная совокупность распределена по закону А.
Проверка гипотезы о предполагаемом законе распределения
производится так же, как и проверка гипотезы о параметрах
распределения, т.е. при случайно отобранной случайной величине –
критерия согласия.
Критерием согласия называют критерий проверки гипотезы о
предполагаемом законе распределения.



Имеется несколько критериев согласия:
критерий Пирсона;
критерий Колмогорова;
критерий Смирнова.
118
Критерий Пирсона
Пусть по выборке объема n получены эмпирические частоты, т.е. мы имеем
предполагаемое
распределение.
Допустим, что в предположении нормального распределения
генеральной совокупности вычислены
xi x1 x2 x3 x4 x5
теоретические частоты.
При уровне значимости α требуется проверить гипотезу:
ni n1 n2 совокупность
n3 n4 n5 распределена нормально.
генеральная
В качестве критической проверку нулевой гипотезы примем случайную величину:
(*)
(n  n )
n
2
2
i
i
т.к. врасчет
различных опытах она принимает различные, заранее не
i
меньше различаются
эмпирические и теоретические частоты,


Эта величина случайная,
известные, значения. Чем
тем меньше величина критерия => он характеризует близость эмпирических и
теоретических распределений.
Доказано, что закон распределения случайной величины (*) не зависит от того, какому
закону распределения подчинена генеральная совокупность, а стремится к закону
распределения χ2 с числом степеней свободы: υ=k–1–r , где
k – число групп (интервалов) выборки
r – число параметров предполагаемого распределения.
А т.к. для нормального распределения нам интересно М(х) и D(x), то число степеней
свободы определяется υ=k–3
119
Правила проверки
Для того, чтобы при заданном уровне значимости α проверить Н0: “генеральная
совокупность распределена нормально”, необходимо:
1.вычислить теоретические частоты;
(ni  ni ) 2
2
2.вычислить наблюдаемое значение критерия:  набл  
ni
3.по таблицам критических точек распределения χ2 по заданному уровню значимости и
числу степеней свободы υ=k–3, найти критическую точку: χ2кр=(α,υ);
4.сравнить 2 имеющихся критерия:
- если χ2набл< χ2кр - нет основания отвергать нулевую гипотезу о нормальном
распределении.
- если χ2набл > χ2кр - нулевую гипотезу о нормальном распределении отвергают.
Замечание:
 объем выборки должен быть достаточно велик (более 50);
 малочисленные группы следует объединять в одну, суммируя частоты;
 т.к. возможные ошибки первого и второго рода, то в окончательном выводе следует
проявить осторожность:
можно повторить опыт;
увеличить число наблюдений;
для проверки воспользоваться другими критериями;
построить график распределения;
(ni  ni ) 2
2
2
вычислить эксцесс и асимметрию.  набл  
n
2
i

ni
 набл  ( )  n
ni
 для контроля вычислений формулу преобразуют к виду
121
122
123
124
125
126
127
Гипотезы о равенстве средних двух
нормальных выборок
Пусть имеются две независимые выборки: X  { X 1 , X 2 ,  , X n1 }
и Y  {Y1 , Y2 ,  , Yn } из генеральных совокупностей, имеющих
2
2
N (a1 ,  12 )
распределения
и N (a 2 ,  2 )
соответственно.
Проверяется сложная гипотеза H 0 : a1  a2 , против сложной
альтернативы H1 : a1  a2
1. Пусть дисперсии  1 ,  2 обоих совокупностей известны.
2
2
 


H 0 , |  ( X , Y ) |  1 / 2
 (X )  
 

H 1 , |  ( X , Y ) |  1 / 2
 1 / 2 - квантиль распределения
 
 ( X ,Y ) 
X Y

2
1
n1
N 0,1
уровня


2
2
 N 0,1
n2
1 / 2
128
Гипотезы о равенстве средних двух
нормальных выборок
Если альтернативная гипотеза имеет вид: H1 : a1  a2 , то:
 
 
H 0 ,  ( X , Y )   1
 (X )  
 

H1 ,  ( X , Y )   1
 1 - квантиль распределения
N 0,1
уровня
1
Если альтернативная гипотеза имеет вид: H1 : a1  a2 , то:
 
 
H 0 ,  ( X , Y )   
 (X )  
 

 H1 ,  ( X , Y )   
  - квантиль распределения
N 0,1
уровня 
(    1 )
129
Гипотезы о равенстве средних двух
нормальных выборок
2. Пусть дисперсии  12 ,  22 обоих совокупностей неизвестны,
но равны:  12   22   2 (либо принята гипотеза о равенстве
дисперсий)
 


H 0 , |  ( X , Y ) |  1 / 2
 (X )  
 

H 1 , |  ( X , Y ) |  1 / 2
 
 ( X ,Y ) 
n1 n2
n1  n2
X Y
(n1  1) s12  (n2  1) s 22
n1  n2  2
 1 / 2 - квантиль распределения Стьюдента с числом степеней
свободы n1  n2  2 уровня
1 / 2
130
Гипотезы о равенстве средних двух
нормальных выборок
3. Пусть дисперсии  12 ,  22 обоих совокупностей неизвестны,
и не равны:  12   22 (либо отклонена гипотеза о равенстве
дисперсий)
 


H 0 , |  ( X , Y ) |  1 / 2
 (X )  
 

H 1 , |  ( X , Y ) |  1 / 2
 
 ( X ,Y ) 
X Y
2
1
2
2
s
s

n1 n2
k
s
s
2
1
2
1
n1  s n2
2
2
 
2

2

n1
s 22 n2

n1  1
n2  1
2
 1 / 2 - квантиль распределения Стьюдента с числом степеней
свободы k уровня 1   / 2
131
Гипотезы о равенстве дисперсий двух
нормальных выборок
Пусть имеются две независимые выборки: X  { X 1 , X 2 ,  , X n1 }
и Y  {Y1 , Y2 ,  , Yn } из генеральных совокупностей, имеющих
2
2
N (a1 ,  12 )
распределения
и N (a 2 ,  2 )
соответственно.
Проверяется сложная гипотеза H 0 : 12   22 , против сложной
альтернативы H1 : 12   22
132
Гипотезы о равенстве дисперсий двух
нормальных выборок
1. Пусть математические ожидания
совокупностей известны.

H 0 ,  ( X , Y )   1 / 2
 ( X ,Y )  

H1 ,  ( X , Y )   1 / 2
n1
1
2
D1    X i  a1 
n1 i 1
обоих
 
D1
 ( X ,Y ) 
, D1  D2
D2
1
D2 
n2
 1 / 2 - квантиль распределения
a1 , a2
n2
2


Y

a
 i 2
i 1
Фишера с n1 , n2 числом
степеней свободы уровня 1   / 2
133
Гипотезы о равенстве дисперсий двух
нормальных выборок
Если альтернативная гипотеза имеет вид: H1 : 12   22

H 0 ,  ( X , Y )   1
 ( X ,Y )  

H1 ,  ( X , Y )   1
n1
1
2
D1    X i  a1 
n1 i 1
 1
 
D1
 ( X ,Y ) 
, D1  D2
D2
1
D2 
n2
- квантиль распределения
степеней свободы уровня 1  
, то:
n2
2


Y

a
 i 2
i 1
Фишера с n1 , n2
числом
134
Гипотезы о равенстве дисперсий двух
нормальных выборок
2. Пусть математические ожидания
совокупностей неизвестны.

H 0 ,  ( X , Y )   1 / 2
 ( X ,Y )  

H1 ,  ( X , Y )   1 / 2
1
2
X i  X 
s 

n1  1 i 1
2
1
n1
a1 , a2
обоих
  s12
 ( X , Y )  2 , s12  s22
s2
n2
1
2
2
Yi  Y 
s2 

n2  1 i 1
 1 / 2 - квантиль распределения Фишера с n1 1, n2 1 числом
степеней свободы уровня 1   / 2
135
Гипотезы о равенстве дисперсий двух
нормальных выборок
Если альтернативная гипотеза имеет вид: H1 : 12   22

H 0 ,  ( X , Y )   1
 ( X ,Y )  

H1 ,  ( X , Y )   1
1
2
X i  X 
s 

n1  1 i 1
2
1
n1
, то:
  s12
 ( X , Y )  2 , s12  s22
s2
n2
1
2
2
Yi  Y 
s2 

n2  1 i 1
 1
- квантиль распределения Фишера с n1 1, n2 1 числом
степеней свободы уровня 1  
136
137
Гипотеза однородности. Критерий Манна-Уитни
138
Гипотеза однородности. Критерий Манна-Уитни
139
Гипотеза однородности. Критерий Манна-Уитни
140
Гипотеза однородности. Критерий Манна-Уитни
141
Гипотеза однородности. Критерий Манна-Уитни
142
Гипотеза однородности. Критерий Манна-Уитни
143
Download