МАТЕМАТИЧЕСКАЯ СТАТИСТИКА 3 •Основные темы • Тестирование гипотез об однородности выборок • Элементы теории корреляции • Однофакторный дисперсионный анализ Критерии однородности выборок Критерий Бартлетта Пример Элементы теории корреляции Зависимость величины Y от X называется функциональной, если каждому значению величины X соответствует единственное значение величины Y. Зависимость величины Y от X называется статистической (вероятностной, стохастической), если каждому значению величины X соответствует не одно, а множество значений величины Y, причём сказать заранее, какое именно значение примет величина Y невозможно. Среднее значение, которое принимает величина Y при X= x, называется математическим ожиданием случайной величины Y, вычисленным при условии, что X= x, или условным математическим ожиданием: М(Y|X=x) Если при изменении x условные математические ожидания М(Y|X=x) изменяются, то говорят, что имеет место корреляционная зависимость величины Y от X. При этом функцию f (x)=М(Y|X=x) называют функцией регрессии. f (x)=М(Y|X=x) – ? f (x)=М(Y|X=x) – ? Условным средним y x называют среднее арифметическое наблюдавшихся значений Y, соответствующих X=x. Условное среднее является оценкой условного математического ожидания: М(Y|X=x) y x Каждому x соответствует своё значение y x , следовательно, y x – есть функция от x: y x f * ( x) это уравнение называется выборочным уравнением регрессии, а функция f*(x) – выборочной функцией регрессии. f ( x) f * ( x) f (x)=М(Y|X=x) – ? Если функция регрессии – линейная: f (x) = М(Y|X=x) = ax+b, то выборочное уравнение регрессии имеет вид: n xy xy nx y Y x, y – выборочy x y rв ( x x ) , где rв X n X Y ный коэффициент корреляции x, y – выборочные средние X , Y – выборочные средние квадратические отклонения nxy – частота пары вариант (x, y) Корреляционная таблица X 10 20 30 40 nY 0.4 5 – 7 14 26 0.6 – 2 6 4 12 0.8 3 19 – – 22 nX 8 21 13 18 n=60 Y Критерий Спирмена Критерий Спирмена Однофакторный дисперсионный анализ (ДА) Пример: выявить зависимость объёма выполненных на стройке работ за смену от работающей бригады. Номер бригады Номер наблюдения 1 2 3 4 5 6 Средний объём 1 2 3 4 20 25 22 24 30 23 24 27 31 22 32 18 19 29 26 28 28 24 23 23 21 20 26 25 23 X – случайная величина F – фактор, воздействующий на случайную величину X F1, F2, …, Fp – уровни фактора a1, a2, …, ap – математические ожидания на уровнях F1, F2, …, Fp соответственно H0: a1 = a2 = … = ap Дисперсионным анализом называется статистический метод, предназначенный для выявления влияния отдельных факторов на результат эксперимента, а также для последующего планирования эксперимента. Критерий Бартлетта в приложении к ДА H0: D1(X) = D2(X) = … = Dp(X) гипотеза о равенстве дисперсий на каждом уровне q1, q2, …, qp – количество наблюдений на уровнях F1, F2, …, Fp соответственно s12, s22, …, sp2 – исправленные выборочные дисперсии на уровнях F1, F2, …, Fp соответственно p s02 ( qi 1) si2 i 1 p ( qi 1) i 1 , p 1 1 1 Q 1 p 3( p 1) i 1 qi 1 ( q 1 ) i i 1 1 Критерий: 2 s Q ( qi 1) ln 02 si i 1 p Если q1, q2, …, qp > 3, то критерий имеет распределение, близкое к распределению Пирсона с (p-1) степенями свободы. Критическая область – правосторонняя. p ( W ) p( кр ) F ( кр ) 1 p( кр ) 1 p( кр ) F ( кр ) кр F 1 (1 ) , где F(x) – функция распределения Пирсона с (p–1) степенями свободы. Уровень фактора F Номер наблюдения 1 F1 F2 … Fp x11 x12 … x1p 2 x21 x22 … x2p … Число наблюдений q1 q2 … qp Среднее значение y1 y2 … yp H0: a1 = a2 = … = ap Объём выборки: n = q1+ q2+…+ qp Уровень фактора F Номер наблюдения 1 F1 F2 … Fp x11 x12 … x1p 2 x21 x22 … x2p … Число наблюдений q1 q2 … qp Среднее значение y1 y2 … yp 1-ая группа – уровень F1: x11, x21, … , xq11 2-ая группа – уровень F2: x21, x22, … , xq 2 2 … p-ая группа – уровень Fp: x1p, x2p, … , xq p p Dв= Dмежгр+Dвнгр 1-ая группа – уровень F1: x11, x21, … , xq11 2-ая группа – уровень F2: x21, x22, … , xq 2 2 … p-ая группа – уровень Fp: x1p, x2p, … , xq p p p 1. Dмежгр= 2 q ( y x ) i i в i 1 n Факторная сумма: p Sфакт = 2 q ( y x ) i i в i 1 p 2. Dвнгр= qi Di г р i 1 n , где Diгр – дисперсия i–той группы i-тая группа: x1i, x2i, … , x qii , групповая средняя: yi qi 2 ( x y ) ji i Diгр= qi qi ( x y )2 / q q i ji i i i 1 j 1 n p p Dвнгр= j 1 qi Di г р i 1 n p qi p qi 2 ( x y ) ji i i 1 j 1 Остаточная сумма: Sост = ( x ji yi ) 2 i 1 j 1 n Факторная дисперсия: Остаточная дисперсия: 2 sфакт 2 sост Sфакт p 1 Sост n p 2 D( x ) sост – всегда 2 D( x ) sфакт – если несущественно влияние фактора H0: a1 = a2 = … = ap 2 2 H 0 : Sост S факт 2 2 H 0 : Sост S факт Критерий: F 2 sфакт 2 sост имеет распределение Фишера с (p–1) и (n–p) степенями свободы 2 2 H1 : S факт Sост Критическая область W – правосторонняя: 0 fпр,кр Из требования 1 для критической области: p( F W ) p( F f пр ,кр ) f пр ,кр F 1 (1 ) F(x) – функция распределения Фишера с (p–1) и (n –p) степенями свободы