{ выборка из генеральной совокупности - эмпирическая (выборочная) функция распределения – гистограмма – статистические оценки – точечные оценки параметров и их критерии – методы получения оценок параметров – метод моментов – метод наибольшего подобия } Задачи, решаемые математической статистикой, являются, в некотором смысле, обратными задачам теории вероятностей. В вероятностных задачах распределения случайных величин считаются известными. В статистических задачах само распределение считается неизвестным, и целью исследования является получение более или менее достоверной информации об этом распределении, собранной в результате наблюдений. Основой статистического анализа являются данные, полученные экспериментатором в результате опыта, например, n повторных измерений некоторой неизвестной величины X {x1,x2,…,xn }, принимаемых случайной величиной x . Это множество называется выборкой из генеральной совокупности Gx всех значений случайной величины, а количество n – объемом выборки. Эти значения естественно считать реализацией набора из n независимых одинаково распределенных случайных величин с неизвестной функцией распределения Fx (x). Данные должны быть выбраны из генеральной совокупности случайным образом, их объем достаточно велик. В этом случае выборка называется репрезентативной (представвительной). Вектор этих данных называют выборкой из генеральной совокупности данных. n - мерная случайная величина X (x1, x2, …, xn ) с независимыми одинаково распределенными компонентами xi , i = 1, 2, .., n называется независимой выборкой объема n неизвестного распределения Fx (x). Любая функция h = h ( x1, x2, ….., xn ) выборочных значений называется статистикой. Часто встречается ситуация, когда экспериментатор имеет основания предполагать, что неизвестное распределение принадлежит некоторому семейству распределений Fx (x,q) , зависящему от параметра q. В этом случае проблема статистического анализа сводится к получению информации об этом неизвестном параметре. @ Для контроля качества в 40 пробах стали GS50 определялось содержание углерода X ( %С ) и прочность на разрыв z ( Н/мм ). Данные оформлены в виде таблицы чисел: X : 0.3, 0.33, 0.37, 0.36, 0.31, 0.29, 0.34, 0.39, 0.37, 0.38, 0.35, 0.32, 0.39, 0.3, 0.32, 0.32, 0.38, 0.37, 0.38, 0.33, 0.37, 0.33, 0.34, 0.33, 0.3, 0.34, 0.36, 0.33, 0.34, 0.36, 0.29, 0.3, 0.33, 0.32, 0.32, 0.38, 0.37, 0.34, 0.35, 0.36 X = X ( x1, x2, …, x40 ) – выборка объемом n = 40 Z : 589, 614, 612, 572, 548, 537, 574, 570, 540, 575, 535, 593, 582, 538, 566, 562, 601, 587, 587, 614, 602, 544, 545, 562, 576, 596, 605, 575, 570, 550, 572, 555, 555, 518, 539, 557, 558, 587, 580, 560 Z = Z ( z1, z2,…, z40 ) – выборка объемом n = 40 Пусть X ( x1, x2, …, xn ) - независимая выборка неизвестного распределения Fx ( x ) . Эмпирической (выборочной) функцией распределения называется функция F*n (t) : R -> [ 0, 1 ] , вычисляемая по выборке X ( x1, x2, …, xn ) как отношение числа элементов выборки, не превосходящих t , к объему выборки: | { i : xi t } | F (t ) n * n F(t) 1 t Теорема Гливенко: В пределе выборочная функция распределения равномерно сходится к теоретической. P { sup |Fn* (t) F(t)| 0 } 1 t R Помимо эмпирических функций распределения, наглядное представление о неизвестном распределении можно получить при помощи гистограмм. Пусть X ( x1, x2, …, xn ) - независимая выборка неизвестного распределения Fx ( x ) . Выберем два числа L и R , такими, чтобы все числа xi попали внутрь интервала ( L, R ] . Разобъем этот интервал его на конечное число меньших интервалов j rj rj 1 Произведем группировку выборки, а именно, для каждого интервала разбиения j объединим в группу те xi , которые попали в этот интервал. Пусть nj - число таких элементов выборки: n j | { j : x j ( rj 1 , rj )} |, j 1 ,2 ,...,k h(t) График h(t) - гистограмма Определим функцию L j R x 0, t L nj h ( t ) ,t ( rj rj 1 ], j 1 ,2 ,...k n 0, t R @ Вариационный ряд: 34 36 36 37 …38 38 38 ….. 38 …39 40 40 40 41 41 42 42 …44… 45 46 Построить гистограмму n 100 h(x) Среднее значение 0.4 Разброс значений 0.2 x 34 35 36 37 38 39 40 41 42 43 44 45 46 Случайная величина X характеризуется рядом числовых параметров: математическим ожиданием, дисперсией, модой, медианой, моментами разных порядков и т.д. Это параметры генеральной совокупности. На основе выборочных данных можно получить статистические оценки этих параметров. n Для оценки математического ожидания применяется выборочное среднее ~ m x Для группированной выборки используется формула, в которой все mj значений выборки, попавшей в j - ый интервал, равны представителю этого интервала ( всего их k ) ~ m x x i 1 i n k z m j j 1 n j Для оценки дисперсии по выборке используется формула ~ Dx n n 1 1 n n 2 ~ 2 x m x i i 1 В случае группированной выборки ~ Dx n n 1 1 n k z j 1 Оценка среднеквадратичного отклонения : 2 j 2 ~ mx σ~x ~ Dx Модой любой функция h (x) унимодального (одновершинного) распределения является элемент выборки, встречающийся с наибольшей частотой. Оценкой медианы называют число, которое делит вариационный ряд на две части с равным числом элементов Оценки начальных и центральных моментов k – го порядка вычисляются по формулам : 1 νk n 1 x , μk n i 1 n k i n k (x m ) i x , k 1 ,2 , ... i 1 Форма распределения случайной величины характеризуется выборочными коэффициентами асимметрии и эксцесса ~ μ~3 μ~4 ~ Ax ~ 3 , E x ~ 4 3 σx σx @ Найти выборочное среднее и дисперсию для группированной выборки: n 100 Пусть q – неизвестный параметр распределения случайной величины. ~ ~ Статистика θ θ (x1 ,x2 ,....,x n ) , используемая в приближенном равенстве θ θ~ называется точечной оценкой неизвестного параметра по выборке Какие оценки можно считать хорошими ? Оценка называется несмещенной для функци от неизвестного параметра, если ~ Mθ (x1 ,x2 ,....,x n ) θ Оценка называется эффективной, если при заданном объеме выборки она имеет наименьшую возможную дисперсию ~ Dθ (x1 ,x2 ,....,x n ) min ~ Последовательность оценок θ θ ( n ) (соответствующих увеличивающимся в объеме выборкам) называется состоятельной, если при росте объемов выборки статистика будет стремиться к истинному значению параметра ~ 0 P {| θ (x1 ,x2 ,....,x n ) θ | } 1 n то есть ~ θ (x1 ,x2 ,....,x n ) θ n @ Соответствует ли выборочное среднее отмеченным выше критериям ? n ~ m x i 1 i 1. Оценка состоятельная, так как выполнены условия теоремы Чебышева n 2. Оценка несмещенная @ 3. Оценка эффективная n ~ m x i 1 n i @ Соответствует ли выборочная дисперсия отмеченным выше n критериям ? ~ D ( x i 1 1. Оценка состоятельная, так как i ~ )2 m n @ 3. Оценка эффективная 2. Оценка смещенная ! Идея метода моментов заключается в приравнивании теоретических и эмпирических моментов. Предполагается, что Fζ (x) F ( x,θ ) и Mθ ζ - конечная величина. Mθ (x) xd F(x,θ ) ν1 ( θ ) ~ 1 m n ~ x xd F i n(x) ν1(θ ) n i 1 Решая это уравнение получим искомую оценку. Если нужно оценить k параметров q1, q2, …. , qn , то нужно найти выражения для моментов k – го порядка, приравнять их соответствующим эмпирическим моментам, и решить полученную систему уравнений. Преимущества метода: сравнительная простота. Метод однако не дает часто эффективных оценок . При получении оценки естественно найти такое её значение, при котором вероятность реализации выборки x1, x2, …. , xn была бы максимальной. Пусть x имеет дискретное распределение. Возможные значения параметров: a1, a2, …., ak с соответствующими вероятностями P1 (a), P2 (a), …. Pk (a), где a – фиксированное значение параметра. P (x = ai ) = Pi (a). Пусть в выборке x1, x2, … , xn значения aj встретились nj раз ( j = 1, 2, …, k ). Тогда вероятность при n независимых наблюдениях величины x получить выборку x1, x2, … , xn равна P(E) P1 n1 (a) P2n2 (a) P3n3 (a) Pknk (a) E – одна из реализаций. Число способов этих реализаций : E n! n1 ! n2 ! n3 ! nk ! P n! p1n1 p2n2 p3n3 pknk n1 ! n2 ! n3 ! nk ! n! P L( x1 , x2 , x3 ,..., xn ) n1 ! n2 ! n3 ! nk ! Функцией правдоподобия называют функцию L ( X, a ) L( x1 , x2 , x3 , xn ) p1n1 ( a ) p2n2 ( a ) p3n3 ( a ) pknk ( a ) Оценку параметра a будем искать так, чтобы P = max или L ( X, a ) = max . ln( L( X , a )) 1 L( X , a ) L( X , a ) 0 0 Удобнее брать a L( X , a ) a a Решая полученное уравнение или систему уравнений, если параметров больше одного, получим искомые оценки для a . Преимущества метода: оценки получаются состоятельными, асимптотически эффективными. Оценки однако могут быть смещенными. @ Пусть Xi , i = 1,2, … , n – выборка СВ с нормальным распределением. Найти оценки параметров m и D методом наибольшего правдоподобия. Функция правдоподобия @ Необходимое условие экстремума функции ln L : ln( L ) 0 m ln (L) 0 σ 2 n n Решение: ~ m xi i 1 n ~2 ~ )2 ( x m i i 1 n