Методы математической статистики

реклама
{ выборка из генеральной совокупности - эмпирическая (выборочная) функция распределения – гистограмма –
статистические оценки – точечные оценки параметров и их критерии – методы получения оценок параметров –
метод моментов – метод наибольшего подобия }
Задачи, решаемые математической статистикой, являются, в некотором
смысле, обратными задачам теории вероятностей. В вероятностных задачах
распределения случайных величин считаются известными. В статистических
задачах само распределение считается неизвестным, и целью исследования
является получение более или менее достоверной информации об этом
распределении, собранной в результате наблюдений.
Основой статистического анализа являются данные, полученные экспериментатором в
результате опыта, например, n повторных измерений некоторой неизвестной величины
X {x1,x2,…,xn }, принимаемых случайной величиной x . Это множество называется
выборкой из генеральной совокупности Gx всех значений случайной величины, а
количество n – объемом выборки. Эти значения естественно считать реализацией
набора из n независимых одинаково распределенных случайных величин с
неизвестной функцией распределения Fx (x).
Данные должны быть выбраны из генеральной совокупности случайным образом, их
объем достаточно велик. В этом случае выборка называется репрезентативной
(представвительной).
Вектор этих данных называют выборкой из генеральной совокупности
данных.
n - мерная случайная величина X (x1, x2, …, xn ) с независимыми
одинаково распределенными компонентами xi , i = 1, 2, .., n называется
независимой выборкой объема n неизвестного распределения Fx (x).
Любая функция h = h ( x1, x2, ….., xn ) выборочных значений называется
статистикой.
Часто встречается ситуация, когда экспериментатор имеет основания
предполагать, что неизвестное распределение принадлежит некоторому
семейству распределений Fx (x,q) , зависящему от параметра q. В этом
случае проблема статистического анализа сводится к получению
информации об этом неизвестном параметре.
@
Для контроля качества в 40 пробах стали GS50 определялось содержание
углерода X ( %С ) и прочность на разрыв z ( Н/мм ). Данные оформлены
в виде таблицы чисел:
X : 0.3, 0.33, 0.37, 0.36, 0.31, 0.29, 0.34, 0.39, 0.37, 0.38, 0.35, 0.32, 0.39,
0.3, 0.32, 0.32, 0.38, 0.37, 0.38, 0.33, 0.37, 0.33, 0.34, 0.33, 0.3, 0.34, 0.36,
0.33, 0.34, 0.36, 0.29, 0.3, 0.33, 0.32, 0.32, 0.38, 0.37, 0.34, 0.35, 0.36
X = X ( x1, x2, …, x40 ) – выборка объемом n = 40
Z : 589, 614, 612, 572, 548, 537, 574, 570, 540, 575, 535, 593, 582, 538,
566, 562, 601, 587, 587, 614, 602, 544, 545, 562, 576, 596, 605, 575, 570,
550, 572, 555, 555, 518, 539, 557, 558, 587, 580, 560
Z = Z ( z1, z2,…, z40 ) – выборка объемом n = 40
Пусть X ( x1, x2, …, xn ) - независимая выборка неизвестного распределения Fx ( x ) .
Эмпирической (выборочной) функцией распределения называется функция
F*n (t) : R -> [ 0, 1 ] , вычисляемая по выборке X ( x1, x2, …, xn ) как отношение
числа элементов выборки, не превосходящих t , к объему выборки:
| { i : xi  t } |
F (t ) 
n
*
n
F(t)
1
t
Теорема Гливенко: В пределе выборочная функция распределения равномерно сходится
к теоретической.
P { sup |Fn* (t)  F(t)|  0 }  1
t R
Помимо эмпирических функций распределения, наглядное представление о
неизвестном распределении можно получить при помощи гистограмм. Пусть
X ( x1, x2, …, xn ) - независимая выборка неизвестного распределения Fx ( x ) .
Выберем два числа L и R , такими, чтобы все числа xi попали внутрь
интервала ( L, R ] . Разобъем этот интервал его на конечное число меньших
интервалов j  rj  rj 1
Произведем группировку выборки, а именно, для каждого интервала разбиения
j объединим в группу те xi , которые попали в этот интервал. Пусть nj - число
таких элементов выборки: n j | { j : x j  ( rj  1 , rj )} |, j  1 ,2 ,...,k
h(t)
График h(t) - гистограмма
Определим
функцию
L
j
R
x
0, t  L

nj
h ( t )   ,t  ( rj  rj 1 ], j  1 ,2 ,...k
n
0, t  R

@
Вариационный ряд: 34 36 36 37 …38 38 38 ….. 38 …39 40 40 40 41 41 42 42 …44… 45 46
Построить гистограмму
n  100
h(x)
Среднее значение
0.4
Разброс значений
0.2
x
34 35 36 37 38 39 40 41 42 43 44 45 46
Случайная величина X характеризуется рядом числовых параметров:
математическим ожиданием, дисперсией, модой, медианой, моментами
разных порядков и т.д. Это параметры генеральной совокупности. На основе
выборочных данных можно получить статистические оценки этих параметров.
n
Для оценки математического ожидания применяется
выборочное среднее
~ 
m
x
Для группированной выборки используется формула, в которой
все mj значений выборки, попавшей в j - ый интервал, равны
представителю этого интервала ( всего их k )
~ 
m
x
x
i 1
i
n
k
z m
j
j 1
n
j
Для оценки дисперсии по выборке используется формула
~
Dx 
n
n 1
1

n
n
2
~ 2 
x

m

x
i
i 1

В случае группированной выборки
~
Dx 
n
n 1
1

n

k
z
j 1
Оценка среднеквадратичного отклонения :
2
j

2
~
 mx 

σ~x 
~
Dx
Модой любой функция h (x) унимодального (одновершинного)
распределения является элемент выборки, встречающийся с наибольшей
частотой.
Оценкой медианы называют число, которое делит вариационный ряд на
две части с равным числом элементов
Оценки начальных и центральных моментов k – го порядка вычисляются
по формулам :
1
νk 
n
1
x , μk 

n
i 1
n
k
i
n
k
(x

m
)
 i x , k  1 ,2 , ...
i 1
Форма распределения случайной величины
характеризуется выборочными
коэффициентами асимметрии и эксцесса
~
μ~3
μ~4
~
Ax  ~ 3 , E x  ~ 4  3
σx
σx
@
Найти выборочное среднее и дисперсию для группированной выборки:
n  100
Пусть q – неизвестный параметр распределения случайной величины.
~
~
Статистика θ  θ (x1 ,x2 ,....,x n ) , используемая в приближенном
равенстве θ  θ~ называется точечной оценкой неизвестного
параметра по выборке
Какие оценки можно считать хорошими ?
Оценка называется несмещенной для функци от неизвестного
параметра, если
~
Mθ (x1 ,x2 ,....,x n )  θ
Оценка называется эффективной, если при заданном объеме выборки
она имеет наименьшую возможную дисперсию
~
Dθ (x1 ,x2 ,....,x n )  min
~
Последовательность оценок θ  θ ( n ) (соответствующих
увеличивающимся в объеме выборкам) называется состоятельной, если
при росте объемов выборки статистика будет стремиться к истинному
значению параметра
~
  0  P {| θ (x1 ,x2 ,....,x n )  θ |   }  1
n 
то есть
~
θ (x1 ,x2 ,....,x n )  θ
n 
@
Соответствует ли выборочное среднее отмеченным выше критериям ?
n
~ 
m
x
i 1
i
1. Оценка состоятельная, так как выполнены условия
теоремы Чебышева
n
2. Оценка несмещенная
@
3. Оценка эффективная
n
~ 
m
x
i 1
n
i
@
Соответствует ли выборочная дисперсия отмеченным выше
n
критериям ?
~
D 
( x
i 1
1. Оценка состоятельная, так как
i
~ )2
m
n
@
3. Оценка эффективная
2. Оценка смещенная !
Идея метода моментов заключается в приравнивании теоретических и
эмпирических моментов.
Предполагается, что Fζ (x)  F ( x,θ ) и Mθ ζ - конечная величина.
Mθ (x) 

 xd F(x,θ )  ν1 ( θ )

~  1
m
n
~
x

xd
F
 i  n(x)  ν1(θ )
n

i 1

Решая это уравнение получим искомую оценку.
Если нужно оценить k параметров q1, q2, …. , qn , то нужно найти выражения
для моментов k – го порядка, приравнять их соответствующим
эмпирическим моментам, и решить полученную систему уравнений.
Преимущества метода: сравнительная простота. Метод однако не
дает часто эффективных оценок .
При получении оценки естественно найти такое её значение, при котором
вероятность реализации выборки x1, x2, …. , xn была бы максимальной.
Пусть x имеет дискретное распределение. Возможные значения параметров:
a1, a2, …., ak с соответствующими вероятностями P1 (a), P2 (a), …. Pk (a), где a –
фиксированное значение параметра. P (x = ai ) = Pi (a).
Пусть в выборке x1, x2, … , xn значения aj встретились nj раз ( j = 1, 2, …, k ).
Тогда вероятность при n независимых наблюдениях величины x получить
выборку x1, x2, … , xn равна
P(E)  P1 n1 (a)  P2n2 (a)  P3n3 (a)    Pknk (a)
E – одна из реализаций. Число способов этих реализаций :
E 
n!
n1 ! n2 ! n3 !   nk !
P 
n!
p1n1  p2n2  p3n3    pknk
n1 ! n2 ! n3 !   nk !
n!
P 
L( x1 , x2 , x3 ,..., xn )
n1 ! n2 ! n3 !   nk !
Функцией правдоподобия называют функцию L ( X, a )
L( x1 , x2 , x3 ,  xn )  p1n1 ( a )  p2n2 ( a )  p3n3 ( a )    pknk ( a )
Оценку параметра a будем искать так, чтобы P = max или L ( X, a ) = max .
 ln( L( X , a ))
1
L( X , a )
L( X , a )

0
 0 Удобнее брать
a
L( X , a )
a
a
Решая полученное уравнение или систему уравнений, если параметров
больше одного, получим искомые оценки для a .
Преимущества метода: оценки получаются состоятельными, асимптотически
эффективными. Оценки однако могут быть смещенными.
@
Пусть Xi , i = 1,2, … , n – выборка СВ с нормальным распределением.
Найти оценки параметров m и D методом наибольшего правдоподобия.
Функция правдоподобия
@
Необходимое условие экстремума функции ln L :
 ln( L )
0
m
 ln (L)
0
σ 2
n
n
Решение:
~ 
m
 xi
i 1
n
~2 

~ )2
(
x

m
 i
i 1
n
Скачать