Повторение теории вероятностей и математической статистики

реклама
Материалы к лекции 2 от 03.09.2010 и лекции от 10.09.2010
Повторение теории вероятностей и математической
статистики
Теория вероятностей
Случайные величины
Определение 1. Случайными величинами называют числовые функции, определенные на
множестве элементарных событий.
Определение 2. Функцией распределения случайной величины Х называется функция
FX ( x)  P( X  x) .
Свойства функции распределения
1) lim F ( x)  0
x  
2) lim F ( x)  1
x  
3) F (x) является неубывающей.
Определение 3. Если случайная величина принимает конечное или счетное множество
значений, то она называется дискретной.
Дискретные случайные величины удобно задавать с помощью таблицы,
в первой строке которой перечислены значения, которые принимает случайная величина,
а во второй – соответствующие вероятности:
X
X1
…
Xn
P
p1
…
pn
Определение 4. Если существует кусочно-непрерывная функция f (x) такая, что
FX ( x)  f ( x) , то случайная величина Х называется непрерывной, а f (x ) - ее функцией
плотности.
Свойства функции плотности
1) f ( x)  0
'

2)
 f ( x)dx  1

Основными числовыми характеристиками случайных величин являются математическое
ожидание EX - среднее значение случайной величины Х и дисперсия D ( X ) - мера
отклонения от среднего.
Определение 6. Математическое ожидание для дискретной случайной величины
n
находится по формуле EX   p i X i , а для непрерывной случайной величины
i 1

EX 
 xf ( x)dx .

Определение 7. Дисперсией случайной величины Х называется D( X )  E ( X  EX ) 2 .
Определение 8. Ковариацией случайных величин Х и Y называется:
cov( X , Y )  E[( X  EX )(Y  EY )]
Определение 9. Коэффициентом корреляции случайных величин Х и Y называется:
cov( X , Y )
rXY 
.
D( X ) D(Y )
Свойства математического ожидания и дисперсии случайных величин
1) EC  C
1
2) E (CX )  CE ( X )
3) E( X 1  X 2 )  EX1  EX 2 ,
4) D(C )  0
5) D(CX )  C 2 D( X ) ,
6) D( X 1  X 2 )  D( X 1 )  2 cov( X 1 , X 2 )  D( X 2 )
где С – константа, а X , X 1 , X 2 - случайные величины.
Используя свойства для математического ожидания и дисперсии, можно доказать
формулу для вычисления дисперсии: D( X )  EX 2  ( EX ) 2 .
Утверждение. Если g (x ) - достаточно гладкая функция (такая, что приведенный ниже
ряд сходится, а несобственный интеграл существует), то
n
Eg ( X )   g ( X i ) p i , если Х – дискретная случайная величина, и
i 1

Eg ( X ) 
 g ( x) f ( x)dx , если Х – непрерывная случайная величина с функцией

плотности f (x) .
Определение 10. Начальным моментом к - го порядка случайной величины Х называется
m k  EX k .
Определение 11. Центральным моментом к - го порядка случайной величины Х
называется  k  E ( X  EX ) k .
Совместное распределение двух случайных величин
Пусть X , Y - случайные величины с совместным законом распределения.
Это может быть таблица, если X , Y принимают конечное или счетное множество
значений. Закон совместного распределения случайных величин X , Y может быть задан с
помощью совместной функции плотности f ( x, y ) .
Если задан совместный закон распределения, то маргинальное распределение случайной
величины X имеет вид:
m
P( X  X i )   P( X  X i , Y  Y j ), i  1,....n для дискретного случая,
j 1
f X ( x)   f ( x, y )dy функция плотности для непрерывной случайной величины.
Математические ожидания и дисперсии случайных величин X , Y определяются как
обычно.
Условная плотность распределения определяется следующим образом:
P( X  X i , Y  Y j )
P(Y  Y j X  X i ) 
в дискретном случае,
P( X  X i )
f ( x, y )
f ( y x) 
в непрерывном случае.
f X ( x)
Определение 12. Если P(Y  Y j X  X i )  P(Y  Y j ) для всех i  1,..., n для дискретного
случая или f ( y x)  f ( y) для непрерывного случая, то случайные величины Х и Y
называются независимыми.
В случае независимости случайных величин Х и Y
P( X  X i , Y  Y j )  P( X  X i ) P(Y  Y j ) в дискретном случае,
f ( x, y)  f X ( x) f Y ( y) в непрерывном случае.
Определение 13. Условное математическое ожидание
2
E (Y X  X i )   Y j P (Y  Y j X  X i ) в дискретном случае,
E (Y X )   yf ( y x)dy в непрерывном случае.
Нормальное и связанные с ним распределения
Определение 14. Случайная величина X имеет нормальное распределение ( X  N (a,  2 )) ,
 1 ( x  a) 2 
exp 
.
2
2

2 


Определение 15. Случайная величина Z имеет распределение «хи – квадрат» с k
степенями свободы, если Z  X 12  ...  X k2 , где случайные величины X i , i  1,..., n
независимы и имеют распределение N(0,1).
Определение 16. Случайная величина Z имеет t - распределение с k степенями свободы,
если
X
, где случайные величины X и Y независимы, X имеет распределение N(0,1), Y Z
Y /k
распределение «хи – квадрат» с k степенями свободы.
Определение 17.Случайная величина Z имеет F распределение со степенями свободы m и
X /m
n, если Z 
, где случайные величины X и Y независимы и имеют распределение «хи –
Y /n
квадрат» соответственно с m и n степенями свободы.
если функция плотности случайной величины X имеет вид f ( x) 
1
Математическая статистика.
Совокупность всех возможных значений случайной величины называется
генеральной совокупностью. Подмножество генеральной совокупности называется
выборкой.
Основная задача математической статистики – оценивание характеристик
генеральной совокупности по выборке.
Обо всей генеральной совокупности мы, как правило, ничего не знаем точно и можем
строить лишь догадки - гипотезы. Для проверки своих гипотез мы исследуем
независимую выборку из генеральной совокупности и строим на основании выборки
выборочные оценки неизвестных теоретических параметров.
Различают точечные и интервальные оценки.
Точечные оценки
Предположим, что мы имеем выборку X1,…,Xn из распределения, зависящего от
параметра θ.
Опр. Точечной оценкой (статистикой) называется любая числовая функция от
выборки ˆ (X1,…,Xn).
Точечные оценки считаются «хорошими», если они обладают определенными
свойствами:
• несмещенностью (в этом случае математическое ожидание оценки совпадает с
оцениваемым теоретическим параметром);
• состоятельностью (это означает, что для больших выборок вероятность значимых
отклонений величины оценки от значения оцениваемого теоретического параметра
равна нулю);
• эффективностью (чем меньше дисперсия оценки, тем она считается эффективнее).
Предположим, X1,…,Xn - выборка из генеральной совокупности, E(Xi) = μ, D(Xi) = σ2,
i = 1,…,n.
3
Несмещенные оценки для математического ожидания и дисперсии (выборочное
среднее и выборочная дисперсия) :
1 n
x   xi - выборочное среднее (является оценкой для EХ),
n i1
1 n

2 
 ( xi  x )2 - оценка для D(X).
n  1 i1
Для двух выборок X1,…,Xn и Y1,…,Yn несмещенная оценка для ковариации
случайных величин X и Y имеет вид:
côv( X , Y ) 
1 n
 ( X i  X )(Yi  Y ) - выборочная ковариация случайных величин Х
n  1 i 1
и Y.
Интервальные оценки
При интервальном оценивании конструируются две функции от выборки:
ˆ
 1 (X1,…,Xn ) и ˆ2 (X1,…,Xn), такие, что 1-α = P( ˆ1 ≤ θ ≤ ˆ2 )
Этот интервал называется (1 – α)100% доверительным интервалом для параметра θ.
Проверка гипотез
1)
2)
1)
2)
1)
2)
3)
4)
Предположим, что мы имеем выборку X1,…,Xn из распределения,
зависящего от параметра θ.
Относительно параметра θ выдвигаются две гипотезы, основная H0 и
альтернативная H1, например:
H0: θ = θ0
H1: θ ≠ θ0
Статистическим тестом (или просто тестом) называется процедура, основанная на
наблюдениях X1,…,Xn, результатом которой является одно из двух возможных
решений:
Не отвергать основную гипотезу H0,
Отвергнуть нулевую гипотезу H0 в пользу альтернативной гипотезы H1.
При этом можно совершить две ошибки:
Ошибка первого рода – отвергнуть нулевую гипотезу, когда она верна,
Ошибка второго рода – не отвергнуть нулевую гипотезу, когда она не верна.
Вероятность ошибки первого рода обозначается α и называется уровнем
значимости теста,
Вероятность ошибки второго рода обозначается β.
1 – β называется мощностью теста.
На практике для построения тестов часто используют следующий подход.
Находят такую статистику tn(X1,…,Xn), что если гипотеза H0 верна, то
распределение случайной величины tn известно. Тогда для заданного уровня
значимости α можно найти такую область Кα, что P(tn Є Кα) = 1 – α.
Тогда тест проводится следующим образом:
На основании наблюдений X1,…,Xn вычисляется значение статистики tn.
Для заданного уровня значимости α находится область Кα.
Если tn Є Кα, то нулевая гипотеза не отвергается.
В противном случае нулевая гипотеза отвергается в пользу альтернативной.
Статистику tn называют критической статистикой, а область Кα –
критической областью.
На практике критические статистики часто имеют распределение N(0,1), t, «хи –
квадрат», F.
В этих случаях для критической статистики легко рассчитать
4
p-value (p-значение) – минимальный уровень значимости, при котором основная
гипотеза отвергается.
5
Скачать