МЕТОДИКА ИССЛЕДОВАНИЯ СТАТИСТИЧЕСКИХ

реклама
МЕТОДИКА ИССЛЕДОВАНИЯ
СТАТИСТИЧЕСКИХ ЗАКОНОМЕРНОСТЕЙ
МЕТОДОМ МОНТЕ-КАРЛО
к.т.н. доцент кафедры
«Прикладная математика» НГТУ
С.Н. Постовалов
Вычисление числа
19.09.2011
Молодежная школа "Прикладные
методы статистического анализа"

2
Вычисление числа

S квадрата  4 R 2
R
S круга   R 2
P " попасть в круг " 

 R2
4R
19.09.2011
Молодежная школа "Прикладные
методы статистического анализа"
2


4
3
Вычисление числа

P " попасть в круг " 

Число точек в круге
 
4 Общее число точек
Число точек в круге
 4
Общее число точек
19.09.2011
Молодежная школа "Прикладные
методы статистического анализа"
4
Генераторы псевдослучайных чисел
№
Генератор
1
Метод Фибоначчи с
запаздываниями
2
Линейный конгруэнтный
генератор
xt 1  (axt  c) mod N , t  0,1,...
3
Мультипликативный
конгруэнтный генератор
xt 1  (axt ) mod N , t  0,1,...
4
Линейная рекуррентная
последовательность порядка P
над конечным полем 2P
xt 1  a1 xt  a2 xt 1    ak xt k 1  mod p
5
Регистр сдвига с линейной
обратной связью (LSFR)
19.09.2011
Формула
Молодежная школа "Прикладные
методы статистического анализа"
5
Генератор псевдослучайных чисел
№
Генератор
Год, авторы
1
RANDU
1960
2
MERSENNE TWISTER
M. Matsumoto, T.
Nishimura, 1997
219937−1
3
Well equidistributed longperiod linear
WELL512
WELL1024
WELL19937
WELL44497
F. Panneton, P. L'Ecuyer,
and M. Matsumoto, 2006
2512−1
21024−1
219937−1
244497−1
19.09.2011
Молодежная школа "Прикладные
методы статистического анализа"
Период
6
Сколько бросить точек?
Для вычисления числа использован
Число точек
19.09.2011
 генератор
WELL44497
Оценка  (Первые 16 знаков числа
3.141592653589793)
Попало в круг
36
28
3,1 1111111111111
2 191
1720
3,14 011866727522
2 212
1737
3,141 04882459313
2 218
1742
3,1415 6898106402
2 726
2141
3,14159 941305943
29 585
23236
3,141592 02298462
29 599
23247
3,1415926 2137234
32 763
25732
3,14159265 024570
963 235
756523
3,141592653 92142
1 923 758
1510916
3,1415926535 4582
Молодежная школа "Прикладные
методы статистического анализа"
7
Вычисление вероятности появления
некоторого случайного события
Пусть требуется вычислить вероятность P появления
некоторого случайного события A. В каждой из
реализаций процесса количество наступлений
события является случайной величиной ,
принимающей значение 1 с вероятностью P, и
значение 0 с вероятностью (1-P) .
19.09.2011
Молодежная школа "Прикладные
методы статистического анализа"
8
Вычисление вероятности появления
некоторого случайного события
Математическое ожидание и дисперсия случайной
величины  равны
M   xp  y(1  p)  p
D  ( x  M  ) p  ( y  M  ) (1  p) 
2
2
 (1  p)2 p  (0  p)2 (1  p)  p(1  p)
19.09.2011
Молодежная школа "Прикладные
методы статистического анализа"
9
Вычисление вероятности появления
некоторого случайного события
В качестве оценки для искомой вероятности P
принимается частота M/N наступлений события A
при N реализациях
M 1 N
  xi
N N i 1
19.09.2011
Молодежная школа "Прикладные
методы статистического анализа"
10
Вычисление вероятности появления
некоторого случайного события
В силу центральной предельной теоремы теории
вероятностей частота при достаточно больших
имеет распределение, близкое к нормальному:
M N  M
M Np
N
 N
   N (0,1)
D
p(1  p)
19.09.2011
Молодежная школа "Прикладные
методы статистического анализа"
11
Вычисление вероятности появления
некоторого случайного события
Поэтому


M Np
 N
 t    (t )   (t )  2 (t )  1  
p (1  p)




  M N  p  t


  1
t  1 

 2 
19.09.2011
p(1  p) 


N 

- квантиль стандартного нормального распределения
Молодежная школа "Прикладные
методы статистического анализа"
12
Вычисление вероятности появления
некоторого случайного события
Таким образом, -доверительный интервал имеет вид:

M
M

Pp ,
    
N
N


p(1  p)
  t
N
Отсюда количество реализаций N, необходимое чтобы
доверительный интервал имел длину 2, равно
N  t
2
19.09.2011
p(1  p)
2
Молодежная школа "Прикладные
методы статистического анализа"
13
Сколько бросить точек?
Для вычисления числа использован
Число
точек
 генератор
Оценка 
Попало
в круг
WELL44497
99%-доверительный
интервал
36
28
3,1 1111111111111
2,4744
3,7478
2 191
1720
3,14 011866727522
3,0585
3,2217
2 212
1737
3,141 04882459313
3,0598
3,2223
2 218
1742
3,1415 6898106402
3,0605
3,2227
2 726
2141
3,14159 941305943
3,0684
3,2148
29 585
23236
3,141592 02298462
3,1194
3,1638
29 599
23247
3,1415926 2137234
3,1194
3,1638
32 763
25732
3,14159265 024570
3,1205
3,1627
963 235
756523
3,141592653 92142
3,1377
3,1455
1 923 758
1510916
3,1415926535 4582
3,1388
3,1443
19.09.2011
Молодежная школа "Прикладные
методы статистического анализа"
14
Сколько бросить точек?
Половина длины
доверительного интервала 
19.09.2011
Требуемое число точек
для вычисления числа 
1,00E-01
1,5 E+03
1,00E-02
1,5 E+05
1,00E-03
1,5 E+07
1,00E-04
1,5 E+09
1,00E-05
1,5 E+11
1,00E-06
1,5 E+13
1,00E-07
1,5 E+15
1,00E-08
1,5 E+17
1,00E-09
1,5 E+19
1,00E-10
1,5 E+21
Молодежная школа "Прикладные
методы статистического анализа"
15
Сколько бросить точек?
На практике вероятность P обычно неизвестна. Поэтому для
определения количества реализаций выбирают N0=50-100, по
результатам реализаций определяют P0 и затем
определяют требуемый объем моделирования:
p (1  p0 )
N  t2 0
2

Если в эксперименте одновременно оцениваются разные вероятности
(например, в случае построения эмпирической функции распределения),
то можно взять максимум функции P(1-P) = 0,25:
N  t2
19.09.2011
1
(2 )2
Молодежная школа "Прикладные
методы статистического анализа"
16
Применение метода Монте-Карло в
математической статистике
• Аналитическими методами как правило
можно получить результаты в крайних
случаях:
– при малых объемах выборки наблюдений
– в асимптотике при n  
• Методом Монте-Карло можно получить
результаты с приемлемой для практики
точностью для «реальных ситуаций»
19.09.2011
Молодежная школа "Прикладные
методы статистического анализа"
17
Применение метода Монте-Карло в
математической статистике
• Исследование свойств методов оценивания
параметров законов распределения
• Исследование робастности статистических
процедур
• Определение законов распределения
статистик критериев проверки
статистических гипотез
• Исследование мощности критериев
проверки статистических гипотез
19.09.2011
Молодежная школа "Прикладные
методы статистического анализа"
18
Исследование распределений
статистик критериев согласия
Dn, N  sup Fn, N ( x)  F ( x)
x
19.09.2011
Молодежная школа "Прикладные
методы статистического анализа"
19
Исследование распределений
статистик критериев согласия
Dn, N  sup Fn, N ( x)  F ( x)
x
19.09.2011
Молодежная школа "Прикладные
методы статистического анализа"
20
Исследование распределений
статистик критериев согласия
0,02
y = 0,372x-1,33
R² = 0,997
0,018
0,016
Distance (Dn)
0,014
0,012
0,01
0,008
0,006
0,004
0,002
0
10
100
1000
Sample size (n)
19.09.2011
Молодежная школа "Прикладные
методы статистического анализа"
21
Исследование мощности
критериев согласия
19.09.2011
Молодежная школа "Прикладные
методы статистического анализа"
22
Лабораторный практикум
№
Тема
Лабораторный практикум №1
Проверка статистической гипотезы о виде
распределения:
• критерии согласия типа Хи-квадрат;
• непараметрические критерии согласия;
• критерии нормальности.
Лабораторный практикум №2
Проверка статистических гипотез об
однородности:
• критерии однородности распределений;
• критерии однородности средних;
• критерии однородности дисперсий.
19.09.2011
Молодежная школа "Прикладные
методы статистического анализа"
23
Индивидуальная работа
Дата
Работа
19.09.2011 Понедельник
Выдача заданий для индивидуальной работы
20.09.2011 Вторник
Самостоятельное выполнение индивидуальных
работ
21.09.2011 Среда
Консультация по выполнению индивидуальных
работ
22.09.2011 Четверг
Подготовка презентации для защиты
индивидуальной работы
23.09.2011 Пятница
Защита индивидуальных работ
24.09.2011 Суббота
Награждение участников, выдача удостоверений о
повышении квалификации слушателям, успешно
защитившим индивидуальную работы
19.09.2011
Молодежная школа "Прикладные
методы статистического анализа"
24
Индивидуальная работа
1. Проверка гипотезы о виде распределения
В следующей таблице приведены результаты измерений прочности провода на разрыв в
деканьютонах.
235
238
235
234
238
235
234
239
233
236
230
229
234
235
230
232
231
230
227
235
226
240
236
226
231
230
237
231
231
230
231
239
240
230
235
229
231
232
232
228
237
233
231
237
233
235
240
228
238
240
Требуется проверить гипотезу о согласии полученной выборки с
а) нормальным распределением;
б) распределением Лапласа;
в) логистическим распределением.
Определить достигаемый уровень значимости критериев методом Монте-Карло.
19.09.2011
Молодежная школа "Прикладные
методы статистического анализа"
25
Индивидуальная работа
2. Проверка гипотезы однородности
Препарат нифедипин обладает способностью расширять сосуды. Ш. Хейл предположил,
что нифедипин можно использовать и при поражении сердца, вызванном кокаином.
Собакам вводили кокаин, а затем нифедипин, либо физиологический раствор (плацебо).
Показателем насосной функции сердца служило среднее артериальное давление. Были
получены следующие данные.
Плацебо
156
171
133
102
129
150
120
110
112
130
105
Нифедипин
73
81
103
88
130
106
106
111
122
108
99
Проверить гипотезу:
а) об однородности распределений двух выборок;
б) об однородности дисперсий двух выборок.
Влияет ли нифедипин на среднее артериальное давление? Определить достигаемый
уровень значимости критериев методом Монте-Карло.
19.09.2011
Молодежная школа "Прикладные
методы статистического анализа"
26
Индивидуальная работа
3*. Применение метода Монте-Карло в задачах теории вероятностей и математической
статистики
В городе проживает n+1 человек. Один из них, узнав новость, сообщает ее другому, тот –
третьему, и т.д., причем каждый человек передает новость наугад выбранному жителю,
за исключением того от, которого он ее услышал. Пусть  – случайная величина, равная
числу передач новости от одного человека к другому до момента возвращения к тому
человеку, который узнал ее первым.
1. Написать программу для моделирования закона распределения .
2. Вычислить необходимый объем выборки N для заданной точности .
3. Выполнить моделирование распределения  статистики, вычислить среднее значение и
дисперсию, исследовать зависимость от n.
4*. Решить задачу аналитически. Сравнить аналитические результаты с результатами
моделирования.
19.09.2011
Молодежная школа "Прикладные
методы статистического анализа"
27
Спасибо за внимание!
19.09.2011
Молодежная школа "Прикладные
методы статистического анализа"
28
Скачать