МЕТОДИКА ИССЛЕДОВАНИЯ СТАТИСТИЧЕСКИХ ЗАКОНОМЕРНОСТЕЙ МЕТОДОМ МОНТЕ-КАРЛО к.т.н. доцент кафедры «Прикладная математика» НГТУ С.Н. Постовалов Вычисление числа 19.09.2011 Молодежная школа "Прикладные методы статистического анализа" 2 Вычисление числа S квадрата 4 R 2 R S круга R 2 P " попасть в круг " R2 4R 19.09.2011 Молодежная школа "Прикладные методы статистического анализа" 2 4 3 Вычисление числа P " попасть в круг " Число точек в круге 4 Общее число точек Число точек в круге 4 Общее число точек 19.09.2011 Молодежная школа "Прикладные методы статистического анализа" 4 Генераторы псевдослучайных чисел № Генератор 1 Метод Фибоначчи с запаздываниями 2 Линейный конгруэнтный генератор xt 1 (axt c) mod N , t 0,1,... 3 Мультипликативный конгруэнтный генератор xt 1 (axt ) mod N , t 0,1,... 4 Линейная рекуррентная последовательность порядка P над конечным полем 2P xt 1 a1 xt a2 xt 1 ak xt k 1 mod p 5 Регистр сдвига с линейной обратной связью (LSFR) 19.09.2011 Формула Молодежная школа "Прикладные методы статистического анализа" 5 Генератор псевдослучайных чисел № Генератор Год, авторы 1 RANDU 1960 2 MERSENNE TWISTER M. Matsumoto, T. Nishimura, 1997 219937−1 3 Well equidistributed longperiod linear WELL512 WELL1024 WELL19937 WELL44497 F. Panneton, P. L'Ecuyer, and M. Matsumoto, 2006 2512−1 21024−1 219937−1 244497−1 19.09.2011 Молодежная школа "Прикладные методы статистического анализа" Период 6 Сколько бросить точек? Для вычисления числа использован Число точек 19.09.2011 генератор WELL44497 Оценка (Первые 16 знаков числа 3.141592653589793) Попало в круг 36 28 3,1 1111111111111 2 191 1720 3,14 011866727522 2 212 1737 3,141 04882459313 2 218 1742 3,1415 6898106402 2 726 2141 3,14159 941305943 29 585 23236 3,141592 02298462 29 599 23247 3,1415926 2137234 32 763 25732 3,14159265 024570 963 235 756523 3,141592653 92142 1 923 758 1510916 3,1415926535 4582 Молодежная школа "Прикладные методы статистического анализа" 7 Вычисление вероятности появления некоторого случайного события Пусть требуется вычислить вероятность P появления некоторого случайного события A. В каждой из реализаций процесса количество наступлений события является случайной величиной , принимающей значение 1 с вероятностью P, и значение 0 с вероятностью (1-P) . 19.09.2011 Молодежная школа "Прикладные методы статистического анализа" 8 Вычисление вероятности появления некоторого случайного события Математическое ожидание и дисперсия случайной величины равны M xp y(1 p) p D ( x M ) p ( y M ) (1 p) 2 2 (1 p)2 p (0 p)2 (1 p) p(1 p) 19.09.2011 Молодежная школа "Прикладные методы статистического анализа" 9 Вычисление вероятности появления некоторого случайного события В качестве оценки для искомой вероятности P принимается частота M/N наступлений события A при N реализациях M 1 N xi N N i 1 19.09.2011 Молодежная школа "Прикладные методы статистического анализа" 10 Вычисление вероятности появления некоторого случайного события В силу центральной предельной теоремы теории вероятностей частота при достаточно больших имеет распределение, близкое к нормальному: M N M M Np N N N (0,1) D p(1 p) 19.09.2011 Молодежная школа "Прикладные методы статистического анализа" 11 Вычисление вероятности появления некоторого случайного события Поэтому M Np N t (t ) (t ) 2 (t ) 1 p (1 p) M N p t 1 t 1 2 19.09.2011 p(1 p) N - квантиль стандартного нормального распределения Молодежная школа "Прикладные методы статистического анализа" 12 Вычисление вероятности появления некоторого случайного события Таким образом, -доверительный интервал имеет вид: M M Pp , N N p(1 p) t N Отсюда количество реализаций N, необходимое чтобы доверительный интервал имел длину 2, равно N t 2 19.09.2011 p(1 p) 2 Молодежная школа "Прикладные методы статистического анализа" 13 Сколько бросить точек? Для вычисления числа использован Число точек генератор Оценка Попало в круг WELL44497 99%-доверительный интервал 36 28 3,1 1111111111111 2,4744 3,7478 2 191 1720 3,14 011866727522 3,0585 3,2217 2 212 1737 3,141 04882459313 3,0598 3,2223 2 218 1742 3,1415 6898106402 3,0605 3,2227 2 726 2141 3,14159 941305943 3,0684 3,2148 29 585 23236 3,141592 02298462 3,1194 3,1638 29 599 23247 3,1415926 2137234 3,1194 3,1638 32 763 25732 3,14159265 024570 3,1205 3,1627 963 235 756523 3,141592653 92142 3,1377 3,1455 1 923 758 1510916 3,1415926535 4582 3,1388 3,1443 19.09.2011 Молодежная школа "Прикладные методы статистического анализа" 14 Сколько бросить точек? Половина длины доверительного интервала 19.09.2011 Требуемое число точек для вычисления числа 1,00E-01 1,5 E+03 1,00E-02 1,5 E+05 1,00E-03 1,5 E+07 1,00E-04 1,5 E+09 1,00E-05 1,5 E+11 1,00E-06 1,5 E+13 1,00E-07 1,5 E+15 1,00E-08 1,5 E+17 1,00E-09 1,5 E+19 1,00E-10 1,5 E+21 Молодежная школа "Прикладные методы статистического анализа" 15 Сколько бросить точек? На практике вероятность P обычно неизвестна. Поэтому для определения количества реализаций выбирают N0=50-100, по результатам реализаций определяют P0 и затем определяют требуемый объем моделирования: p (1 p0 ) N t2 0 2 Если в эксперименте одновременно оцениваются разные вероятности (например, в случае построения эмпирической функции распределения), то можно взять максимум функции P(1-P) = 0,25: N t2 19.09.2011 1 (2 )2 Молодежная школа "Прикладные методы статистического анализа" 16 Применение метода Монте-Карло в математической статистике • Аналитическими методами как правило можно получить результаты в крайних случаях: – при малых объемах выборки наблюдений – в асимптотике при n • Методом Монте-Карло можно получить результаты с приемлемой для практики точностью для «реальных ситуаций» 19.09.2011 Молодежная школа "Прикладные методы статистического анализа" 17 Применение метода Монте-Карло в математической статистике • Исследование свойств методов оценивания параметров законов распределения • Исследование робастности статистических процедур • Определение законов распределения статистик критериев проверки статистических гипотез • Исследование мощности критериев проверки статистических гипотез 19.09.2011 Молодежная школа "Прикладные методы статистического анализа" 18 Исследование распределений статистик критериев согласия Dn, N sup Fn, N ( x) F ( x) x 19.09.2011 Молодежная школа "Прикладные методы статистического анализа" 19 Исследование распределений статистик критериев согласия Dn, N sup Fn, N ( x) F ( x) x 19.09.2011 Молодежная школа "Прикладные методы статистического анализа" 20 Исследование распределений статистик критериев согласия 0,02 y = 0,372x-1,33 R² = 0,997 0,018 0,016 Distance (Dn) 0,014 0,012 0,01 0,008 0,006 0,004 0,002 0 10 100 1000 Sample size (n) 19.09.2011 Молодежная школа "Прикладные методы статистического анализа" 21 Исследование мощности критериев согласия 19.09.2011 Молодежная школа "Прикладные методы статистического анализа" 22 Лабораторный практикум № Тема Лабораторный практикум №1 Проверка статистической гипотезы о виде распределения: • критерии согласия типа Хи-квадрат; • непараметрические критерии согласия; • критерии нормальности. Лабораторный практикум №2 Проверка статистических гипотез об однородности: • критерии однородности распределений; • критерии однородности средних; • критерии однородности дисперсий. 19.09.2011 Молодежная школа "Прикладные методы статистического анализа" 23 Индивидуальная работа Дата Работа 19.09.2011 Понедельник Выдача заданий для индивидуальной работы 20.09.2011 Вторник Самостоятельное выполнение индивидуальных работ 21.09.2011 Среда Консультация по выполнению индивидуальных работ 22.09.2011 Четверг Подготовка презентации для защиты индивидуальной работы 23.09.2011 Пятница Защита индивидуальных работ 24.09.2011 Суббота Награждение участников, выдача удостоверений о повышении квалификации слушателям, успешно защитившим индивидуальную работы 19.09.2011 Молодежная школа "Прикладные методы статистического анализа" 24 Индивидуальная работа 1. Проверка гипотезы о виде распределения В следующей таблице приведены результаты измерений прочности провода на разрыв в деканьютонах. 235 238 235 234 238 235 234 239 233 236 230 229 234 235 230 232 231 230 227 235 226 240 236 226 231 230 237 231 231 230 231 239 240 230 235 229 231 232 232 228 237 233 231 237 233 235 240 228 238 240 Требуется проверить гипотезу о согласии полученной выборки с а) нормальным распределением; б) распределением Лапласа; в) логистическим распределением. Определить достигаемый уровень значимости критериев методом Монте-Карло. 19.09.2011 Молодежная школа "Прикладные методы статистического анализа" 25 Индивидуальная работа 2. Проверка гипотезы однородности Препарат нифедипин обладает способностью расширять сосуды. Ш. Хейл предположил, что нифедипин можно использовать и при поражении сердца, вызванном кокаином. Собакам вводили кокаин, а затем нифедипин, либо физиологический раствор (плацебо). Показателем насосной функции сердца служило среднее артериальное давление. Были получены следующие данные. Плацебо 156 171 133 102 129 150 120 110 112 130 105 Нифедипин 73 81 103 88 130 106 106 111 122 108 99 Проверить гипотезу: а) об однородности распределений двух выборок; б) об однородности дисперсий двух выборок. Влияет ли нифедипин на среднее артериальное давление? Определить достигаемый уровень значимости критериев методом Монте-Карло. 19.09.2011 Молодежная школа "Прикладные методы статистического анализа" 26 Индивидуальная работа 3*. Применение метода Монте-Карло в задачах теории вероятностей и математической статистики В городе проживает n+1 человек. Один из них, узнав новость, сообщает ее другому, тот – третьему, и т.д., причем каждый человек передает новость наугад выбранному жителю, за исключением того от, которого он ее услышал. Пусть – случайная величина, равная числу передач новости от одного человека к другому до момента возвращения к тому человеку, который узнал ее первым. 1. Написать программу для моделирования закона распределения . 2. Вычислить необходимый объем выборки N для заданной точности . 3. Выполнить моделирование распределения статистики, вычислить среднее значение и дисперсию, исследовать зависимость от n. 4*. Решить задачу аналитически. Сравнить аналитические результаты с результатами моделирования. 19.09.2011 Молодежная школа "Прикладные методы статистического анализа" 27 Спасибо за внимание! 19.09.2011 Молодежная школа "Прикладные методы статистического анализа" 28