Имитационное моделирование в исследовании и разработке информационных систем Лекция 5 Элементы теории вероятностей и математической статистики в имитационном моделировании Где применяется ТВиМС • Задание исходных данных – Генерация случайных величин и случайных процессов – Аппроксимация экспериментальных выборок аналитическими распределениями • Управление имитационным экспериментом Определение количества экспериментов (или времени останова) для заданной точности • Обработка результатов • Оценка параметров случайных величин • Сравнение вариантов построения исследуемой системы • Изучение зависимостей между величинами 2 Путеводитель по книге Лоу и Кельтона • Глава 4 – введение • П. 5.6 - сравнение результатов модели с экспериментальными данными • Глава 6 – аппроксимация выборок распределениями • 7 – генераторы псевдослучайных чисел • 8 – генерация различных случайных величин • 9 – обработка результатов эксперимента • 10 – сравнение конфигураций системы • 11 – понижение дисперсии • 12 – планирование экспериментов 3 Откуда случайность? • Натурные эксперименты и измерения – влияние внешних факторов • Имитационные модели: • случайность потоков запросов • случайность действий (время, результат) На выходе: • последовательность результатов отдельных экспериментов; • случайный процесс 4 Генераторы псевдослучайных чисел rand(); srand( unzigned int seed ); диапазон 0..RAND_MAX random(); srandom( seed ); См. также библиотеку Boost 5 Генерация случайных величин с заданным законом распределения Y – случайная величина Пусть F(x) = P( Y < x ) – функция распределения Y Берём значение r = U(0,1); (равномерное распределение в (0,1)) Тогда Y = F-1(r) Можно распространить на дискретные случайные величины 6 Распределения входных данных модели • Использование конкретных трасс • Эмпирические распределения (аппроксимация на основе трасс (выборок)) • Подбор параметров «аналитического» распределения • См. Лоу, гл. 6, 7 Оценка параметров случайной величины оценка мат. ожидания оценка дисперсии оценка дисперсии оценки мат. ожидания 8 Сколько нужно экспериментов для оценки мат. ожидания с заданной точностью? Доверительный интервал длиной 2ε, в который μ укладывается с вероятностью γ задано γ, ε, найти n Согласно Ц.П.Т., нормированная оценка м.о. для n выборок сходится к величине с плотностью вероятности 9 Оценка числа выборок (2) • Для нормированного распределения находим u(γ) по таблице • Далее, ε= u(γ)*sqrt(σ/n) • Определяем n исходя из требований кε См. подробнее [1], с. 192 10 Если число выборок невелико Если Xi – нормально распределённые, то вместо таблицы нормального распределения используем таблицу tраспределения с n-1 степенями свободы [3, с. 306] 11 Проверка статистических гипотез По учебнику [1]: Имеется случайная величина X Имеется выборка n значений Xi Формулируется проверяемая гипотеза H0 и её отрицание H1 Пример: H0 – мат. ожидания X равно выборочному среднему 12 Проверка гипотез (2) Задаётся уровень значимости α (близко к нулю) – вероятность ошибки первого рода (принята H1, хотя истинна H0) Выбирается функция-критерий • Зависит от выборки X • Определяет «степень соответствия» выборки гипотезе • Функция с известным распределением Критическая область Пусть φ – критерий, ω – критическая область Условия на ω: Ошибка второго рода минимальна 14 Проверка гипотезы • Вычисляем оценку \phi по выборке • Если оценка попадает в критическую область, гипотеза отвергается. 15 Проверка гипотез (3) • Критерий: (X(n)-μ)/sqrt(S2(n)/n) • Распределение: • нормальное, если n – велико (см. Лоу с. 308) • Если n - мало, X – по нормальному закону, то t-распределение с (n-1) степенями свободы 16 Проверка гипотезы о распределении (критерий Пирсона, хи-квадрат) • Делим область значений сл.в на интервалы (пусть их k) • Nj – число значений, попавших в j-й интервал, ΣNj = n • pj – доля попадающих в i-й интервал «теоретических» значений • Критерий: Σ(Nj-npj)2/npj 17 Определение числа экспериментов • См. «Оценка числа выборок» 18 Обработка результатов • Оценка параметров распределений • Определение доверительного интервала • Сравнение конфигураций системы с учетом доверительного интервала • Определение установившегося режима системы • Определение переходного периода 19 Литература • Калинина В.Н., Панкин В.Ф. Математическая статистика. М.: Дрофа, 2002 год. 340 с. • Гмурман В. Е. Теория вероятностей и математическая статистика. М.: Высшая школа, 2003. 479 с. • Аверилл М.Лоу, В. Дэвид Кельтон. Имитационное моделирование. 3-е издание. // СПб:Питер, 2004. – 847 с. Спасибо за внимание! 21 Результаты эксперимента • 100 прогонов, замеряем “x” 1 1 99 раз … 1 100 Как это обработать? Какой вывод сделать из полученных данных? Возможные выводы • В среднем x=1.99 – ни в одном прогоне x не равнялся 1.99 – почти 100% отклонение от 1 • В 99% случаях x=1 – а если при дальнейших прогонах всегда x=100? • Как сделать обобщённые выводы? Гипотеза и альтернативная гипотеза p Px xmin ; xmax – вероятность, что x принадлежит отрезку H 0 : p p0 H 1 : p p0 Уровень значимости • – уровень значимости или вероятность ошибки первого рода, т.е вероятность, что гипотеза H0, будучи верной, будет отвергнута в пользу H1 • Обычно =0.05 • Ошибка второго рода: принята H1, а на самом деле верна H0 Если по-простому • Статистически обосновывается, что с уровнем значимости 0.05 верна гипотеза, что с вероятностью не меньше 0.9 значение лежит на заданном отрезке x Статистический Критерий • Зависит от выборки X • Определяет «степень соответствия» выборки гипотезе • Функция с известным распределением 27 Примеры типовых стат. гипотез (по [1]) • значение МО нормального распределения при неизвестной дисперсии; • равенство МО двух норм. распред. • вид закона распределения случайной величины; 28 Статистический критерий • m – число экспериментов, в которых • • x xmin ; xmax n k k k Pm k Cn p 1 p m – «эмпирическая вероятность» n Критическая область • Если критерий m принадлежит критической области, то H0 отвергается P m m кр C p 1 p mкр i 0 • p = p0 i n i n i Критическая область и границы отрезка • Гипотеза H0 принимается, если не менее mкр 1 значений x xmin ; xmax • Теперь известно, какими свойствами должны обладать границы отрезка Подбор границ отрезка • Упорядочить элементы выборки x по возрастанию: x1 , x2 ,, xn • Выбрать любые • Обычно xi , x j : j i m xmax xmin min кр Примеры • • p0 0.9 0.05 n mкр 100 200 500 1000 84 172 438 883 Ошибка второго рода • – вероятность ошибки второго рода, т.е. принять гипотезу H0 тогда как верна H1 : p p1 p0 Pm m | p p1 кр C p 1 p n i n i mкр 1 i 1 n i 1 Пример n=100 n=1000 p1 p1