Занятие 2. Распределения и доверительные интервалы 𝑥1 , 𝑥2 , … , 𝑥𝑛 𝑥1 , 𝑥2 , … , 𝑥𝑛 Теоретическая часть 1. Распределение случайной величины и функция плотности распределения 2. Нормальное распределение, математическое ожидание и дисперсия 3. Распределение Стьюдента (t-распределение) 4. Квантили и доверительные интервалы Практическая часть 1. Вычисление доверительных интервалов 2. Построение гистограмм нормального распределения или tраспределения (на выбор) 3. Критерий трёх сигм – практическое использование Функции распределения и плотности распределения Функция распределения вероятностей 𝐹 𝑥 = 𝑃(𝑋 < 𝑥) – вероятность того, что случайная величина X примет значение меньшее, чем x Свойства: • Определена на всей числовой прямой • Если 𝑥1 < 𝑥2 , то 𝐹 𝑥1 ≤ 𝐹 𝑥2 • 𝐹 −∞ = 0; 𝐹 +∞ = 1 • 𝐹 𝑥 непрерывна справа Плотность распределения вероятностей непрерывной случайной величины 𝑝 𝑥 = 𝑑𝐹(𝑥) 𝑑𝑥 Свойства: +∞ • −∞ 𝑝 𝑥 𝑑𝑥 = 1 • 𝐹 𝑥 = 𝑥 𝑝 −∞ 𝜉 𝑑𝜉 • 𝑃 𝑎<𝑥<𝑏 = 𝑏 𝑝 𝑎 𝜉 𝑑𝜉 Нормальное распределение Мат. ожидание Плотность вероятности 𝑝 𝑥 = 1 𝜎 2𝜋 Полуширина 𝑥−𝜇 2 − 𝑒 2𝜎2 Оценка параметров нормального распределения (𝒏 > 𝟐𝟎) 1 𝜇=𝑥= 𝑛 𝜎=𝑠= 𝑥𝑖 𝑖 𝑖 𝑥𝑖 − 𝑥 𝑛−1 2 Стандартное норм. распр. 𝜎 = 1; 𝜇 = 0 Центральная предельная теорема Если 𝑋𝑖 - независимые и одинаково распределенные случайные величины с конечными 𝜎 2 и 𝜇, то 𝑛 𝑖=1 𝑋𝑖 − 𝑛𝜇 → 𝑁(0; 1) при 𝑛 → ∞ 𝜎 𝑛 n=1 n=2 n=3 n=5 Оценка дисперсии 𝐷 𝑋 =𝑀 𝑋−𝑀 𝑋 2 = 𝑀 𝑋2 − 𝑀 𝑋 2 X – случайная величина, M – математическое ожидание Среднеквадратичное отклонение ∗ 𝐷 = 𝑖 𝑥𝑖 − 𝑥 𝑁 𝐷∗ = 𝑁 2 1 = 𝑁 2 𝑖 𝑥𝑖 − 𝑥𝑖2 𝑖 − 2𝑥𝑖 𝑥 + 𝑥 2 𝑖 𝑥𝑖 − 𝑁2 2 2 𝑖<𝑗 𝑥𝑖 𝑥𝑗 1 = 𝑁 = 𝑥𝑖2 𝑖 (𝑁 − 1) 2 −𝑥 = 2 𝑖 𝑥𝑖 −2 2 𝑖 𝑥𝑖 𝑁 − 𝑖 𝑥𝑖 𝑁2 2 𝑖<𝑗 𝑥𝑖 𝑥𝑗 𝑁2 Математическое ожидание среднеквадратичного отклонения 𝑁−1 2 𝑁−1 2 𝑁2 − 𝑁 2 ∗ 2 𝑀𝐷 = 𝑀 𝑥𝑖 − 2 𝑀 𝑥𝑖 𝑀 𝑥𝑗 = 𝑀𝑋 − 2 𝑀𝑋 𝑁2 𝑁 𝑁 𝑁 2 𝑖 = 𝑁−1 𝑀 𝑋2 − 𝑀 𝑋 𝑁 Поправка Бесселя (Bessel’s correction) 𝑖<𝑗 2 = 𝑁−1 𝐷(𝑋) 𝑁 2 = Распределение Стьюдента (t-распределение) Плотность вероятности 𝑛+1 𝑛+1 − 2 2 Γ 𝑦 2 𝑝 𝑦 = 1 + 𝑛 𝑛 𝜋𝑛Γ 2 𝑥𝑖 𝑠 = 𝑖 𝑖 𝑡 𝑓 = 𝑥𝑖 − 𝑥 𝑛−1 𝑥−𝜇 𝑠/ 𝑛 𝑛 – число точек 𝑓 = 𝑛 − 1 – число степеней свободы 1 𝑓 𝑓 2 𝑖=1 𝑌𝑖 Yi – независимые стандартные нормальные случайные величины При 𝑛 → ∞ переходит в нормальное Оценка доверительного интервала 1 𝑥= 𝑛 𝑡= 𝑌0 2 Квантили Квантиль (α-квантиль) 𝑥𝛼 – число, такое, что заданная случайная величина превышает его лишь с фиксированной вероятностью 1 − 𝛼 , т.е. 𝑃 𝑋 ≤ 𝑥𝛼 = 𝛼 Квантиль рассчитывается по уравнению: 𝐹 𝑥𝛼 = 𝛼 Двухсторонний квантиль Определение Случай симметричного распределения 𝑃 𝑥1−𝛼 ≤ 𝑋 ≤ 𝑥1+𝛼 = 𝛼 2 2 𝐹 𝑥1+𝛼 − 𝐹 𝑥1−𝛼 = 𝛼 2 𝑥1+𝛼 = −𝑥1−𝛼 2 2 2 Пример: 𝛼 = 0.95 1 + 𝛼 1 + 0.95 = = 0.975 2 2 1 − 𝛼 1 − 0.95 = = 0.025 2 2 𝒙𝟏−𝜶 𝟐 𝒙𝟏+𝜶 𝟐 Доверительный интервал: теория Нормальное распределение Если 𝑋1 , … , 𝑋𝑛 независимы друг от друга и 𝑋𝑖 ~𝑁 𝜇𝑖 , 𝜎𝑖2 , то их линейная комбинация 𝑌 = 𝑖 𝑐𝑖 𝑋𝑖 подчиняется нормальному распределению 𝑁 𝑖 𝑐𝑖 𝜇𝑖 , 𝑖 𝑐𝑖2 𝜎𝑖2 Распределение выборочного среднего (оценки мат.ожидания) 2 1 1 1 𝜎 𝑋−𝜇 2 2 𝑋= 𝑋𝑖 ~ 𝑁 𝜇, 𝜎 ~ 𝑁 𝑛𝜇, 𝑛𝜎 ~𝑁 𝜇, ⇒ ~𝑁(0,1) 𝑛 𝑛 𝑛 𝑛 𝜎/ 𝑛 𝑖 𝑖 Оценка доверительного интервала 𝑃 𝑋− 𝜎 𝜎 ⋅ 𝑧1+𝛼 ≤ 𝜇 ≤ 𝑋 + ⋅ 𝑧1+𝛼 = 𝛼 𝑛 𝑛 2 2 Обычно 𝛼 = 0.95 и 𝑧 = 1.96 («две сигмы») ВНИМАНИЕ! Зауженный доверительный интервал при 𝜎 2 = 𝑠 2 и 𝑛 < 50 (особенно при 𝑛 < 8 − 10) При малых n пользуйтесь распределением Стьюдента Доверительный интервал: теория Распределение Стьюдента Теорема Фишера для нормальных выборок Если 𝑋1 , … , 𝑋𝑛 независимы друг от друга и 𝑋𝑖 ~𝑁 𝜇, 𝜎 2 , а 𝑋 = 𝑖 • • • 𝑋𝑖 − 𝑋 2 1 𝑛 𝑖 𝑋𝑖 и 𝑠2 = , тогда 𝑛−1 𝑋−𝜇 ~𝑁 0; 1 (стандартное 𝜎/ 𝑛 𝑋 и 𝑠 2 независимы 𝑛−1 𝑠 2 2 ~𝜒𝑛−1 2 𝜎 нормальное распределение) (распределение хи-квадрат с n-1 степенями свободы) Оценка доверительного интервала 𝑠 𝑠 𝑃 𝑋− ⋅ 𝑡1+𝛼 ≤ 𝜇 ≤ 𝑋 + ⋅ 𝑡1+𝛼 = 𝛼 ,𝑓 𝑛 𝑛 2 2 ,𝑓 𝑓 = 𝑛 − 1 – число степеней свободы Обычно 𝛼 = 0.95 и 𝑡 = 2 − 7 ВНИМАНИЕ! НЕ ПУТАТЬ! • 𝛼и1−𝛼 • Одно- и двухсторонние квантили • 𝑛и𝑓 Проверка: lim 𝑡0.95,𝑓 = 1.96 𝑓→∞ Доверительные интервалы: практика 1. Рассчитать 𝒙 (среднее значение) и 𝒔 (стандартное отклонение) Функции MS Excel: СРЗНАЧ, СТАНДОТКЛОН 𝜇=𝑥= 1 𝑛 𝑥𝑖 𝑖 𝑠= 𝑖 𝑥𝑖 − 𝑥 𝑛−1 2 2. Найти двухсторонний квантиль t-распределения для заданной вероятности (обычно p=95%) и числа степеней свободы (f = n – 1) Функции MS Excel: СРЗНАЧ, СТАНДОТКЛОН (1) чем выше p, тем больше значение квантиля (2) чем больше f, тем меньше значение квантиля (3) для 𝑓 ≈ 100 – квантили как для нормального распределения (например, t(p=0.95, f=100)=1.98 (4) различайте p и 1-p, одно- и двухсторонние квантили! 3. Рассчитать стандартное отклонение среднего значения и доверительный интервал 𝑠𝑥 = 𝑠/ 𝑛 Δ𝑥 = 𝑠𝑥 𝑡(𝑝; 𝑛 − 1) Грубые промахи; критерий 3σ Алгоритм 1. Рассчитать среднее значение 2. Рассчитать стандартное отклонение (исключив предполагаемый промах) 3. Если предполагаемый промах за пределами 3s, то исключить его 4. Применять для n=20-100 Задача: найти промах в выборке 8,07 8,05 8,10 8,16 8,18 8,14 8,06 8,10 8,22 8,06 8,04 8,11 8,09 8,14 8,11 8,15 8,16 8,50 8,09 8,14 8,12 8,13 8,18 8,20 8,17