Лекция 9 Тема Введение в теорию оценок. Содержание темы Предмет, цель и метод задачи оценивания Точечные выборочные оценки, свойства оценок Теоремы об оценках Интервальные оценки и интеграл Лапласа Основные категории I Понятие выборочной оценки (статистики). I Критерии качества эффективность. оценок: несмещенность, состоятельность, I Интервальное оценивание. Доверительный интервал и надежность оценки (доверительная вероятность). I Интеграл Лапласа. Постановка задачи Изучается случайная величина X с законом распределения, зависящим от неизвестного параметра θ. Например, дана равномерно распределенная случайная величина на неизвеcтном отрезке [a, b]. Требуется оценить математическое ожидание θ = M (X) = (a + b)/2. Цель – определить по возможности точнее значение параметра θ или указать с определенной вероятностью интервал, в котором этот параметр лежит. Например, требуется найти такой промежуток (θ1 , θ2 ), что с вероятностью 0,95 величина θ лежит в пределах θ1 < θ < θ2 . Метод – выборочный. Он состоит в том, что делается выборка значений случайной величины, по которой вычисляется приближенное значение θ̃. Выборочная оценка – статистика Приближенное значение θ̃n , полученное объема n, называется выборочной или величины θ. Поскольку должен быть вычисления, то фактически мы получаем функции θ̃n (X1 , . . . , Xn ) по выборке x1 , . . . , xn статистической оценкой предложен метод ее формулу для некоторой от n экземпляров случайной величины X, взятых в качестве независимых, вычисляемых экспериментально показателей. В итоге, любая оценка сама становится случайной величиной (любая функция от одной случайной величины или нескольких случайных величин сама является случайной величиной). Определение. Формула для выборочной оценки θ̃n (X1 , . . . , Xn ) называется статистикой. В связи с этим, термины «выборочная оценка», «статистическая оценка», «оценка» и «статистика» считаем синонимами. Свойства выборочных оценок. Несмещенность Качество оценки характеризуется наличием или отсутствием некоторых важных свойств – несмещенности, состоятельности и эффективности. Далее для краткости пишем θ̃ или θ̃n , подразумевая θ̃n (X1 , . . . , Xn ). Определение. Оценка θ̃ параметра θ называется несмещенной, если M (θ̃) = θ. Требование несмещенности означает отсутствие некоторой системной, постоянно присутствующей ошибки, которая бы завышала оценку (M θ̃ > θ) или занижала ее (M θ̃ < θ). Требование несмещенности особо важно при малом количестве наблюдений. Определение. Если M (θ̃n ) → θ при n → ∞, то оценка называется асимптотически несмещенной. Свойства выборочных оценок. Состоятельность Определение. Оценка θ̃n параметра θ называется состоятельной, если для любого сколь угодно малого положительного числа ε имеем lim P {|θ̃n − θ| < ε} = 1. n→∞ Требование состоятельности означает, что при увеличении объема выборки мы все ближе приближаемся к истинному значению параметра. Такое стремление называется сходимостью по вероятности – вероятность больших отличий между θ̃n и θ стремится к нулю. Теорема. Если оценка θ̃n является несмещенной и ее дисперсия стремится к нулю lim D(θ̃n ) = 0, n→∞ то оценка является и состоятельной. Свойства выборочных оценок. Эффективность Определение. Оценка θ̃n параметра θ называется эффективной, если ее дисперсия D(θ̃n ) является наименьшей из всех возможных оценок параметра θ по выборкам объема n. Требование эффективности означает наименьший разброс вокруг своего среднего. Это требование важно для несмещенных оценок, когда их среднее (то есть математическое ожидание) совпадает с истинным значением параметра. Тогда и наименьший разброс оказывается по отношению к истинному значению параметра. Пример. Рассмотрим некоторое событие A и в качестве параметра θ возьмем вероятность этого события: θ = P (A). Проведем n экспериментов, и пусть событие A произошло m раз. Тогда в качестве оценки вероятности естественно взять фактическую частоту появления события A: θ̃n = m . n Тогда такая оценка будет несмещенной, состоятельной и эффективной. Это следует из того, что здесь можно все моделировать схемой Бернулли (см. след. слайд). Пример – схема Бернулли В результате эксперимента проверяется произошло или нет некоторое событие A. То есть результат эксперимента – это успех (событие произошло) или неудача (событие не произошло). Как обычно обозначаем вероятность успеха p = P (A) и вероятность неудачи q = P (A) = 1 − p. В одном эксперимента получаем случайную величину X (количество успехов в одном испытании) с рядом распределения X P 0 q 1 =⇒ M (X) = p, p D(X) = pq, σ(X) = √ pq. В качестве оценки вероятности p принимается среднее арифметическое количества успехов в n испытаниях: θ̃n = 1 (X1 + . . . + Xn ). n Тогда M (θ̃n ) = 1 (nM (X)) = p, n D(θ̃n ) = 1 pq (nD(X)) = → 0 при n → ∞. n2 n Значит, такая оценка несмещенная и состоятельная. Можно доказать, что она эффективная. Общие теоремы Теорема 1. Пусть X1 , . . . , Xn – выборка из генеральной совокупности X и M (Xi ) = M (X) = µ, D(Xi ) = D(X) = σ 2 . Тогда выборочная средняя арифметическая x= 1 (X1 + . . . + Xn ) n является несмещенной и состоятельной оценкой математического ожидания M (X). Теорема 2. Пусть X1 , . . . , Xn – выборка из генеральной совокупности X и M (Xi ) = M (X) = µ, Тогда величина s2H = n s2 , n−1 D(Xi ) = D(X) = σ 2 . где s2 = 1 n n P (Xi − x)2 – выборочная i=1 дисперсия, является несмещенной и состоятельной оценкой дисперсии D(X). Примечание. Именно поэтому величину s2H и называют несмещенной оценкой дисперсии. Интервальное оценивание параметров Оценки, о которых говорилось выше, называются точечными, так как они дают конкретное число – одну точку на вещественной оси. Их недостаток в том, что они ничего не говорят о точности такого оценивания при заданном n. Более того, при малых выборках расхождения между оценкой и истинным значением может быть очень велико. Поэтому возникает задача – указать интервал (θ1 , θ2 ), в который с заданной вероятностью попадает истинное значение параметра θ. Определение. Оценка неизвестного параметра называется интервальной, если она определяется двумя числами – началом и концом интервала, в который должен попадать искомый параметр. Определение. Если указан интервал (θ1 , θ2 ), в который с заданной вероятностью γ попадает истинное значение параметра θ, то такой интервал называется доверительным интервалом, а вероятность γ называется надежностью оценки или доверительной вероятностью. Пример – использование интеграла Лапласа Пусть дано нормальное распределение N (µ, σ) с известной дисперсией σ 2 , но неизвестным математическим ожиданием µ. Возьмем в качестве оценки для µ выборочное среднее (среднюю арифметическую выборки) x= 1 (X1 + . . . + Xn ). n Эта величина также имеет нормальное распределение, ее математическое ожидание совпадает с искомым параметром M (x) = µ (оценка несмещенная), а ее дисперсия равна, как легко подсчитать по свойствам дисперсии σ2 D(x) = (оценка состоятельная). n Тогда величина x−µ Y = σ √ n имеет стандартное нормальное распределение N (0, 1). Пример – использование интеграла Лапласа - II Ищем доверительный интервал в виде (x − a, x + a). Тогда σ |µ − x| < a ⇔ |Y | < a √ , n а вероятность последнего события равна по формуле Ньютона–Лейбница a √σ n σ σ F (a √ ) − F (−a √ ) = 2 n n Z f (t)dt, 0 где t2 1 f (t) = √ e− 2 2π есть плотность стандартного нормального распределения. Интеграл Zx Φ(x) = f (t)dt 0 называется интегралом Лапласа (функцией Лапласа). Для его вычисления имеются удобные таблицы. Итак, в нашем примере вероятность попадания в доверительный интервал (x − a, x + a) равна 2Φ(a √σn ). Контрольные вопросы 1. Предмет, цель и метод задачи оценивания. 2. Понятие выборочной оценки (статистики). 3. Несмещенная оценка. 4. Состоятельная оценка. Теорема о состоятельности оценки. 5. Эффективность оценки. 6. Несмещенность и состоятельность оценки вероятности успеха в схеме Бернулли. 7. Две теоремы об оценках математического ожидания и дисперсии. 8. Интервальное оценивание. Доверительный интервал и надежность оценки (доверительная вероятность). 9. Интеграл Лапласа. Вычисление доверительной вероятности для оценки математического ожидания нормального распределения.