НЕГОСУДАРСТВЕННОЕ ОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ ВЫСШЕГО ПРОФЕССИОНАЛЬНОГО ОБРАЗОВАНИЯ СИБИРСКАЯ АКАДЕМИЯ ФИНАНСОВ И БАНКОВСКОГО ДЕЛА http://safbd.ru Кафедра математики и информатики ТЕОРИЯ ВЕРОЯТНОСТЕЙ И МАТЕМАТИЧЕСКАЯ СТАТИСТИКА Учебно-методический комплекс для студентов ВПО, обучающихся с применением дистанционных технологий Модуль 3 МАТЕМАТИЧЕСКАЯ СТАТИСТИКА Составитель: доцент Демиденко Н.Ю. Новосибирск 2013 НЕГОСУДАРСТВЕННОЕ ОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ ВЫСШЕГО ПРОФЕССИОНАЛЬНОГО ОБРАЗОВАНИЯ СИБИРСКАЯ АКАДЕМИЯ ФИНАНСОВ И БАНКОВСКОГО ДЕЛА http://safbd.ru РАЗДЕЛ «МАТЕМАТИЧЕСКАЯ СТАТИСТИКА» Модуль 3. Математическая статистика Тема 3.1 Выборочный метод 3.1.1 Генеральная и выборочная совокупности 3.1.2. Статистическое распределение выборки 3.1.3. Эмпирическая функция распределения 3.1.4. Полигон и гистограмма Тема 3.2. Статистическое оценивание параметров распределения 3.2.1.Точечные оценки 3.2.2. Интервальные оценки Вопросы для самоконтроля Задания для самоконтроля Приложения. НЕГОСУДАРСТВЕННОЕ ОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ ВЫСШЕГО ПРОФЕССИОНАЛЬНОГО ОБРАЗОВАНИЯ СИБИРСКАЯ АКАДЕМИЯ ФИНАНСОВ И БАНКОВСКОГО ДЕЛА http://safbd.ru Тема 3.1. Выборочный метод 3.1.1. Генеральная и выборочная совокупности Пусть требуется изучить некоторую совокупность однородных объектов относительно какого-либо качественного или количественного признака, характеризующего эти объекты. В этих случаях проводят либо сплошное обследование, либо, если число объектов велико или обследование связано с уничтожением объекта, то обследуют некоторую часть объектов из общей совокупности. ОПРЕДЕЛЕНИЕ. Совокупность однородных объектов, которую требуется изучить по количественному или качественному признаку, называется генеральной. ОПРЕДЕЛЕНИЕ. Совокупность, полученная из генеральной совокупности, над которой проводится сплошное обследование, называется выборочной совокупностью или выборкой. ОПРЕДЕЛЕНИЕ. Количество объектов, находящихся в генеральной или выборочной совокупности, называется объемом генеральной совокупности или объемом выборки и обозначается соответственно N и n . Например, чтобы дать ответ об эффективности некоторого препарата для лечения гриппа, необходимо его проверить в отношении всех больных на земном шаре, страдающих этим заболеванием. Такая группа больных относится к генеральной совокупности. Однако эта проверка чрезвычайно трудоемка и технически невозможна. Поэтому на практике клиническая апробация нового препарата проводится на ограниченном контингенте больных, который представляет собой выборочную совокупность. Так как о поведении генеральной совокупности судят по ее выборке, то она должна наиболее полно характеризовать свойства и особенности генеральной совокупности, то есть быть репрезентативной (представительной). Это достигается использованием принципа случайного отбора объектов исследования из генеральной совокупности, обеспечивающего одинаковую вероятность любому исследуемому объекту попасть в выборку. НЕГОСУДАРСТВЕННОЕ ОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ ВЫСШЕГО ПРОФЕССИОНАЛЬНОГО ОБРАЗОВАНИЯ СИБИРСКАЯ АКАДЕМИЯ ФИНАНСОВ И БАНКОВСКОГО ДЕЛА http://safbd.ru 3.1.2. Статистическое распределение выборки. В ходе экспериментов исследователь получает набор числовых данных, отражающих результаты измерений или наблюдений исследуемых объектов. Совокупность этих числовых данных, представленных в виде последовательности результатов наблюдений есть выборка из генеральной совокупности. Основная задача первичного статистического анализа состоит в том, чтобы по имеющимся экспериментальным данным охарактеризовать исследуемую генеральную совокупность небольшим числом параметров. Пусть на базе генеральной совокупности произведен отбор и получена выборка, которую надо исследовать относительно некоторого признака Х . Замечено, что значение исследуемого признака х1 наблюдалось n1 раз; значение х 2 встречалось n 2 раз; … хk nk раз, причем k n i 1 i n - объему выборки. ОПРЕДЕЛЕНИЕ. Наблюдаемые значения х i называются вариантами, а последовательность неповторяющихся вариант, записанная в возрастающем порядке, называется вариационным рядом. Числа наблюдений ni называются абсолютными частотами (частотами), а wi ni - относительными частотами, причем n k w i 1 i 1. Замечание. Относительная частота является статистическим аналогом вероятности случайного события. ОПРЕДЕЛЕНИЕ. Статистическим распределением выборки для дискретной случайной величины Х называется перечень вариант х i вариационного ряда и соответствующих им частот ni или относительных частот wi . Если случайная величина Х является непрерывной, то статистическое распределение выборки задается в виде последовательности частичных интервалов и соответствующих им частот ni или относительных частот wi . Для построения интервального вариационного ряда и интервального статистического распределения выборки выполняют следующие действия: - определяют наименьшее x min и наибольшее x max значения варианты; - находят размах варьирования R xmax xmin ; НЕГОСУДАРСТВЕННОЕ ОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ ВЫСШЕГО ПРОФЕССИОНАЛЬНОГО ОБРАЗОВАНИЯ СИБИРСКАЯ АКАДЕМИЯ ФИНАНСОВ И БАНКОВСКОГО ДЕЛА http://safbd.ru - если в задаче количество интервалов не задано, то выбирают число интервалов из соотношения k n ; - находят длину частичного интервала, называемую шагом h R ; k - разбивают интервал варьирования на частичные интервалы длины h : xmin ; xmin h, xmin h ; xmin 2h , ... , xmin k 1h ; xmax ; - находят середины каждого частичного интервала х i ; -определяют частоту для каждого интервала ni - количество вариант, попавших в i -й частичный интервал. 3.1.3. Эмпирическая функция распределения. ОПРЕДЕЛЕНИЕ. Эмпирической функцией распределения (функцией распределения выборки) называется функция F*(x ), определяющая для каждого значения x относительную частоту события X x : F * ( x) nx , n где n x - число вариант, меньших x ; n - объем выборки. Эмпирическая функция обладает следующими свойствами: 1) 0 F * ( x) 1; 2) F * ( x) - неубывающая функция; 3) если x x1 ; xk , то F * ( x) 0 при х х1 и F * ( x) 1 при х xk . Эмпирической функцией распределения F * ( x) играет фундаментальную роль в статистическом анализе. Важнейшее ее свойство состоит в том, что при увеличении числа наблюдений над признаком X происходит сближение этой функции с теоретической функцией F (x) . По этой причине эмпирическую функцию распределения F * ( x) часто называют статистическим аналогом теоретической функции F (x) . НЕГОСУДАРСТВЕННОЕ ОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ ВЫСШЕГО ПРОФЕССИОНАЛЬНОГО ОБРАЗОВАНИЯ СИБИРСКАЯ АКАДЕМИЯ ФИНАНСОВ И БАНКОВСКОГО ДЕЛА http://safbd.ru 3.1.4. Полигон и гистограмма Для графического изображения статистического распределения строят полигон и гистограмму. ОПРЕДЕЛЕНИЕ. Полигоном частот называется ломаная линия на плоскости, отрезки которой соединяют точки с координатами ( xi ; ni ) , где х i - варианта статистического распределения или середина i -го частичного интервала для непрерывного признака, ni -соответствующая частота. ОПРЕДЕЛЕНИЕ. Полигоном относительных частот называется ломаная линия на плоскости, отрезки которой соединяют точки с координатами ( xi ; wi ) , где х i - варианта статистического распределения или середина i -го частичного интервала для непрерывного признака, wi - соответствующая частота. ОПРЕДЕЛЕНИЕ. Гистограммой частот называется ступенчатая фигура, состоящая из прямоугольников, основаниями которых служат частичные интервалы длины h , а высоты равны отношению частоты к шагу ni , называемому плотностью частоты. h ОПРЕДЕЛЕНИЕ. Гистограммой относительных частот называется ступенчатая фигура, состоящая из прямоугольников, основаниями которых служат частичные интервалы длины h , а высоты равны отношению относительной частоты к шагу wi , h называемому плотностью относительной частоты. Построение полигонов и гистограмм позволяет произвести первичный анализ экспериментальных данных, а именно: по форме полигона и гистограммы сделать предположение о законе распределения случайной величины; выявить наиболее часто встречающееся значение исследуемой величины и разброс или отклонение экспериментальных данных относительно этого значения. ПРИМЕР. Абитуриентами на вступительных экзаменах были получены следующие суммы баллов: 24, 20, 18, 22, 16, 21, 24, 22, 19, 20, 22, 16, 21, 19, 22, 17, 20, 18, 22, 24, 21, 25, 21, 26, 23, 19, 20, 17, 25, 23, 27, 24, 21, 18, 23, 28, 20, 16, 23, 19, 21, 25, 23, 20, 18. Требуется НЕГОСУДАРСТВЕННОЕ ОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ ВЫСШЕГО ПРОФЕССИОНАЛЬНОГО ОБРАЗОВАНИЯ СИБИРСКАЯ АКАДЕМИЯ ФИНАНСОВ И БАНКОВСКОГО ДЕЛА http://safbd.ru 1) построить непрерывное и дискретное статистическое распределение исследуемого признака Х – полученной суммы баллов; 2) найти и построить эмпирическую функцию распределения F*(x); 3) построить полигон и гистограмму абсолютных частот. РЕШЕНИЕ. 1) Построение статистического распределения: -определяем объем выборки: n 45 . - определяем наименьшее x min =16 и наибольшее x max =28 значения варианты; - находим размах варьирования R xmax xmin =28-16=12; -так как в задаче количество интервалов не задано, то выбираем число интервалов из соотношения k n 45 6 ; - находим длину частичного интервала, называемую шагом h R 12 2; k 6 - разбиваем интервал варьирования на частичные интервалы длины h =2: 16 ;18, 18 ; 20, 20 ; 22, 22 ; 24, 24 ; 26, 26 ; 28; - находим середины каждого частичного интервала х i :17, 19, 21, 23, 25, 27. -определяем частоту для каждого интервала: n i - количество вариант, попавших в i ый частичный интервал: 5, 8, 12, 10, 7, 3; - строим статистическое распределение для непрерывного и дискретного распределения признака. Непрерывное статистическое распределение: xi ; xi 1 [16 – 18) [18 – 20) [20 – 22) [22 – 24) [24 – 26) [26 – 28] 5 8 12 10 7 3 ni Дискретное статистическое распределение: xi 17 19 21 23 25 27 ni 5 8 12 10 7 3 2) Эмпирическая функция распределения строится по дискретному статистическому распределению: НЕГОСУДАРСТВЕННОЕ ОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ ВЫСШЕГО ПРОФЕССИОНАЛЬНОГО ОБРАЗОВАНИЯ СИБИРСКАЯ АКАДЕМИЯ ФИНАНСОВ И БАНКОВСКОГО ДЕЛА http://safbd.ru - наименьшая варианта x min =17, поэтому F * ( x) 0 при х 17 ; - значение X 19, а именно x1 17 , наблюдалось 5 раз, следовательно, F * ( x) 5 1 при 17 x 19 ; 45 9 - значения X 21, а именно x1 17 и х2 19 , наблюдались 5+8=13 раз, следовательно, F * ( x) 13 при 19 x 21 ; 45 - значения X 23, а именно x1 17 , х2 19 и х3 21 , наблюдались 5+8+12=25 раз, следовательно, F * ( x) 25 5 при 21 x 23 ; 45 9 - значения X 25, а именно x1 17 , х2 19 , х3 21 и х4 23 , наблюдались 5+8+12+10=35 раз, следовательно, F * ( x) 35 7 при 23 x 25 ; 45 9 - значения X 27, а именно x1 17 , х2 19 , х3 21 , х4 23 и х5 25 , наблюдались 5+8+12+10+7=42 раза, следовательно, F * ( x) 42 при 25 x 27 ; 45 - наибольшая варианта x max =27, поэтому F * ( x) 1 при х 27 . Тогда эмпирическая функция распределения и ее график будут иметь вид: x 17 0 5 / 45 17 x 19 13 / 45 19 x 21 * F ( x) 25 / 45 21 x 23 35 / 45 23 x 25 42 / 45 25 x 27 1 x 27 НЕГОСУДАРСТВЕННОЕ ОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ ВЫСШЕГО ПРОФЕССИОНАЛЬНОГО ОБРАЗОВАНИЯ СИБИРСКАЯ АКАДЕМИЯ ФИНАНСОВ И БАНКОВСКОГО ДЕЛА http://safbd.ru F (x) 1 42/45 35/45 25/45 13/45 5/45 0 17 19 21 23 25 х 27 Рис. 1. Эмпирическая функция распределения. 3) Для построения полигона и гистограммы абсолютных частот сводим данные в таблицу, добавляя строку, содержащую плотность частоты ni ni для каждого h 2 интервала: xi ; xi 1 [16 – 18) [18 – 20) [20 – 22) [22 – 24) [24 – 26) [26 – 28] xi 17 19 21 23 25 27 ni 5 8 12 10 7 3 ni / 2 2,5 4 6 5 3,5 1,5 Строим полигон абсолютных частот, соединяя отрезками ломаной линии точки с координатами ( xi ; ni ) - соответственно вторая и третья строки таблицы: ni 12 10 08 7 5 0 17 19 21 23 25 Рис. 2. Полигон абсолютных частот. 27 хi НЕГОСУДАРСТВЕННОЕ ОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ ВЫСШЕГО ПРОФЕССИОНАЛЬНОГО ОБРАЗОВАНИЯ СИБИРСКАЯ АКАДЕМИЯ ФИНАНСОВ И БАНКОВСКОГО ДЕЛА http://safbd.ru Для изображения гистограммы строим прямоугольники, основаниями которых служат частичные интервалы длины h 2 (первая строка таблицы), а высоты равны плотности абсолютной частоты ni ni (четвертая строка таблицы): h 2 ni h 6 5 4 3,5 2,5 1,5 0 16 18 20 22 24 26 28 xi Рис.3. Гистограмма абсолютных частот. 3.2. Статистическое оценивание параметров распределения В результате обработки данных выборки получаются выборочные значения числовых характеристик, которые отличаются от соответствующих значений параметров распределения генеральной совокупности. Основной причиной этого отличия является ограниченный объем выборки. С целью получения достоверных результатов производится оценивание числовых характеристик генеральной совокупности с помощью статистических оценок. ОПРЕДЕЛЕНИЕ. Статистической оценкой (оценкой) называется числовая характеристика, вычисленная по данным выборки. Статистические оценки бывают двух видов: точечные и интервальные. Задача определения этих оценок называется статистическим оцениванием. 3.2.1.Точечные оценки ОПРЕДЕЛЕНИЕ. Точечной называется статистическая оценка, если неизвестный параметр оценивается одним числом. НЕГОСУДАРСТВЕННОЕ ОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ ВЫСШЕГО ПРОФЕССИОНАЛЬНОГО ОБРАЗОВАНИЯ СИБИРСКАЯ АКАДЕМИЯ ФИНАНСОВ И БАНКОВСКОГО ДЕЛА http://safbd.ru Для того чтобы статистическая оценка правдоподобно представляла теоретическое распределение, на нее накладываются следующие требования: несмещенность, эффективность и состоятельность. Пусть требуется оценить параметр теоретического распределения . На основе выборки был получен параметр статистического распределения * . Делая различные выборки одного и того же объема, можно получить: 1* , 2* , ... , k* . Тогда оценку * можно рассматривать как случайную величину, а i* (i 1, k ) как ее возможные значения. ОПРЕДЕЛЕНИЕ. Несмещенной называется статистическая оценка * , математическое ожидание которой равно оцениваемому параметру при любом объеме выборки, то есть M ( * ) . Если M ( * ) , то оценка называется смещенной. Но даже несмещенная оценка не всегда дает хорошее приближение оцениваемого параметра, если возможные значения i* сильно рассеяны вокруг своего среднего значения, то есть дисперсия D( * ) значительна. ОПРЕДЕЛЕНИЕ. Эффективной называется статистическая оценка, которая при заданном объеме выборки имеет наименьшую возможную дисперсию, то есть D( * ) min . ОПРЕДЕЛЕНИЕ. Состоятельной называется статистическая оценка, которая приближается (сходится по вероятности) к оцениваемому параметру, то есть lim P * 1 n для любого 0 . Статистической точечной оценкой математического ожидания является выборочная средняя, дисперсии – выборочная дисперсия, среднего квадратического отклонения – выборочное среднее квадратическое отклонение или выборочный стандарт. ОПРЕДЕЛЕНИЕ. Выборочной средней x называется величина, определяемая соотношением: 1 k x x i ni , n i 1 (1) где n - объем выборки, x i - варианта статистического распределения или середина i ого частичного интервала для непрерывного признака, ni -соответствующая частота. НЕГОСУДАРСТВЕННОЕ ОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ ВЫСШЕГО ПРОФЕССИОНАЛЬНОГО ОБРАЗОВАНИЯ СИБИРСКАЯ АКАДЕМИЯ ФИНАНСОВ И БАНКОВСКОГО ДЕЛА http://safbd.ru ОПРЕДЕЛЕНИЕ. Выборочной дисперсией DB называется величина, определяемая соотношением: DB 2 1 x x ni , i n (2) где n - объем выборки, x i - варианта статистического распределения или середина i ого частичного интервала для непрерывного признака, ni -соответствующая частота, x - выборочная средняя. Из определения выборочной дисперсии следует более простая и удобная формула, которую целесообразно применять в практических задачах: . DB x2 x 2 (3) ОПРЕДЕЛЕНИЕ. Выборочным средним квадратическим отклонением называется корень квадратный из выборочной дисперсии: DB . (4) Статистическими методами установлено, что x является оценкой несмещенной и эффективной, а DB - оценка смещенная. С целью устранения этого недостатка вводят в рассмотрение исправленную выборочную дисперсию S 2 , которая является уже оценкой несмещенной и эффективной: 2 n 1 k S DB xi x ni . n 1 n 1 i 1 2 (5) Из соотношения (3) следует более удобная формула для вычисления S 2 : 2 1 k 2 S xi ni n x n 1 i 1 2 (6) ОПРЕДЕЛЕНИЕ. Исправленным выборочным средним квадратическим отклонением S или выборочным стандартом называется корень квадратный из исправленной выборочной дисперсии: S S2 . (7) Если объем выборки велик, значения вариант достаточно большие или очень малые числа, то вычисления по выше приведенным формулам весьма трудоемко. В этих случаях используют так называемый метод рабочего нуля или условной варианты. Этот метод НЕГОСУДАРСТВЕННОЕ ОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ ВЫСШЕГО ПРОФЕССИОНАЛЬНОГО ОБРАЗОВАНИЯ СИБИРСКАЯ АКАДЕМИЯ ФИНАНСОВ И БАНКОВСКОГО ДЕЛА http://safbd.ru применяется только тогда, когда возможные значения признака (варианты) равноотстоят друг от друга с шагом h. Вводят условные варианты: ui xi A , h (8) где u i - условные варианты, A - рабочий нуль, равный значению варианты с наибольшей частотой или варианты, близкой к середине распределения. Формулы для вычисления выборочной средней и исправленной выборочной дисперсии с использованием условных вариант имеют вид: h k x A ui ni n i 1 (9) 2 h 2 k 2 1 k S ui n i ui ni n n 1 i 1 i 1 2 (10) Замечание. Для проверки правильности определения статистических оценок выборочной средней x и выборочной дисперсии DB или S 2 принято производить вычисления двумя способами: по определению (формулы (1), (3) или (6)) и с использованием метода рабочего нуля или условной варианты (формулы (9) и (10)). Результаты вычислений по обоим методам должны совпадать, так как формулы (9) и (10) получаются путем преобразования формул (1) и (6). После определения исправленной выборочной дисперсии S 2 вычисляется исправленное выборочное среднее квадратическое отклонение S по формуле (7). В случае, когда варианты – большие числа, но не являются равноотстоящими вариантами, переходят к условным вариантам ui xi A , где А – среднее или близкое к среднему значение варианты. Формулы для определения статистических оценок примут вид: 1 k x x i ni ; n i 1 1 k 2 1 k DВ ui ni ui ni n i 1 n i 1 2 . ПРИМЕР. Найти выборочную дисперсию по данному распределению выборки: НЕГОСУДАРСТВЕННОЕ ОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ ВЫСШЕГО ПРОФЕССИОНАЛЬНОГО ОБРАЗОВАНИЯ СИБИРСКАЯ АКАДЕМИЯ ФИНАНСОВ И БАНКОВСКОГО ДЕЛА http://safbd.ru хi 340 360 375 380 ni 20 50 18 12 РЕШЕНИЕ. Варианты – большие числа, поэтому целесообразно перейти к условным вариантам ui xi 360 . В итоге получим распределение условных вариант: ui -20 0 15 20 ni 20 50 18 12 Объем выборки n =100. Воспользуемся формулой: 2 1 k 2 1 1 k 202 20 0 2 50 15 2 18 20 2 12 D В u i ni u i ni n i 1 100 n i 1 2 2 1 20 20 0 50 15 18 20 12 1 16850 1 110 167,29 100 100 100 ОТВЕТ. 167,29. 3.2.2. Интервальные оценки В некоторых случаях представляет интерес не получение точечной оценки неизвестного параметра генеральной совокупности, а определение некоторого интервала, в котором может находиться этот параметр с заданной вероятностью. Интервальное оценивание более эффективно при малом числе наблюдений, когда точечная оценка мало надежна. ОПРЕДЕЛЕНИЕ. Интервальной называется оценка, которая определяется двумя числами – концами интервала, покрывающего оцениваемый параметр. Доверительный интервал как бы «накрывает» содержащийся в нем неизвестный параметр и гарантирует, с какой вероятностью оцениваемый параметр будет находиться внутри этого интервала. Вероятность, с которой гарантируется попадание параметра генеральной совокупности внутрь доверительного интервала, называется доверительной вероятностью или надежностью оценки . Чаще в качестве доверительных вероятностей используются следующие уровни вероятности: = 0,95; = 0,99 или НЕГОСУДАРСТВЕННОЕ ОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ ВЫСШЕГО ПРОФЕССИОНАЛЬНОГО ОБРАЗОВАНИЯ СИБИРСКАЯ АКАДЕМИЯ ФИНАНСОВ И БАНКОВСКОГО ДЕЛА http://safbd.ru = 0,999. Это означает, что параметр генеральной совокупности попадет в указанный интервал в первом варианте в 95 случаях из 100, во втором – в 99 случаях из 100 и в третьем случае – в 999 случаях из1000. В некоторых случаях указывается не доверительная вероятность, а вероятность противоположных случаев, когда параметр не попадает в указанный интервал. Вероятность таких маловозможных случаев называется уровнем значимости и определяется из соотношения 1 . Интервальной оценкой (с надежностью ) математического ожидания a нормально распределенного количественного признака X по выборочной средней x при известном среднем квадратическом отклонении генеральной совокупности служит доверительный интервал: x где t n t n a x t n , (11) - точность оценки, n - объем выборки, t - значение функции Лапласа (t ) (см. Приложение 2), при котором (t ) / 2 . Интервальной оценкой (с надежностью ) математического ожидания a нормально распределенного количественного признака X по выборочной средней x при неизвестном среднем квадратическом отклонении генеральной совокупности служит доверительный интервал: x t S n a x t S n , (12) где S - исправленное выборочное среднее квадратическое отклонение, n - объем выборки, t находят из Приложения 3 по заданным значениям n и . ПРИМЕР. Для статистического распределения предыдущего примера Дискретное статистическое распределение: xi 17 19 21 23 25 27 ni 5 8 12 10 7 3 НЕГОСУДАРСТВЕННОЕ ОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ ВЫСШЕГО ПРОФЕССИОНАЛЬНОГО ОБРАЗОВАНИЯ СИБИРСКАЯ АКАДЕМИЯ ФИНАНСОВ И БАНКОВСКОГО ДЕЛА http://safbd.ru 1) вычислить двумя способами выборочное среднее x и исправленную выборочную дисперсию S2; исправленное выборочное среднее квадратическое отклонение S; 2) найти доверительный интервал с надежностью =0,95 для оценки математического ожидания a нормального распределения генеральной совокупности. РЕШЕНИЕ. Вычисление выборочной средней и исправленной выборочной дисперсии проведем двумя способами. Для удобства составим расчетную таблицу по данным, полученным в предыдущем примере: xi ni x i ni xi2 ni ui u i ni u i2 ni 17 5 85 1445 -2 -10 20 19 8 152 2888 -1 -8 8 21 12 252 5292 0 0 0 23 10 230 5290 1 10 10 25 7 175 4375 2 14 28 27 3 81 2187 3 9 27 975 21477 15 93 В данном примере в качестве рабочего нуля принята варианта A 21 , имеющая наибольшую частоту, равную 12. Условные варианты u i найдены по формуле (8) при значении шага h =2. В последней строке таблицы найдены суммы по соответствующему столбцу, которые используются в формулах вычисления оценок. 1) Вычисляем выборочное среднее и исправленную выборочную дисперсию по определению, используя формулы (1) и (6) при n =45: 1 6 1 x xi ni 975 21, (6) ; n i 1 45 2 1 6 2 1 S 21477 45 (21, (6)) 2 xi ni n x n 1 i 1 45 1 2 1 1 (21477 21124, (9)) 352,0 8,0. 44 44 НЕГОСУДАРСТВЕННОЕ ОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ ВЫСШЕГО ПРОФЕССИОНАЛЬНОГО ОБРАЗОВАНИЯ СИБИРСКАЯ АКАДЕМИЯ ФИНАНСОВ И БАНКОВСКОГО ДЕЛА http://safbd.ru Вычисляем выборочное среднее и исправленную выборочную дисперсию по методу рабочего нуля или условной варианты, используя формулы (9) и (10) при n =45: x A h 6 2 ui ni 21 15 21 0, (6) 21, (6); n i 1 45 2 h 2 6 2 1 6 22 1 S ui ni ui n i (15) 2 93 n 1 i 1 n i 1 45 45 1 2 4 93 5 8,0. 44 Сравнивая результаты определения выборочной средней x и исправленной выборочной дисперсии S 2 по обоим методам, убеждаемся в правильности проведенных вычислений и получаем: x 21, (6) ; S 2 8,0 . Далее, используя формулу (7), находим исправленное выборочное среднее квадратическое отклонение или выборочный стандарт: S S 2 8 2,83 . 2) По условию среднее квадратическое отклонение генеральной совокупности не известно, а известно найденное в пункте 1) выборочное среднее квадратическое отклонение S 2,83 . Поэтому для нахождения доверительного интервала пользуемся двойным неравенством (12): x t S n a x t S n Из таблицы Приложения 3 при значениях надежности 0,95 и объему выборки n 45 находим t 2,016 . Подставляем значения n , t , x , S в неравенство (12) и вычисляем доверительный интервал: 21, (6) 2,016 2,83 21, (6) 45 a 21, (6) 2,016 2,83 45 5,70528 5,70528 a 21, (6) ; 6,7082 6,7082 21, (6) 0,85 a 21, (6) 0,85; 20,81(6) a 22,51(6). ; НЕГОСУДАРСТВЕННОЕ ОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ ВЫСШЕГО ПРОФЕССИОНАЛЬНОГО ОБРАЗОВАНИЯ СИБИРСКАЯ АКАДЕМИЯ ФИНАНСОВ И БАНКОВСКОГО ДЕЛА http://safbd.ru Округляя по правилам математики периодическую дробь, получим приближенно: 20,82 a 22,52. Таким образом, получаем, что математическое ожидание генеральной совокупности с доверительной вероятностью 0,95 принадлежит интервалу a 20,82 ; 22,51 . ОТВЕТ. 1) x 21, (6) ; S 2 8,0 ; S 2,83. 2) a 20,82 ; 22,51 ВОПРОСЫ ДЛЯ САМОКОНТРОЛЯ 1. Основные задачи математической статистики. Генеральная и выборочная совокупности. Виды выборки и методы отбора. 2. Статистическое распределение выборки. 3. Эмпирическая функция распределения. Полигон. Гистограмма. 4. Понятие статистической оценки. Точечная оценка числовых характеристик и требования к ней. Точечная оценка математического ожидания. Методы ее вычисления. 5. Точечная оценка дисперсии случайной величины. Исправленная оценка. Методы ее вычисления. 6. Интервальное оценивание параметров распределения. Доверительный интервал. Доверительная вероятность. 7. Доверительный интервал для оценки математического ожидания нормально распределенной величины при известно и неизвестной дисперсии. 8. Понятие статистической гипотезы. Уровень значимости. Критическая область и область принятия гипотезы. Алгоритм проверки статистической гипотезы. 9. Задача о проверке гипотезы о виде теоретического распределения. Критерии согласия статистического и теоретического распределений. Критерий Пирсона. ЗАДАНИЯ ДЛЯ САМОКОНТРОЛЯ 1. Записать статистическое распределение выборки для дискретной случайной величины по данным: 5; 3; 7; 10; 5; 5; 2; 10; 7; 2; 7; 7. хi 2 3 5 7 10 НЕГОСУДАРСТВЕННОЕ ОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ ВЫСШЕГО ПРОФЕССИОНАЛЬНОГО ОБРАЗОВАНИЯ СИБИРСКАЯ АКАДЕМИЯ ФИНАНСОВ И БАНКОВСКОГО ДЕЛА http://safbd.ru Ответ: ni 2 1 3 4 2 2. Выборка задана в виде распределения частот: хi 4 7 8 12 ni 5 2 3 10 Найти распределение относительных частот. Ответ: хi 4 7 8 12 wi 0,25 0,1 0,15 0,5 3. Найти эмпирическую функцию распределения по данному распределению выборки: хi 2 5 7 8 ni 1 3 2 4 0 0.1 F * ( x) 0.4 0.6 1 Ответ: при x2 при 2 x 5 при 5 x 7 . при 7 x 8 при x8 4. Из генеральной совокупности извлечена выборка: хi 2 5 7 10 ni 16 12 8 14 Найти несмещенную оценку генеральной средней. Ответ: x =5,76. 5. Найти выборочную среднюю по данному распределению выборки: хi 2560 2600 2620 2650 2700 ni 2 3 10 4 1 НЕГОСУДАРСТВЕННОЕ ОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ ВЫСШЕГО ПРОФЕССИОНАЛЬНОГО ОБРАЗОВАНИЯ СИБИРСКАЯ АКАДЕМИЯ ФИНАНСОВ И БАНКОВСКОГО ДЕЛА http://safbd.ru Указание: Варианты – большие числа, поэтому целесообразно перейти к условным вариантам ui xi 2620 . Ответ: x =2621. 6. По выборке объема n = 65 найдена смещенная оценка DB = 8 генеральной дисперсии. Найти несмещенную оценку генеральной совокупности. Ответ: S 2 =8,125. 7. В итоге четырех измерений некоторой физической величины одним прибором (без систематических ошибок) получены следующие результаты: 8; 9;11;12. Найти: выборочную среднюю результатов измерений; выборочную дисперсию ошибок прибора. Ответ: x =10, DB =2,5. 8. Найти выборочную дисперсию по данному распределению выборки: хi 0,1 0,5 0,6 0,8 ni 5 15 20 10 Указание: Для того чтобы избежать действий с дробями, целесообразно перейти к условным вариантам ui 10 xi . Ответ: DB ( Х ) DВ (u) / 10 2 0,0344 . 9. Для данной простой статистической совокупности: 7; 6; 8; 2; 3; 1; 1; 4 известна выборочная дисперсия: DB = 6,5. Найти выборочное среднее, исправленную выборочную дисперсию и выборочный стандарт. Ответ: x = 4, S2 = 7,43, S = 2,725; 10. По выборке объема n = 10 нормально распределенной случайной величины Х найдены x = 22 и S = 3,5. Найти доверительный интервал для оценки математического ожидания случайной величины с доверительной вероятностью 0,95 . Ответ: (19,50; 24,50). Указание: Воспользоваться таблицей Приложения 3. НЕГОСУДАРСТВЕННОЕ ОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ ВЫСШЕГО ПРОФЕССИОНАЛЬНОГО ОБРАЗОВАНИЯ СИБИРСКАЯ АКАДЕМИЯ ФИНАНСОВ И БАНКОВСКОГО ДЕЛА http://safbd.ru ПРИЛОЖЕНИЕ 2 x Таблица значений интегральной функции Лапласа 2 z 1 ( x) e 2 dz 2 0 x Φ(x) x Φ(x) x Φ(x) x Φ(x) 0,00 0,0000 0,29 0,1141 0,58 0,2190 0,87 0,3078 0,01 0,0040 0,30 0,1179 0,59 0,2224 0,88 0,3106 0,02 0,0080 0,31 0,1217 0,3133 0,0120 0,32 0,1255 0,2257 0,2291 0,89 0,03 0,60 0,61 0,04 0,0160 0,33 0,1293 0,62 0,2324 0,90 0,91 0,3159 0,3186 0,05 0,0199 0,34 0,1331 0,63 0,2357 0,92 0,3212 0,06 0,0239 0,35 0,1368 0,64 0,2389 0,93 0,3238 0,07 0,0279 0,36 0,1406 0,65 0,2422 0,94 0,3264 0,08 0,0319 0,37 0,1443 0,66 0,2454 0,95 0,3289 0,09 0,0359 0,38 0,1480 0,67 0,2486 0,96 0,3315 0,10 0,0398 0,39 0,1517 0,68 0,2517 0,97 0,3340 0,11 0,0438 0,40 0,1554 0,69 0,2549 0,98 0,3365 0,12 0,0478 0,41 0,1591 0,70 0,2580 0,99 0,3389 0,13 0,0517 0,42 0,1628 0,71 0,2611 1,00 0,3413 0,14 0,0557 0,43 0,1664 0,72 0,2642 1,01 0,3438 0,15 0,0596 0,44 0,1700 0,73 0,2673 1,02 0,3461 0,16 0,0636 0,45 0,1736 0,74 0,2703 1,03 0,3485 0,17 0,0675 0,46 0,1772 0,75 0,2734 1,04 0,3508 0,18 0,0714 0,47 0,1808 0,76 0,2764 1,05 0,3531 0,19 0,0753 0,48 0,1844 0,77 0,2794 1,06 0,3554 0,20 0,0793 0,49 0,1879 0,78 0,2823 1,07 0,3577 0,21 0,0832 0,50 0,1915 0,79 0,2852 1,08 0,3599 0,22 0,0871 0,51 0,1950 0,80 0,2881 1,09 0,3621 0,23 0,0910 0,52 0,1985 0,81 0,2910 1,10 0,3643 0,24 0,0948 0,53 0,2019 0,82 0,2939 1,11 0,3665 0,25 0,0987 0,54 0,2054 0,83 0,2967 1,12 0,3686 0,26 0,1026 0,55 0,2088 0,84 0,2995 1,13 0,3708 0,27 0,1064 0,56 0,2123 0,85 0,3023 1,14 0,3729 0,28 0,1103 0,57 0,2157 0,86 0,3051 1,15 0,3749 НЕГОСУДАРСТВЕННОЕ ОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ ВЫСШЕГО ПРОФЕССИОНАЛЬНОГО ОБРАЗОВАНИЯ СИБИРСКАЯ АКАДЕМИЯ ФИНАНСОВ И БАНКОВСКОГО ДЕЛА http://safbd.ru Продолжение ПРИЛОЖЕНИЯ 2 Φ(x) x Φ(x) x Φ(x) x Φ(x) x 1,16 0,3770 1,48 0,4306 1,80 0,4641 2,24 0,4875 1,17 0,3790 1,49 0,4319 1,81 0,4649 2,26 0,4881 1,18 0,3810 1,50 0,4332 1,82 0,4656 2,28 0,4887 1,19 0,3830 1,51 0,4345 1,83 0,4664 2,30 0,4893 1,20 0,3849 1,52 0,4357 1,84 0,4671 2,32 0,4898 1,21 0,3869 1,53 0,4370 1,85 0,4678 2,34 0,4904 1,22 0,3883 1,54 0,4382 1,86 2,36 0,4909 1,23 0,3907 1,55 0,4394 1,87 0,4693 2,38 0,4913 1,24 0,3925 1,56 0,4406 1,88 0,4699 2,40 0,4918 1,25 0,3944 1,57 0,4418 1,89 0,4706 2,42 0,4922 1,26 0,3962 1,58 0,4429 1,90 0,4713 2,44 0,4927 1,27 0,3980 1,59 0,4441 1,91 0,4719 2,46 0,4931 1,28 0,3997 1,60 0,4452 1,92 0,4726 2,48 0,4934 1,29 0,4015 1,61 0,4463 1,93 0,4732 2,50 0,4938 1,30 0,4032 1,62 0,4474 1,94 0,4738 2,52 0,4941 1,31 0,4049 1,63 0,4484 1,95 0,4744 2,54 0,4945 1,32 0,4066 1,64 0,4495 1,96 0,4750 2,56 0,4948 1,33 0,4082 1,65 0,4505 1,97 0,4756 2,58 0,4951 1,34 0,4099 1,66 0,4515 1,98 0,4761 2,60 0,4953 1,35 0,4115 1,67 0,4525 1,99 0,4767 2,62 0,4956 1,36 0,4131 1,68 0,4535 2,00 0,4772 2,64 0,4959 1,37 0,4147 1,69 0,4545 2,02 0,4783 2,66 0,4961 1,38 0,4162 1,70 0,4554 2,04 0,4793 2,68 0,4963 1,39 0,4177 1,71 0,4564 2,06 0,4803 2,70 0,4965 1,40 0,4192 1,72 0,4573 2,08 0,4812 2,72 0,4967 1,41 0,4207 1,73 0,4582 2,10 0,4821 2,74 0,4969 1,42 0,4222 1,74 0,4591 2,12 0,4830 2,76 0,4971 1,43 0,4236 1,75 0,4599 2,14 0,4838 2,78 0,4973 1,44 0,4251 1,76 0,4608 2,16 0,4846 2,80 0,4974 1,45 0,4265 1,77 0,4616 2,18 0,4854 2,82 0,4976 1,46 0,4279 1,78 0,4625 2,20 0,4861 2,84 0,4977 1,47 0,4292 1,79 0,4633 2,22 0,4868 2,86 0,4979 0,4686 НЕГОСУДАРСТВЕННОЕ ОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ ВЫСШЕГО ПРОФЕССИОНАЛЬНОГО ОБРАЗОВАНИЯ СИБИРСКАЯ АКАДЕМИЯ ФИНАНСОВ И БАНКОВСКОГО ДЕЛА http://safbd.ru Продолжение ПРИЛОЖЕНИЯ 2 x Φ(x) x Φ(x) x Φ(x) x Φ(x) 2,88 0,4980 2,96 0,4985 3,40 0,49966 4,50 0,499997 2,90 0,4981 2,98 0,4986 3,60 0,499841 5,00 0,499997 2,92 0,4982 3,00 0,49865 3,80 0,499928 2,94 0,4984 3,20 0,49931 4,00 0,499968 Замечания: 1) Φ(х) ≈ 0,5 при х > 5; 2) Φ(х) нечётная функция: Φ(-х) = - Φ(х). НЕГОСУДАРСТВЕННОЕ ОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ ВЫСШЕГО ПРОФЕССИОНАЛЬНОГО ОБРАЗОВАНИЯ СИБИРСКАЯ АКАДЕМИЯ ФИНАНСОВ И БАНКОВСКОГО ДЕЛА http://safbd.ru ПРИЛОЖЕНИЕ 3 n 5 6 8 9 10 12 13 14 15 16 18 19 20 22 23 24 25 30 36 40 50 60 70 80 90 100 120 150 180 200 225 ∞ Таблица значений tγ = t(γ, n) γ = 0,9 γ = 0,95 2,132 2,776 2,015 2,571 1,895 2,365 1,860 2,306 1,833 2,262 1,796 2,201 1,782 2,179 1,771 2,160 1,761 2,145 1,753 2,131 1,740 2,110 1,734 2,101 1,729 2,093 1,721 2,080 1,717 2,074 1,714 2,069 1,711 2,064 1,699 2,045 1,690 2,030 1,685 2,023 1,677 2,010 1,671 2,001 1,667 1,995 1,664 1,990 1,662 1,987 1,660 1,984 1,658 1,980 1,655 1,976 1, 1,973 1,653 1,972 1,652 1,971 1,600 1,960 γ = 0,99 4,604 4,032 3,499 3,355 3,250 3,106 3,055 3,012 2,977 2,947 2,898 2,878 2,861 2,831 2,819 2,807 2,797 2,756 2,724 2,708 2,680 2,662 2,649 2,640 2,632 2,626 2,618 2,609 2,604 2,601 2,598 2,576