Министерство образования и науки Российской Федерации Федеральное государственное бюджетное образовательное учреждение высшего профессионального образования «Сибирский государственный индустриальный университет» Кафедра высшей математики Выборки и их характеристики Методические указания для практических занятий Новокузнецк 2014 УДК 519.2(07) В 920 Рецензент доктор физико-математических наук, доцент кафедры физики имени профессора В.М. Финкеля СибГИУ Коваленко В.В. В 920 Выборки и их характеристики : метод. указ. / Сиб. гос. индустр. ун-т ; сост. М.С. Волошина. – Новокузнецк : Изд. центр СибГИУ, 2014. – 17 с. Изложена краткая теория, рассмотрены примеры решения задач по математической статистике, приведены задания для самостоятельного решения с ответами. Предназначены для студентов всех специальностей и направлений подготовки. Печатается по решению Совета Института фундаментального образования 2 Теоретические сведения 1. Генеральная и выборочная совокупности Совокупность всех подлежащих изучению объектов или возможных результатов всех мыслимых наблюдений, производимых в неизменных условиях над одним объектом, называется генеральной совокупностью. Генеральная совокупность – это СВ X ( ) , заданная на пространстве элементарных событий с выделенным в нем классом S подмножеств событий, для которых указаны их вероятности. Выборочной совокупностью (выборкой) называется совокупность объектов, отобранных случайным образом из генеральной совокупности. Выборка – это последовательность X1, X 2 ,..., X n независимых одинаково распределенных СВ, распределение каждой из которых совпадает с распределением генеральной случайной величины. Число объектов (наблюдений) в совокупности, генеральной или выборочной, называется ее объемом; обозначается соответственно через N и n . Конкретные значения выборки, полученные в результате наблюдений (испытаний), называют реализацией выборки и обозначают строчными буквами x1, x2 ,..., xn . Для получения хороших оценок характеристик генеральной совокупности необходимо, чтобы выборка была репрезентативной, т.е. достаточно полно представлять изучаемые признаки генеральной совокупности. 2. Статистическое распределение выборки. Эмпирическая функция распределения Пусть изучается некоторая СВ X . С этой целью над СВ X производится ряд независимых опытов (наблюдений). В каждом из этих опытов величина X принимает то или иное значение. 3 Пусть она приняла n1 раз значение x1 , n2 раз – значение x2 , …, nk раз – значение xk …. При этом n1 n2 ... nk n – объем выборки. Значения x1, x2 ,..., xk называются вариантами СВ X . Операция расположения значений случайной величины (признака) по неубыванию называется ранжированием статистических данных. Полученная таким образом последовательность x(1) , x(2) ,..., x( n) значений СВ X (где x(1) x(2) ... x( n) и x(1) min X i ,..., x( n) max X i ) называется вариационным рядом. 1i n 1i n Числа ni , показывающие, сколько раз встречаются варианты xi в ряде наблюдений, называются частотами, а отношение их к объему выборки – относительными частотами pi , т.е. n (1) pi i , n k где n ni . i 1 Перечень вариант и соответствующих им частот или относительных частот называется статистическим распределением выборки или статистическим рядом. Записывается статистическое распределение в виде таблицы. Первая строка содержит варианты, а вторая – их частоты ni (или от- носительные частоты pi ). В случае, когда число значений признака (СВ X ) велико, или признак является непрерывным, составляют интервальный статистический ряд. В первую строку таблицы статистического распределения вписывают частичные промежутки [ x0 , x1 ), [ x1, x2 ),...,[ xk 1, xk ) , которые обычно берут одинаковыми по длине: h x1 x0 x2 x1 ... . Для определения величины интервала h можно использовать формулу Стерджеса: x xmin h max , 1 log 2 n где xmax xmin – разность между наибольшим и наименьшим значениями признака, m 1 log 2 n – число интервалов ( log 2 n 3,322lg n ). 4 За начало интервала рекомендуется брать величину h xнач xmin . Во второй строке статистического ряда вписывают 2 количество наблюдений ni (i 1, k ) , попавших в каждый интервал. Одним из способов обработки вариационного ряда является построение эмпирической функции распределения. Эмпирической (статистической) функцией распределения называется функция Fn ( x) , определяющая для каждого значения x относительную частоту события { X x} : Fn ( x) p{ X x} . (2) Для нахождения значений эмпирической функции удобно Fn ( x) записать в виде n Fn ( x) x , n где n – объем выборки, nx – число наблюдений, меньших x ( x R) . 3. Графическое изображение статистического распределения Статистическое распределение изображается графически в виде полигона и гистограммы. Полигоном частот называется ломаная, отрезки которой соединяют точки с координатами ( x1, n1 ),( x2 , n2 ),...,( xk , nk ) ; полигоном относительных частот – с координатами ( x1, p1 ),( x2 , p2 ),...,( xk , pk ) . Варианты xi откладываются на оси абсцисс, а частоты и, соответственно, относительные частоты – на оси ординат. Для непрерывно распределенного признака можно построить полигон частот, взяв середины интервалов в качестве значений x1, x2 ,..., xk . Более употребительна так называемая гистограмма. Гистограммой частот (относительных частот) называется ступенчатая фигура, состоящая из прямоугольников, основаниями которых служат частичные интервалы длины h , а высоты равны отpi ni n ношению – плотности частоты ( или i – плотности относиh nh h тельных частот). Очевидно, что площадь гистограммы частот равна объему выборки, а площадь гистограммы относительных частот равна единице. 5 4. Числовые характеристики статистического распределения Пусть статистическое распределение выборки объема n имеет вид: xi x1 x2 x3 … xk ni n1 n2 n3 … nk Выборочной средней xB называется среднее арифметическое всех значений выборки: 1 k (3) xB xi ni . n i 1 Выборочную среднюю можно записать в виде: k xB xi pi , (4) i 1 ni – относительная частота. h В случае интервального статистического ряда в равенстве (3) в качестве xi берут середины его интервалов, а ni – соответствующие им частоты. Выборочной дисперсией DВ называется среднее арифметическое квадратов отклонений значений выборки от выборочной средней xB , т.е. 1 k (5) DВ ( xi xB )2 ni , n i 1 или, что то же самое, 1 k (6) DВ ( xi xB )2 pi . n i 1 Можно показать, что DВ может быть также вычислена по формуле 1 k 2 DВ xi ni ( xB )2 , т.е. n i 1 где pi DВ x 2 ( x )2 . (7) 6 Выборочное среднее квадратическое отклонение выборки определяется формулой (8) В DB . При решении практических задач используется и величина k 1 2 (9) S ( xi xB )2 ni , n 1 i 1 т.е. n (10) S2 DB , n 1 которая называется исправленной выборочной дисперсией. Величина S S2 (11) называется исправленным выборочным средним квадратическим отклонением. Для непрерывно распределенного признака формулы для выборочных средних будут такими же, но за значения x1, x2 ,..., xk надо брать не концы промежутков [ x0 , x1), [ x1, x2 ),... , а их середины x0 x1 x1 x2 , ,... . 2 2 В качестве описательных характеристик вариационного ряда x(1) , x(2) ,..., x( n) используются медиана, мода, размах вариации (выборки) и т.д. Размахом вариации называется число R x( n) x(1) , где x(1) min xk , x( n) max xk или R xmax xmin , где xmax – наиболь1 k n 1k n шая, xmin – наименьшая варианта выборки. Модой M 0 вариационного ряда называется варианта, имеющая наибольшую частоту. Медианой M e вариационного ряда называется значение признака (СВ X ), приходящееся на середину ряда. Если n 2k (т.е. ряд имеет четное число членов), то x( k ) x( k 1) Me ; если n 2k 1 (число членов ряда нечетно), то 2 M e x( k 1) . 7 Примеры решения задач на практическом занятии Пример 1. В результате тестирования группа абитуриентов набрала баллы: 5, 3, 0, 1, 4, 2, 5, 4, 1, 5. Записать полученную выборку в виде: а) вариационного ряда; б) статистического ряда. Решение. а) Проранжировав статистические данные (т.е. исходный ряд), получим вариационный ряд: 0, 1, 1, 2, 3, 4, 4, 5, 5, 5. б) Подсчитав частоту и относительную частоту вариант x1 0, x2 1, x3 2, x4 3, x5 4, x6 5 , получим статистическое распределение выборки (дискретный статистический ряд): xi 0 1 2 3 4 5 ni 1 2 1 1 2 3 6 n 10 i i 1 или xi pi* 0 1 2 3 4 5 1 2 1 1 2 3 10 10 10 10 10 10 6 * pi 1 . i 1 Пример 2. Измерили рост (с точностью до см) 30-ти наудачу отобранных студентов. Результаты измерений таковы: 178, 160, 154, 183, 155, 153, 167, 186, 163, 155, 157, 175, 170, 166, 159, 173, 182, 167, 171, 169, 179, 165, 156, 179, 158, 171, 175, 173, 164, 172. Построить интервальный статистический ряд. Решение. Для удобства проранжируем полученные данные: 153, 154, 155, 155, 156, 157, 158, 159, 160, 163, 164, 165, 166, 167, 167, 169, 170, 171, 171, 172, 173, 173, 175, 175, 178, 179, 179, 182, 183, 186. Отметим, что X – рост студента – непрерывная случайная величина. При более точном измерении роста значения случайной величины X обычно не повторяются. Как видим, xmin 153, xmax 186 ; по формуле Стерджеса, при n 30 , находим длину частичного интервала: 8 186 153 33 33 5,59 . 1 log 2 30 1 3,322lg30 5,907 6 Примем h 6 . Тогда xнач 153 150 . Исходные данные раз2 биваем на 6 интервалов: [150,156), [156, 162), [162, 168), [168, 174), [174, 180), [180, 186). Подсчитав число студентов ( ni ), попавших в каждый из полученных промежутков, получим интервальный статистический ряд: h [150,156) [156, 162) [162, 168) [168, 174) [174, 180) [180, 186) Рост 4 5 6 7 5 3 Частота Относительная 0,13 0,17 0,20 0,23 0,17 0,10 частота Пример 3. Построить функцию Fn* ( x) , используя условие и результаты примера 1. Решение. Здесь n 10 . Имеем: 0 * F10 ( x) 0 при x 0 (наблюдений меньше 0 нет); 10 1 * при 0 x 1 (здесь nx 1) и т.д. F10 ( x) 10 Окончательно получаем: при x 0, 0, 0,1, при 0 x 1, 0,3, при 1 x 2, * F10 ( x) 0, 4, при 2 x 3, 0,5, при 3 x 4, 0,7, при 4 x 5, 1, при 5 x. График эмпирической функции распределения приведен на рисунке 1. 9 F10* ( x) 0, 7 0,5 0,3 0 1 2 3 4 x 5 Рисунок 1 – График эмпирической функции распределения Пример 4. Для примера 1 полигон относительных частот имеет вид, изображенный на рисунке 2. 1 pi* 0,5 0,3 0, 2 0,1 0 1 2 3 4 5 x Рисунок 2 – Полигон относительных частот Заметим, что p1* p2* ... p6* 1. Пример 5. Используя условие и результаты примера 2, построить гистограмму относительных частот. Решение. В данном случае длина интервала равна h 6 . Находим высоты hi прямоугольников: 0,13 h1 0,022 , 6 10 0,17 0,028 , 6 0,20 h3 0,033 , 6 0,23 h4 0,038 , 6 0,17 h5 0,028 , 6 0,10 h6 0,017 . 6 Гистограмма относительных частот изображена на рисунке 3. h2 pi* h f ( x) 0, 038 0, 033 0, 028 0, 022 0, 017 0 150 156 162 168 174 180 186 x Рисунок 3 – Гистограмма относительных частот Гистограмма частот является статистическим аналогом дифференциала функции распределения (плотности) f ( x) случайной величины X . Сумма площадей прямоугольников равна единице, что соответствует условию f ( x)dx 1 для плотности вероятностей. Если соединить середины верхних оснований прямоугольников отрезками прямой, то получим полигон того же распределения. Пример 6. По условию примера 1 найти характеристики выборки – результатов тестирования 10-ти абитуриентов. Решение. Используя формулы (4)-(11) и определения, находим: 11 1 (0 1 1 2 ... 5 3) 3 , 10 1 DB (0 3)2 1 (1 3) 2 2 ... (5 3)2 3 3,2 , 10 B 3,2 1,79 , 10 S 2 3,2 3,56 , 9 S 3,56 1,87 , R 5 0 5, M o* 5 , 3 4 M e* 3,5 . 2 xB Задания для самостоятельного решения 1. Найти и построить эмпирическую функцию распределения для выборки, представленной статистическим рядом: xi 1 3 6 ni 10 8 12 2. На телефонной станции производились наблюдения за числом неправильных соединений в минуту. Результаты наблюдений в течение часа представлены в виде статистического распределения: xi 0 1 2 3 4 5 6 ni 8 17 16 10 6 2 1 Найти выборочные среднюю и дисперсию. Сравнить распределение e a a m относительных частот с распределением Пуассона pn, m . m ! 3. Изучается СВ X – число выпавших очков при бросании игральной кости. Кость подбросили 60 раз. Получены следующие результаты: 12 3, 2, 5, 6, 6, 1, 4, 6, 4, 6, 3, 6, 4, 2, 1, 5, 3, 1, 6, 4, 5, 4, 2, 2, 4, 2, 6, 3, 1, 5, 6, 1, 6, 6, 4, 2, 5, 4, 3, 6, 4, 1, 5, 6, 3, 2, 4, 4, 5, 2, 5, 6, 2, 3, 5, 4, 1, 2, 5, 3. 1) Что в данном опыте-наблюдении представляет генеральную совокупность? 2) Перечислите элементы этой совокупности. 3) Что представляет собой выборка? 4) Приведите 1-2 случая реализации выборки. 5) Оформите ее в виде: а) вариационного ряда; б) статистического ряда. 6) Найдите эмпирическую функцию распределения выборки. 7) Постройте интервальный статистический ряд. 8) Постройте полигон частот и гистограмму относительных частот. 9) Найдите: а) выборочную среднюю; б) выборочную дисперсию; в) исправленную выборочную дисперсию и исправленное среднее квадратическое отклонение; г) размах вариации, моду и медиану. Ответы x 1, 0, 1 , 1 x 3, 3 * ( x) 1. F10 3 , 3 x 6, 5 1, x6 2. xB 1,983 2, DB 1,949 1,95 ; СВ X имеет практически Пуассоновское распределение 3. 1) Все возможные значения СВ X – числа очков, выпавших на верхней грани кости при одном подбрасывании ее. 2) Это числа 1, 2, 3, 4, 5, 6. 3) Это результат 60-ти подбрасываний игральной кости, описывается случайными величинами X1, X 2 ,..., X 59 , X 60 . 4) Первая реализация выборки приведена в условии, вторая может быть такой: 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 3, 3, 3, 3, 3, 3, 3, 3, 4, 4, 4, 4, 4, 4, 4, 4, 4, 4, 4, 4, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6. 13 5) а) Вторая реализация и представляет собой вариационный ряд. б) Статистический ряд таков: xi ni pi* 6) 1 7 7 60 2 10 10 60 0, 7 , 60 17 , 60 25 F60* ( x) , 60 37 60 , 47 , 60 1, 3 8 8 60 4 5 12 10 12 10 60 60 6 13 13 60 x 1, 1 x 2, 2 x 3, 3 x 4, 4 x 5, 5 x 6, x 6. 7) Интервальный статистический ряд имеет вид: [ xi 1; xi ) ni [0,5; 1,5) 7 [1,5; 2,5) 10 [2,5; 3,5) 8 [3,5; 4,5) 12 [4,5; 5,5) 10 [5,5; 6,5) 13 8) Полигон частот и гистограмма относительных частот изображены, соответственно, на рисунках 4 и 5. 14 ni pi* h 0, 217 10 0,167 0,117 5 0 1 2 3 4 5 6 x Рисунок 4 – Полигон частот 0 1 2 3 4 5 6 Рисунок 5 – Гистограмма относительных частот 9) а) xB 3,783 ; б) DB 2,839 ; в) S 1,699 ; г) R 5, M O* 6, M e* 4 . 15 x Библиографический список 1. Письменный Д. Т. Конспект лекций по теории вероятностей, математической статистике и случайным процессам: курс лекций / Д. Т. Письменный. – М. : АЙРИС ПРЕСС, 2007. – 298 с. 2. Вентцель Е.С. Задачи и упражнения по теории вероятностей: учебное пособие для студ. втузов / Е. С. Вентцель, Л .А. Овчаров. – 5е изд., испр. – М. : Издательский центр «Академия», 2003. – 448 с. 3. Гмурман В.Е. Теория вероятностей и математическая статистика: курс лекций / В. Е. Гмурман. – М. : Высшая школа, 2003. – 479 с. 4. Гмурман В. Е. Руководство к решению задач по теории вероятностей и математической статистике / В. Е. Гмурман. – М. : Высшая школа, 2004. – 404 с. 16 Учебное издание Составитель Волошина Марина Сергеевна ВЫБОРКИ И ИХ ХАРАКТЕРИСТИКИ Методические указания Напечатано в полном соответствии с авторским оригиналом Подписано в печать 25.03.2014 Формат бумаги 60 84 1/16. Бумага писчая. Печать офсетная. Усл.-печ. 0,99л. Уч.-изд. 1,10 л. Тираж 50 экз. Заказ Сибирский государственный индустриальный университет 654007, г. Новокузнецк, ул. Кирова, 42 Издательский центр СибГИУ 17 18