Теория статистики Выборочное наблюдение и Статистический вывод Часть 1. 1 Тема Статистический вывод по данным выборки 2 Постановка практической задачи • Пусть имеется 7 партий товара для приобретения и последующей реализации на рынке • Требуется оценить среднее число единиц некондиции в партии • Пусть приемлемо проверить только 2 партии товара, по результатам чего нужно сделать статистически обоснованный вывод 3 Исходные данные • Пусть на самом деле в партиях товара: 1) Одна единица некондиции 2) Две единицы некондиции ………… 7) Семь единиц некондиции • Если выбирать для проверки 2 партии из 7, то всего возможных выборок: C n 2 N 7 N! 7! 21 n!( N n )! 2!(7 2)! 4 Все возможные выборки и выборочные средние • Возможные выборки: 1,2 2,3 3,4 4,5 1,3 2,4 3,5 4,6 1,4 2,5 3,6 4,7 1,5 2,6 3,7 1,6 2,7 1,7 5,6 5,7 6,7 5,5 6,0 6,5 • Средние выборочные: 1,5 2,0 2,5 3,0 3,5 4,0 2,5 3,0 3,5 4,0 4,5 3,5 4,0 4,5 5,0 4,5 5,0 5,5 5 Частотное распределение средних выборочных 6 Выводы • Частотная столбиковая диаграмма выборочных средних аппроксимирует функцию плотности нормального распределения: 7 Характеристики признака выборочных средних • Итак, имеется признак выборочных средних: y (1.5, 2.0, 2.5, ..., 6.0, 6.5) • Среднее значение: 1.5 2 2.5 ... 6 6.5 84 y 4 21 21 • Дисперсия: ___ 2 y2 y y 2 371 / 21 42 1.67 y 1.29 y 1.29 CVy 0.3225 y 4 8 Центральная предельная теорема • ЦПТ можно выразить так: распределение вероятностей средней выборочной (случайной величины X n ) при достаточно большом объеме выборки (n) близко к распределению Гауссовой случайной величины с параметрами: xn N , n • Или по другому: Xn случайные величины Zn Zn асимптотически нормальны: n 9 Следствие: односторонний критерий проверки гипотез 10 Следствие: двусторонний критерий проверки гипотез 11 Пример • Процесс упаковки соли считается нормальным, если в пачку помещено 1000 г. Стандартное отклонение при исправном оборудовании составляет 12 г. • Для контроля качества упаковки каждый час взвешиваются 16 пачек соли. Результаты: X 16 1003 г. • Является ли это достаточным основанием для остановки и ремонта оборудования (при уровне значимости 0,05 )? 12 Пример • Истинное среднее: 1000 г Стандартное отклонение: 12 г n 16 Объем выборки: Среднее выборочное: x 1003 г Проверяем гипотезу H0: 1000 г Уровень значимости: 0.05 • Решение: Стандартное отклонение выборочного 12 среднего: x n 16 3 13 Пример _ Знаем, что статистика: x N (0,1) _ x Следовательно можем протестировать гипотезу H0 1003 1000 В примере: 1 3 По таблице нормального закона распределения находим, что Pr Z 1 0,6827 1 0,3173 1 p 14 Вывод: производственный процесс останавливать не требуется • Произошло вполне вероятное событие на уровне значимости 0.05 p 0,3173 0.05 15 Ошибки первого и второго рода • При проверки гипотез возможны ошибки выводов двух видов: 1) Отклонить верную нулевую гипотезу – ошибка 1-го рода ( ) 2) Не отклонить ложную гипотезу – ошибка 2-го рода ( ) • Риск - вероятность, соответствующая возможности неверного вывода • Мощность критерия: (1 ) 16 Типичные гипотезы • Проверка гипотезы о законе распределения • Проверка гипотезы о независимости двух качественных признаков (таблицы сопряженности) • Проверка гипотез о средних величинах • Однофакторный дисперсионный анализ • Проверка гипотез о значимости моделей и их параметров 17 Тема Методы выборочных обследований 18 Терминология • • • • • Генеральная совокупность (population) Основа выборки (sampling frame) План выборки (sampling design) Выборка (sample) Вероятностная выборка (probability sample) • Неслучайная выборка (nonprobability sample) 19 Определения • Генеральная совокупность – это множество элементов, обладающих рядом представляющих интерес характеристик, которое полностью охватывает изучаемое явление • Основа выборки – список относящихся к генеральной совокупности элементов с пообъектной базовой информацией • Свойство опознавамости элементов 20 Определения • Базовая информация: – набор характеристик, известных до проведения обследования для каждого элемента основы выборки – известные значения показателей • Например: - количество заказов клиента компании - объем продаж клиенту компании • Контактная информация по клиентам не является базовой информацией 21 Определения • Перепись (census) - сплошной охват элементов генеральной совокупности с целью сбора сведений • Выборка - любое подмножество элементов генеральной совокупности, отобранных для наблюдения 22 Процесс создания выборки 23 Практические проблемы, связанные с основой выборки • • • • Пропущенные элементы Элементы, выходящие за рамки ГС Дублирующиеся элементы Кластеризованные элементы 24 Неслучайная выборка • Виды неслучайной выборки: Удобная (convenience sample) Целевая/по суждению (judgmental sample) Квотная (quota sample) По принципу «снежного кома»/по рекомендации (snowball sample) 25 Вероятностная выборка • Виды случайной выборки: Простая Систематическая Расслоенная Кластерная Многоэтапная/кластерная 26 Два типа размещения элементов выборки по слоям 27 Иллюстрация многоэтапной выборки 28 Оценивание по дагнным выборки • -оценка Горвица-Томпсона (1952 г.) суммарного значения признака (y): yk ˆ Y kS k • Точность -оценки: y yk yl kl k l ˆ ˆ Var Y 1 k kS 2 k 2 k kS lS l k k l kl 29 Ошибка случайной выборки Дисперсия оценки Стандартная ошибка оценки Объем выборки 95% - ый доверительный интервал : Оценка 1.96 стд.ошибка ; Оценка 1.96 стд.ошибка 30 Простая случайная выборка • Выборка из генеральной совокупности объема (N) при которой любое подмножество элементов объема (n) может быть отобрано с равной вероятностью • План выборки: 1 C n , если объем s n p( s ) N 0, в противном случае 31 Свойства • Равные вероятности извлечения любого элемента: k U n Pr( k s ) k N • Для любой пары единиц генеральной совокупности имеем k , l U (k l ) n(n 1) Pr( k , l s ) kl N ( N 1) 32 Формулы оценивания • Оценка суммарного показателя: yk N ˆ Y yk n ks ks k • Оценка дисперсии оценки суммы: 2 n s ˆ ˆ V Y (1 ) N n 1 2 s ( y y ) k n 1 ks 2 33 Пример • Нужно оценить среднее число незанятых пассажирами мест на N = 4500 авиарейсах по данным выборки n = 225, если y 11.6 • s 4.1 Построим 90%-ый доверительный интервал для оценки среднего n s2 225 4.12 y z0.9 (1 ) 11.6 1.64 (1 ) 11.6 0.44 N n 4500 225 Y (11.16;12.04) 34 SPSS Complex Samples В пакете IBM SPSS имеется модуль Complex Samples – сложные выборки • Возможности: Планировать и отбирать случайные выборки Корректный (с учетом плана отбора) статистический анализ данных выборки Расчет характеристик точности оценок, рассчитанных по выборке • 35 SPSS Complex Samples Можно оценивать: • объем и долю единиц генеральной совокупности • среднее и суммарное значения • отношение показателей • коэффициенты уравнения регрессии • Характеристики точности • Эффект плана 36 Вывод итогов анализа в SPSS • Оценка среднего и суммарного значений Одномерные статистики 95% доверительный интервал (границы) Оценка Среднее Число наемных Нижняя Верхняя Коэффициент Невзвешенная вариации частота 3,81 3,19 4,44 ,083 124 254,81 212,51 297,12 ,084 237 16823 13815 19830 ,090 124 2285246 1896793 2673700 ,086 237 работников Укажите примерный объем ВЫРУЧКИ Сумма Число наемных работников Укажите примерный объем ВЫРУЧКИ 37 Вывод итогов анализа в SPSS • Оценка частот ОСУЩЕСТВЛЯЛИ ли Вы предпринимательскую ДЕЯТЕЛЬНОСТЬ в текущем году? 95% доверительный интервал (границы) Оценка Нижняя Верхняя Коэффициент Невзвешенная вариации частота Объем генеральной Нет 5335,708 4579,376 6092,041 ,072 120 совокупности Да 8968,292 8200,825 9735,759 ,044 237 14304,000 13936,523 14671,477 ,013 357 Всего 38 Вывод итогов анализа в SPSS • Оценка отношения Отношения 1 Числитель Знаменатель 95% доверительный интервал Оценка отношения Оборот розичной торговли Укажите примерный объем (тыс. руб.) ,907 (границы) Нижняя ,859 Коэффициент Верхняя ,955 вариации ,027 ВЫРУЧКИ 39