Основа выборки

реклама
Теория статистики
Выборочное наблюдение и
Статистический вывод
Часть 1.
1
Тема
Статистический вывод по данным
выборки
2
Постановка практической задачи
• Пусть имеется 7 партий товара для
приобретения и последующей
реализации на рынке
• Требуется оценить среднее число
единиц некондиции в партии
• Пусть приемлемо проверить только 2
партии товара, по результатам чего
нужно сделать статистически
обоснованный вывод
3
Исходные данные
• Пусть на самом деле в партиях товара:
1) Одна единица некондиции
2) Две единицы некондиции
…………
7) Семь единиц некондиции
• Если выбирать для проверки 2 партии из
7, то всего возможных выборок:
C
n 2
N 7
N!
7!


 21
n!( N  n )! 2!(7  2)!
4
Все возможные выборки и
выборочные средние
• Возможные выборки:
1,2
2,3
3,4
4,5
1,3
2,4
3,5
4,6
1,4
2,5
3,6
4,7
1,5
2,6
3,7
1,6
2,7
1,7
5,6
5,7
6,7
5,5
6,0
6,5
• Средние выборочные:
1,5
2,0
2,5
3,0
3,5
4,0
2,5
3,0
3,5
4,0
4,5
3,5
4,0
4,5
5,0
4,5
5,0
5,5
5
Частотное распределение средних
выборочных
6
Выводы
• Частотная столбиковая диаграмма
выборочных средних аппроксимирует
функцию плотности нормального
распределения:
7
Характеристики признака
выборочных средних
• Итак, имеется признак выборочных
средних: y  (1.5, 2.0, 2.5, ..., 6.0, 6.5)
• Среднее значение:
1.5  2  2.5  ...  6  6.5 84
y

4
21
21
• Дисперсия:
___
2
 y2  y  y 2  371 / 21  42  1.67
 y 1.29
 y  1.29
CVy 

 0.3225
y
4
8
Центральная предельная теорема
• ЦПТ можно выразить так:
распределение вероятностей средней
выборочной (случайной величины X n ) при
достаточно большом объеме выборки (n)
близко к распределению Гауссовой
случайной величины
 

с параметрами: xn  N  ,


n

• Или по другому:
Xn 
случайные величины Zn
Zn 
  
асимптотически нормальны:


 n
9
Следствие: односторонний критерий
проверки гипотез
10
Следствие: двусторонний критерий
проверки гипотез
11
Пример
• Процесс упаковки соли считается
нормальным, если в пачку помещено
1000 г. Стандартное отклонение при
исправном оборудовании составляет 12 г.
• Для контроля качества упаковки каждый
час взвешиваются 16 пачек соли.
Результаты: X 16  1003 г.
• Является ли это достаточным основанием
для остановки и ремонта оборудования
(при уровне значимости   0,05 )?
12
Пример
• Истинное среднее:
  1000 г
Стандартное отклонение:   12 г
n  16
Объем выборки:
Среднее выборочное:
x  1003 г
Проверяем гипотезу H0:
  1000 г
Уровень значимости:
  0.05
• Решение:
Стандартное отклонение выборочного

12
среднего:
x 
n

16
3
13
Пример
_
Знаем, что статистика:  
x 

 N (0,1)
_
x
Следовательно можем протестировать
гипотезу H0
1003  1000
В примере:  
1
3
По таблице нормального закона
распределения находим, что
Pr  Z  1  0,6827  1  0,3173  1  p
14
Вывод: производственный процесс
останавливать не требуется
• Произошло вполне вероятное событие на
уровне значимости   0.05
p  0,3173    0.05
15
Ошибки первого и второго рода
• При проверки гипотез возможны ошибки
выводов двух видов:
1) Отклонить верную нулевую гипотезу –
ошибка 1-го рода ( )
2) Не отклонить ложную гипотезу –
ошибка 2-го рода (  )
• Риск - вероятность, соответствующая
возможности неверного вывода
• Мощность критерия: (1   )
16
Типичные гипотезы
• Проверка гипотезы о законе
распределения
• Проверка гипотезы о независимости двух
качественных признаков (таблицы
сопряженности)
• Проверка гипотез о средних величинах
• Однофакторный дисперсионный анализ
• Проверка гипотез о значимости моделей
и их параметров
17
Тема
Методы выборочных обследований
18
Терминология
•
•
•
•
•
Генеральная совокупность (population)
Основа выборки (sampling frame)
План выборки (sampling design)
Выборка (sample)
Вероятностная выборка (probability
sample)
• Неслучайная выборка (nonprobability
sample)
19
Определения
• Генеральная совокупность – это
множество элементов, обладающих
рядом представляющих интерес
характеристик, которое полностью
охватывает изучаемое явление
• Основа выборки – список относящихся
к генеральной совокупности элементов с
пообъектной базовой информацией
• Свойство опознавамости элементов
20
Определения
• Базовая информация:
– набор характеристик, известных до
проведения обследования для каждого
элемента основы выборки
– известные значения показателей
• Например:
- количество заказов клиента компании
- объем продаж клиенту компании
• Контактная информация по клиентам не
является базовой информацией
21
Определения
• Перепись (census) - сплошной охват
элементов генеральной совокупности с
целью сбора сведений
• Выборка - любое подмножество
элементов генеральной совокупности,
отобранных для наблюдения
22
Процесс создания выборки
23
Практические проблемы, связанные
с основой выборки
•
•
•
•
Пропущенные элементы
Элементы, выходящие за рамки ГС
Дублирующиеся элементы
Кластеризованные элементы
24
Неслучайная выборка
• Виды неслучайной выборки:
Удобная (convenience sample)
Целевая/по суждению
(judgmental sample)
Квотная (quota sample)
По принципу «снежного кома»/по
рекомендации (snowball sample)
25
Вероятностная выборка
• Виды случайной выборки:
 Простая
 Систематическая
 Расслоенная
 Кластерная
 Многоэтапная/кластерная
26
Два типа размещения элементов
выборки по слоям
27
Иллюстрация многоэтапной выборки
28
Оценивание по дагнным выборки
• -оценка Горвица-Томпсона (1952 г.)
суммарного значения признака (y):
yk
ˆ
Y  
kS
k
• Точность -оценки:
 
y
yk yl  kl   k l
ˆ
ˆ
Var Y   1   k   
kS

2
k
2
k
kS lS
l k
 k l
 kl
29
Ошибка случайной выборки
Дисперсия оценки
Стандартная ошибка оценки 
Объем выборки
95% - ый доверительный интервал :
Оценка  1.96  стд.ошибка ; Оценка  1.96  стд.ошибка 
30
Простая случайная выборка
• Выборка из генеральной совокупности
объема (N) при которой любое
подмножество элементов объема (n)
может быть отобрано с равной
вероятностью
• План выборки:
 1
 C n , если объем s  n
p( s )   N
0, в противном случае

31
Свойства
• Равные вероятности извлечения любого
элемента:
 k U
n
Pr( k  s )   k 
N
• Для любой пары единиц генеральной
совокупности имеем
 k , l U (k  l )
n(n  1)
Pr( k , l  s )   kl 
N ( N  1)
32
Формулы оценивания
• Оценка суммарного показателя:
yk N
ˆ
Y     yk
n ks
ks  k
• Оценка дисперсии оценки суммы:

2
n
s
ˆ
ˆ
V Y  (1  )
N n
1
2
s 
(
y

y
)

k
n  1 ks
2
33
Пример
•
Нужно оценить среднее число незанятых
пассажирами мест на N = 4500 авиарейсах
по данным выборки n = 225, если
y  11.6
•
s  4.1
Построим 90%-ый доверительный
интервал для оценки среднего
n s2
225 4.12
y  z0.9 (1  )  11.6  1.64 (1 
)
 11.6  0.44
N n
4500 225
 Y  (11.16;12.04)
34
SPSS Complex Samples
В пакете IBM SPSS имеется модуль
Complex Samples – сложные выборки
• Возможности:
 Планировать и отбирать случайные
выборки
 Корректный (с учетом плана отбора)
статистический анализ данных выборки
 Расчет характеристик точности оценок,
рассчитанных по выборке
•
35
SPSS Complex Samples
Можно оценивать:
• объем и долю единиц генеральной
совокупности
• среднее и суммарное значения
• отношение показателей
• коэффициенты уравнения регрессии
• Характеристики точности
• Эффект плана
36
Вывод итогов анализа в SPSS
•
Оценка среднего и суммарного значений
Одномерные статистики
95% доверительный интервал
(границы)
Оценка
Среднее
Число наемных
Нижняя
Верхняя
Коэффициент
Невзвешенная
вариации
частота
3,81
3,19
4,44
,083
124
254,81
212,51
297,12
,084
237
16823
13815
19830
,090
124
2285246
1896793
2673700
,086
237
работников
Укажите примерный объем
ВЫРУЧКИ
Сумма
Число наемных
работников
Укажите примерный объем
ВЫРУЧКИ
37
Вывод итогов анализа в SPSS
•
Оценка частот
ОСУЩЕСТВЛЯЛИ ли Вы предпринимательскую ДЕЯТЕЛЬНОСТЬ в текущем году?
95% доверительный интервал
(границы)
Оценка
Нижняя
Верхняя
Коэффициент
Невзвешенная
вариации
частота
Объем генеральной
Нет
5335,708
4579,376
6092,041
,072
120
совокупности
Да
8968,292
8200,825
9735,759
,044
237
14304,000
13936,523
14671,477
,013
357
Всего
38
Вывод итогов анализа в SPSS
• Оценка
отношения
Отношения 1
Числитель
Знаменатель
95% доверительный интервал
Оценка
отношения
Оборот розичной торговли Укажите примерный объем
(тыс. руб.)
,907
(границы)
Нижняя
,859
Коэффициент
Верхняя
,955
вариации
,027
ВЫРУЧКИ
39
Скачать