Методика построения выборки домашних хозяйств по

реклама
1
Утверждена
приказом Председателя
Комитета по статистике
Министерства национальной
экономики
Республики Казахстан
от «14» декабря 2015 года
№ 202
Методика построения выборки домашних хозяйств
по обследованию уровня жизни
1. Общие положения
1. Методика построения выборки домашних хозяйств по обследованию
уровня жизни (далее – Методика) разработана на основе рекомендаций
экспертов Всемирного банка в рамках реализации Проекта совместных
экономических исследований на 2010 год «Разработка новой выборки для
обследования домашних хозяйств по оценке уровня жизни».
2. Настоящая Методика предназначена для использования структурными
подразделениями Комитета по статистике Министерства национальной
экономики Республики Казахстана при формировании выборки домашних
хозяйств по обследованию уровня жизни.
3. Целью настоящей Методики является построение выборки для
выборочного обследования домашних хозяйств по оценке уровня жизни (далее
– Обследование), включая описание этапов формирования, стратификации и
расчета выборочных весов.
4. Настоящая Методика соответствует принятым в мировой практике
методам построения выборки и обеспечивает получение качественных
статистических данных.
5. Обследование по своему характеру является многоцелевым. Его
основными задачами являются получение широкого спектра данных об уровне
жизни населения, весовых показателей для расчета индекса потребительских
цен и данных для составления счетов сектора домашних хозяйств в системе
национальных счетов.
6. В настоящей Методике используются следующие понятия и
сокращения:
1) домашнее хозяйство – экономический субъект, состоящий из одного
или более физических лиц, проживающих совместно, объединяющих полностью
или частично свои доходы и имущество, и совместно потребляющие товары и
услуги;
2
2) интервьюер – лицо, уполномоченное на проведение опроса;
3) стандартная ошибка выборки (СО) – стандартное отклонение значения
параметра выборки от выборочного среднего значения этого параметра;
4) относительная стандартная ошибка (ОСО) – отношение оцениваемой
статистической величины к его среднему значению.
2. Определение исследуемой совокупности (рамки выборки)
7. Основным источником для формирования выборочной совокупности
домашних хозяйств является информационная система «Статистический
регистр жилищного фонда», компонент интегрированной информационной
системы «е-Статистика» (далее – CРЖФ).
8. Использование указанной базы данных обусловлено рядом
преимуществ, к которым относятся следующие:
наличие готовой рамки выборки, что исключает одну из существенных
статей затрат, связанных с составлением основы выборки;
наличие постоянно актуализируемой базы данных, что необходимо для
осуществления ротации домашних хозяйств;
наличие информации о домашних хозяйствах в территориальном разрезе.
9. В генеральную совокупность включаются домашние хозяйства,
проживающие во всех типах жилых помещений, за исключением проживающих
в
общих коммунальных квартирах, общежитиях, домах-интернатах для
престарелых и инвалидов, детских домах, тюрьмах, гостиницах, религиозных
общинах и других аналогичных жилых помещениях.
10. Конечной единицей отбора определено домашнее хозяйство,
являющееся также и единицей обследования.
3. Размер выборочной совокупности
11. Размер выборки определяется на основе принципа оптимального
сочетания затрат и заданных критериев точности результатов.
12. В качестве показателей точности статистического оценивания,
используются стандартная ошибка выборки и стандартная относительная
ошибка выборки.
13. СО определяется по следующей формуле:
SE 
 Deff
n
где,
SE – стандартная ошибка выборки;
δ
– дисперсия;
(1)
3
Deff – влияние дизайна выборки (для города и села составляют 1.0 и 2.0
соответственно);
n
– размер выборки.
14. ОСО определяется по следующей формуле:
RSE 
SE
(2)
x
где,
RSE – относительная стандартная ошибка выборки;
SE – стандартная ошибка выборки;
x
– среднее значение переменной, использованной для оценки
величины относительной стандартной ошибки.
Влияние дизайна выборки (Deff) для города и села составляют 1.0 и 2.0
соответственно. Исходя из этого предположения рассчитываются ОСО.
Предположение Deff = 1.0 для городской местности объясняется тем, что
городские кластеры обследования приближены к случайной выборке, поскольку
крупные города не подразделяются на более мелкие территориальные единицы.
Предположение Deff = 2.0 в сельской местности основано исключительно на
опыте других стран.
15. Размер выборки обеспечивает получение результатов с ошибкой не
более 4% на республиканском уровне и не более 7% на региональном уровне,
согласно таблице 1, приведенной в приложении к настоящей Методике. Таким
образом, размер выборки устанавливается в 12 000 домашних хозяйств (0,3% от
генеральной совокупности).
4. Алгоритм формирования выборочной совокупности
16. Выборочная совокупность домашних хозяйств формируется методом
двухступенчатой вероятностной (случайной) выборки с использованием
процедур стратификации и случайного отбора на каждой из ступеней
формирования выборки. Процедура стратификации нацелена на формирование
представительной выборочной совокупности домашних хозяйств, адекватно
отражающей территориальные особенности расслоения населения.
17. Процесс формирования выборки проводится в 2 этапа.
На первом этапе генеральная совокупность стратифицируется по
территориальному признаку, включая распределение на городскую и сельскую
местность. Таким образом, формируется 30 страт - это отобранные городские и
сельские территории в шестнадцати регионах страны (всего 30 страт с учетом,
что в городах Астана и Алматы нет сельской местности).
18. В качестве первичных выборочных единиц (далее – ПВЕ) отбираются
400 территориальных единиц, которые представляют собой городскую и
4
сельскую местности и определяются первыми шестью (6) знаками кода по
Классификатору административно-территориальных объектов (далее – КАТО).
19. Объем работы каждого из интервьюера составляет 30 домохозяйств в
течение одного квартала. Каждая группа из 30 домохозяйств называется
кластер и соответствует объему работы одного интервьюера в течение одного
квартала.
20. Первый этап формирования выборки включает в себя две
последовательные процедуры. Первоначальная процедура предусматривает
определение ПВЕ внутри каждой страты с вероятностью пропорциональной
размеру (далее – ВПР), то есть количество ПВЕ в страте формируется в
зависимости от числа домохозяйств, присутствующих в страте.
21. Вероятность отбора (Phi) в выборе первичных выборочных единиц (hi)
в страте (h) определяется по следующей формуле:
p hi 
s h n hi
Nh
(3)
где,
Phi – вероятность отбора;
sh
– число ПВЕ, выбранных в страте h;
nhi – число домохозяйств в ПВЕ hi, по данным СРЖФ;
Nh – общее число домохозяйств в страте, по данным СРЖФ.
22. Следующая процедура нацелена на достижение оптимального
значения относительной стандартной ошибки по каждой из 30 страт (400 ПВЕ).
23. Для оценки величины относительной стандартной ошибки, в качестве
переменной используются показатели, которые считаются наиболее важными
для обследования. По обследованию уровня жизни к таким показателям относят
«среднедушевой доход, использованный на потребление», «среднедушевой
денежный доход», «среднедушевой денежный расход» и др.
24. Характеристика оценки точности показателя «среднедушевой доход,
использованный на потребление», приведена в таблице 2, согласно приложению
к настоящей Методике. Согласно проведенным расчетам величина ОСО
выборки по стране не превышает 0,3%, по регионам – не более 2,2%.
25. Количество отобранных ПВЕ и число домохозяйств в каждой ПВЕ, а
также их распределение по регионам приведены в таблице 3, согласно
приложению к настоящей Методике.
26. При проведении фактического отбора ПВЕ в городах необходимо
учесть, что в СРЖФ отсутствует деление крупных городов на мелкие
территориальные единицы. Например: город Кокшетау с населением более 100
тысяч человек представлен в СРЖФ одной строкой, без дальнейшей
дезагрегации. Учитывая относительно крупный размер таких ПВЕ, многие из
них выбираются более одного раза в результате стандартной процедуры ВПР.
27. Первые и последние строки перечня отобранных первичных
выборочных единиц представлены в таблице 4 согласно приложению к
5
настоящей Методике. В графе «Отобранные» отмечены ПВЕ, в которых
стандартная процедура ВПР проводилась более одного раза. Первая строка
показывает, что город Кокшетау действительно был выбран 5 раз. Таким
образом, в городе Кокшетау необходимо отобрать 5 кластеров (150
домохозяйств).
28. На втором этапе формирования выборки, в каждой ПВЕ случайным
отбором выбираются 30 домохозяйств. Основой формирования выборки на
втором этапе является перечень отдельных жилых помещений в ПВЕ. Кластер
(или кластеры) жилищ, которые нужно посетить в ходе обследования,
выбирается с равной вероятностью из числа подходящих жилых помещений в
ПВЕ.
29. Вероятность (phij) выбора домохозяйства (hij) в ПВЕ (hi) страты (h)
определяется по следующей формуле:
p hij  p hi
m hi
n hi
(4)
где,
phi – вероятность выбора ПВЕ hi – заданная уравнением (1);
mhi – число необходимых жилищ в ПВЕ hi (нормативно всегда 30);
n’hi – общее число подходящих жилищ в ПВЕ.
30. В принципе, ожидается, что каждое отобранное жилище вмещает одно
домохозяйство. Если обнаружилось, что в данном жилище находится более
одного домохозяйства, то случайным методом выбирается одно из них. Если
жилище оказалось пустым, то необходимо применить метод, о котором сказано
далее в разделе «Смещение выборки».
31. Для проверки эффективности работы интервьюеров в городской
местности рекомендуется применять метод взаимопроникающей выборки.
32. В крупных городах, где необходимо иметь число кластеров k (при
k > 1), сначала путем систематической равновероятностной выборки (далее –
СРВВ) будет выбрано 40k число жилищ, а затем случайная перестановка цифр
от 1 до k будет повторена 40 раз, чтобы разделить (город) на число кластеров k –
по одному на каждого из k числа интервьюеров в городе.
33. В городах домашние хозяйства в каждом кластере не будут находиться
на определенной территории, что дает возможность проверки качества работы
интервьюеров (например: можно проверить количество отказов от обследования
в одном и том же районе города у разных интервьюеров).
5. Сегментация выборки
34. Для практического применения выборки важным фактором является
территориальная расположенность отобранных единиц обследования друг от
друга внутри одного кластера, так как отдаленность их друг от друга создает
6
дополнительные затраты и неудобства при проведении обследования.
Некоторые из отобранных ПВЕ оказываются слишком крупными по
численности населения и единицы обследования в них находятся слишком
территориально разбросанными друг от друга.
Например: в сельской местности Южно-Казахстанской области одна из
ПВЕ (КАТО – 515437) состоит из 14 населенных пунктов с общим числом
домохозяйств равным 3183 и отдаленность между ними достигает порядка
25 км.
35. При возникновении подобных случаев существует возможность
корректировки выборки посредством процесса сегментации (дробления или
разукрупнения).
36. Сначала в ПВЕ путем СРВВ выбираются три населенных пункта с
учетом числа заселенных в них домохозяйств по СРЖФ и затем в каждом из
трех населенных пунктов, также путем СРВВ, отбираются 10 домохозяйств. 10
резервных домохозяйств (для замены) распределяются среди трех отобранных
населенных пунктов.
37. Эта процедура является дополнительным этапом выборки и позволяет
получить более кластерную выборку, вместе с тем она не приведет к изменению
вероятностей отбора или к изменению весов отобранных домохозяйств.
Следовательно, формулы (4) и (5) применяются без изменений в
разукрупненных (сегментированных) ПВЕ.
6. Смещение выборки
38. В ходе обследования имеют место случаи, когда не удается опросить
домохозяйства по причине того, что жилище не найдено, или не заселено, или
домохозяйство отказывается участвовать в обследовании. Отказ от участия
является нежелательным явлением, поскольку сокращает размер выборки и в
основном потому, что является источником потенциального смещения выборки
и ведёт к искаженным статистическим результатам.
39. Эффективной профилактикой преодоления проблемы неполучения
данных является тщательное документирование каждого случая.
40. При возникновении сложности по соблюдению принципа
«недопущения замены» следует предусмотреть список резервных домашних
хозяйств в размере 1/3 количества домашних хозяйств в каждом кластере (по 10
домохозяйств на интервьюера).
41. В общей сложности в каждом кластере отбираются 40 жилищ: 30 в
номинальной выборке и 10 заменяющих. Эти 40 жилищ отбираются из числа
всех подходящих жилищ в ПВЕ путем СРВВ, а затем случайно выбранная
циклическая перестановка цифр 0, 1, 2 и 3 повторяется десять (10) раз, чтобы
разделить кластер на четыре группы из 10 жилищ. Жилища в группах 1, 2 и 3
7
составят номинальную выборку, а жилища в группе 0 будут держаться в резерве
для возможной замены.
42. Отбор резервных домашних хозяйств из дополнительного списка
осуществляется по принципу снизу вверх. То есть, из 10 домашних хозяйств для
замены последовательно отбираются домашние хозяйства: с начала – десятое по
счету (последнее в списке), затем – девятое по счету и так далее.
7. Взвешивание
43. В целях получения распространенных на генеральную совокупность
данных, производится статистическое взвешивание итогов обследования.
Реализация данного метода осуществляется посредством присвоения каждому
обследованному домашнему хозяйству статистического веса, который
характеризует общее число домашних хозяйств, представляемых частью,
попавшей в выборку. Веса для показателей уровня жизни населения
рассчитываются ежеквартально.
44. Для расчета весов используется данные СРЖФ о распределении
обследуемых домашних хозяйств отдельно по городскому и сельскому
населению в региональном разрезе.
45. Вес вероятности (whij) домохозяйства в ПВЕ (hi) страты hi (h)
представляет собой обратное значение его вероятности отбора phij и
определяется по следующей формуле:
w hij 
N h n hi
1

p hij s h n hi m hi
(5)
где,
Whij – вес домохозяйства;
Phij – обратное значение вероятности отбора;
Nh – общее число домохозяйств в страте, по данным СРЖФ;
n’hi – общее число подходящих жилищ в ПВЕ;
Sh – число ПВЕ, выбранных в страте h;
mhi – число необходимых жилищ в ПВЕ hi (нормативно всегда 30).
Поскольку n’hi ≈ n’hi и mhi ≈ 30 во всех ПВЕ, выборка будет примерно
самовзвешенной в пределах каждой страты.
46. Сумма «базовых» весов обеспечивает оценку количества всех
домашних хозяйств данного региона и страны в целом. Однако их
использование позволяет сохранить соответствие выборочной совокупности
изначальным принципам формирования выборки, при этом в практике имеют
место случаи, нарушающие данное соответствие (отказы от участия в
обследовании и другие случаи неполучения данных).
47. Недополучение ответов от отобранных домашних хозяйств является
серьезным недостатком, искажающим результаты обследования. В этих
8
условиях возникает необходимость компенсации недостающих данных. Данная
процедура призвана осуществить досчет показателей, т.е. компенсировать
недополучение данных выборочного обследования.
48. Недополучение данных имеет место в случае, когда выборочная
единица вообще не участвует в обследовании, либо принимает в нем частичное
участие. Для компенсации случаев полного неполучения данных применяется
простая схема корректировки весов, путем задания больших весов для всех
ответивших домохозяйств в данном населенном пункте. Веса всех ответивших
на вопросы домашних хозяйств в данном населенном пункте увеличиваются на
один и тот же коэффициент. Например: если 90 процентов домашних хозяйств в
ПВЕ ответили на все вопросы, веса для всех ответивших увеличиваются на
коэффициент 1/0,9=1,11. Все не давшие ответов домашние хозяйства
исключаются из выборки путем задания для каждого из них фактического веса
равного нулю.
49. В случае отсутствия данных только по определенным вопросам
применяется метод вменения (импутации) значений. Данный метод заключается
в замене отсутствующих данных по отдельной позиции значением, в отношении
которого делается прогноз с учетом другой информации, имеющейся по
данному объекту или по другим объектам данного обследования.
50. Рассчитанные персональные веса в качестве дополнительных
переменных записываются в базу данных по каждому домашнему хозяйству и
используются при формировании сводных итогов по соответствующему
кварталу на республиканском и региональном уровнях. Распространенные
данные в среднем за год получаются путем объединения квартальных данных.
8. Ротация выборки
51. В целях недопущения эффекта усталости домохозяйств от участия в
обследовании, выборка домашних хозяйств периодически подвергается
ротации. Процесс систематической ротации выборки не связан с заменой
домохозяйств, отказавшихся участвовать в обследовании.
52. В целях отслеживания влияния сезонных колебаний и других явлений
на одни и те же домохозяйства в течение отчетного года, ротацию
целесообразно проводить на начало года, то есть ежегодно в декабре
необходимо обновлять выборку.
53. Ротацию домашних хозяйств (обновление выборки) необходимо
проводить ежегодно в размере 1/3 от общего числа обследуемых домашних
хозяйств. То есть, ежегодно 1/3 часть домашних хозяйств выводится из
выборки и заменяться на другие. Таким образом, по истечении 3-х лет
произойдет полное обновление выборки.
54. В конце года (в декабре) в каждом кластере случайно выбираются 10
домохозяйств и выводятся из выборки. Еще 10 из первоначально отобранных
9
домохозяйств выбираются случайно и выводятся из выборки в конце
следующего года, и оставшиеся 10 домохозяйств – в конце последующего года.
Каждый раз 10 новых домохозяйств выбираются случайно из
актуализированной базы СРЖФ, чтобы занять место выведенных.
55. При формировании выборки в списке отобранных домашних хозяйств
предусмотрено дополнительно поле с признаком ротации. «1» в данном поле
означает, что домашнее хозяйство подлежит ротации по истечению первого
года, «2» – по истечению второго года и «3» – по истечению третьего года.
Таким образом, систематическая ротация осуществляется путем выведения из
выборки групп 1, 2 и 3 в конце первого, второго и третьего года.
10
Приложение
к Методике построения
выборки
домашних
хозяйств по обследованию
уровня жизни
Таблица 1. Определение размера выборки
Величина ошибки
по республике
по регионам
Вариант №1
<1%
<3%
Вариант №2
<2%
<5%
Вариант №3
<4%
<7%
Размер выборки:
кол-во домохозяйств,
тыс. единиц
Затраты на обследование,
млн. тенге
24
800
18
600
12
400
11
Таблица 2. Характеристика оценки точности показателя
“доходы, использованные на потребление” по результатам обследования домашних хозяйств по оценке
уровня жизни
Республика Казахстан
Доходы,
использованные на
Стандартная ошибка
потребление,
выборки
за год в среднем на
(Sе)
душу, тенге
458743
1191
Величина доверительного интервала (Р=0,95), ±
тенге
нижняя граница
верхняя граница
Относительная
стандартная ошибка
(RSE), %
456409
461077
0,26%
том числе:
городская местность
сельская местность
552761
360228
3613
2558
545681
355214
559841
365242
0,65%
0,71%
Акмолинская область
Актюбинская область
Алматинская область
Атырауская область
Западно-Казахстанская область
область
Жамбылская
область
Карагандинская область
Костанайская область
Кызылординская область
Мангистауская область
Южно-Казахстанская область
Павлодарская область
Северо-Казахстанская область
Восточно-Казахстанская область
область
г.Астанаобласть
г.Алматы
470134
472494
535466
415869
416992
355963
562665
462741
393944
449044
307032
465175
461012
492494
567388
701398
9124
8087
8797
6907
8043
5464
10796
9229
6492
8410
3564
7636
10119
9188
9060
11007
452252
456645
518224
402330
401228
345254
541505
444652
381221
432560
300047
450208
441179
474487
549630
679825
488016
488343
552707
429407
432756
366671
583824
480829
406668
465528
314016
480141
480844
510502
585145
722971
1,94%
1,71%
1,64%
1,66%
1,93%
1,53%
1,92%
1,99%
1,65%
1,87%
1,16%
1,64%
2,19%
1,87%
1,60%
1,57%
12
Таблица 3. Распределение первичных выборочных единиц по стратам (городская и сельская местность)
Код
11
15
19
23
27
31
35
39
43
47
51
55
59
63
71
75
Наименование региона
Акмолинская
Актюбинская
Алматинская
Атырауская
Западно-Казахстанская
Жамбылская
Карагандинская
Костанайская
Кызылординская
Мангыстауская
Южно-Казахстанская
Павлодарская
Северо-Казахстанская
Восточно-Казахстанская
г. Астана
г. Алматы
Всего
Число домохозяйств
Город
Село
115 888
79 089
133 540
32 803
110 045
260 502
56 823
31 931
100 630
76 727
123 593
117 878
378 012
66 854
179 666
127 047
55 226
69 545
73 270
16 828
232 170
260 099
190 793
63 953
97 757
114 127
299 061
171 035
148 587
386 251
2 681 312
1 488 418
Всего
194 977
166 343
370 547
88 754
177 357
241 471
444 866
306 713
124 771
90 098
492 269
254 746
211 884
470 096
148 587
386 251
4 169 730
Город
12
12
8
10
8
9
20
12
8
12
10
12
9
14
22
30
208
Число ПВЕ
Село
16
16
16
8
14
14
12
15
12
8
16
16
13
16
192
Всего
28
28
24
18
22
23
32
27
20
20
26
28
22
30
22
30
400
13
Таблица 4. Первые и последние строки перечня отобранных первичных выборочных единиц (ПВЕ)
Код
Наименование
области
Наименование
района
Наименование
населенного пункта
Город\село
КАТО
Квартиры
Д/Х
Люди
Вероятность
Отобранные
111010 Акмолинская
Кокшетау г.а.
г. Кокшетау
1
1
45 645
45 003
109 117
4,65998
5
111810 Акмолинская
Степногорск г.а.
г. Степногорск
1
1
21 597
21 084
46 928
2,18321
2
113220 Акмолинская
Аккольский
Аккольская г.а.
1
1
4 403
4 400
13 231
0,45561
1
113820 Акмолинская
Атбасарский
Атбасарский
1
1
9 502
9 428
27 121
0,97625
1
114620 Акмолинская
Ерейментауский
Ерейментауский
1
1
4 034
4 029
10 841
0,41720
1
117020 Акмолинская
Бурабайский
Щучинская г.а.
1
1
13 875
13 674
33 903
1,41592
2
113239 Акмолинская
Аккольский
Ивановский
2
1
374
360
1 249
0,07283
1
113433 Акмолинская
Аршалынский
а.о. Жибек Жолы
2
4
559
558
2 050
0,11289
1
Урджарский
а.о. Маканшы
2
1
3 117
2 773
11 648
0,25941
1
711110 г. Астана
г. Астана
район Алматы
1
1
79 627
81 274
256 464
12,03354
12
751110 г. Алматы
г. Алматы
Алмалинский
1
1
65 939
66 434
168 138
5,15991
5
751910 г. Алматы
Медеуский
Турксибский
1
1
49 333
49 735
151 982
3,86290
4
636473
ВосточноКазахстанская
Скачать