1 Утверждена приказом Председателя Комитета по статистике Министерства национальной экономики Республики Казахстан от «14» декабря 2015 года № 202 Методика построения выборки домашних хозяйств по обследованию уровня жизни 1. Общие положения 1. Методика построения выборки домашних хозяйств по обследованию уровня жизни (далее – Методика) разработана на основе рекомендаций экспертов Всемирного банка в рамках реализации Проекта совместных экономических исследований на 2010 год «Разработка новой выборки для обследования домашних хозяйств по оценке уровня жизни». 2. Настоящая Методика предназначена для использования структурными подразделениями Комитета по статистике Министерства национальной экономики Республики Казахстана при формировании выборки домашних хозяйств по обследованию уровня жизни. 3. Целью настоящей Методики является построение выборки для выборочного обследования домашних хозяйств по оценке уровня жизни (далее – Обследование), включая описание этапов формирования, стратификации и расчета выборочных весов. 4. Настоящая Методика соответствует принятым в мировой практике методам построения выборки и обеспечивает получение качественных статистических данных. 5. Обследование по своему характеру является многоцелевым. Его основными задачами являются получение широкого спектра данных об уровне жизни населения, весовых показателей для расчета индекса потребительских цен и данных для составления счетов сектора домашних хозяйств в системе национальных счетов. 6. В настоящей Методике используются следующие понятия и сокращения: 1) домашнее хозяйство – экономический субъект, состоящий из одного или более физических лиц, проживающих совместно, объединяющих полностью или частично свои доходы и имущество, и совместно потребляющие товары и услуги; 2 2) интервьюер – лицо, уполномоченное на проведение опроса; 3) стандартная ошибка выборки (СО) – стандартное отклонение значения параметра выборки от выборочного среднего значения этого параметра; 4) относительная стандартная ошибка (ОСО) – отношение оцениваемой статистической величины к его среднему значению. 2. Определение исследуемой совокупности (рамки выборки) 7. Основным источником для формирования выборочной совокупности домашних хозяйств является информационная система «Статистический регистр жилищного фонда», компонент интегрированной информационной системы «е-Статистика» (далее – CРЖФ). 8. Использование указанной базы данных обусловлено рядом преимуществ, к которым относятся следующие: наличие готовой рамки выборки, что исключает одну из существенных статей затрат, связанных с составлением основы выборки; наличие постоянно актуализируемой базы данных, что необходимо для осуществления ротации домашних хозяйств; наличие информации о домашних хозяйствах в территориальном разрезе. 9. В генеральную совокупность включаются домашние хозяйства, проживающие во всех типах жилых помещений, за исключением проживающих в общих коммунальных квартирах, общежитиях, домах-интернатах для престарелых и инвалидов, детских домах, тюрьмах, гостиницах, религиозных общинах и других аналогичных жилых помещениях. 10. Конечной единицей отбора определено домашнее хозяйство, являющееся также и единицей обследования. 3. Размер выборочной совокупности 11. Размер выборки определяется на основе принципа оптимального сочетания затрат и заданных критериев точности результатов. 12. В качестве показателей точности статистического оценивания, используются стандартная ошибка выборки и стандартная относительная ошибка выборки. 13. СО определяется по следующей формуле: SE Deff n где, SE – стандартная ошибка выборки; δ – дисперсия; (1) 3 Deff – влияние дизайна выборки (для города и села составляют 1.0 и 2.0 соответственно); n – размер выборки. 14. ОСО определяется по следующей формуле: RSE SE (2) x где, RSE – относительная стандартная ошибка выборки; SE – стандартная ошибка выборки; x – среднее значение переменной, использованной для оценки величины относительной стандартной ошибки. Влияние дизайна выборки (Deff) для города и села составляют 1.0 и 2.0 соответственно. Исходя из этого предположения рассчитываются ОСО. Предположение Deff = 1.0 для городской местности объясняется тем, что городские кластеры обследования приближены к случайной выборке, поскольку крупные города не подразделяются на более мелкие территориальные единицы. Предположение Deff = 2.0 в сельской местности основано исключительно на опыте других стран. 15. Размер выборки обеспечивает получение результатов с ошибкой не более 4% на республиканском уровне и не более 7% на региональном уровне, согласно таблице 1, приведенной в приложении к настоящей Методике. Таким образом, размер выборки устанавливается в 12 000 домашних хозяйств (0,3% от генеральной совокупности). 4. Алгоритм формирования выборочной совокупности 16. Выборочная совокупность домашних хозяйств формируется методом двухступенчатой вероятностной (случайной) выборки с использованием процедур стратификации и случайного отбора на каждой из ступеней формирования выборки. Процедура стратификации нацелена на формирование представительной выборочной совокупности домашних хозяйств, адекватно отражающей территориальные особенности расслоения населения. 17. Процесс формирования выборки проводится в 2 этапа. На первом этапе генеральная совокупность стратифицируется по территориальному признаку, включая распределение на городскую и сельскую местность. Таким образом, формируется 30 страт - это отобранные городские и сельские территории в шестнадцати регионах страны (всего 30 страт с учетом, что в городах Астана и Алматы нет сельской местности). 18. В качестве первичных выборочных единиц (далее – ПВЕ) отбираются 400 территориальных единиц, которые представляют собой городскую и 4 сельскую местности и определяются первыми шестью (6) знаками кода по Классификатору административно-территориальных объектов (далее – КАТО). 19. Объем работы каждого из интервьюера составляет 30 домохозяйств в течение одного квартала. Каждая группа из 30 домохозяйств называется кластер и соответствует объему работы одного интервьюера в течение одного квартала. 20. Первый этап формирования выборки включает в себя две последовательные процедуры. Первоначальная процедура предусматривает определение ПВЕ внутри каждой страты с вероятностью пропорциональной размеру (далее – ВПР), то есть количество ПВЕ в страте формируется в зависимости от числа домохозяйств, присутствующих в страте. 21. Вероятность отбора (Phi) в выборе первичных выборочных единиц (hi) в страте (h) определяется по следующей формуле: p hi s h n hi Nh (3) где, Phi – вероятность отбора; sh – число ПВЕ, выбранных в страте h; nhi – число домохозяйств в ПВЕ hi, по данным СРЖФ; Nh – общее число домохозяйств в страте, по данным СРЖФ. 22. Следующая процедура нацелена на достижение оптимального значения относительной стандартной ошибки по каждой из 30 страт (400 ПВЕ). 23. Для оценки величины относительной стандартной ошибки, в качестве переменной используются показатели, которые считаются наиболее важными для обследования. По обследованию уровня жизни к таким показателям относят «среднедушевой доход, использованный на потребление», «среднедушевой денежный доход», «среднедушевой денежный расход» и др. 24. Характеристика оценки точности показателя «среднедушевой доход, использованный на потребление», приведена в таблице 2, согласно приложению к настоящей Методике. Согласно проведенным расчетам величина ОСО выборки по стране не превышает 0,3%, по регионам – не более 2,2%. 25. Количество отобранных ПВЕ и число домохозяйств в каждой ПВЕ, а также их распределение по регионам приведены в таблице 3, согласно приложению к настоящей Методике. 26. При проведении фактического отбора ПВЕ в городах необходимо учесть, что в СРЖФ отсутствует деление крупных городов на мелкие территориальные единицы. Например: город Кокшетау с населением более 100 тысяч человек представлен в СРЖФ одной строкой, без дальнейшей дезагрегации. Учитывая относительно крупный размер таких ПВЕ, многие из них выбираются более одного раза в результате стандартной процедуры ВПР. 27. Первые и последние строки перечня отобранных первичных выборочных единиц представлены в таблице 4 согласно приложению к 5 настоящей Методике. В графе «Отобранные» отмечены ПВЕ, в которых стандартная процедура ВПР проводилась более одного раза. Первая строка показывает, что город Кокшетау действительно был выбран 5 раз. Таким образом, в городе Кокшетау необходимо отобрать 5 кластеров (150 домохозяйств). 28. На втором этапе формирования выборки, в каждой ПВЕ случайным отбором выбираются 30 домохозяйств. Основой формирования выборки на втором этапе является перечень отдельных жилых помещений в ПВЕ. Кластер (или кластеры) жилищ, которые нужно посетить в ходе обследования, выбирается с равной вероятностью из числа подходящих жилых помещений в ПВЕ. 29. Вероятность (phij) выбора домохозяйства (hij) в ПВЕ (hi) страты (h) определяется по следующей формуле: p hij p hi m hi n hi (4) где, phi – вероятность выбора ПВЕ hi – заданная уравнением (1); mhi – число необходимых жилищ в ПВЕ hi (нормативно всегда 30); n’hi – общее число подходящих жилищ в ПВЕ. 30. В принципе, ожидается, что каждое отобранное жилище вмещает одно домохозяйство. Если обнаружилось, что в данном жилище находится более одного домохозяйства, то случайным методом выбирается одно из них. Если жилище оказалось пустым, то необходимо применить метод, о котором сказано далее в разделе «Смещение выборки». 31. Для проверки эффективности работы интервьюеров в городской местности рекомендуется применять метод взаимопроникающей выборки. 32. В крупных городах, где необходимо иметь число кластеров k (при k > 1), сначала путем систематической равновероятностной выборки (далее – СРВВ) будет выбрано 40k число жилищ, а затем случайная перестановка цифр от 1 до k будет повторена 40 раз, чтобы разделить (город) на число кластеров k – по одному на каждого из k числа интервьюеров в городе. 33. В городах домашние хозяйства в каждом кластере не будут находиться на определенной территории, что дает возможность проверки качества работы интервьюеров (например: можно проверить количество отказов от обследования в одном и том же районе города у разных интервьюеров). 5. Сегментация выборки 34. Для практического применения выборки важным фактором является территориальная расположенность отобранных единиц обследования друг от друга внутри одного кластера, так как отдаленность их друг от друга создает 6 дополнительные затраты и неудобства при проведении обследования. Некоторые из отобранных ПВЕ оказываются слишком крупными по численности населения и единицы обследования в них находятся слишком территориально разбросанными друг от друга. Например: в сельской местности Южно-Казахстанской области одна из ПВЕ (КАТО – 515437) состоит из 14 населенных пунктов с общим числом домохозяйств равным 3183 и отдаленность между ними достигает порядка 25 км. 35. При возникновении подобных случаев существует возможность корректировки выборки посредством процесса сегментации (дробления или разукрупнения). 36. Сначала в ПВЕ путем СРВВ выбираются три населенных пункта с учетом числа заселенных в них домохозяйств по СРЖФ и затем в каждом из трех населенных пунктов, также путем СРВВ, отбираются 10 домохозяйств. 10 резервных домохозяйств (для замены) распределяются среди трех отобранных населенных пунктов. 37. Эта процедура является дополнительным этапом выборки и позволяет получить более кластерную выборку, вместе с тем она не приведет к изменению вероятностей отбора или к изменению весов отобранных домохозяйств. Следовательно, формулы (4) и (5) применяются без изменений в разукрупненных (сегментированных) ПВЕ. 6. Смещение выборки 38. В ходе обследования имеют место случаи, когда не удается опросить домохозяйства по причине того, что жилище не найдено, или не заселено, или домохозяйство отказывается участвовать в обследовании. Отказ от участия является нежелательным явлением, поскольку сокращает размер выборки и в основном потому, что является источником потенциального смещения выборки и ведёт к искаженным статистическим результатам. 39. Эффективной профилактикой преодоления проблемы неполучения данных является тщательное документирование каждого случая. 40. При возникновении сложности по соблюдению принципа «недопущения замены» следует предусмотреть список резервных домашних хозяйств в размере 1/3 количества домашних хозяйств в каждом кластере (по 10 домохозяйств на интервьюера). 41. В общей сложности в каждом кластере отбираются 40 жилищ: 30 в номинальной выборке и 10 заменяющих. Эти 40 жилищ отбираются из числа всех подходящих жилищ в ПВЕ путем СРВВ, а затем случайно выбранная циклическая перестановка цифр 0, 1, 2 и 3 повторяется десять (10) раз, чтобы разделить кластер на четыре группы из 10 жилищ. Жилища в группах 1, 2 и 3 7 составят номинальную выборку, а жилища в группе 0 будут держаться в резерве для возможной замены. 42. Отбор резервных домашних хозяйств из дополнительного списка осуществляется по принципу снизу вверх. То есть, из 10 домашних хозяйств для замены последовательно отбираются домашние хозяйства: с начала – десятое по счету (последнее в списке), затем – девятое по счету и так далее. 7. Взвешивание 43. В целях получения распространенных на генеральную совокупность данных, производится статистическое взвешивание итогов обследования. Реализация данного метода осуществляется посредством присвоения каждому обследованному домашнему хозяйству статистического веса, который характеризует общее число домашних хозяйств, представляемых частью, попавшей в выборку. Веса для показателей уровня жизни населения рассчитываются ежеквартально. 44. Для расчета весов используется данные СРЖФ о распределении обследуемых домашних хозяйств отдельно по городскому и сельскому населению в региональном разрезе. 45. Вес вероятности (whij) домохозяйства в ПВЕ (hi) страты hi (h) представляет собой обратное значение его вероятности отбора phij и определяется по следующей формуле: w hij N h n hi 1 p hij s h n hi m hi (5) где, Whij – вес домохозяйства; Phij – обратное значение вероятности отбора; Nh – общее число домохозяйств в страте, по данным СРЖФ; n’hi – общее число подходящих жилищ в ПВЕ; Sh – число ПВЕ, выбранных в страте h; mhi – число необходимых жилищ в ПВЕ hi (нормативно всегда 30). Поскольку n’hi ≈ n’hi и mhi ≈ 30 во всех ПВЕ, выборка будет примерно самовзвешенной в пределах каждой страты. 46. Сумма «базовых» весов обеспечивает оценку количества всех домашних хозяйств данного региона и страны в целом. Однако их использование позволяет сохранить соответствие выборочной совокупности изначальным принципам формирования выборки, при этом в практике имеют место случаи, нарушающие данное соответствие (отказы от участия в обследовании и другие случаи неполучения данных). 47. Недополучение ответов от отобранных домашних хозяйств является серьезным недостатком, искажающим результаты обследования. В этих 8 условиях возникает необходимость компенсации недостающих данных. Данная процедура призвана осуществить досчет показателей, т.е. компенсировать недополучение данных выборочного обследования. 48. Недополучение данных имеет место в случае, когда выборочная единица вообще не участвует в обследовании, либо принимает в нем частичное участие. Для компенсации случаев полного неполучения данных применяется простая схема корректировки весов, путем задания больших весов для всех ответивших домохозяйств в данном населенном пункте. Веса всех ответивших на вопросы домашних хозяйств в данном населенном пункте увеличиваются на один и тот же коэффициент. Например: если 90 процентов домашних хозяйств в ПВЕ ответили на все вопросы, веса для всех ответивших увеличиваются на коэффициент 1/0,9=1,11. Все не давшие ответов домашние хозяйства исключаются из выборки путем задания для каждого из них фактического веса равного нулю. 49. В случае отсутствия данных только по определенным вопросам применяется метод вменения (импутации) значений. Данный метод заключается в замене отсутствующих данных по отдельной позиции значением, в отношении которого делается прогноз с учетом другой информации, имеющейся по данному объекту или по другим объектам данного обследования. 50. Рассчитанные персональные веса в качестве дополнительных переменных записываются в базу данных по каждому домашнему хозяйству и используются при формировании сводных итогов по соответствующему кварталу на республиканском и региональном уровнях. Распространенные данные в среднем за год получаются путем объединения квартальных данных. 8. Ротация выборки 51. В целях недопущения эффекта усталости домохозяйств от участия в обследовании, выборка домашних хозяйств периодически подвергается ротации. Процесс систематической ротации выборки не связан с заменой домохозяйств, отказавшихся участвовать в обследовании. 52. В целях отслеживания влияния сезонных колебаний и других явлений на одни и те же домохозяйства в течение отчетного года, ротацию целесообразно проводить на начало года, то есть ежегодно в декабре необходимо обновлять выборку. 53. Ротацию домашних хозяйств (обновление выборки) необходимо проводить ежегодно в размере 1/3 от общего числа обследуемых домашних хозяйств. То есть, ежегодно 1/3 часть домашних хозяйств выводится из выборки и заменяться на другие. Таким образом, по истечении 3-х лет произойдет полное обновление выборки. 54. В конце года (в декабре) в каждом кластере случайно выбираются 10 домохозяйств и выводятся из выборки. Еще 10 из первоначально отобранных 9 домохозяйств выбираются случайно и выводятся из выборки в конце следующего года, и оставшиеся 10 домохозяйств – в конце последующего года. Каждый раз 10 новых домохозяйств выбираются случайно из актуализированной базы СРЖФ, чтобы занять место выведенных. 55. При формировании выборки в списке отобранных домашних хозяйств предусмотрено дополнительно поле с признаком ротации. «1» в данном поле означает, что домашнее хозяйство подлежит ротации по истечению первого года, «2» – по истечению второго года и «3» – по истечению третьего года. Таким образом, систематическая ротация осуществляется путем выведения из выборки групп 1, 2 и 3 в конце первого, второго и третьего года. 10 Приложение к Методике построения выборки домашних хозяйств по обследованию уровня жизни Таблица 1. Определение размера выборки Величина ошибки по республике по регионам Вариант №1 <1% <3% Вариант №2 <2% <5% Вариант №3 <4% <7% Размер выборки: кол-во домохозяйств, тыс. единиц Затраты на обследование, млн. тенге 24 800 18 600 12 400 11 Таблица 2. Характеристика оценки точности показателя “доходы, использованные на потребление” по результатам обследования домашних хозяйств по оценке уровня жизни Республика Казахстан Доходы, использованные на Стандартная ошибка потребление, выборки за год в среднем на (Sе) душу, тенге 458743 1191 Величина доверительного интервала (Р=0,95), ± тенге нижняя граница верхняя граница Относительная стандартная ошибка (RSE), % 456409 461077 0,26% том числе: городская местность сельская местность 552761 360228 3613 2558 545681 355214 559841 365242 0,65% 0,71% Акмолинская область Актюбинская область Алматинская область Атырауская область Западно-Казахстанская область область Жамбылская область Карагандинская область Костанайская область Кызылординская область Мангистауская область Южно-Казахстанская область Павлодарская область Северо-Казахстанская область Восточно-Казахстанская область область г.Астанаобласть г.Алматы 470134 472494 535466 415869 416992 355963 562665 462741 393944 449044 307032 465175 461012 492494 567388 701398 9124 8087 8797 6907 8043 5464 10796 9229 6492 8410 3564 7636 10119 9188 9060 11007 452252 456645 518224 402330 401228 345254 541505 444652 381221 432560 300047 450208 441179 474487 549630 679825 488016 488343 552707 429407 432756 366671 583824 480829 406668 465528 314016 480141 480844 510502 585145 722971 1,94% 1,71% 1,64% 1,66% 1,93% 1,53% 1,92% 1,99% 1,65% 1,87% 1,16% 1,64% 2,19% 1,87% 1,60% 1,57% 12 Таблица 3. Распределение первичных выборочных единиц по стратам (городская и сельская местность) Код 11 15 19 23 27 31 35 39 43 47 51 55 59 63 71 75 Наименование региона Акмолинская Актюбинская Алматинская Атырауская Западно-Казахстанская Жамбылская Карагандинская Костанайская Кызылординская Мангыстауская Южно-Казахстанская Павлодарская Северо-Казахстанская Восточно-Казахстанская г. Астана г. Алматы Всего Число домохозяйств Город Село 115 888 79 089 133 540 32 803 110 045 260 502 56 823 31 931 100 630 76 727 123 593 117 878 378 012 66 854 179 666 127 047 55 226 69 545 73 270 16 828 232 170 260 099 190 793 63 953 97 757 114 127 299 061 171 035 148 587 386 251 2 681 312 1 488 418 Всего 194 977 166 343 370 547 88 754 177 357 241 471 444 866 306 713 124 771 90 098 492 269 254 746 211 884 470 096 148 587 386 251 4 169 730 Город 12 12 8 10 8 9 20 12 8 12 10 12 9 14 22 30 208 Число ПВЕ Село 16 16 16 8 14 14 12 15 12 8 16 16 13 16 192 Всего 28 28 24 18 22 23 32 27 20 20 26 28 22 30 22 30 400 13 Таблица 4. Первые и последние строки перечня отобранных первичных выборочных единиц (ПВЕ) Код Наименование области Наименование района Наименование населенного пункта Город\село КАТО Квартиры Д/Х Люди Вероятность Отобранные 111010 Акмолинская Кокшетау г.а. г. Кокшетау 1 1 45 645 45 003 109 117 4,65998 5 111810 Акмолинская Степногорск г.а. г. Степногорск 1 1 21 597 21 084 46 928 2,18321 2 113220 Акмолинская Аккольский Аккольская г.а. 1 1 4 403 4 400 13 231 0,45561 1 113820 Акмолинская Атбасарский Атбасарский 1 1 9 502 9 428 27 121 0,97625 1 114620 Акмолинская Ерейментауский Ерейментауский 1 1 4 034 4 029 10 841 0,41720 1 117020 Акмолинская Бурабайский Щучинская г.а. 1 1 13 875 13 674 33 903 1,41592 2 113239 Акмолинская Аккольский Ивановский 2 1 374 360 1 249 0,07283 1 113433 Акмолинская Аршалынский а.о. Жибек Жолы 2 4 559 558 2 050 0,11289 1 Урджарский а.о. Маканшы 2 1 3 117 2 773 11 648 0,25941 1 711110 г. Астана г. Астана район Алматы 1 1 79 627 81 274 256 464 12,03354 12 751110 г. Алматы г. Алматы Алмалинский 1 1 65 939 66 434 168 138 5,15991 5 751910 г. Алматы Медеуский Турксибский 1 1 49 333 49 735 151 982 3,86290 4 636473 ВосточноКазахстанская