База данных демографических показателей по регионам России и странам мира: опыт разработки Сороко Евгений Львович Институт демографии Национального исследовательского университета Высшая школа экономики, старший научный сотрудник, Москва, ул.Мясницкая, д.40, стр.1, к.304, тел. (495) 772-95-90*2166, факс (495) 772-95-90*2458, esoroko@hse.ru Резюме В докладе рассматриваются результаты, полученные в рамках проекта Института демографии НИУ ВШЭ «Разработка Базы данных демографических показателей по регионам России и странам мира». Основное внимание уделяется принципиальным отличиям данной базы от других демографических баз данных. Большой интерес представляют также подводные камни – проблемы, обнаружившиеся в процессе разработки и потребовавшие своего решения. Представляется целесообразным кроме того обсудить методические вопросы, которые еще не нашли своего окончательного решения, в обсуждении которых могут принять пользователи Базы данных. 1. О проекте База данных ИДЕМ В докладе рассмотрены результаты, полученные в 2011-12 гг. при разработке Базы данных демографических показателей в рамках исследовательского проекта Института демографии НИУ ВШЭ, поддержанного Научным Фондом НИУ ВШЭ №1104-0039 «Разработка Базы данных демографических показателей по регионам России и странам мира». В работе приняли участие сотрудники, аспиранты и выпускники НИУ ВШЭ: Е.Сороко, К.Решетников, С.Абылкаликов, И.Аминов, М.Винник, Н.Устюжанина и В.Юмагузин. Формирование как содержания Базы данных (перечня показателей и их временного горизонта), так и интерфейса пользователя основывается на подробном анализе имеющихся источников демографических данных, используемых для пополнения Базы данных. Информационной базой служит широкий спектр различных российских и зарубежных источников данных. Среди них: Центральная база статистических показателей Федеральной службы государственной статистики [1], 1 Демографические ежегодники Росстата [2], база данных «Здоровье для всех» Европейского регионального бюро Всемирной организации здравоохранения [3], базы данных Евростата [4], базы данных статистических служб Швеции [5] и других стран, База данных «Devision: Демографический взгляд» совместного проекта Национального Института Демографических исследований Франции и Центра по изучению проблем народонаселения Экономического факультета МГУ [6], ежегодных демографических докладов «Население России» Института демографии НИУ ВШЭ [7], а также статистических приложений демографического еженедельника Демоскоп Weekly [8]. База данных содержит ключевые демографические показатели, характеризующие регионы Российской Федерации и население стран мира. 2. Общее описание Базы данных ИДЕМ База данных представляет собой коллекцию демографических данных, собранных из различных источников. Основной единицей доступа в Базе данных является демографический показатель. Минимальная порция демографических данных называется в системе "информационный массив" (data cube), который содержит значения одного конкретного показателя, полученных их одного конкретного источника данных в некоторый момент времени. В его качестве может служить база данных, файл, электронное издание или публикация. На конец 2012 года система содержала около 400 массивов. Каждый показатель может иметь один или несколько разрезов - категорий, по которым База данных содержит значения данного показателя, например, по полу, возрасту, периоду, стране, направлению миграции,... Пользователь системы имеет возможность выбрать любой показатель и один из его разрезов. Для сделанного им выбора система формирует результат запроса к коллекции данных "на лету". Фрагмент этого результата изображается на экране в виде таблицы 7*8 с первыми и последними строками и столбцами. Полный результат запроса может иметь форму текстового (CSV) или Excel файла, доступ к которым предоставляется после выбора соответствующей кнопки. Если часть из использованных источников данных по каким-либо соображениям вызывает сомнения или недоверие, пользователь имеет возможность уточнить перечень источников, отметив только те из них, которые его устраивают. В этом случае результат запроса будет пересчитан. Поскольку общее число показателей в Базе данных приближается к сотне, ориентироваться в их длинном списке становится весьма затруднительным. Для облегчения работы с этим перечнем система предоставляет возможности его сужения 2 путем выбора показателей 1) по виду демографических процессов и 2) по характеру индикатора. Первый список содержит 6 позиций: рождаемость, смертность, миграция, брачность, воспроизводство, население. Второй - абсолютные, относительные, возрастные и интегральные показатели. Разработка Базы данных производилась со стремлением реализовать следующий принцип: новые показатели, новые категории населения, новые информационные массивы не требуют корректировки математического обеспечения Базы данных. При разработке Базы данных накоплен определенный опыт описания информационных массивов, в том числе по такой важной характеристике, как единица измерения демографического показателя. Многообразие единиц измерения в разных исходных массивах требуют их синхронизации при формировании результата запроса. В рамках Базы данных пересчет значений показателя, полученных из разных источников и имеющих различные единицы измерения, производится "на лету" при выполнении запроса. Данная функция выполняется автоматически, без участия пользователя. База данных, кроме того, содержит такую дополнительную вспомогательную опцию, как фильтрация значений показателя, которые заведомо содержат ошибку или противоречат современной демографической статистике. Необходимость этого возникла ввиду нередкого попадания таких значений в исходные информационные массивы. Более подробно отличия базы данных ИДЕМ рассматриваются в следующем разделе. 3. Ключевые отличия базы о других известных баз данных 3.1. Множественность значения показателя Среди важных теоретических вопросов на этапе разработки Базы данных следующий: является ли связь показателя и его значения однозначной? В традиционном понимании это связь 1:1 - каждый конкретный демографический показатель может принимать только одно единственное значение. Однако, при решении практической задачи определения значения одного и того же показателя для населения некоторой территории из разных источников, мы зачастую сталкиваемся с проблемой неоднозначности, множественности значений. При этом неизбежно возникает вопрос: можно ли рассматривать значение показателя из одного из источников как «правильное», «истинное», а другие, отличные от него – как ошибочные? [9]. Однозначного ответа на этот вопрос, к сожалению, не существует. Кроме того, в общем случае этот ответ может зависеть от постановки 3 исследовательской задачи: анализируются ли особенности динамики показателя в населении некоторой территории, делается ли сравнение показателя для разных стран, или выявляется структура факторов текущей демографической ситуации. В рамках базы данных ИДЕМ реализован принцип множественности значений показателя: для заданной комбинации категорий некоторого конкретного показателя в ней содержатся ВСЕ, в том числе различные его значения, полученные из исходных информационных массивов. Какое же значение получит пользователь при запросе к Базе данных? В режиме «по умолчанию» из всех имеющихся в Базе данных значений для каждой комбинации значений категорий данного показателя из них будет выбрано значение из наиболее надежного источника. В режиме «источники по выбору пользователя» значение будет выбрано только из отмеченного источника. Если их несколько, то используется принцип выбора как в режиме «по умолчанию». 3.2. Что же такое демографический показатель? Еще один теоретический вопрос, неизбежно встающий при разработке баз данных, – соотношение демографического показателя и категорий населения. Самый распространенный пример: являются ли показатели ожидаемая продолжительность жизни при рождении для женщин и ожидаемая продолжительность жизни при рождении для мужчин двумя различными показателями или это по демографическому содержанию один и тот же показатель, отличающийся только категорией населения, к которому он относится? Другой стороной данной проблемы является экономное хранение в базе данных показателей, близких содержательно. Предлагается обсудить достоинства и недостатки двух альтернативных методов доступа к таким показателям миграции, как численность эмигрантов, численность иммигрантов и нетто-миграция. В одном из методов доступ к ним производится, как трем различным показателям, а в другом - как к одному (численность мигрантов), снабженным дополнительной категорией – направлением миграции. 3.3. Описание информационного массива Важнейшим вопросом при создании базы данных является мета-описание информационных массивов. Оно относится к массиву как целому и дает пользователю возможность идентифицировать его отличия от других источников значений показателя. Текущая версия этого описания состоит из следующих компонент: наименование демографического показателя, название массива, размерность информационного массива, название каждой из категорий, изменяемой в данном массиве по каждой из размерностей, дата загрузки массива в Базу данных, источник данных для данного массива, линк на источник, дата получения значений из источника 4 данных, дата загрузки в Базу и ряд других. Следование принципу гибкости и расширяемости мета-описания в процессе разработки Базы данных приводит к его постоянному развитию при появлении новых источников, показателей, массивов, категорий. Примеры дополнений к мета-описанию, которые произошли в процессе разработки: тип источника, дата издания, дополнительные категории массива – категория и ее значение, которая относится к массиву в целом. В рамках Базы данных подготовка информационного массива и его метаописания была организована в среде и форматах MS Excel, не требует какого-либо другого математического обеспечения и может выполняться на любом персональном компьютере в полностью автономном режиме без связи с другими массивами. Все необходимые для его формирования справочники также организованы в формате Excel. 3.4. Единицы измерения показателей В процессе разработки Базы данных выяснилось, что кроме самих показателей и и информационных массивов, одним из результатов является статистика использованных для их описания различных единиц измерения. Их число уже приблизилось к полусотне. Столь значительное их число явилось весьма неожиданным, а одним из подводных камней, встретившихся при разработке, явилось большое число ошибок и неточностей при ее формировании. При этом возникает новая проблема: как поступить в случае единиц, одинаковых по размерности, но различных по масштабу. Пример - единица измерения такого показателя как численность населения. В ряде источников она может представляться числом лиц (людей), в других – измеряться в тысячах или миллионах человек. Демографические коэффициенты могут быть измерены в расчете на 1000 населения, а в других - используется единица измерения %. Корректное хранения некоторого конкретного показателя в базе данных требует решение задачи, которую можно назвать задачей гармонизации или задачей стандартизации информационных единицы измерения. массивах, То содержащих есть, необходимо, значения данного чтобы во всех показателя, была использована одна и та же единица измерения. Как может быть решена эта задача? На первый взгляд может показаться, что существует только один единственно правильный способ ее решения. Он состоит в том, что для данного показателя выбирается некоторая «правильная», «стандартная» единица измерения. Все информационные массивы, в которых единица измерения совпадает со «стандартной», значения показателя сохраняются в неизменном виде. В тех же массивах, где она отличается от стандарта, все значения в них пересчитываются 5 с использованием коэффициента, равного соотношению единицы измерения в исходном массиве и стандарте. Но можно информационные предложить массивы, и альтернативный содержащий данный подход: все демографический исходные показатель, оставляются неизменными независимо от использованных в них единицах измерения. Пересчет же на «стандартную» единицу измерения производится «на лету» только в процессе формирования запроса к Базе данных. Такой метод может оказаться более подходящим для новых показателей, у которых еще нет устоявшегося стандарта единицы измерения, в случае смены «стандарта», а также при различных стандартах для разных стран мира. Данная функция в настоящее время реализована в Базе данных. Для этой цели разработана структура справочника единиц изменения, обеспечивающая пересчет от одной единицы измерения к другой. 3.5. Как обеспечить отсутствие грубых ошибок в Базе данных? Важнейшим критерием качества базы данных является логическая, содержательная корректность значений показателей, которые не противоречат данным статистики. Вопрос - как обеспечить высокое качество базы данных по данному критерию? То есть избавить ее от значений, которые противоречат мировой демографической статистике и науке. Например, было бы невозможно пользоваться такими значениями показателей, как нулевая смертность, общий коэффициент брачности населения в 500 промилле в год или коэффициент суммарной рождаемости в 48 детей на 1 женщину. К большому сожалению, ряд баз данных нередко содержат подобного рода серьезные ошибки. На первый взгляд может показаться, что существует единственно правильный способ ее решения: значения данного показателя должны быть проверены перед загрузкой в базу данных на соответствие существующей науке и статистике. Для всех значений, которые им не соответствуют, должен быть установлен барьер для загрузки в базу данных, они не должны в нее попасть. Значения же, которые не противоречат им, могут быть загружены. Однако для решения данной задачи может быть использован и альтернативный подход [11]. Он состоит в том, что все исходные информационные массивы, оставляются неизменными и загружаются в базу независимо от их значений. Проверка же на допустимость их значений производится «на лету» только в процессе формирования запроса к Базе данных. Данный метод может оказаться более подходящим для показателей, у которых имеется значительный тренд в динамике для развитых стран мира или при появлении новых научных знаний. В этом случае 6 решение о том, является ли значение показателя корректным, может быть пересмотрено с использованием «гибкой» коррекции границ допустимых значений конкретного показателя. Данной функция также реализована при разработке данной базы с использованием дополнительных реквизитов для каждого показателя, фиксирующих границы максимальных и минимальных значений. 4. Текущий состав Базы данных В настоящее время сайт Базы данных ИДЕМ содержит следующие основные компоненты: - интернет-страницы: выбора показателя и разреза (http://db.demoscope.ru/bd03.php), списка показателей и разрезов, описания источников демографической информации, общего описания системы, рейтинга источников демографических данных, новое на сайте БД, а также часто задаваемых вопросов; - информационные массивы в форматах xls и txt, нормативно-справочная информация (показателей, категорий, источников, единиц измерения). - документация, использованная при разработке: тексты статей, презентации участников Проекта, инструкции для разработчиков, образцы информационных массивов и другие. Работы по разработке Базы данных продолжаются, а ее результаты постоянно обновляются и расширяются, она находится в стадии постоянной доработки: как функциональной, так и информационной. В 2011-12 гг. результаты этих работ докладывались и обсуждались на семинарах, конференциях и конгрессах, например, на Четвертой Международной научной конференции «Инновационное развитие экономики России: институциональная среда», Москва, МГУ, 20–22 апреля 2011 г.[1], на Второй и Третьей Всероссийской межвузовской студенческой научно-практической конференции «Статистические методы анализа экономики и общества», НИУ ВШЭ, [9], IV Всероссийском социологическом конгрессе в Уфе [10,11], на XIII Апрельской международной научной конференции по проблемам развития экономики и общества НИУ ВШЭ, 3–5 апреля 2012 г. [12]. 5. Перспективы развития Базы данных Текущая версия базы данных может рассматриваться только как первая начальная стадия разработки, которая потребует постоянного обновления и 7 дальнейшего расширения. Среди важных методических вопросов, которые определяют будущее Базы данных, можно отметить следующие: 1) Какие новые показатели необходимо добавить в список показателей? 2) Какие новые разрезы по уже имеющимся показателям необходимо разместить в базе в первую очередь? 3) По каким критериям следует отбирать новые показатели и разрезы для размещения в Базе данных? 4) В чем состоят приоритеты обновления содержимого Базы данных – какие показатели и какие разрезы должны быть заменены более актуальными и в какой очередности? 5) Какие наиболее интересные, надежные, достоверные источники демографических данных желательно добавить? 6) По каким новым критериям качества необходимо оценивать как новые, так и уже имеющиеся источники данных? Несомненную помощь в решении этих и многих других вопросов могут оказать пользователи Базы данных. Поэтому любые замечания, сообщения об обнаруженных ошибках и предложения по совершенствованию системы будут всячески приветствоваться. Разработчики ждут их по электронной почте с пометкой «БД ИДЕМ НИУ ВШЭ». 8 Список источников 1. Центральная база статистических данных. Федеральная служба государственной статистики. http://www.gks.ru/dbscripts/Cbsd/DBInet.cgi 2. Демографический ежегодник России 2010. Статистический сборник. М., Федеральная служба государственной статистики, 2010. http://www.gks.ru/doc_2010/demo.pdf 3. База данных «Здоровье для всех» Европейского регионального бюро Всемирной организации здравоохранения. http://www.euro.who.int/ru/what-we-do/dataand-evidence/databases/european-health-for-all-database-hfa-db2 4. Eurostat. European Commision. Population Statistics. http://epp.eurostat.ec.europa.eu/portal/page/portal/population/introduction 5. Statistics Sweden (SCB). http://www.scb.se/ 6. База данных «Devision»: Демографический взгляд совместного проекта Национального Института Демографических исследований Франции и Центра по изучению проблем народонаселения Экономического факультета МГУ. http://devisiondmo.econ.msu.ru/ 7. Демографический интернет-еженедельник Демоскоп Weekly. Приложения. http://demoscope.ru/weekly/pril.php. 8. «Население России 2009». Семнадцатый ежегодный демографический доклад. Отв. ред. А.Г. Вишневский. М., Изд. дом Высшей школы экономики, 2011. http://demoscope.ru/weekly/knigi/ns_09/sod_r.html (Предыдущие доклады - на http://demoscope.ru/weekly/knigi/books.php). 9. Юмагузин В.В. Анализ источников демографической информации как важнейший этап разработки базы данных демографических показателей // Вторая Всероссийская межвузовская студенческая научно-практическая конференция «Статистические методы анализа экономики и общества», НИУ ВШЭ, 12-13 мая 2011 г. (http://db.demoscope.ru/doc/yum_13_05_2011.doc). 10. Абылкаликов С.И. Сравнительный анализ основных источников данных о миграции населения России // Социология и общество: глобальные вызовы и региональное развитие [Электронный ресурс]: Материалы IV Очередного Всероссийского социологического конгресса / РОС, ИС РАН, АН РБ, ИСППИ. — М.: РОС, 2012. — 1 CD ROM. C. 5415-5420 (http://db.demoscope.ru/doc/aby_ufa.pdf). 11. Сороко Е.Л. Новые функции Базы данных Демографических показателей по регионам России и странам мира // Социология и общество: глобальные вызовы и региональное развитие [Электронный ресурс]: Материалы IV Очередного 9 Всероссийского социологического конгресса / РОС, ИС РАН, АН РБ, ИСППИ. — М.: РОС, 2012. — 1 CD ROM. с. 2881-2884 (http://db.demoscope.ru/doc/sor_ufa.pdf). 12. Сороко Е.Л. База данных демографических показателей по регионам России и странам мира: основные компоненты / XIII Апрельская международная научная конференция по проблемам развития экономики и общества НИУ ВШЭ, 3–5 апреля 2012 г. (http://db.demoscope.ru/doc/soroko_hse_2012.doc). 10