УДК 519.673 2010 Семёнычев В.К., Семёнычев В.В., Коробецкая А.А. Исследование точности метода моделирования и прогнозирования экспоненциальной тенденции на основе обобщенных параметрических ARMA-моделей На тестовых выборках показана высокая точность предложенного метода идентификации экспоненциальной тенденции с аддитивной стохастической компонентой на основе параметрических ARMA-моделей как с использованием метода прореживания выборки, так и метода сглаживания исходных данных. Ключевые слова: моделирование, прогнозирование, метод идентификации, модель, авторегрессия, точность, малые выборки, приемы прореживания, приемы сглаживания. Экспоненциальный тренд относится к числу широко употребляемых в практике эконометрического моделирования социально-экономических процессов и явлений. Он относится к процессам с пределом роста, которые характерны для многих относительных показателей (душевое потребление продуктов питания, внесение удобрений на единицу площади, затраты на один рубль произведенной продукции и т.п.). При мультипликативной стохастической компоненте осуществляют «искусственное» предположение о логнормальности его закона распределения и достигаемая точность мала, а для предложенного в [1, 2] метода моделирования экспоненциальной тенденции, содержащей сумму константы , экспоненты с показателем , множителем и стохастической компонентой , отвечающей условиям Гаусса-Маркова (центрированность, некоррелированность, гомоскедастичность, нормальный закон распределения) Yk A0 A1e 1k k (1) не проведены исследования точности в диапазоне отношения мощностей помеха (стохастическая компонента)/полезный сигнал, при различных значениях параметров и при различных объемах выборки Модели (1) соответствует обобщенная параметрическая модель авторегрессии-скользящего среднего (ARMA-модель) Yk 1Yk 1 Yk 2 k , (2) где k k 1 k 1 k 2 - новая стохастическая компонента (остатки). Оценку параметра в (2) позволяет найти метод наименьших квадратов (МНК): arg min Тогда 1 n Y 1Y k 5 k 1 k оценку Yk 2 . 2 (3) 1 параметра определит соотношение 1 ln . Параметры A0 и A1 входят в модель (1) линейно и могут быть, в силу указанных свойств , легко идентифицированы с помощью МНК, обеспечивающего несмещенность, эффективность и состоятельность оценок A0 , A1 arg min A0 , A1 Y n k 1 k A0 A1e 1 k 2 . Основным источником погрешностей рассматриваемого метода идентификации параметров модели (1) может быть неточное оценивание (в силу смещенности и неэффективности) параметра 1 из-за автокорреляции остатков. Исследования этих погрешностей до настоящего времени отсутствуют и впервые дано в данной статье. Нетрудно показать, что стохастическая компонента k имеет так же, как и k , нулевое математическое ожидание: M [ k ] M [ k ] ( 1) M [ k 1 ] M [ k 2 ] 0 ( 1)0 0 0. Ковариационная матрица для k имеет вид: 1 2 cov( k ) 3 0 ... 0 2 3 0 ... 1 2 3 ... 2 1 2 ... 3 2 1 ... ... ... ... ... 0 0 0 ... 0 0 0 0 0 1 где 1 2 2 (1 2 ) , 2 2 2 2 2 2 , 3 2 . При i j 2, M [ i j ] 0 , то есть существует автоковариация k . Гомоскедастичность ошибки k обеспечивает гомоскедастичность k : M [ i2 ] M [( i ( 1) i 1 i 2 ) 2 ] M ei2 2 i21 2 i21 i21 2 i22 2 2 (1 2 ). Введем следующие обозначения: ak Yk Yk 1 , bk Yk 1 Yk 2 , ck k k 1 , d k k 1 k 2 . Из (3) получим для рассматриваемой выборки * ak bk , bk2 (4) Подставим в (4) ak в явном виде из исходной ARMA-модели и найдем математическое ожидание оценки * : ck bk d k bk bk2 M [ ] M [ ] 2 b k ck bk d k bk ] M [ ck bk d k bk ]. M [ bk2 bk2 * (5) Тогда получим, что смещение оценки * равно: M [ ck bk d k bk ]. 2 b k Величина bk мала при относительно малом отличии друг от друга соседних четырех уровней ряда динамики и, соответственно, велика при значительном их отличии. В отношении стохастической компоненты то же самое можно сказать о величинах ck и d k при соседних уровнях ряда. Величину смещения в (5) можно уменьшать путем увеличения bk , уменьшения ck и d k , то есть необходимо достичь значительного отличия уровней ряда динамики и малого отличия стохастической компоненты. Можно предположить, уменьшение смещения оценки обеспечит и прием прорежения выборки [1]: удаления из рассмотрения (расчета) каждого i-того наблюдения, в результате чего получатся i прореженных выборок. Этим приемом из выборки исключаются наблюдения, обладающие тесной взаимосвязью. Кроме того, снижается дисперсия случайной компоненты. Ограничивает возможный шаг прореживания (количество шагов) уменьшение объема используемой выборки. Нетрудно показать, что прорежение выборки уменьшает и дисперсию оценки * , которая равна N (ck d k bk )bk D[* ] D k 5 N 2 bk k 5 2 N N (ck d k bk )bk (ck d k bk )bk k 5 M M k 5 N N bk2 bk2 k 5 k 5 N N ( c d ) b ( c d ) b k k k k k k M k 5 N M k 5 N bk2 bk2 k 5 k 5 N ( c d ) b k k k D k 5 N , 2 bk k 5 где D[] – оператор дисперсии. Улучшить качество идентификации можно и другим приемом: с помощью сглаживания исходной выборки, при котором исходные данные заменяются выборками, содержащими средние значения из 2-х, 3-х и т.д. наблюдений, присваиваемые средним значениям аргумента интервала сглаживания, что позволяет также уменьшить дисперсию помехи и уменьшить автокорреляцию остатков. Объем используемой выборки при этом также уменьшится. Будем оценивать качество идентификации предложенными приемами с помощью коэффициента детерминации R2, а качество прогноза – с помощью MAPE-оценки [3]. Обоими приемами будем осуществлять идентификацию с использованием различных шагов прореживания и сглаживания, а затем выбирать значение параметра модели и метод, наилучшим образом описывающие исходные данные. Исследование качества идентификации и прогнозирования на тестовых выборках, которые формируются как сумма детерминированной части модели с заданными параметрами и сгенерированной помехи. Для помехи с нормальным законом распределения осуществлялось центрирование и нормирование. Затем ее среднеквадратическое отклонение D Kn/ s задавалось с помощью коэффициента шум/сигнал, характеризующего отношение дисперсии помехи к дисперсии полезного сигнала K n / s 2 2 . D Для характеристики возможного динамического диапазона значений параметров модели варьировались значения параметров (45 сочетаний) в заданных границах с определенным шагом (таблица 1). Таблица 1 – Истинные значения параметров модели в исследовании Параметр A0 A1 1 Минимальное Максимальное Шаг значение значение варьирования 10 50 10 10 20 5 -0,1 0,2 0,15 В начале использовались выборки объемом 24, 36 и 48 наблюдений. Для каждого сочетания параметров модели генерировались 20 выборок. Коэффициент шум/сигнал изменялся в диапазоне от 0 до 35%. В общей сложности для исследования генерировалось 43 200 выборок. Результаты по сгенерированным выборкам усреднялись, что позволило исследовать зависимость качества идентификации и прогнозирования при различной мощности помехи. Результаты исследования качества моделирования при прореживании и при сглаживании представлены на рисунке 1 и в таблице 2. а) 1 0,95 0,9 0,85 0,8 0,75 0,7 0 0,05 0,1 0,15 n = 24 б) 0,2 n = 36 0,25 0,3 0,35 0,3 0,35 n = 48 1 0,95 0,9 0,85 0,8 0,75 0,7 0 0,05 0,1 0,15 n = 24 0,2 n = 36 0,25 n = 48 Рисунок 1. Зависимость R2 от Kn/s при использовании прореживания (а) и сглаживания (б) выборки Видим, что качество идентификации достаточно высокое даже при коэффициенте шум/сигнал 35%. И прореживание, и сглаживание выборки дают приблизительно одинаковый результат. Результаты исследования качества прогнозирования показаны на рис. 2. Средняя ошибка прогнозирования не превышает 15% даже при значительной зашумленности выборки, а при величине шуме до 20% составляет менее 10%. Напомним, что ошибка прогнозирования до 20% считается хорошей. Таблица 2 Значение Kn/s 0,00 0,05 0,10 0,15 0,20 0,25 0,30 0,35 а) R2 при различных величинах шума и объема исходной выборки Истинный R2 1,00000 0,95238 0,90909 0,86957 0,83333 0,80000 0,76923 0,74074 R2 при прореживании n = 24 n = 36 n = 48 1,00000 1,00000 1,00000 0,95614 0,95484 0,95402 0,91539 0,91311 0,91229 0,87779 0,87524 0,87338 0,84314 0,84047 0,83905 0,81157 0,80869 0,80591 0,78280 0,77652 0,77713 0,75586 0,74934 0,74680 R2 при сглаживании n = 24 n = 36 n = 48 1,00000 1,00000 1,00000 0,95556 0,95474 0,95396 0,91510 0,91273 0,91178 0,87721 0,87529 0,87315 0,84247 0,83954 0,83708 0,81033 0,80703 0,80573 0,78013 0,77600 0,77481 0,75200 0,74850 0,74448 0,14 0,12 0,1 0,08 0,06 0,04 0,02 0 0 0,05 0,1 0,15 n = 24 б) 0,2 n = 36 0,25 0,3 0,35 0,3 0,35 n = 48 0,14 0,12 0,1 0,08 0,06 0,04 0,02 0 0 0,05 0,1 0,15 n = 24 0,2 n = 36 0,25 n = 48 Рисунок 2. Зависимость MAPE-оценки от Kn/s при использовании прореживания (а) и сглаживания (б) выборки Кроме средних значений показателей качества идентификации и прогнозирования, интерес представляют и сравнение средних значений оценок параметров модели по отношению к их истинным значениям, а также дисперсия этих оценок и показателей качества идентификации. Для исследования сгенерированы 10 000 выборок объемом 36 наблюдений, глубиной прогноза 12 наблюдений и мощностью шума 10%. Результаты приведены в таблицах 3 и 4. Видим, что средние значения оценок параметров близки к их истинным значениям. Наибольшим разбросом обладают оценки параметра 1 , коэффициент вариации которого составляет около 15%. Вариация R2 составляет менее 1%. При этом ни на одной из 10 000 выборок коэффициент детерминации не составил менее 0,89, а ошибка прогноза не превысила 20%. Таблица 3 Оценки параметров модели и показателей качества идентификации при использовании прореживания выборки объемом 36 наблюдений, глубиной прогноза 12 наблюдений и мощностью шума 10% Параметр Истинное значение Математическое ожидание Среднеквадратическое отклонение Коэффициент вариации Минимальное значение Максимальное значение 1 0,1 R2 0,90836 MAPE 0,064201 90,67 0,1004 0,91353 0,067659 3,7621 4,8125 0,015204 0,0091789 0,0181 0,037814 74,419 109,1 0,053077 75,101 108,5 0,15143 0,049061 0,17087 0,010048 0,89932 0,96199 0,26752 0,017557 0,18716 A0 100 A1 90 99,489 Таблица 4 Оценки параметров модели и показателей качества идентификации при использовании сглаживании выборки объемом 36 наблюдений, глубиной прогноза 12 наблюдений и мощностью шума 10% Параметр Истинное значение Математическое ожидание Среднеквадратическое отклонение Коэффициент вариации Минимальное значение Максимальное значение 1 0,1 R2 0,9082 MAPE 0,064098 90,626 0,10036 0,91322 0,067708 3,8796 4,9008 0,015782 0,0093105 0,018491 0,039005 75,786 109,49 0,054077 73,398 108,32 0,15725 0,047603 0,16709 0,010195 0,89473 0,95968 0,2731 0,020214 0,16822 A0 100 A1 90 99,464 Близость графиков точностных характеристик при выборках в 24, 36 и 48 наблюдения заставила провести исследования и на меньших выборках в 12 и 6 наблюдений. При этом оказалось, что качество моделирования на выборах объемом 12 и 6 наблюдений практически такое же, что и на рисунке 1. Однако, ошибка прогнозирования при выборке в 6 наблюдений (с горизонтом прогноза, как это обычно рекомендуется в от длины выборки, т.е. в 2 наблюдения) практически в два раза больше, чем при 12 наблюдениях, что не позволяет рекомендовать использование таких выборок при соотношении шум/сигнал больше 20%. Значительный интерес представляет и количественная оценка влияния шага прореживания на точность моделирования и прогнозирования, которая был выполнена на тестовых выборках объемом 36 наблюдений в широком диапазоне значений параметров модели. Шаг прореживания изменялся от 1 (без прореживания) до 12 (максимально допустимый шаг при заданном объеме выборки). Зависимость коэффициента детерминации от коэффициента шум/сигнал для выборки приведена на рисунке 3. При шаге прореживания, равном 4-5, качество идентификации становится приемлемым, а при 6-12 шагах прореживания результаты практически не отличаются. 1 нет 0,9 шаг = 2 0,8 шаг = 3 0,7 шаг = 4 0,6 шаг = 5 0,5 шаг = 6 0,4 шаг = 7 0,3 шаг = 8 0,2 шаг = 9 0,1 шаг = 10 0 шаг = 11 0 0,05 0,1 0,15 0,2 0,25 0,3 0,35 шаг = 12 Рисунок 3. Зависимость R2 от Kn/s при различных шагах прореживания Зависимость коэффициента детерминации от шага прореживания при различных шумах показана на рисунке 4. Из рисунка видно, что качество идентификации не уменьшается при увеличении шага прореживания до предельно допустимого. 1 0,9 0,8 0,7 0,6 0,5 0,4 0,3 0,2 0,1 0 1 2 3 4 5 6 шум 10% 7 8 шум 20% 9 10 11 12 шум 30% Рисунок 4. Зависимость R2 от шага прореживания при Kn/s = 0,1; 0,2; 0,3 Итак, приемы прореживания и сглаживания обеспечивают высокую точность моделирования и прогнозирования рядов динамики в широком диапазоне отношения мощностей помехи и полезного сигнала, а также - в широком динамическом диапазоне параметров модели, причем на относительно коротких выборках. Можно рассчитывать на широкое внедрение предложенного метода идентификации тренда с моделью в виде обобщенной экспоненты с аддитивной помехой. Литература 1. Семёнычев В.К. Идентификация экономической динамики на основе моделей авторегрессии. - Самара: АНО «Изд-во СНЦ РАН», 2004. 243 с. 2. Семёнычев В.В. Параметризация обобщенной экспоненциальной функции с аддитивной и мультипликативной стохастической компонентой. Вестник Самарского муниципального института управления. Самара. Изд-во «Самарский муниципальный институт управления». 2008. № 7. – С. 127 -133. 3. Эконометрика /Под ред. И.И. Елисеевой. - М.: Финансы и статистика, 2005. - 575 с. Поступила в редакцию 15.03.2010