close

Вход

Забыли?

вход по аккаунту

Светуньков - бт - Высшая школа экономики

код для вставкиСкачать
Îãëàâëåíèå
Введение............................................................................... 7
Глава 5. Прогнозирование социально-экономических
тенденций ..................................................................... 9
5.1. Изучение структуры временных рядов и выявление
вида тенденций.....................................................................................9
5.1.1. Выявление тенденций в ряде данных
с помощью скользящих средних ................................................ 11
5.1.2. Выявление тенденций с помощью локальных
полиномиальных регрессий (LOESS) ...................................... 17
5.1.3. Изучение структуры временных рядов......................... 25
5.2. Простейшие методы прогнозирования ..................................... 29
5.2.1. Средняя величина................................................................. 29
5.2.2. Naïve .......................................................................................... 31
5.2.3. Сезонный Naïve ..................................................................... 32
5.2.4. Метод дрейфа ......................................................................... 33
5.2.5. Метод средних точек ........................................................... 35
5.2.6. Преимущества и недостатки простейших
методов прогнозирования............................................................. 41
5.3. Модели трендов ................................................................................ 42
5.3.1. Линейный тренд .................................................................... 43
5.3.2. Параболический тренд ........................................................ 44
5.3.3. Показательный тренд .......................................................... 46
5.3.4. Гиперболический тренд ...................................................... 48
5.3.5. Логарифмический тренд .................................................... 49
5.3.6. Степенной тренд ................................................................... 49
5.3.7. Пример прогнозирования с использованием
моделей трендов ............................................................................... 51
5.3.8. Преимущества и недостатки моделей трендов ........... 56
Практикум .................................................................................................. 57
3
Глава 6. Сезонная декомпозиция и тренд-сезонные
модели ........................................................................ 59
6.1. Виды сезонности ............................................................................... 59
6.2. Выявление сезонности ................................................................... 64
6.3. Классическая декомпозиция ........................................................ 69
6.4. Декомпозиция «X-12» .................................................................... 75
6.5. Декомпозиция временного ряда с помощью LOESS ........... 86
6.6. Моделирование сезонных колебаний
с использованием фиктивных переменных ............................ 92
6.7. Прогнозирование с помощью тренд-сезонных
моделей ................................................................................................ 97
Практикум ................................................................................................ 104
Глава 7. Экспоненциальное сглаживание......................107
7.1. Модель простого экспоненциального
сглаживания ..................................................................................... 109
7.2. Стартовые значения в модели Брауна .................................... 127
7.3. Простейшие модификации модели простого
экспоненциального сглаживания ............................................. 140
7.3.1. Простое экспоненциальное сглаживание
с дрейфом.......................................................................................... 140
7.3.2. Модель адаптации к приростам ..................................... 142
7.3.3. Модель экспоненциального сглаживания
сезонных уровней .......................................................................... 145
7.4. Подход пространства состояний ............................................... 148
7.5. Модель Хольта и ее варианты .................................................... 163
7.6. Модель Хольта-Уинтерса и ее варианты ............................... 171
7.7. Автоматизация моделей экспоненциального
сглаживания ..................................................................................... 177
Практикум ................................................................................................ 182
Глава 8. Модели авторегрессии и скользящего
среднего ....................................................................185
8.1. Описание стационарного временного ряда
авторегрессией и скользящей средней.................................... 187
8.2. Нестационарность, методы идентификации
и устранения .................................................................................... 198
8.2.1. Условие стационарности в моделях ARMA .............. 199
8.2.2. Нестационарные процессы и приведение
их к стационарному виду ............................................................ 201
8.2.3. Идентификация нестационарности ............................. 206
4
8.3. Определение порядка модели авторегрессии
с скользящей средней ................................................................... 221
8.4. Учет сезонности в моделях авторегрессии ............................ 233
8.5. Связь между ARIMA и экспоненциальным
сглаживанием .................................................................................. 242
8.6. Преимущества и недостатки моделей ARIMA..................... 246
Практикум ................................................................................................ 250
Глава 9. Построение интервальных прогнозов ..............252
9.1. Параметрические методы построения интервальных
прогнозов........................................................................................... 254
9.1.2. Тренды и тренд-сезонные модели ................................. 262
9.1.3. Модели экспоненциального сглаживания ................. 267
9.1.4. Модели авторегрессии ...................................................... 273
9.2. Непараметрические и полупараметрические методы
построения интервальных прогнозов ..................................... 280
9.2.1. Метод Монте-Карло .......................................................... 280
9.2.2. Построение интервальных прогнозов на основе
неравенства Чебышева ................................................................. 284
Практикум ................................................................................................ 290
Глава 10. Альтернативные методы оценки
коэффициентов прогнозных моделей ...........................292
10.1. Метод наименьших квадратов
с дисконтированием .................................................................... 293
10.2. Общая схема оценивания прогнозных моделей
z-множителями ............................................................................. 305
Практикум ................................................................................................ 327
Глава 11. Метод неравномерного сглаживания .............332
11.1. Метод стохастической аппроксимации
и его модификация ...................................................................... 332
11.2. Коэффициент демпфирования колебаний и границы
фильтра ............................................................................................ 358
11.2.1. Методы задания границ фильтра................................ 358
11.2.2. Методы задания параметра демпфирования
колебаний ......................................................................................... 364
11.3. Адаптация нелинейных моделей методом
неравномерного сглаживания ................................................. 374
Практикум ................................................................................................ 386
5
Глава 12. Модели прогнозирования
макроэкономической динамики ...................................388
12.1. Прогнозирование с использованием
производственных функций .................................................... 389
12.2. Теория Дж. М. Кейнса и базирующиеся
на ней модели ................................................................................ 407
12.3. Модель Солоу и ее развитие
для задач прогнозирования ...................................................... 415
12.4. Имитационные динамические модели .................................. 425
Практикум ................................................................................................ 444
Заключение ....................................................................... 446
Рекомендуемая литература ................................................. 449
Ââåäåíèå
В предыдущем томе мы рассмотрели общетеоретические вопросы социальн о-экономического прогнозирования и обратились к базовым эконометрическим методам,
позволяющим моделировать и прогнозировать различные
зависимости между показателями. Без этих знаний перейти
к практическому прогнозированию крайне затруднительно.
Очевидно, что арсенал методов социально-экономического
прогнозирования не ограничивается только инструментарием корреляционного и регрессионного анализа, а так
же применением элементарных статистических методов.
Кроме того, рассмотренные нами в первом томе методы
и модели предназначены в основном для применения их
в обратимых процессах. В реальности в экономике чаще
встречаются необратимые процессы, в которых использование статистических методов не всегда дает адекватные
результаты. В этих условиях нужно уметь анализировать
динамику прогнозируемого показателя, понимать, что
собой представляет эта динамика, и подбирать подходящую
прогнозную модель.
Ряд исследований в области прогнозирования показал,
что использование сложных, статистически обоснованных
методов, не обязательно ведет к увеличению в точности прогнозов. Так, например, в ходе соревнования M31 в 2000 г.
наиболее точной оказалась модель «Theta», не имеющая
на тот момент никакого статистического обоснования. В то
же время модели авторегрессий, считающиеся статистически обоснованными, оказались недостаточно точными.
В похожем исследовани по туристическим данным2 регрессионные модели оказались самыми неточными прогнозными
1 Makridakis S., Hibon M. The M3 — competition: Results, conclusions and
implications // International Journal of Forecasting. 2000. № 16. Р. 451–476.
2 Athanasopoulos George, Hyndman Rob J., Song Haiyan, Wu Doris C. The
tourism forecasting competition // International Journal of Forecasting. 2011.
№ 27. Р. 822–844.
7
моделями (уступив моделям экспоненциального сглаживания и авторегрессий). Эти результаты, конечно, не говорят
о принципиальной неприменимости методов регрессионнокорреляционного анализа в прогнозировании экономики,
однако они свидетельствуют о том, что практикующий прогнозист должен иметь в своем распоряжении значительно
больший инструментарий методов и моделей прогнозирования, чем предлагает ему математическая статистика.
Именно поэтому в области прогнозирования социальноэкономических процессов и разработан ряд специфических
методов и моделей
Во втором томе учебника мы обращаемся к моделям
и методам прогнозирования тенденций, а также к более
продвинутым методам построения моделей, учитывающим
свойство необратимости экономических процессов, в том
числе и эволюционный характер динамики.
Ãëàâà 5.
ÏÐÎÃÍÎÇÈÐÎÂÀÍÈÅ ÑÎÖÈÀËÜÍÎÝÊÎÍÎÌÈ×ÅÑÊÈÕ ÒÅÍÄÅÍÖÈÉ
В результате освоения данной главы студент должен:
знать
• понятия «тенденция» и «тренд»;
• основные понятия, методы и инструменты количественного
и качественного анализа тенденций социально-экономических процессов;
уметь
• выявлять тип тенденции и подобрать модель тренда;
• оценивать коэффициенты модели тренда и использовать их
для прогнозирования;
• оценивать доверительные границы моделей трендов;
владеть
• методами и методиками анализа структуры временных рядов;
• простыми методами прогнозирования тенденций.
5.1. Èçó÷åíèå ñòðóêòóðû âðåìåííûõ ðÿäîâ è âûÿâëåíèå
âèäà òåíäåíöèé
Стандартный подход к анализу временных рядов и прогнозированию, чаще всего имеющий место на практике,
опирается на априорном предположении о том, что процесс,
с которым сталкивается аналитик, генерируется с помощью
какой-нибудь математической модели. Например1:
yt   t  t
(5.1)
Здесь yt — значение показателя в момент времени t, εt —
случайная компонента, ξt — некоторая детерминированная
функция. Стандартные предположения, накладываемые
1 Лукашин Ю. П. Адаптивные методы краткосрочного прогнозирования
временных рядов : учеб. пособие. М. : Финансы и статистика, 2003. С. 19.
9
на случайную компоненту, заключаются в том, что она распределена нормально с нулевым математическим ожиданием
и некоторой постоянной во времени дисперсией:
 
t ~ N 0,  2
(5.2)
Также считается, что компонента не должна коррелировать с элементами детерминированной функции (условие
гомоскедастичности) и с компонентами на других наблюдениях (отсутствие автокорреляции).
Все эти предположения позволяют в итоге использовать
стандартный подход: определить детерминированную функцию ξt, что позволит дать прогноз показателя Yt и построить
прогнозные доверительные интервалы.
Очевидно, что никакой социально-экономический процесс не генерируется в соответствии с какой бы то ни было
математической функцией — экономическая практика
сложна и многообразна, на любое явление оказывает влияние множество различных факторов, а подобное допущение о «генерации по некоторому принципу» слишком грубо
и некорректно. В реальности мы можем лишь говорить
о том, что мы пытаемся описать то или иное явление или
процесс с помощью некоторой математической функции,
и предполагаем, что выбранная нами модель позволит описать его лучше всех остальных моделей. Именно этот смысл
и вкладывается в предположение о том, что «исследуемый
показатель генерируется в соответствии с функцией (5.1)».
Допущения относительно случайной компоненты обычно
служат некоторым индикатором достижения цели исследователем. Так, если ему удалось построить модель, остатки
которой распределены нормально с постоянной дисперсией
и не коррелируют друг с другом при временных сдвигах, то
это обычно указывает на точность подбора детерминированной функции ξt. Проверка остатков соответствию этих предположений, на практике обычно сводится к проверке статистических гипотез, относительно которых, впрочем, никогда
нельзя сделать однозначного вывода. Проверка гипотез сводится к решению аналитиком вопроса о том, есть ли в имеющихся в его распоряжении данных основания отклонить
нулевую гипотезу или же их нет (см. параграф 3.4). Конечно
же, принятое в итоге решение ни в коей мере не указывает
на наличие или отсутствие автокорреляции, гетероскедастичности и нормальности распределения остатков, а лишь
10
служит индикатором того, стоит ли остановиться на выбранной модели или же имеет смысл подобрать модель получше.
На практике исследователю для прогнозирования зачастую достаточно получить симметрично распределенные
остатки1, что говорит о том, что у модели нет систематических
завышений либо занижений. Исследования, проводившиеся
С. Макридакисом показали, что модели с ненормально распределенными остатками и автокорреляцией могут давать
прогноз не хуже моделей с нормально распределенными
остатками и с автокорреляцией2. Дело в том, что реальность
значительно сложнее и менее предсказуема, чем это представляется в статистических и эконометрических книгах, что
использование сложных статистических моделей не всегда
ведет к увеличению точности прогнозов3.
Итак, можно утверждать, что для корректного моделирования и прогнозирования экономических процессов, нужно
говорить о том, что мы можем описать тот или иной процесс с помощью некоторой математической модели (а возможно, и с помощью нескольких моделей), остатки εt которой должны быть распределены хотя бы симметрично.
Однако для того, чтобы более точно определить, какую
именно математическую модель использовать вместо ξt,
нужно предварительно либо уменьшить ошибку εt, либо
вовсе избавиться от нее.
5.1.1. Выявление тенденций в ряде данных
с помощью скользящих средних
Стандартный подход к уменьшению случайных ошибок
подразумевает сглаживание исходного ряда данных4 с помощью «скользящих средних». Наиболее распространенные
из них — это простая скользящая средняя (Simple Moving
Average (SMA)) и «экспоненциально-взвешенная скользящая средняя» (Exponentially Weighted Moving Average
(EWMA). Рассмотрим эти инструменты подробнее.
1 Семенычев В. К. Семенычев Е. В. Параметрическая идентификация
рядов динамики: структуры, модели, эволюция. Самара : Изд-во СамНЦ
РАН, 2011.
2 Makridakis S. The art and science of forecasting: An assessment and
future directions // International Journal of Forecasting. 1986. № 2. Р. 15—39.
3 Makridakis S., Hibon M. The M3 — competition: Results, conclusions and
implications // International Journal of Forecasting. 2000. № 16. Р. 451–476.
4 Chatfield C. The Analysis of Time Series. An introduction. Chapman &
Hall/CRC, 1995. Р. 13.
11
Простая скользящая средняя рассчитывается по следующей формуле:
SMA  n  : yt ,n 
1 t n
 yj
n j t 1
(5.3)
Здесь yj — фактическое значение показателя на наблюдении j, n — число наблюдений, по которому считается скользящая средняя, которое так же можно назвать «шириной
окна». Эта величина при сглаживании определяется самим
исследователем. Чем больше n, тем более сглаженным будет
ряд, что может привести к элиминированию не только
«шумов», но и важных элементов исходного ряда.
Как видим, в результате применения формулы (5.3) в распоряжении исследователя оказывается ряд данных, состоящий из t — n + 1 наблюдений. Его можно нанести на график
вместе с фактическими значениями, для того, чтобы получить
представление о том, какие тенденции есть в ряде данных.
Обычно при сглаживании используется нечетное число
наблюдений для того, чтобы получить симметрию: в скользящей
средней порядка m = 2k + 1 используется k наблюдений с начала
и k наблюдений с конца окна. В результате этого сглаженный
ряд оказывается короче исходного ряда на 2k наблюдения.
На рис. 5.1 показан сгенерированный нами ряд данных и простая
скользящая средняя третьего порядка, построенная по нему.
50 000
45 000
40 000
35 000
30 000
25 000
20 000
15 000
10 000
5000
0
1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31 33 35 37 39 41 43 45 47
Yt
SMA(3)
Рис. 5.1. Условный ряд данных и SMA(3), построенная по ряду
12
Как видим, простая скользящая средняя такого порядка уже позволяет уменьшить влияние случайных отклонений в ряде данных и определить некоторую наметившуюся тенденцию на последних наблюдениях.
Применение простой скользящей средней более высокого порядка
еще сильнее сглаживает ряд данных (рис. 5.2).
50 000
45 000
40 000
35 000
30 000
25 000
20 000
15 000
10 000
5000
0
1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31 33 35 37 39 41 43 45 47
Yt
SMA(9)
SMA(5)
Рис. 5.2. Условный ряд данных, SMA(5) (пунктирная линия)
и SMA(9) (сплошная линия), построенный по ряду
Как можем заметить, если простая скользящая средняя пятого
порядка еще отклоняется в некоторых частях ряда, реагируя на временные изменения в тенденциях (как это, например, произошло на 36–41
наблюдениях), то простая скользящая средняя девятого порядка уже
становится совсем не чувствительна к этим изменениям и демонстрирует плавную тенденцию к снижению к концу исходного ряда данных.
Получение такого сглаженного ряда данных позволяет
исследователю понять, чего можно ожидать в будущем,
и принять решение о том, какую модель лучше использовать
для описания и прогнозирования наблюдаемых тенденций.
Стоит, однако, заметить, что использование простых скользящих средних слишком высокого порядка может исказить картину из-зауничтожения помимо случайных отклонений еще
и важных элементов исходного ряда, которые прогнозисту стоило бы учесть. Например, сглаживание ряда, использованного
нами в предыдущем примере, убирает важную информацию
о возможном изменении тенденций на последних наблюдениях
13
(с 44 по 48), что может привести к некорректному прогнозу,
как в краткосрочной, так и в среднесрочной перспективе.
По поводу определения порядка используемых простых
скользящих средних четких указаний не существует, имеются лишь некоторые общие рекомендации. Так, в случае,
если ряд данных стационарен, советуют использовать простые скользящие средние высоких порядков, что позволит
с большей вероятностью избавиться от случайных отклонений. Если же ряд нестационарен, стоит использовать простые скользящие средние более низких порядков, так как
такие модели обладают более быстрой реакцией на возможные появления новых тенденций1.
Если скользящая средняя строится по четному числу
наблюдений для сохранения «центрирования», рекомендуется включать на один элемент больше и крайним значениям
задавать веса в половину весов остальных элементов. Например, для расчета SMA(4) можно воспользоваться формулой22
Стоит обратить внимание на то, что в данном параграфе мы рассматриваем модель (5.4) лишь как инструмент
для сглаживания исходного ряда данных. Среди инструментов прогнозирования существует модель под названием
«модель экспоненциального сглаживания» или «модель
Брауна», которая математически очень похожа на модель
(5.4), но используется в других целях, а потому и обладает
несколько другими свойствами. Такая модель будет рассмотрена подробней гл. 7. Пока же мы говорим лишь об инструменте предварительной обработки ряда данных.
50000
45000
40000
35000
30000
1
1
yt 2  yt 1  yt  yt 1  yt 2
2
SMA 4 : yt ,4  2
.
4
25000
20000
Экспоненциально взвешенная скользящая средняя, упомянутая нами ранее, рассчитывается по формуле
15000
yt  yt  1    yt 1 ,
10000
(5.4)
где yt — фактическое значение ряда на наблюдении t; yt —
расчетное значение по скользящей средней на наблюдении t;
α — постоянная сглаживания, коэффициент, который характеризует степень отсева шумов и выбирается из промежутка
(0; 1). Чем ближе значение α к нулю, тем сильнее происходит
сглаживание исходного ряда данных. При значениях α, близких к 1, модель сильнее реагирует на случайные отклонения,
при этом так же быстрее реагируя на систематические изменения в ряде данных. Для получения именно сглаженного ряда
обычно используют более узкий предел от 0,1 до 0,33.
1 Brown Robert Goodell. Smoothing, Forecasting and Prediction of Discrete
Time Series. Englewood Cliffs, NJ : Prentice-Hall, 1963. Р. 99.
2 Chatfield C. The Analysis of Time Series. An introduction. Chapman &
Hall/CRC, 1995. Р. 18.
3 Gardner E. S. Exponential smoothing: the state of the art // Journal of
Forecasting. 1985. № 4. Р. 1–28.
14
5000
0
1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31 33 35 37 39 41 43 45 47
Yt
EWMA (D 0,1)
Рис. 5.3. Условный ряд данных и ряд, сглаженный моделью
EWMA с α = 0,1
Модель (5.4) для сглаживания ряда данных требует задания стартового значения y0 . Один из самых простых вариантов задания этого значения — простая скользящая средняя
3—5 порядка по первым наблюдениям1.
1 Brown Robert Goodell. Smoothing, Forecasting and Prediction of Discrete
Time Series. Р. 100.
15
На рис. 5.3 показан тот же ряд, что был использован нами ранее,
но уже сглаженный с помощью модели EWMA с α = 0,1. Как видим,
при таком малом значении параметра сглаживание происходит слишком медленно и ряд значительно отстает от исходного. Впрочем, это
легко объяснимо тем, что мы в нашем примере пытаемся сгладить
нестационарный ряд, в то время как модель предназначена для сглаживания стационарных рядов данных.
Другой пример сглаживания с помощью EWMA представлен
на рис. 5.4. Ряд данных, использовавшийся для примера — это ряд
№ 69 из базы временных рядов «M3». Можно заметить, что ряд близок к стационарному, поэтому с его сглаживанием справились как
EWMA с α = 0,1, так и EWMA с α = 0,2 и α = 0,3. Отметим, что модель
экспоненциально взвешенного скользящего среднего с α = 0,3 сильнее
остальных отреагировала на незначительные изменения, происходившие в исходном ряде данных.
6000
5000
4000
3000
2000
1000
исходного ряда (например, модель линейно взвешенной
скользящей средней). Однако упомянутые нами модели —
наиболее просты и популярны среди прогнозистов.
Проведя сглаживание исходного ряда данных либо
с помощью модели SMA, либо с помощью модели EWMA,
можно выявить наличие сезонности или определить сложившиеся на конец ряда тенденции для того, чтобы выбрать
подходящую прогнозную модель.
5.1.2. Âûÿâëåíèå òåíäåíöèé ñ ïîìîùüþ ëîêàëüíûõ
ïîëèíîìèàëüíûõ ðåãðåññèé (LOESS)
Метод локальных полиномиальных регрессий (от англ.
LOcal regrESSions — «LOESS» или LOcally WEighted
Scatterplot Smoother — «LOWESS») разработал В. С. Кливленд в 1979 г.11 Идея метода заключается в том, чтобы
сгладить ряд значений, используя простую линейную либо
полиномиальную зависимость Y от x. Однако при этом предлагается строить модель не по всему ряду данных, а по его
отдельным частям. Такой подход фактически позволяет
построить простые регрессии для эволюционных рядов
данных, так как при расчете коэффициентов используются
лишь наиболее актуальные данные.
Рассмотрим метод локальных регрессий подробнее.
Идея метода заключается в том, чтобы рассчитать множество регрессий, центрами каждой из которых поочередно
являются значения xi из ряда данных. При этом в расчете
должны использоваться только некоторые точки xj, находящиеся на заданном расстоянии от xi, такие, что
j i  r ; i  r  ,
19
75
19
76
19
77
19
78
19
79
19
80
19
81
19
82
19
83
19
84
19
85
19
86
19
87
19
88
0
ser. 69
EWMA(D 0,1)
EWMA(D 0,2)
EWMA(D 0,3)
(5.5)
где r — заданное исследователем натуральное число, рассчитываемое по формуле
r  N ,
(5.6)
Рис. 5.4. Ряд данных № 69 из базы рядов «M3» и ряды,
сглаженные моделью EWMA с α = 0,1 (пунктирная линия), α =
0,2 (сплошная линия) и α = 0,3 (сплошная линия с крестиками)
где x обозначает округление числа x до целого по правилам
математического округления; N — число наблюдений в выборке;  0;1 — коэффициент сглаживания, по своему
Помимо рассмотренных нами моделей простой
и экспоненциально взвешенной скользящих средних, существуют и другие модели, использующиеся для сглаживания
1 Cleveland William S. Robust Locally Weighted Regression and Smoothing
Scatterplots // American Statistical Association. Vol. 74. № 368 (Dec. 1979).
Р. 829–836.
16
17
2) W(z) = 0, если z  1 ;
3) W( –z) = W(z);
4) W(z) не увеличивающаяся функция для .
Первое условие позволяет задать функцию и ограничить
ее некоторым промежутком, второе — исключить из рассмотрения точки, выходящие за заданные границы, третье — задать одинаковые веса равноудаленным точкам слева
и справа от центра. Последнее, четвертое условие, позволяет
удаленным от центра точкам задать не больший вес, чем точкам, близким к центру.
Можно выбрать множество различных функций,
удовлетворяющим данным условиям. Кливленд предложил
для этого использовать биквадратную либо трикубическую
функции:


(5.7)


(5.1.8)
2

2
 1 z , z  1
WB  z   

0, z  1
и
3

3
, z 1
 1 z
WT  z   
.

0,
z
1


18
В данном случае z — это переменная расстояния,
характеризующая удаленность наблюдений от центральной
точки. В самой центральной точке z = 0.
На рис. 5.5 графически изображены биквадратная функция (5.7) и трикубическая функция (5.8).
0,6
0,3
0,0
WB(z)
0,9
1) Биквадратная функция
–1,0
–0,8
–0,6
–0,4
–0,2
0,0
0,2
0,4
0,6
0,8
1,0
0,2
0,4
0,6
0,8
1,0
0,6
0,3
WT(z)
0,9
2) Трикубическая функция
0,0
смыслу похожий на постоянную сглаживания в EWMA. Чем
ближе β к 0, тем меньше наблюдений включается в рассмотрение, а значит сильнее учитываются точки, близкие к xi.
При β = 1 получаем простую регрессию, построенную по всему ряду данных.
Каждому из значений, попавших в окно заданной
ширины, задаются некоторые веса по принципу: чем дальше
находится наблюдение от xi, тем меньше должен быть его
вес. Например, на некоторой итерации рассчитывается
регрессия с центром в x41 и r = 4, т.е. в расчете регрессии так
же используются значения x37, x38, x39, x40 и x42, x43, x44, x45.
Веса у наблюдений x37 и x45 должны быть минимальными,
в то время как вес центра, наблюдения x41 — максимальным.
Возникает вопрос, как задать веса для этих наблюдений?
Для этого вводится функция весов W(z), такая, что:
1) W(z) > 0, если z  1 ;
–1,0
–0,8
–0,6
–0,4
–0,2
0,0
Рис. 5.5. Распределение весов по биквадратной
(график сверху) и трикубической (график снизу)
функциям в зависимости от значений z
Как видим, функция (5.7) предполагает более гладкое распределение весов, чем функция (5.8): значения, располагающиеся ближе к центру по биквадратной функции, имеют
большие веса, чем по трикубической.
Стоит так же заметить, что сумма весов, распределенных по весовым функциям (5.7) и (5.8), не равна единице. Действительно при построении LOESS несколько
наблюдений могут оказаться на очень близком расстоянии
от центральной точки, а значит и веса у них будут близкими
к 1. Очевидно, что сумма весов в таком случае будет больше
единицы. Однако условие равенства суммы весов единице
для построения LOESS не требуется, так как при расчетах
коэффициентов локальных регрессий важно не то, какие
именно веса имеют наблюдения, а то, как эти веса распределяются между ними.
После того как веса заданы, взвешенным методом наименьших квадратов рассчитываются оценки коэффициентов
либо локально-линейной
yˆ j  a0  a1x j ,
(5.9)
19
либо локально-полиномиальной регрессии:
yˆ j  a0  a1x j  a2 x 2j  ...  an x nj .
(5.10)
Обычно для построения LOESS используются полиномы
не выше второй степени, так как использование более высоких степеней сопряжено с вычислительными сложностями,
сглаживание исходного ряда данных при этом осуществляется неэффективно, да и полученные при этом локальные
регрессии не несут в себе какого бы то ни было смысла.
К тому же известно, что полиномы высоких степеней дают
неустойчивые прогнозные оценки.
После этого шага в распоряжении исследователя оказывается модель, на основе которой рассчитывается значение
yˆi при данном xi. Сама модель и ее коэффициенты обычно
интереса не представляют, а вот расчетное значение yˆi сохраняется. Далее происходит переход к следующей точке, расчет весов, расчет коэффициентов новой модели, и так далее,
до тех пор, пока не будут получены yˆi для всех наблюдений,
после чего в распоряжении исследователя оказывается сглаженный ряд Yˆ , с которым далее уже можно работать.
Рассмотрим методику построения LOESS шаг за шагом:
1. Выбирается i-е наблюдение. Очевидно, что на первом
шаге i = 1.
2. Исследователь задает коэффициент сглаживания β.
3. Для выбранной i-й точки рассчитывается расстояние
hi от xi до наиболее удаленной от него точки, вошедшей
в интервал (5.5):
hi  max x i  x j ,
j
(5.11)
20
ir
 
a  arg min  w j y j  yˆ j
j i  r
(5.12)

2
(5.13)
6. В случае если исследователю нужны робастные
оценки коэффициентов (оценки, устойчивые к выбросам),
то осуществляется переход к шагу 7. Если же такие оценки
не нужны, то происходит переход к первому шагу, выбирается следующее наблюдение.
7. По построенной на шаге 5 регрессии рассчитываются
остатки: e j  y j  yˆ j, по которым находится медиана: e  Me e j .
На основе медианы рассчитывается медианное абсолютное отклонение:
MAD  Me e j  e .
(5.14)
Использование данной статистики обусловлено тем, что
в случае несимметрично распределенных остатков, а так
же больших «выбросов», MAD считается более адекватной
и робастной оценкой нежели, например, стандартное отклонение.
Кроме того у этой величины есть полезное свойство,
характеризующее связь MAD со стандартным отклонением
нормальн о распределенной величины, использу ющееся
в статистике:
  1.4826  MAD 1.
где j i  r ; i  r  .
Формула (5.9) позволяет выбрать максимальное из всех
расстояний от центральн ой точки до точек, вошедших
в интервал.
4. Рассчитываются веса для каждой j-й точки, попавшей
в окно на основе выбранной весовой функции:
 x j  xi 
w j  xi   W 
,
 hi 
На данном шаге обычно отдается предпочтение трикубической функции (5.8).
5. Рассчитываются коэффициенты выбранной модели
(либо (5.9), либо (5.10)) взвешенным МНК:
(5.15)
8. После получения MAD на предыдущем шаге на основе
остатков рассчитываются новые (робастные) веса для каждого наблюдения:
 ej

j W 
.
 6  MAD 
(5.16)
1 Ruppert David. Statistics and Data Analysis for Financial Engineering.
Springer New York, 2011. Р. 118.
21
120
20
0
40
60
ß 0,5
80
100
120
20
0
40
60
ß 0,25
80
100
120
100
80
60
Рис. 5.6. Ряд данных № 1683 из базы M3 и его сглаживание с помощью LOESS с разными значениями
коэффициента сглаживания
120
20
0
40
60
ß 0,75
80
100
120
20
0
40
60
ß 0,3
80
100
120
100
80
20
0
40
60
ß 0,15
ß 0,1
40
20
0
3000
5400
3800 4600
Yt
5400
3000
3800 4600
Yt
5400
22
3000
1 Cleveland William S. Robust Locally Weighted Regression and Smoothing
Scatterplots. Р. 834.
2 Интернет-сайт программы: http://www.r-project.org/. Здесь и далее
мы будем использовать эту программу для построения некоторых сложных
моделей и графиков. Программа распространяется под лицензией GPL.
О том, как работать с «R» можно узнать на страницах онлайн учебника
Р. Хиндмана: http://otexts.com/fpp/using-r/.
Yt
5400
Yt
На рис. 5.6. показан ряд данных № 1683 из базы рядов M3 (это ряд
по отгрузке продукции), сглаженный LOESS (построенной средствами
программы «R»22) с робастными оценками (m = 2) и разными коэффициентами сглаживания.
3800 4600
3800 4600
(5.17)
10. Шаги 7—9 повторяются m раз, после чего осуществляется переход к шагу 1, выбирается следующее наблюдение.
Обычная рекомендация по числу итераций m — это задать
его равным 2, так как за две итерации обычно удается получить робастные оценки yˆi 1.
3000
.
5400
2
Yt
j i  r

3800 4600

3000

5400
ir
a  arg min   j  w j y j  yˆ j
3000
Использование такой величины позволяет убрать из рассмотрения все крайне редкие события, лежащие за пределами четырех стандартных отклонений (вероятность таких
событий ниже 0,00004), которые можно классифицировать
просто как «выбросы», искажающие картину мира.
Деление ошибок на 6MAD приводит к тому, что в соответствии с формулами весовых функций наблюдения, лежащие
близко к «выбросам», получают очень низкие веса, а наблюдения наиболее отдаленные от них — веса повыше.
9. После получения ряда новых весов, рассчитываются
новые коэффициенты выбранной модели (опять же, либо
(5.9), либо (5.10)) взвешенным МНК:
Yt
6  MAD  4  .
3800 4600
В качестве весовой функции здесь обычно используется
биквадратная функция (5.7).
У читателя может возникнуть правомерный вопрос:
почему в знаменателе берется именно 6MAD, а не какоенибудь другое число. Из формулы (5.15) следует, что:
23
24
7000
6000
5000
2000
3000
4000
Yt
Как было замечено ранее, сами модели, коэффициенты которых рассчитываются на шаге 5 (или 9 — в случае с робастными оценками), в анализе и прогнозировании
обычно не используются. Однако при прогнозировании эволюционных процессов можно прибегнуть к последним полученным оценкам и дать прогноз y для ожидаемого значения
x — в оценке коэффициентов такой регрессии используются
не все наблюдения, а только последние, поэтому и при прогнозировании будет использоваться только та часть ряда,
которая характеризует последнее актуальное состояние объекта исследования. Нужно, однако, иметь в виду, что полученный в результате этого прогноз в большой степени будет
зависеть от выбранного значения коэффициента сглаживания. Кроме того, в таком случае нужно четко понимать,
какие части LOESS соответствуют последним наблюдениям.
Так, когда в качестве независимой переменной используется время (или номер наблюдения t), подобное упорядочение осуществляется автоматически. В результате этого
можно взять модель, полученную на последнем наблюдении,
и дать прогноз по намеченной тенденции. Например, для случая, показанного на рис. 5.6 по LOESS с β = 0.5, можно дать
прогноз на несколько наблюдений вперед.
Если же мы рассматриваем зависимость y от некоторого
x, определить последние наблюдения может быть крайне
затруднительно, если вообще возможно.
Например, на рис. 5.7 показана точечная диаграмма
по перевозке пассажиров на трамваях и численности населения с доходами ниже прожиточного минимума, а так же эта
зависимость, сглаженная LOESS.
Важная черта, которую можно отметить по этому графику, заключается в том, что зависимость между указанными факторами с течением времени изменилась, причем
достаточно ощутимо. LOESS, сгладившая эту зависимость,
прекрасно показала произошедшие трансформации. Однако
прогноз по LOESS дать затруднительно: последние наблюдения на самом деле соответствуют точкам, лежащим в левом
нижнем углу графика, что можно было бы выяснить, лишь
проанализировав исходные данные.
8000
Как видим, при малых значениях β веса распределяются таким
образом, что итоговые значения yˆi сильнее реагируют на колебания
в ряде данных и отклоняются от линии тренда. При β = 0,5 уже наблюдается достаточно плавная тенденция, по которой можно попробовать
дать прогноз.
20
25
30
35
40
45
50
Рис. 5.7. Точечная диаграмма по перевозке пассажиров
на трамваях (ось ординат) и численности населения
с доходами ниже прожиточного минимума (ось абсцисс)
и сглаженная зависимость между этими факторами1
5.1.3. Изучение структуры временных рядов
Для того чтобы выяснить, какими характеристиками
обладает временной ряд и какую модель лучше применить
для его описания, обычно рассчитывают коэффициенты
автокорреляции.
Коэффициент автокорреляции порядка τ — это коэффициент корреляции между значениями ряда на наблюдении t и этим же рядом, сдвинутым на заданную величину τ.
Он показывает, влияет ли линейно на значение y в данном
периоде значение y, полученное τ наблюдений назад. Рассчитать его можно по формуле
1 Данные с сайта Федеральной Службы Государственной Статистики
Российской Федерации: www.gks.ru. Режим доступа — свободный.
25
 
cov  yt , yt  
V  yt  V  yt  
,
(5.18)
где cov  yt , yt   — ковариация между текущим значением
ряда и значением τ шагов назад, а
— дисперсия исследуемого показателя. Формулу (5.18) можно представить в виде
сумм, если подробно расписать, как рассчитывать ковариацию и дисперсии:
T 
 
  yt  yt  yt   yt  
t 1
T 
t 1
где yt 
2 T 
  yt  yt     yt   yt  
,
(5.19)
2
t 1
1 T 
1 T 
 yt , yt  
 yt  .
T   t 1
T   t 1
Обычно для упрощения расчетов вводится допущение
о том, что в исходном ряде данных дисперсия и математическое ожидание y остаются постоянными (исследователь
считает коэффициенты автокорреляции для строго стационарного процесса), поэтому считается, что: D  yt    D  yt 
и yt   yt  y . При таких предположениях формула (5.19)
принимает вид1
1 T 
  y  y  yt   y 
T   t 1 t
 
.
2
1 T
  yt  y 
T t 1
(5.20)
Конечно, обычно предполагается, что расчет коэффициентов автокорреляции нужно осуществлять по ряду данных, приведенному к стационарному виду. Однако стоит заметить, что
данное допущение на практике выполняется редко и преобразование ряда к стационарному не всегда возможно и имеет смысл.
Формулу (5.19) можно рассматривать как функцию от величины сдвига τ. Называется такая функция «Автокорреляционной
1 Афанасьев В. Н., Юзбашев М. М. Анализ временных рядов и прогнозирование : учебник. 2-е изд., перераб. и доп. М. : Финансы и статистика ;
ИФРА-М, 2010. С. 259.
26
функцией» (АКФ или ACF — от англ. «Autocorrelation function»).
По значениям автокорреляционной функции можно судить
о том, какими характеристиками обладает изучаемый временной
ряд: стационарен он или нет, есть ли в нем сезонность, наблюдается ли зависимость текущих значений от предыдущих.
Второй важный показатель, рассчитываемый обычно
наравне с коэффициентом автокорреляции — это коэффициент частной автокорреляции. Его смысл заключается в том,
чтобы оценить линейное влияние предыдущих значений
на текущее, без учета влияния промежуточных значений. Так,
если некоторое значение ряда в момент t зависит от значения
на наблюдении t — 1, то, очевидно, что значение на t — 1 в свою
очередь зависит от t — 2. А раз так, то и значение t будет зависеть от t — 2. Для примерной оценки частной автокорреляции
на практике обычно используется следующая формула1:

1,   1

1
     
     j 1 1  j
.
,  1

1
 1    1 j
j 1

(5.21)
где   — значение коэффициента частной автокорреляции,
а ρτ — значение коэффициента автокорреляции для сдвига τ.
Как видим, значения коэффициентов (5.19) и (5.21)
для первого лага совпадают. Если рассмотреть для наглядности один из случаев, когда τ = 2, то формула (5.21) примет вид
2 
2  11 2  21

.
1  11
1  21
Так, в случае, если первое значение коэффициента корреляции, например, оказалось равным 0,9, а второе — 0,81, то
второе значение коэффициента частной автокорреляции будет
2 
0,81  0,92
1  0,92

0,81  0,81
0.
1  0,81
Это сигнализирует о том, что на самом деле линейной связи между значением на наблюдении t и значением
1 Box George E. P., Gwilym M. Jenkins. Time Series Analysis: Forecasting
and Control, Revised Edition, Oakland, CA: Holden — Day, 1976. С. 497.-
27
на наблюдении t — 2 нет. Полученное значение коэффициента автокорреляции для второго лага объясняется тем, что
в исследуемом ряде данных каждое наблюдение линейно
зависит от предыдущего.
Если по аналогии с АКФ формулу (5.21) рассмотреть как
функцию от лага τ, то будет получена частная автокорреляционная функция (ЧАКФ или PACF — от англ. «Partial
autocorrelation function»). ЧАКФ является второй важной
характеристикой временного ряда. Для расчета АКФ
и ЧАКФ по ряду данных11 обычно берут  
n
.
4
Чтобы оценить характеристики временнóго ряда, обычно
по всему ряду рассчитываются АКФ и ЧАКФ, которые затем
представляются графически. Графики, на которых по одной
оси откладываются значения АКФ и ЧАКФ, а по другой — τ,
называются коррелограммами.
–1,0
PACF
–0,2 0,6 –1,0
ACF
–0,2 0,6
На рис. 5.8 приведен пример коррелограммы для ряда № 2568
из базы рядов M3.
Рис. 5.8. Коррелограммы по автокорреляционной
и частной автокорреляционной функциям для ряда № 2568
из базы рядов M3
На коррелограмме прямыми вертикальными линиями показываются
значения коэффициентов автокорреляции и частной автокорреляции
1 Афанасьев В. Н., Юзбашев М. М. Анализ временных рядов и прогнозирование : учебник. 2-е изд., перераб. и доп. С. 259.
28
для соответствующих лагов τ. Кроме того, горизонтальными пунктирными линиями показаны доверительные границы. Если значение коэффициента автокорреляции или частной автокорреляции не выходит
за этот интервал, то считается, что коэффициент на этом лаге оказался
статистически не значимым. В данном механизме заложена статистическая проверка гипотез, где нулевая гипотеза заключается в том, что
данный коэффициент автокорреляции равен нулю. Если же значение
вышло за рамки интервала, то гипотеза отклоняется, значит, значение
ряда на этом лаге оказывает существенное влияние на текущее значение.
Так, по коррелограмме, показанной на рис. 5.8, видно, что значимыми
оказались многие коэффициенты (что сигнализирует о нестационарности ряда), но, что более важно, значимыми оказались коэффициенты
автокорреляции и частной автокорреляции на 12 лаге. Обычно это указывает на наличие сезонности в исследуемом ряде данных.
К интерпретации различных видов коррелограмм и их
применению в анализе временных рядов мы перейдем
в параграфе 8.3.
5.2. Ïðîñòåéøèå ìåòîäû ïðîãíîçèðîâàíèÿ
Иногда для целей прогнозирования (исходя из принципа
минимума затрат) исследователю не имеет смысла строить сложные математические модели. Для получения простого и быстрого прогноза на несколько наблюдений вперед можно использовать и более простые математические
методы. Кроме того, как мы отмечали ранее, более сложные
математико-статистические модели не всегда дают более
точные прогнозы. Знание простейших методов прогнозирования значительно облегчает работу прогнозиста.
5.2.1. Средняя величина
В качестве самой простой прогнозной модели можно
использовать среднюю величину либо по всему ряду, либо
по его части. В данном случае неявно предполагается, что
мы либо имеем дело со стационарным процессом, либо считаем, что на прогнозируемом промежутке никаких серьезных
отклонений от средней по ряду не произойдет. В общем виде
прогноз на h наблюдений вперед по такой модели может
быть записан следующим образом:
yˆT h  y 
1 T
 yt ,
T t 1
(5.22)
где yt — фактическое значение ряда на наблюдении t; n — число наблюдений, включенных в расчет средней; h — срок прогнозирования; yˆT h — прогноз по модели на наблюдение T + h.
29
В данном методе предполагается, что все n наблюдений,
по которым считается средняя величина, одинаково важны
для исследователя в формировании прогноза: каждое наблюдение получает одинаковый вес, равный 1/T. В случае со стационарными процессами это предположение имеет полное право
на существование. В случае с нестационарными и необратимыми
процессами оно уже может быть поставлено под сомнение.
Для прогнозирования условного ряда, использованного
нами в предыдущем параграфе, можно использовать среднюю
величину по последним пяти наблюдениям, так как в конце
ряда наблюдается некоторая стабилизация. В таком случае мы
предполагаем, что в будущем значения показателя будут сохраняться на том же уровне. Прогноз в таком случае будет представлять собой прямую линию, параллельную оси абсцисс.
Условный ряд данных и прогноз по средней арифметический
для него представлены на рис. 5.9.
50 000
45 000
40 000
35 000
30 000
25 000
20 000
15 000
5.2.2. Naïve
Более простой метод прогнозирования в зарубежной
литературе называется «Naïve» — «наивный» метод. Данное
название достаточно условно, так как, в принципе, практически любой метод прогнозирования можно назвать «наивным», из-за того, что всегда предполагается сохранение тех
или иных тенденций в будущем.
Используя данный метод, исследователь предполагает, что
наилучшим прогнозом на h шагов вперед является значение,
равное фактическому, полученному на последнем наблюдении:
yˆT h  yT .
(5.23)
В этом случае в качестве прогноза мы так же, как и в случае со средней величиной, получаем прямую линию, параллельную оси абсцисс. Однако в отличие от простой средней
величины, здесь предполагается, что только одно (последнее)
наблюдение важно для получения прогноза, все остальные
не нужны и могут только исказить его. Данное предположение
может выполняться в случае с эволюционными процессами.
Конечно же, при использовании этого метода существует
опасность получить прогноз, сформированный под влиянием
случайной ошибки, однако его простота позволяет получить
прогноз очень быстро, без каких-либо затрат. В краткосрочной перспективе прогноз, полученный по этому методу, зачастую оказывается достаточно достоверным.
На рис. 5.10 для сравнения в увеличенном масштабе показаны прогнозы, полученные по средней величине и по методу Naïve.
10 000
16 000
5000
0
14 000
1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31 33 35 37 39 41 43 45 47 49 51 53
Рис. 5.9. Условный ряд данных (сплошная линия с точками)
и прогноз по нему (линия с крестиками) с использованием
средней величины.
12 000
10 000
8000
6000
На первый взгляд, может показаться, что для нашего условного ряда
прогноз, полученный с помощью средней величины, не может быть достоверным, однако это не так. Исследуемый ряд данных не обязательно должен иметь в будущем тенденцию к возрастанию либо убыванию, несмотря на то, как показатель менялся в прошлом. Стоит заметить, однако,
что окончательный вывод о том, может ли в будущем действительно
наблюдаться та или иная тенденция, можно сделать лишь на основе изучения объекта исследования и среды, в которой он находится.
30
4000
2000
0
1
3
5
7
9
11
Рис. 5.10. Условный ряд данных и прогноз по нему
с использованием средней величины (сплошная линия
с крестиками) и метода Naïve (пунктирная линия с кружками)
31
Как видим, для нашего условного ряда данных прогнозы по этим двум методам практически совпали: прогноз
по Naïve оказался незначительно выше прогноза по средней
величине. Отдать однозначное предпочтение какому-либо
из этих двух методов в данном случае затруднительно.
5.2.3. Сезонный Naïve
В случае с сезонными рядами данных простейшим можно
признать метод прогнозирования, аналогичный методу Naïve.
Если в простом Naïve главным предположением выступало
то, что лучшим прогнозом на ближайшую перспективу является последнее фактическое значение, то в сезонном Naïve
считается, что лучший прогноз на следующее наблюдение —
фактическое значение, полученное сезон назад. Например,
если перед аналитиком стоит задача дать прогноз по ежемесячным продажам горных лыж на год вперед, то он, очевидно, столкнется с сезонным рядом данных (зимой продажи лыж явно выше, чем летом, а каждый декабрь можно
ожидать всплеск продаж) и лучшим прогнозом, например,
на январь 2015 г., по методу сезонного Naïve в таком случае
является значение за январь 2014 г.
Записать модель сезонного Naïve можно следующим образом:
yˆT h  yT h s ,
(5.24)
где s — лаг сезонности. Например, для ежемесячных данных
s = 12.
Очевидно, что метод будет хорошо работать только в случае с рядами данных без тенденций к росту либо снижению.
Кроме того, в прогнозе по данному методу никак не используются старые данные, что в случае со стационарными процессами некорректно.
Как видим, в приведенном примере простой прогноз
по модели сезонного Naïve оказался достаточно точным —
он повторяет динамику исходного ряда и позволяет в целом
прогнозировать сезонные всплески. Однако из-за того, что
в прогнозе использовались лишь значения за 1990-й г., прогноз вобрал в себя случайные отклонения в этом году и оказался несколько завышенным. Если бы в расчете сезонных
значений мы учитывали и более старые данные, то в данном
случае, скорее всего, получили бы более точный прогноз.
Однако это потребовало бы значительно большей вычислительной работы.
32
На рис. 5.11 приведен пример сезонного ряда данных без сильных
тенденций к росту либо снижению (ряд № 1100 из базы M3) и прогноз
для этого ряда данных по сезонному Naïve.
9000
8000
7000
6000
5000
4000
3000
2000
1000
0
янв. 85 янв. 86 янв. 87 янв. 88 янв. 89 янв. 90 янв. 91 янв. 92
Рис. 5.11. Ряд данных № 1100 из базы M3 (сплошная линия
с точками), прогноз по ряду по сезонному Naïve (сплошная
толстая линия)
5.2.4. Метод дрейфа
В случае если в ряде данных наблюдаются некоторые тенденции к росту либо снижению, исследователь может воспользоваться методом дрейфа (в иностранной литературе
он носит название «Drift»), суть которого сводится к проведению прямой линии через две выбранные исследователем
точки. Чтобы сделать это, рассчитывается угол наклона прямой линии между этими двумя точками по формуле
b
yt  yt k
,
k 1
(5.25)
где t — номер второго из выбранных наблюдений, t — k — номер первого из выбранных наблюдений, k — число наблюдений между выбранными точками.
Получив таким образом оценку угла наклона прямой
линии, можно построить прогноз по методу дрейфа:
yˆt h  yt  b  h ,
(5.26)
где h — горизонт прогнозирования.
33
Исследователь волен сам выбирать точки, через которые провести прямую линию, что является преимуществом
метода, однако иногда выбор этих двух точек сам по себе
является нетривиальной задачей — при выборе разных значений прогноз может различаться разительно.
В качестве примера на рис. 5.12 приведен ряд данных № 677 из базы
«M3» и три прогноза, полученных по методу дрейфа:
1. Drift 1 — линия проведена через первую и последнюю точки ряда
данных.
2. Drift 2 — линия проведена через точки в октябре 1990 и октябре
1994 г. Выбор пал на эти точки в связи с тем, что, начиная с октября
1990 г. в ряде данных наблюдается незначительное изменение тенденции — меняется угол наклона.
3. Drift 3 — линия проведена через точки в январе 1991 и январе
1993 г. Выбор точек обусловлен тем, что они позволяют получить прямую линию, проходящую примерно посередине ряда после изменения
тенденций.
Можно заметить, что из-за происходящих изменений в ряде данных прогноз «Drift 1» к концу ряда данных оказывается заниженным.
Похожая участь постигла и прогноз «Drift 2», в котором из-завыбора
точек прямая линия прошла по низу ряда данных. Такие прогнозы
могут быть использованы лишь для обозначения нижней границы,
ниже которой, скорее всего, показатель не опустится. Прогноз «Drift
3» оказался ближе к последним полученным значениям и, возможно,
окажется ближе к истине и на прогнозируемом промежутке.
Метод дрейфа обладает еще одним преимуществом перед
классическими методами построения трендов: он не требует
практически никаких априорных предположений о протекающих в исследуемом объекте процессах. Однако, как видим,
метод в значительной степени опирается на экспертное мнение
прогнозиста, которое, очевидно, может оказаться неправильным,
что, в свою очередь, может привести к неточным прогнозам.
5.2.5. Метод средних точек
Идея метода средних точек похожа на идею метода
дрейфа — исследователь так же проводит прямую линию
через две точки. Однако, в отличие от метода дрейфа, предполагается, что точки, через которые проводится линия,
находятся в середине различных частей ряда данных.
Обратимся для начала к графической интерпретации
метода. На рис. 5.13 представлена типичная ситуация,
при которой некоторый показатель yt изменяется во времени. Из рисунка видно, что эта тенденция в принципе
может быть описана линейным трендом, уравнение которого
мы запишем так:
12 000
10 000
8000
6000
4000
yˆt  a0  a1t .
Yt
Drift 1
янв. 96
янв. 95
янв. 94
янв. 93
янв. 92
янв. 91
янв. 90
янв. 89
янв. 88
янв. 87
янв. 86
янв. 85
0
янв. 84
2000
Drift 2
Drift 3
Рис. 5.12. Ряд данных № 677 из базы временных рядов «M3»
и три точечных прогноза по методу дрейфа:
сплошная линия — «Drift 1»; пунктирная линия — «Drift 2»;
сплошная линия с крестиками — «Drift 3»
34
(5.27)
Прогноз по линейной модели считается очень просто:
вместо значения t достаточно подставить следующие номера
наблюдений вплоть до требуемого горизонта прогнозирования: yˆT h  a0  a1 T  h  .
Как известно из начальн ого курса геометрии, через
точку на плоскости можно провести множество различных
прямых линий; через две точки, лежащие на плоскости, —
одну и только одну прямую линию, а вот если на плоскости лежит более двух точек, то провести через них прямую линию в общем случае нельзя. Исключением является
ситуация, когда эти точки лежат на одной прямой, но такие
ситуации в экономике не встречаются. Поэтому возникает
35
9,0
8,5
8,0
7,5
5,5
6,0
6,5
7,0
Y
2
4
6
8
10
12
14
16
18
20
t
Рис. 5.13. Условный ряд данных с тенденцией к возрастанию
задача — построить на плоскости рис. 5.13 прямую линию
так, чтобы она наилучшим образом проходила через все
точки или рядом с ними. Принципиально важным является
ответ на вопрос: какой способ построения прямой линии мы
будем признавать «наилучшим»? Существует много ответов
на этот вопрос и, следовательно, много способов построения
таких линейных моделей.
Но каким бы образом мы ни находили значения коэффициентов модели, при нанесении ее на график рис. 5.13 линия
будет описывать исходные точки с некоторой ошибкой
аппроксимации εt. Математически это будет выглядеть так:
yt  yˆt  t  a0  a1t  t .
(5.28)
Теперь задачу можно переформулировать следующим
образом. Нам надо так найти коэффициенты прогнозной
модели, чтобы ошибка аппроксимации была минимальной.
Метод средних точек относится к случаю, в котором
исследователь может достаточно быстро и без привлечения специальных вычислительных технологий получить
довольно сносную прогнозную модель, описыва ющую
исходный ряд данных. Его суть заключается в следующем.
36
Поскольку для нанесения на плоскость прямой линии достаточно знать параметры двух точек, которые лежат на этой
прямой, то прогнозисту необходимо каким-то образом найти
эти две точки и их координаты. Очевидно, что в декартовой
системе координат такие точки определяются координатами
на осях этой плоскости. В рассматриваемом случае одной
из координат будет выступать время t, а другой — значение показателя y. Пусть для определенности первая точка a
имеет координаты (t1, y1), а вторая — b — координаты (t2, y2).
Множество наблюдений динамического ряда yt является
дискретным и лежит в пределах t = 1, 2, 3, …, T.
Логично было бы предположить, что первая точка характеризует первую часть имеющегося множества наблюдений,
а вторая — другую его часть. Поэтому разобьем имеющееся
множество наблюдений на две части — первую, когда
t = 1, 2, 3, …, T ⁄ 2, и вторую, — когда t = T ⁄ 2 + 1, T / 2 + 2,
T / 2 + 3, …, T. Хорошей статистической характеристикой
множества случайных наблюдений является средняя арифметическая, поэтому разумней всего рассматривать первую
точку как среднюю арифметическую первой части множества, а вторую — как среднюю арифметическую второй части
этого множества.
Найдем координаты точки a.
Координата этой точки, откладываемая на оси времени
t, будет найдена как средняя арифметическая отсчетов времени t в промежутке от t = 1 до t = T / 2:
t1 
1 T2
t .
T 2 t 1
Если время отмечается через равные промежутки времени, то эту среднюю можно найти достаточно легко,
поскольку мы имеем дело с арифметической прогрессией,
сумма элементов которой, как известно, находится по формуле S 
n  n  1
2
.
С учетом этого, получим окончательно:
t1 
1 T2
1 T 2 T 2  1 T 2  1 1


 T  2 .
t 
T 2 t 1 T 2
2
2
4
(5.29)
37
8,5
9,0
Например, множество наблюдений состоит из 20 точек.
Тогда координата первой точки, откладываемой по оси времени для первых десяти отсчетов времени, будет равна
1
20  2  5,5 .
4
Аналогично найдем координаты второй точки. Средняя арифметическая для второй части временного ряда
t2 
T
1
 t также может быть легко найдена с помощью
T 2 t T 21
формулы для расчета суммы арифметической прогрессии:
t2 
T
1
1
 t  3T  2 .
T 2 t T 21 4
(5.31)
Для рассмотренного примера с 20 наблюдениями средняя
арифметическая второго участка наблюдений в промежутке
от t = 11 до t = 20, будет равна
1
3  20  2  15,5 .
4
Координата этой точки на оси yt будет найдена как средняя арифметическая:
y2 
T
1
 yt
T 2 t T 21
(5.32)
Графически нахождение координат точек a и b можно
представить следующим образом (рис. 5.14).
Вначале исследователь разбивает ряд данных t на две
части (вертикальная линия на рис. 5.14) и находит среднюю
величину в первой и во второй частях, что соответствует
координатам по оси абсцисс точек a и b. То же самое делается и с рядом данных y (горизонтальная линия на рис. 5.14).
Так можно получить координаты средних точек.
38
7,5
Y
6,5
(5.30)
a
6,0
1 T2
 yt .
T 2 t 1
5,5
y1 
7,0
Вторая координата первой точки, которая откладывается
по оси y, находится как средняя арифметическая первой
части ряда данного показателя:
8,0
b
2
4
6
8
10
12
14
16
18
20
t
Рис. 5.14. Графическое представление нахождение координат
точек a и b при нахождении коэффициентов прямой методом
средних точек
Поскольку мы намерены провести прямую линию через
первую точку, что означает принадлежность точки прямой,
то выполняется равенство y1  a0  a1t1 .
Точно так же выполняется равенство и для второй точки:
2
y  a0  a1t 2 .
Объединяя эти два равенства, получим систему двух
уравнений с двумя неизвестными a0 и a1, которая с учетом
(5.29), (5.30), (5.31) и (5.32) будет записана так:
 1 T2
1
 yt  a0  a1 T  2

4
T 2 t 1
.

T
 1  y  a  a 1 3  T  2
0
1
T 2 t T 21 t
4
(5.33)
Если от левой и правой частей второго уравнения данной
системы отнять соответственно левые и правые части первого уравнения, то коэффициент a0 сократится, откуда легко
найти значения коэффициента пропорциональности a1:
39
T 2
T
 yt   yt
a1 
t T 21
t 1
2
T 2

T
1

T 22 t T 21
y  y  .
(5.34)
t T 2
t
8,5
9,0
Подставляя полученное значение в первое или второе
уравнение системы (5.33), легко найти значения свободного
коэффициента a0 и тем самым вычислить приближенные
параметры линейного тренда. Для нашего условного примера итоговый линейный тренд пройдет через точки a и b
так, как это показано на рис. 5.15.
7,5
6,5
7,0
Y
8,0
b
5,5
6,0
a
2
4
6
8
10
12
14
16
18
20
t
Рис. 5.15. Условный ряд данных и линейный тренд,
коэффициенты которого были найдены методом средних точек
Данный способ может быть распространен и на нелинейные тренды. Логика метода средних точек в этом случае
будет такова. Все точки имеющегося ряда значений yt разбиваются равномерно на группы, количество которых будет
равно числу n коэффициентов прогнозной модели ai, i = 1,
2, … n. Для каждой n-й группы находятся их средние арифметические. Подставляя эти средние в модель, можно получить последовательно столько равенств, сколько неизвестных коэффициентов у модели. Решая полученную систему,
находят искомые значения параметров модели.
40
В случае, когда число наблюдений Т оказывается нечетным, а число коэффициентов четно (например, когда линейный тренд оценивается на 41 наблюдении), возникает проблема разбиения исходных рядов значений yt и tt на четное
число частей, которые не будут равны друг другу по численности членов ряда. При этом можно предложить различное множество способов разбиения точек имеющегося ряда
на неравные группы. В результате будет получено несколько
моделей, отличающихся друг от друга как точностью аппроксимации, так и качеством прогнозных свойств.
Для целей прогнозирования необратимых процессов
имеет смысл учитывать, что тенденции могут изменяться во
времени. В этом случае можно поступить одним следующих
способов:
1. Разбить ряд данных на части, содержащие разное количество точек. Таким образом, для нахождения координат
одной точки будет использоваться больше наблюдений, чем
для другой, т.е. фактически какой-то части ряда будет придаваться больший вес.
2. Убрать из анализа ранние наблюдения и оставить
только те наблюдения, в которых прослеживаются нужные
для целей прогнозирования тенденции. По оставшемуся
после отсечения ряду данных можно применить метод средних точек. Так из рассмотрения просто убирается часть устаревшей информации, которая может сильно исказить прогноз.
Оба эти способа, однако, требуют экспертного мнения
относительно того, что оставлять и сколько точек включать
в ту или иную часть, что не всегда легко сделать.
Кроме упомянутых недостатков, можно отметить, что
метод средних точек пригоден только для очень простых
приближенных расчетов. К тому же полученные оценки
будут обладать не очень хорошими статистическими характеристиками: значения коэффициентов модели будут смещены и, возможно, неэффективны и несостоятельны.
5.2.6. Преимущества и недостатки простейших методов
прогнозирования
Изучив простейшие методы прогнозирования социальноэкономических тенденций, попробуем обобщить их преимущества и недостатки.
К первому однозначному преимуществу всех рассмотренных методов можно отнести то, что в них используется
41
минимум априорных предположений о процессах, протекающих в объекте исследования. Чем меньше предположений
относительно поведения объекта исследования вводится,
тем меньше возможностей для получения состояний, противоречащих введенным предположениям.
Второе неоспоримое преимущество упомянутых методов заключается в том, что они могут быть построены
с минимальными затратами времени и труда. Первые три
метода, рассмотренные нами в этом параграфе (метод средних величин, Naïve и сезонный Naïve), позволяют получать
неплохие по точности краткосрочные прогнозы, однако
из-заих простоты на практике эти методы используются
нечасто, так как исследователю бывает чисто психологически сложно поверить, что такой простой метод может дать
приличные прогнозные результаты. Последние два метода
(метод дрейфа и метод средних) позволяют быстро построить прогноз по наиболее часто встречающимся на практике
тенденциям — линейным.
К недостаткам методов можно отнести в первую очередь
то, что в случае наличия тенденций в ряде данных первые
три метода на среднесрочной перспективе будут давать
неточные прогнозы. Главный недостаток метода дрейфа
заключается в том, что он подразумевает построение лишь
линейных трендов. Метод средних в свою очередь в случаях с построением более сложных моделей (через большее
двух количество точек), требует решения систем, состоящих
более, чем из двух уравнений, что нивелирует его преимущество в простоте построения, проявляющееся лишь с линейными трендами.
Кроме того, для эффективного использования метода
средних и метода дрейфа, требуется экспертное мнение
относительно того, какую часть ряда брать и как именно рассчитывать коэффициенты тренда. Стандартные алгоритмы
построения моделей линейного тренда этими методами
в случае со сложной динамикой показателя дают неточные
прогнозы.
5.3. Ìîäåëè òðåíäîâ
Одна из самых простых моделей прогнозирования,
использующихся на практике — это модель тренда — регрессионная модель, в которой зависимой переменной высту42
пает исследуемый нами показатель, а независимой — время
либо номер наблюдения данного показателя. Иначе говоря,
тренд — это математическое описание временной тенденции. Прогнозирование с использованием трендов сводится
к тому, чтобы вместо значения номера наблюдения (либо
времени) подставить требуемые номера в будущем:
yˆT h  f T  h  ,
где yˆt — расчетное значение показателя на наблюдении t;
f — выбранная аналитиком функция тренда; T — номер последнего наблюдения в ряде данных; h — горизонт прогнозирования.
Поскольку тенденции изменения временных рядов
социальн о-экономических показателей весьма многообразны, то и тренды могут иметь самые различные формы.
Чаще всего в практике социально-экономического прогнозирования в качестве моделей трендов используют несколько
элементарных функций. Рассмотрим их.
5.3.1. Линейный тренд
yˆt  a0  a1t
(5.35)
Линейный тренд, наверное, — самый простой, интуитивно понятный и часто встречающийся из всех трендов.
Ранее в этой главе мы уже несколько раз к нему обращались. Он описывает равномерное изменение показателя
во времени. Коэффициент a0 модели (5.35) характеризует
первоначальный уровень ряда, относительно которого процесс начинает развиваться, отрезок, который отсекает прямая линия на оси 0yt; a1 характеризует среднюю скорость
изменения уровня ряда и равен тангенсу угла наклона тренда
к оси 0t ( a1  tg ).
Модель линейной функции в прогнозировании используют очень часто. По крайней мере, исходя из общенаучного
принципа «от простого — к сложному», изучают свойства
этой модели, разрабатывают различные методы оценивания ее коэффициентов, а также их пересчета при появлении новой информации либо адаптации модели; выполняют
прогнозы и считают доверительные интервалы, а затем
на основе полученных знаний и навыков переходят к изучению более сложных моделей. На практике эту модель также
43
довольно часто предпочитают другим более сложным моделям, поскольку другой общенаучный принцип «простоты»
гласит, что если сложная модель незначительно улучшает
понимание процесса, то ей надо предпочесть более простую
модель — нет смысла усложнять задачу, если она имеет простое решение.
5.3.2. Параболический тренд
yˆt  a0  a1t  a2t
2
50 000
(5.36)
В параболическом тренде помимо уже упомянутых коэффициентов из линейного тренда появляется коэффициент,
отвечающий за ускорение процесса — a2. Как известно, ускорению соответствует вторая производная по времени. Если
мы возьмем вторую производную функции (5.36) по времени, то получим
 yˆt
2
t 2
 2a2
(5.37)
Таким образом, зная значения коэффициентов параболического тренда, можно дать им некоторую трактовку. Умножив коэффициент a2 на 2, мы получим оценку среднего ускорения в моделируемом ряде данных.
Графиком этой функции является парабола с осью симметрии, параллельной оси ординат. Характер функции определяется ее коэффициентами. Обычно для моделирования
экономических процессов используют одну из ветвей параболического тренда, что позволяет моделировать различные
процессы:
1) рост с ускорением — правая восходящая ветвь, a2 > 0;
2) снижение с замедлением — левая нисходящая ветвь, a2 > 0;
3) рост с замедлением — левая восходящая ветвь, a2 < 0;
4) снижение с ускорением — правая нисходящая ветвь, a2 < 0.
Отметим, что, используя параболу при моделировании
процессов 2 и 3, надо иметь в виду, что в будущем такая
модель придет к своему экстремуму и начнет движение
в противоположную сторону.
Обычно в моделировании не используют параболы, более
высоких степеней, чем вторая. В частности, это вызвано тем,
что параболы более высоких степеней хоть и могут хорошо
аппроксимировать ряд, но тенденции прогнозируют плохо.
44
Так, через любые n точек можно провести параболу (n — 1)-го
порядка (через две точки — прямая, через три — парабола второго порядка, через четыре — третьего и т.д.), однако в таком
случае не выявляется никакая тенденция, а всего лишь осуществляется «подгонка» модели под исходный ряд данных.
На рис. 5.16 представлен полином четвертой степени, который описывается уравнением: yˆt  a0  a1t  a2t 2  a3t 3  a4t 4 .
45 000
40 000
35 000
30 000
25 000
20 000
15 000
10 000
5000
0
1
6
11
16
21
Yt
26
31
36
41
46
51
56
Полиноминаьная (Yt)
Рис. 5.16. Модель полинома четвертой степени
в аппроксимации и прогнозировании сгенерированного
ряда данных
Как видим, такая модель хорошо аппроксимирует исходный ряд данных, повторяя снижения и спады, но прогноз
на 49—58 наблюдения эта модель дает неприемлемый: правая ветвь параболы задирается и, как известно, при увеличении t уходит в бесконечность. Конечно же, дать адекватный
прогноз с помощью такой модели практически невозможно.
Можно дать одну рекомендацию по построению параболических трендов: прежде чем давать окончательный прогноз по такой модели, исследователю стоит оценить, какого
именно прогноза можно ждать от полученной модели в обозримом будущем и может ли он соответствовать реальности.
45
5.3.3. Показательный тренд
(5.38)
46
Y
–0,5 0,0 0,5
Y
60
5
10
15
20
25
5
10
15
t
t
2) 0 < a1< 1
4) a1 < –1
20
25
20
25
50
Экономисты предпочитают использовать модель (5.39)
а не (5.38), так как в ней коэффициенту b1 можно дать простую и красивую интерпретацию: с каждым наблюдением y
будет увеличиваться на — коэффициент характеризует то,
на сколько процентов изменяется y во времени.
Нас, однако, интересует не интерпретация коэффициентов моделей, а то, какие именно тенденции они описывают.
В данном случае, как показательный, так и экспоненциальный
тренды описывают либо рост с взрывным ускорением, либо
снижение с замедлением.
Если рассмотреть модель (5.38), то по основанию a1
можно судить о том, с каким именно процессом мы имеем
дело. Возможны четыре ситуации:
1. a1 > 1 — процесс роста со взрывным ускорением.
2. 0 < a1 < 1 — процесс замедления с приближением
к нулю.
3. –1 < a1 < 0 — замедление с приближением к нулю.
В данном случае исследователь имеет дело с знакочередующимся рядом.
4. a1 < –1 — расходящийся процесс с чередованием знаков.
Последние две ситуации на практике встречаются крайне
редко (только в случае со специфическими сезонными
рядами данных), так что исследователи ограничиваются
первыми двумя. Причем вариант (1) со взрывным ростом
в экономической практике встречается значительно реже,
чем вариант (2) с замедлением и может наблюдаться только
на некоторых промежутках времени. Например, рост числа
Y
0
(5.39)
3) –1 < a1 <0
0 20
yˆt  a0e b1t
1) 1 < a1
Y
0,6
Данный вид тренда на практике обычно заменяется
экспоненциальным, так как любую показательную функцию
можно представить в виде экспоненциальной yˆt  a0a1t  a0eln a1t ,
если принять b1  ln a1 , то:
0,2
yˆt  a0a1t
транзисторов, размещенных на кристалле интегральной
схемы, по закону Мура удваивается каждые два года. Подобная тенденция как раз описывается экспонентой, однако
в последнее время эксперты все чаще говорят о том, что
закон Мура перестанет действовать уже в ближайшие годы
(2013—2015).
Все упомянутые ситуации приведены на рис. 5.17.
5
10
15
t
20
25
–100
Если модель показывает наличие экстремума в ближайшей
перспективе либо резкое изменение тенденций (резкий
рост либо снижение), возможно, стоит обратиться к другой
модели тренда.
5
10
15
t
Рис. 5.17. Виды показательных трендов
Стоит отметить, что только первые две из этих ситуаций
соответствует некоторым действительным значениям коэффициента b1 в экспоненциальном тренде:
1) a1 > 1 дает b1 > 0;
2) 0 < a1 < 1 дает b1 < 0.
Оставшиеся две ситуации соответствуют комплексным
значениям b1, которые в принципе не используются на практике, но теоретически могут быть выведены через формулу
логарифма комплексного числа. Представим –1 в виде комплексного числа в экспоненциальной форме:
a1  1  1 e 
i 2 k 
, где k  Z ,
47
5.3.5. Логарифмический тренд
Тогда логарифм этого числа будет равен:
  0  i   2k.
Если a1 будет меньше –1, то единственное, что изменится
в формуле (5.40) — это действительная часть, которая будет
равна не 0, а ln a1 . Мнимая же часть комплексного коэффициента b1 будет оставаться такой же, как и в (5.40). В таком случае
получаем следующее соответствие условий (3) и (4) в показательной функции условиям в экспоненциальной функции:
1) –1 < a1 < 0 дает   i    2k   b1  0  i    2k  ;
2) a1 < –1 дает 0  i    2k   b1    i    2k  .
Эти условия пригодятся нам несколько позже.
15
Y
50,5 51,0 51,5 52,0
t
20
25
Y
48,0 48,5 49,0 49,5
10
2) a1<0
5
10
t
15
20
25
5
10
t
15
20
25
Рис. 5.19. Виды логарифмических трендов
Данный тип функций так же популярен среди эконометристов, так как коэффициент a1 имеет следующую удобную
интерпретацию: при увеличении t на 1% y растет на величину a1 100 единиц.
5.3.6. Степенной тренд
yˆt  a0  a1t a2
5
10
15
t
Рис. 5.18. Виды гиперболических трендов
48
2) a1 < 0
44 45 46 47 48 49 50
(5.41)
Гиперболический тренд может быть характерен для процессов, в которых происходит некоторая стабилизация.
Например, после внедрения инноваций по мере отладки производства затраты на выпуск продукции постепенно снижаются и приближаются к некоторому уровню. Именно такая
тенденция может быть описана этим трендом.
Если a1 > 0, то тренд описывает тенденцию замедляющегося
снижения. Если же a1 < 0, то он описывает процесс замедляющегося возрастания. Обе эти ситуации представлены на рис. 5.18.
Коэффициент a0 в (5.41) представляет собой асимптоту —
уровень ряда, к которому процесс сходится во времени.
5
Логарифмический тренд по свойствам похож на гиперболический: при положительном значении a1 он описывает процесс замедляющегося роста, при отрицательном — процесс
снижения с замедлением. Однако в отличие от гиперболического, логарифмический тренд не имеет асимптоты и либо возрастает, либо снижается без ограничений. Если a1 > 0, то тренд
описывает тенденцию замедляющегося возрастания. Если же
a1 < 0, то он описывает процесс замедляющегося убывания.
Данные процессы графически представлены на рис. 5.19.
Y
a1
t
1) a1>0
(5.42)
1) a1 > 0
5.3.4. Гиперболический тренд
yˆt  a0 
yˆt  a0  a1 ln t
(5.40)
Y
50 51 52 53 54 55 56

b1  ln  1  ln 1 e
i 2 k 
20
25
(5.43)
Степенной тренд позволяет моделировать несколько
типов процессов, в зависимости от значения коэффициентов.
В случае с положительными значениями a1 можно выделить
три ситуации (рис. 5.20):
1. 0  a2  1 — рост с замедлением. Такой тип процессов
чаще встречается в практическом прогнозировании. Рост
49
5 10 15 20 25
t
Y
49,0
48,5
5 10 15 20 25
t
48,0
5 10 15 20 25
t
3) a2 < 0
49,5
50
40
42
Y
44
46
48
2) a2 > 1
5 10 15 20 25
t
51,0
Y
Рис. 5.21. Виды степенных трендов
при отрицательном значении a1
5 10 15 20 25
t
5 10 15 20 25
t
Рис. 5.20. Виды степенных трендов
при положительном значении a1
В первых двух ситуациях коэффициент a0 выступает
показателем первоначального значения уровня ряда. В третьей ситуации a0 становится асимптотой.
В случае с отрицательным значением a1 тренды зеркально
отражаются относительно оси абсцисс. В таком случае возникает еще три ситуации (рис. 5.21):
1. 0  a2  1 — снижение с замедлением.
2. a2  1 — снижение с ускорением (исследователь сталкивается с правой нисходящей веткой параболы).
3. a2  0 — рост с замедлением (исследователь фактически получает гиперболу с асимптотой в a0).
Коэффициент a2 так же поддается простой экономической интерпретации, поскольку представляет собой коэффициент эластичности, который показывает, на сколько процентов изменится y с изменением t на 1%.
В прогнозировании иногда используются и другие виды
трендов
50
1) 0 < a2 < 1
Y
–200 –150 –100 –50 0
52,0
3) a2 < 0
51,5
2) a2 > 1
50,5
52
54
Y
56
58
60
1) 0 < a2 < 1
Y
50 100 150 200 250 300
в таком случае не имеет предела, но с каждым следующим
наблюдением изменения показателя становятся все меньше
и меньше.
2. a2  1 — рост с ускорением. По сути, в таком случае
исследователь сталкивается с правой восходящей веткой
параболы, которая (как было показано ранее) используется
на практике редко.
3. a2  0 — снижение с замедлением. В таком случае исследователь фактически получает гиперболу с асимптотой в a0.
5.3.7. Пример прогнозирования
с использованием моделей трендов
Коэффициенты всех рассмотренных нами ранее трендов
могут быть легко найдены либо методом средних, либо методом наименьших квадратов. При этом в случае с обратимыми
процессами исследуемый ряд данных лучше предварительно
сгладить, используя простые скользящие средние, после чего
можно определить вид тенденции и, подобрав соответствующую модель тренда, приступить к нахождению коэффициентов выбранного тренда.
Возьмем для примера ряд № 344 из базы M3, уберем последние
шесть значений и попытаемся спрогнозировать их, используя оставшиеся 25 наблюдений (рис. 5.22). Несмотря на то, что перед нами явно
необратимый процесс, мы попытаемся использовать для прогнозирования стандартную методику, используемую для прогнозирования
обратимых процессов.
Стандартная методика построения трендов подразумевает предварительное сглаживание ряда, что мы и проделали. Для уменьшения
влияния случайных отклонений мы выбрали простую скользящую
среднюю девятого порядка, которая в итоге дала гладкую нелинейную тенденцию, которая, как можно предположить, соответствует
типу динамики исходного ряда данных. Для описания этой тенденции
можно выбрать логарифмический тренд (5.42), так как в исходном
ряде данных тенденции вначале изменялись с большей скоростью,
нежели в конце ряда данных. Снижение в конце ряда в соответствии
со стандартной методикой построения трендов, можно считать слу51
Сама модель и точечный прогноз по ней показаны на рис. 5.23.
8000
8000
7000
7000
6000
6000
5000
5000
4000
4000
3000
3000
2000
2000
1000
1000
0
1963 1966 1969 1972 1975 1978 1981 1984 1987 1990 1993
Yt
SMA(9)
Рис. 5.22. Ряд данных №344 и он же,
сглаженный SMA(9)
чайной. Однако находить коэффициенты этого тренда нужно относительно сглаженного, а не исходного ряда для того, чтобы он не вобрал
в себя отсеянные нами случайные отклонения. Математически задачу
нахождения коэффициентов этого тренда в таком случае можно записать следующим образом:
T  n /2

t  n /2
 yˆt  yt ,n 
2
 min ,
(5.44)
где x обозначает округление x до целого числа по правилам математического округления.
Задачу (5.44) можно решить путем нахождения коэффициентов
логарифмического тренда методом наименьших квадратов. В MS Excel
для выполнения этой задачи можно либо воспользоваться надстройкой «Анализ данных» → «Регрессия» («Data analysis» → «Regression»),
либо функциями «наклон» и «отрезок» («slope» и «intercept»).
Для нашего случая получим следующую модель:
yˆt  479,6  2061,9ln t .
52
(5.45)
0
1963 1966 1969 1972 1975 1978 1981 1984 1987 1990 1993
–1000
Рис. 5.23. Ряд данных № 344, сглаженный ряд (пунктирная
линия), модель тренда и прогноз по ней на шесть
наблюдений вперед1
Как видим, использование подхода, в котором все наблюдения
считаются одинаково важными для случая с необратимым процессом,
привело к тому, что прогноз по модели оказался неточным (последние
шесть точек на графике): не только с систематическим завышением
на участке прогнозирования, но и с ростом расчетных значений, что
не соответствует реальности.
Чтобы получить более точные прогнозы, нужно было убрать из рассмотрения ту часть ряда, в которой наблюдалась тенденция к росту,
и оставить только ту, в которой произошел перелом и началось снижение значения показателя. Конечно, это грубое решение, но, используя
в прогнозировании только модели трендов, иначе поступить нельзя.
Проблема здесь заключается еще и в том, что спад с 1982 г. мог быть
случайным, а значит и тенденция к росту в будущем может восстановиться. Чтобы определить, с чем именно мы имеем дело (со сменой
тенденции или со случайным отклонением), нужно обратиться к самой
исследуемой области и провести фундаментальный анализ, выявить
предпосылки к тому или иному развитию действий.
Пока же мы решили оставить только часть данных с изменившейся
тенденцией. На рис. 5.24 показана та часть ряда, в которой начался
перелом (с 1982 г. по конец исходного ряда в 1987 г.). Номера наблюдений в таком случае начинаются с первого в 1982-м г.
1 Пунктирной линией с пустыми ромбиками показаны фактические
значения, исключенные нами из рассмотрения.
53
8000
8000
7000
7000
6000
6000
5000
5000
4000
4000
3000
3000
2000
2000
1000
1000
0
1982
1985
1988
0
1982
1991
Yt
SMA(3)
К сожалению, в таком случае в распоряжении прогнозиста остается
совсем немного значений, поэтому исходный ряд данных не получается сгладить простыми скользящими средними высокого порядка.
Поэтому мы использовали скользящую среднюю третьего порядка.
По полученному сглаженному ряду можно подобрать множество различных трендовых моделей, каждая из которых будет характеризовать
тенденцию к снижению, но с разной скоростью. Однако практика прогнозирования показывает, что тенденции со стабильной скоростью
встречаются достаточно редко1, в связи с чем на участке прогноза
лучше использовать модели с замедлением. В нашем случае к таким
можно отнести логарифмическую, степенную и гиперболическую
модели. Возьмем для единообразия логарифмическую модель и так же,
как мы это проделали раньше, найдем ее коэффициенты для сглаженного ряда. Получим следующую модель:
(5.46)
Полученная модель тренда и прогноз по ней показаны на рис. 5.25.
1 Gardner E. S., McKenzie Ed. Forecasting Trends in Times Series //
Management Science. 1985. Vol. 31. №. 10. Р. 1237–1246.
54
1988
1991
Рис. 5.25. Усеченный ряд данных № 344 и прогноз по нему
на шесть наблюдений вперед1
Рис. 5.24. Ряд данных № 344 и SMA(3) по части ряда
с нисходящей тенденцией
yˆt  7102.2  1185.2ln t .
1985
Как видим, использование другого подхода позволило нам дать
более точный прогноз на шесть наблюдений вперед по выбранному
ряду данных. Но, к сожалению, стандартные статистические характеристики в таком случае неприменимы не только из-за малого числа
наблюдений, но и из-за неоднородности самого рассматриваемого нами
процесса — мы явно имеем дело с необратимым процессом, выборочный метод в котором практически не работает.
Итак, в случае с необратимыми процессами использовать стандартный эконометрический подход в нахождении
коэффициентов моделей трендов нельзя. Нужно использовать другой подход — либо подразумева ющий явное
исключение наблюдений, заведомо искажающих прогноз,
либо подразумевающий неравномерный учет наблюдений
при расчете коэффициентов моделей (такой, чтобы более
старые наблюдения в меньшей степени учитывались в расчетах). Более подробно мы рассмотрим эти подходы в следующих параграфах.
В заключении стоит отметить, что при прогнозировании
тех или иных тенденций в ряде данных обычно рекомен1 Пунктирной линией с пустыми ромбиками показаны фактические
значения, исключенные нами ранее из рассмотрения.
55
дуется построить несколько моделей, после чего выбрать
ту из них, которая, как считает исследователь, даст более
точный прогноз по ряду данных. Выбор этот обычно осуществляется на основе предварительного фундаментального анализа объекта исследования, позволяющего выявить
факторы, влияющие на исследуемый показатель, и сделать
выводы о том, какая из прогнозных тенденций может наиболее точно описать исследуемый показатель.
5.3.8. Преимущества и недостатки моделей трендов
К явным преимуществам моделей трендов можно отнести
то, что в случае с корректным выявлением тенденций в ряде
данных и сохранении их на прогнозируемом промежутке
можно получить точные прогнозы. Кроме того, коэффициенты
моделей трендов легко находятся методом наименьших квадратов, поэтому построить тренд не доставляет особых сложностей у любого специалиста, знакомого с эконометрикой.
В качестве недостатка можно отметить то, что стандартный подход к построению трендов применим лишь в отдельных случаях — случаях обратимых процессов. А из-затого,
что экономика изобилует исключительно необратимыми
процессами, применение такого подхода приводит к очень
неточным прогнозам. Конечно, модели трендов требуют
предварительного изучения и сглаживания ряда данных —
без этого невозможно определить тенденцию, с которой
имеет дело исследователь.
Кроме того, поскольку модели трендов фактически представляют собой регрессионные модели от времени, с ростом
числа наблюдений (т.е. с увеличением t) растет и корреляция между yt и t. Это приводит к тому, что даже очень
плохая модель тренда, не способная дать точный прогноз,
по формальным статистическим соображениям оказывается
значимой.
Кроме того, при поступлении новой информации (появлении новых наблюдений) модели трендов приходится строить заново — они по естественным причинам не способны
никоим образом учесть эту новую информацию.
Все эти недостатки привели к тому, что в наше время
при анализе временных рядов и прогнозировании экономисты обращаются, скорее, к моделям авторегрессий, которые
формально лишены этих недостатков, нежели к моделям
трендов. Тем не менее, знание особенностей моделей трендов
56
и умение их использовать на практике дает исследователю
много важной информации при прогнозировании социально-экономической динамики.
Ïðàêòèêóì
Вопросы для самоконтроля
1. Какой смысл имеет скользящая средняя?
2. Как выбрать период усреднения для скользящей средней?
3. Как определить вид тенденции с помощью скользящих средних?
4. Что собой представляет метод локальных полиномиальных
регрессий и для чего он используется?
5. Какой смысл имеет процедура изучения структуры временного
ряда? Какие инструменты используются для этого?
6. В каком случае средняя величина может использоваться как
прогнозная оценка?
7. Что такое «наивная» прогнозная модель?
8. Как в прогнозировании использовать метод дрейфа?
9. Метод средних точек активно используется в ситуации, когда
нужно быстро выполнить прогноз, а под рукой нет никакой вычислительной техники. Что он собой представляет?
10. Почему метод средних точек не дает точных прогнозных
оценок?
11. Что такое «тренд» и «тенденция»?
12. Какие характеристики можно дать основным моделям трендов?
13. Тренды очень часто используют в социально-экономическом
прогнозировании. Почему?
14. В чем преимущества и недостатки моделей трендов?
Задания
Для выполнения дальнейших заданий рекомендуется обратиться
к программе «R» либо к другой статистической программе. В работе
с «R» вам могут помочь материалы, представленные на следующих
интернет-страницах: https://www.otexts.org/fpp/using-r и http://
people.su.se/~lundh/reproduce/introduction_ts.pdf.
Поскольку для выполнения заданий необходимо использовать
длинные ряды, приводить их в нашем учебнике нецелесообразно. Далее мы будем работать с общедоступными рядами из базы
M3, которую можно скачать с сайта Международного Института
Прогнозистов (http://forecasters.org/resources/time-series-data/
m3-competition/), перейдя по ссылке M3C (.xls file) и выбрав ряд
с соответствующим номером.
Задание 1. Обратимся к ряду № 658 (общая стоимость активов
предприятия на конце квартала).
57
1. Постройте простой линейный график по ряду № 658. Что можно
сказать о динамике общей стоимости активов предприятия?
2. Для более полной информации рассмотрите коррелограммы исходного ряда данных. Дают ли они вам какую-нибудь информацию?
Какой вывод можно сделать на их основе?
3. Постройте гистограмму и ящичковую диаграмму для этого
ряда. Что можно сказать о распределении стоимости активов? Есть
ли среди изучаемых величин «выбросы»?
4. Сгладьте ряд разными скользящими средними: MA(4), MA(6),
MA(8). Постройте линейные графики по полученным значениям.
Что можно сказать о складывающихся тенденциях в ряду данных?
Как вы считаете, какая математическая модель из рассмотренных
в данной главе могла бы дать наиболее точный прогноз?
5. Сгладьте ряд, используя LOESS. Постройте график по полученному ряду. Какая модель лучше опишет сложившуюся тенденцию?
6. Попробуйте построить модели, выбранные на основе п. 4 и п. 5,
и дать по ним прогноз на восемь наблюдений вперед.
7. Оцените точность полученных прогнозов с помощью любого
известного вам коэффициента. Какая модель оказалась точней? Как
вы считаете, почему?
Задание 2. Перейдем к рассмотрению ряда № 2558 (финансовый
ряд по погашениям кредитов).
1. Как вы считаете, есть ли в собранных данных сезонность?
Почему? Как вы это выяснили?
2. Постройте по данным модель Naïve (если в данных есть сезонность, то сезонную). Дайте по ней прогноз на 1,5 года вперед. Как
вы считаете, насколько точным будет прогноз по модели и почему?
Ãëàâà 6.
ÑÅÇÎÍÍÀß ÄÅÊÎÌÏÎÇÈÖÈß
È ÒÐÅÍÄ-ÑÅÇÎÍÍÛÅ ÌÎÄÅËÈ
В результате освоения данной главы студент должен:
знать
• о влиянии сезонности на точность социально-экономического
прогнозирования;
• основные понятия, методы и инструменты количественного
и качественного анализа по выделению сезонности социальноэкономических процессов;
уметь
• выявлять тип сезонности;
• использовать методы выделения сезонности для прогнозирования;
• строить прогнозные модели с учетом сезонности;
• получать достоверные прогнозы социально-экономических
процессов с учетом цикличности их динамики;
владеть
• методами и методиками декомпозиции структуры временных
рядов;
• методами и методиками прогнозирования тенденций с учетом
цикличности социально-экономических явлений;
• информационными технологиями выявления сезонности
для адекватного прогнозирования социально-экономических процессов.
6.1. Âèäû ñåçîííîñòè
В некоторых рядах данных детерминированная компонента может состоять не только из некоторой функции
(которая может быть описана, например, одной из моделей, рассмотренных нами в предыдущих параграфах),
но и из периодической или, как ее еще обычно называют,
«сезонной» составляющей. Причем считается, что элементы
ряда могут быть объединены:
59
1) аддитивно: yt  y t  ct  t ,
(6.1)
(6.2)
2) мультипликативно: yt  y t  ct  t .
Здесь y t  f t  — трендовая компонента; ct — сезонный коэффициент для наблюдения t, повторяющийся каждые s периодов;
s обычно называется лагом сезонности и соответствует числу
периодов, через которые происходит повторяемость в ряде
данных. Так, если в распоряжении исследователя имеется ряд
данных по месячным продажам горных лыж, лаг сезонности
будет равен 12: каждый год будут наблюдаться похожие спады
и подъемы (например, рост продаж в декабре каждого года).
Стоит отдельно сказать о трендовой компоненте y t. Во многих источниках она носит название «тренд-циклической компоненты», что указывает на то, что во время декомпозиции
сезонного временнóго ряда различные циклы конъюнктуры
не отделяются от исходного ряда данных, а считаются входящими в трендовую составляющую. Если у исследователя в распоряжении имеется достаточно большой временнóй ряд обратимого процесса, тогда из такой компоненты можно вычленить
циклическую составляющую. Однако стоит признать, что обратимых процессов в экономике крайне мало, а получить большой
временной ряд часто либо в принципе невозможно, либо крайне
затруднительно. Поэтому такое объединение вполне естественно
и логично.
Использование модели (6.1) может быть целесообразно
в случаях, когда с ростом уровня ряда амплитуда сезонных колебаний не меняется. Если же с ростом уровня ряда
амплитуда тоже растет, применяют модель (6.2).
Как видим, на рис. 6.1 приведена ситуация с квартальной сезонностью и линейной тенденцией к росту. В случае с мультипликативной
сезонной составляющей четко видно увеличение амплитуды с ростом
значения по тренду.
На рис. 6.1 показаны условные ряды данных для обеих трендсезонных моделей (ошибки в этих условных примерах отсутствуют).
t ~ LogN 0,  2
2) Мультипликативная
Y
70 80
70
5
10
t
15
20
50
50
60
60
Y
80
90
90
1) Аддитивная
5
10
t
15
20
Рис. 6.1. Условные сезонные ряды данных с аддитивной (1)
и мультипликативной (2) сезонностью
60
В модели (6.2), как можно заметить, кроме всего прочего
априорно предполагается, что ошибки учитываются мультипликативно, а не аддитивно. Однако данная модель может
быть представлена и в аддитивном виде, если мы прологарифмируем ее левую и правую части:
ln yt  ln y t  ln ct  ln t .
(6.3)
Такое представление позволяет понять, что собой представляет ошибка в модели и как она может быть распределена. Так, если обычно исследователь априорно предполагает, что в модели (6.1) ошибка распределена нормально
с нулевым математическим ожиданием и некоторой постоянной дисперсией:
 
t ~ N 0,  2 ,
(6.4)
то в модели (6.3) логичным представляется другое априор-


ное предположение: ln t ~ N 0,  2ln  .
В таком случае сама ошибка εt в модели (6.2) будет распределена логнормально с некоторыми математическим
ожиданием, и постоянной дисперсией:
 
(6.5)
Отметим, что математическое ожидание ошибки в таком
случае уже равно не 0 и даже не 1 (что было бы наиболее
2
ожидаемо из равенства: e0  1), а e 2 . Обратим внимание
на то, что математическое ожидание в логнормальном распределении будет равно 1 только в случае с крайне малыми
значениями дисперсии ошибки. Во всех остальных случаях
оно будет меньше 1. Это говорит о том, что в случае с мультипликативной формой модели мы имеем дело со смещенными оценками.
Сами ошибки, как это следует из формул (6.1) и (6.2),
в этих моделях могут быть найдены по следующим формулам:
1) для аддитивной сезонности: t  yt   y t  ct  ;
(6.6)
61
yt
.
yt  ct
(6.7)
Если исследователь неправильно идентифицирует тип
сезонности в ряде данных, он получит завышенные ошибки,
что в результате скажется на ширине доверительного интервала, который нужно будет построить на их основе.
Одним из критериев для выбора типа модели принято считать нормальность распределения ошибок. Если после построения модели по ряду данных исследователь получил нормально
распределенные ошибки, то это указывает на то, что для исходного ряда данных он выбрал наиболее подходящую модель.
Чтобы лучше понять, что собой представляют упомянутые нами
компоненты, рассмотрим их на примере ряда № 2568 из базы рядов
M3. На рис. 6.2 показан исходный ряд данных, а так же его компоненты.
Исходный ряд данных представлял собой месячные продажи некоторой продукции. По первому графику виден рост тенденции с одновременным увеличением амплитуды колебаний, поэтому сезонность
в данном примере рассматривалась в мультипликативном виде. Второй график демонстрирует динамику сезонной компоненты во времени. Как видим, ее динамика достаточно стабильна и не претерпевает
каких-либо серьезных изменений. На третьем графике показана трендовая составляющая. Можно заметить устойчивую тенденцию к росту,
которая, однако, периодически то замедляется, то ускоряется. Представленный ряд данных явно имеет эволюционный характер. Последний график представляет собой график мультипликативных ошибок
по исходному ряду. Сам по себе он не несет полезной информации
и лишь показывает величину тех или иных ошибок в определенные
моменты времени. Значительно полезней для исследователя было бы
взглянуть на гистограмму по распределению ошибок (рис. 6.3).
35
2) для мультипликативной: t 
30
1986
1988
1990
Трендовая компонента
1992
0,85
1986
1988
1990
Случайная компонента
1992
1986
1992
1988
1990
0
5
1984
1984
Рис. 6.2. Разложение ряда данных на составляющие
(сверху вниз): исходный ряд данных, сезонная компонента,
тренд и случайная компонента
62
20
25
1984
15
1992
10
1986
1988
1990
Сезонная компонента
Частота
1984
Y
0,90 1,10
Y
5000 7500
Y
0,7 1,1 1,5
Y
3000 10 000
Ряд N2568
0,90
0,95
1,00
I
1,05
1,10
1,15
1,20
Риc. 6.3. График плотности распределения
мультипликативных ошибок по ряду данных № 2568
из базы рядов M3
Как видим, на рис. 6.3 распределение ошибок напоминает
логнормальное. Математическое ожидание ряда ошибок оказалось
примерно равным 1. Все это косвенно указывает на то, что для исходного ряда данных больше подходит модель с мультипликативной
сезонностью.
Если же следовать более формальным процедурам, то нужно провести
тест на проверку статистической гипотезы о нормальности распределения логарифмов мультипликативных ошибок (например, тест ШапироУилка). Проведение такого теста дает остаточную вероятность р-value =
63
25
20
0
5
10
15
Частота
30
35
0,8879. Это говорит о том, что у нас ни на 5%, ни даже на 10% нет оснований отклонить нулевую гипотезу о нормальности распределения остатков.
Однако если по тому же ряду данных построить модель с аддитивной сезонностью, мы получим ошибки распределенные следующим
образом (рис. 6.4).
–2000
–1500
–1000
–500
0
500
1000
1500
I
Рис. 6.4. График плотности распределения аддитивных
ошибок по ряду данных № 2568 из базы рядов M3
Ошибки на рис. 6.4 также выглядят нормально распределенными.
Тест Шапиро-Уилка дает остаточную вероятность р-value = 0.5, что так
же, как и в предыдущем случае, говорит о том, что у нас нет оснований
отклонить нулевую гипотезу даже на 10%. Получается, что на основе
распределения ошибок отдать предпочтение той или иной модели
для ряда № 2568 нельзя. Такой результат получен, скорее всего, из-за
того, что амплитуда сезонности в ряде данных хоть и растет с увеличением уровня ряда, однако рост этот происходит медленно и незначительно. В таких случаях выбор типа модели сводится к экспертному
мнению прогнозиста, который должен решить, что именно будет происходить с сезонностью в будущем.
6.2. Âûÿâëåíèå ñåçîííîñòè
Ознакомившись с типами сезонности, рассмотрим, как
можно выявить сезонность в ряде данных.
Выводы о наличии либо отсутствии сезонности можно
сделать на основе одного из трех методов:
64
1. Экспертный метод считается самым простым из трех
методов и сводится к тому, что исследователь во время
изучения объекта исследования заключает, что в анализируемом показателе, скорее всего, есть сезонность. Это умозаключение обычно следует из самой постановки задачи.
Например, если приходится работать с квартальными данными по продажам мороженного, то можно ожидать, что
в этих данных будет проявляться сезонность (второй и третий кварталы — рост, первый и четвертый — спад), следовательно, лаг сезонности будет равен 4. В дневных данных
по посещаемости новостного сайта можно ожидать лаг
сезонности равный 7 (например, каждое воскресенье может
происходить спад, так как люди отдыхают и им не до новостей).
К сожалению, этот метод не идеален, и в эволюционных
процессах такое априорное предположение о наличии сезонности может не выполняться в связи с постоянным изменением структуры ряда и возможной сложной структурой
сезонных колебаний (когда одни колебания накладываются
на другие).
В целом можно заключить, что экспертный метод позволяет определить наличие сезонности в достаточно сложных
ситуациях, но не всегда дает однозначные результаты.
2. Графический метод предполагает построение линейного графика по исследуемому показателю, на котором
по оси абсцисс откладывается время наблюдения, а по оси
ординат — значение показателя. На рис. 6.5 представлен график по части ряда № 2568, рассматривавшегося нами ранее.
По нему видно, что каждый апрель наблюдается резкий скачек показателя, а каждый май — спад. Кроме того, сезонная
структура явно прослеживается из года в год: каждый год
в некоторые месяцы наблюдается спад, а в другие — рост
относительно общего тренда. На основе такого графического анализа можно заключить, что ряд является сезонным,
с лагом s = 12.
Иногда для более точного выявления сезонности исходный ряд данных стоит предварительно сгладить простыми
скользящими средними невысокого порядка (например,
3—6 порядка для месячных данных). Делается это для того,
чтобы избавиться от ошибок и увидеть трендовую и сезонную составляющие. В таком случае графический анализ
может упроститься.
65
04,1986
7500
04,1984
1984
1985
1986
1987
t
Рис. 6.5. Графическое представление ряда № 2568
из базы рядов M3
Однако не все сезонные ряды имеют такую явную структуру, как рассмотренный нами ряд № 2568. В связи с эволюционной сущностью многих экономических показателей,
меняться во времени может не только тренд, но и сезонные
компоненты, из-за чего, например, пик продаж в разные года
может приходиться на разные месяцы. Поэтому графический
метод не всегда позволяет однозначно выявить сезонность
и может быть использован лишь в самых простых случаях.
3. Аналитический метод выявления сезонности заключается в построении коррелограммы исходного ряда данных и оценке значимости коэффициентов автокорреляции
и частной автокорреляции. Существуют следующие индикаторы, сигнализирующие о наличии сезонности в исходном
ряде данных:
• коэффициент автокорреляции оказывается значимым
на лаге выше третьего порядка, что указывает на наличие
сезонности данного порядка;
• коэффициент частной автокорреляции оказывается
значимым на лаге выше третьего порядка, что также указывает на наличие сезонности данного порядка, либо порядка
следующего за данным лагом;
• АКФ затухает по синусоиде;
• ЧАКФ затухает по синусоиде.
PACF
–1,0 –0,4 0,2 0,6 1,0
3000
4500
6000
–1,0 –0,4
Y
04,1983
1983
66
На рис. 6.6 показана коррелограмма для ряда № 2568 из базы
M3, к которой мы уже обращались ранее в параграфе 5.1.
ACF
0,2 0,6 1,0
9000
04,1985
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21
Лаг
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21
Лаг
Рис. 6.6. Коррелограммы по автокорреляционной
и частной автокорреляционной функциям для ряда № 2568
из базы рядов M3
Как видим, коэффициент автокорреляции на 12-м лаге
оказался не только значимым, но еще и значительно больше
по величине соседних коэффициентов. Коэффициенты частной автокорреляции на 11-м и 12-м лагах так же оказались
значимыми. Это указывает на наличие сезонности в исследуемом ряде данных.
К сожалению, на практике по коррелограмме не всегда
можно однозначно определить сезонность в ряде данных.
В качестве примера на рис. 6.7 приведена коррелограмма
по ряду данных № 1405 из базы рядов M3.
По рис. 6.7 видно, что автокорреляционная функция
затухает с небольшими синусоидальными колебаниями:
снижение на 7 лаге сменяется повышением на 8, то же самое
происходит с 3 и 4, с 10 и 11 лагами и т.д. Такое поведение
может сигнализировать и о наличии сезонности в исходном
ряде данных, однако выраженной достаточно слабо. Вызвано
67
ACF
–1,0 –0,4 0,0 0,4 0,8
чтобы для начала исключить из исходного ряда и ошибки,
и сезонные компоненты, после чего — оценить тренд, а уже
затем — вычислить сезонные коэффициенты. Поэтому
методы и называются декомпозиционными, позволяющими
заменить решение одной большой задачи решением серии
меньших, более простых, взаимосвязанных задач.
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21
PACF
–1,0–0,4 0,0 0,4 0,8
Лаг
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21
Лаг
Рис. 6.7. Коррелограммы по автокорреляционной
и частной автокорреляционной функциям для ряда № 1405
из базы рядов M3
это, скорее всего, тем, что исходный ряд имеет нестационарный характер. А раз так, то перед его дальнейшим анализом
нужно привести к стационарному виду. Подробнее инструменты приведения к стационарности мы рассмотрим в параграфе 8.2, посвященном авторегрессиям.
В целом можно сделать вывод, что при определении наличия сезонности и соответствующего ей лага, стоит использовать комбинацию из упомянутых трех методов: вначале
попытаться оценить ряд экспертно, затем построить график,
после чего — коррелограмму по ряду. Такой подход поможет
более точно выявить сезонность и определить лаг сезонности в любом ряде данных, в котором она действительно есть.
Теперь, когда мы разобрались, в чем именно заключается
разница в учете сезонности аддитивно и мультипликативно,
а так же показали, как выявлять и идентифицировать сезонность, мы можем перейти к описанию различных методов
декомпозиции временных рядов и построения тренд-сезонных
моделей. Стоит отметить, что все существующие методы
сезонной декомпозиции так или иначе сводятся к тому,
68
6.3. Êëàññè÷åñêàÿ äåêîìïîçèöèÿ
Метод классической декомпозиции (также известный
как метод «Census II»1) предполагает следующую процедуру
разложения ряда на составляющие.
Исходный ряд данных сглаживается простой скользящей
средней порядка не меньше лага сезонности для того, чтобы
«убрать» ошибки и сезонность и оставить лишь тренд, лежащий в основе ряда. Например, в случае с ежемесячными
данными лаг сезонности s будет равен 12 (повторяемость
роста спадов каждые 12 месяцев), а значит, для устранения
влияния ошибок и сезонности надо сгладить исходный ряд
SMA(12). Однако применение четных порядков не позволяет
получить центрированные скользящие средние (в результате этого на концах ряда данных будет неодинаковое число
наблюдений), поэтому обычно при сглаживании берут ближайшее к s нечетное число, большее s. В случае с месячными
данными для сглаживания стоит использовать SMA(13).
Альтернативный вариант, реша ющий проблему четности — при расчете SMA(12) включить 13 значений, первому
и последнему задать веса по 1/2 от общего веса.
Полученный сглаженный ряд считается рядом, соответствующим трендовой компоненте y t , описываемой некоторой функцией f t  . Получив его, мы можем рассчитать
соответствующие сезонные компоненты по формулам:
• для аддитивной модели:
ct  yt  y t ;
(6.8)
• для мультипликативной модели:
ct 
yt
.
y t
(6.9)
1 Makridakis Spyros G., Wheelwright Steven C., Hyndman Rob J. Forecasting:
Methods and Applications. Wiley, 1998. Р. 113.
69
Очевидно, что эти компоненты будут содержать в себе
случайные отклонения t . Чтобы избавиться от них, компоненты усредняют по периодам, в результате чего получается
набор «универсальных» сезонных компонент. Например,
для получения январской компоненты считается средняя
компонента по всем январям:
• для аддитивной модели — средняя арифметическая:
cj 
1 N
 c j  si ;
N i 1
(6.10)
y t  t  yt  ct ;
• для мультипликативной — средняя геометрическая:
N
c j  N  c j  si .
i 1
(6.11)
Здесь j характеризует номер сезонной компоненты в периоде (например, первый месяц в году).
Стоит заметить, что результат применения формулы
(6.10) для расчета мультипликативной сезонности обычно
не сильно отличается от результата формулы (6.11), но он
более корректен в отношении зрения того, что собой представляет соответствующая компонента.
После получения усредненных сезонных коэффициентов
они корректируются (нормализуются), чтобы не вносить
помехи в трендовую компоненту:
• в случае с аддитивной моделью — так, чтобы в сумме
давать 0 — путем центрирования относительно средней
арифметической полученных s сезонных компонент:
1 s
cj  c j  c , где c   c j ;
s j 1
(6.12)
• в случае с мультипликативной — так, чтобы их произведение давало 1 — путем нормирования относительно средней геометрической полученных s сезонных компонент:
cj 
cj
c
s
, где c  s  c j .
j 1
(6.13)
Полученные новые сезонные компоненты могут быть
использованы в прогнозировании (так, для прогнозирования
значения ряда в январе в случае с аддитивной сезонностью
70
к трендовой составляющей нужно просто прибавить январскую сезонную компоненту).
Кроме того, для целей исследования может быть полезным получение «десезонализированного» ряда данных (ряда,
состоящего из трендовой компоненты и случайной ошибки).
Для этого:
• в случае с аддитивнойсезонностью из фактических
значений нужно вычесть полученные по формуле (6.12)
сезонные компоненты:
(6.14)
• в случае с мультипликативной сезонностью фактические значения нужно разделить на сезонные компоненты,
полученные по формуле (6.13):
y t  t 
yt
ct
(6.15)
Полученный десезонализированный ряд может быть
использован как для построения регрессий, так и для прогнозирования тенденций с помощью более сложных математических методов. Для вычленения остатков из этого ряда
его нужно еще раз сгладить простой скользящей средней,
после чего из десезонализированного ряда вычесть (или разделить в случае с мультипликативной сезонностью) сглаженный ряд.
Если же исследователя не удовлетворили полученные
оценки трендовой и сезонной компонент, то по десезонализированному ряду можно провести повторное сглаживание
с вычленением новых сезонных коэффициентов и уточнением старых по описанной выше методике. Однако обычно
значительного улучшения повторная декомпозиция не приносит, поэтому можно остановиться и на одной итерации.
Как видим, метод классической декомпозиции достаточно прост и позволяет получить элементы тренд-сезонной
модели с минимальными усилиями. Однако у него есть ряд
недостатков:
1. При сглаживании исходного ряда исследователь теряет
несколько первых и последних значений. Это становится
особенно критичным в ситуациях, когда в распоряжении
имеется небольшой временной ряд, в котором требуется
вычленить сезонность.
71
Как видим, в динамике показателя наблюдается некоторая тенденция к росту, сам ряд обладает сезонностью, однако эта сезонность
изменяется во времени. Кроме того, определить, изменяется ли амплитуда колебаний с ростом уровня ряда в данном случае затруднительно:
единственное, что можно сказать по поводу амплитуды — это то, что
в начале ряда она меньше, чем в конце, однако изменение уровня ряда
при этом не очевидно. Тем не менее, попробуем рассматривать этот
ряд, как ряд с мультипликативной сезонной составляющей, и осуществим его декомпозицию классическим методом.
Мы имеем дело с месячными данными, поэтому s = 12, значит,
для сглаживания ряда данных возьмем SMA(12). В результате получим ряд, показанный в верхней части рис. 6.9.
Рассмотрим метод классической декомпозиции на примере ряда
данных №1683 из базы рядов M3 (рис. 6.8).
Сезонная динамика
Yt
3000 3600 4200 4800
Ряд №1683
1985 1986 1987 1988 1989 1990 1991 1992 1993 1994
Сезонная динамика
J
F
M
A
M
J
J
A
S
O
N
D
Рис. 6.8. Ряд данных № 1683 из базы рядов M3,
отсортированный по времени появления наблюдений
и по периодам
72
Yt
0 1000 2500 4000
Ряд №1683
1985 1986 1987 1988 1989 1990 1991 1992 1993 1994
Yt
0,85 1,00 1,15 1,30
Yt
3000 3600 4200 4800
2. Вычленить всплески, вызванные праздничными днями
в рамках классической декомпозиции проблематично. Поэтому данный метод не очень хорошо работает в случаях,
когда в распоряжении исследователя имеется ряд данных,
измеренных по дням либо по неделям.
3. Классическая декомпозиция предполагает, что сезонная
компонента не сильно меняется во времени, что на практике
может не выполняться, в результате чего метод становится
неприменимым. Так, например, пик продаж в январе одного
года может сменить пик продаж в феврале следующего года.
Либо в разные годы может наблюдаться разная амплитуда колебаний, вне зависимости от величины трендовой составляющей.
В целом из-за эволюции экономических процессов сезонная
компонента может достаточно сильно меняться во времени, что
никак методом классической декомпозиции не учитывается.
4. В случае наличия «выбросов» (например, резкий скачок продаж в одном из месяцев в одном году, вызванный
удачно проведенной маркетинговой компанией), сезонные
компоненты в данном методе будут искажены, что в итоге
приведет к неточным прогнозам.
J
F
M
A
M
J
J
A
S
O
N
D
Рис. 6.9. Вверху: ряд данных № 1683 (линии с точками),
он же, сглаженный SMA(12) (сплошная линия). Внизу: ряд
мультипликативных сезонных коэффициентов
Как видим, такое сглаживание привело к потере значений на концах ряда, но в целом это позволило выявить некоторую эволюционирующую трендовую компоненту.
Рассчитаем сезонные коэффициенты по формуле (6.9). Полученные сезонные коэффициенты изображены на рис. 6.9 (внизу). Как
видим, амплитуда их колебаний достаточно высока, а в некоторых
сезонных коэффициентах наблюдается тенденция к росту (например,
коэффициенты за июнь и июль).
Усредним полученные сезонные коэффициенты, используя формулу (6.11) и нормируем их по формуле (6.13). Получим ряд мультипликативных сезонных коэффициентов, изображенный на рис. 6.10.
73
1,3
1,2
1,1
1
1
2
3
4
5
6
7
8
9
10
11
12
0,9
0,8
0,7
Yt
3000 3800 4600
Yt
3000 3800 4600
1,4
0,6
74
Трендовая компонента
1985 1986 1987 1988 1989 1990 1991 1992 1993 1994
Yt
1,05
0,90
На рис. 6.10 по оси абсцисс откладываются номера месяцев в году,
а по оси ординат — значения сезонных коэффициентов. Можно заметить, что в среднем в исследуемом ряде данных пики наблюдаются
летом (приходятся на июнь — июль), а спады — на зиму (ноябрь —
декабрь).
Из десезонализированного ряда, рассчитанного по формуле (6.15),
мы вычленили ряд ошибок. В результате были получены трендовая,
сезонная компонента и ряд ошибок, показанные на рис. 6.11.
Как видим, из-за сглаживания простыми скользящими средними
мы потеряли по шесть наблюдений в начале и в конце ряда. Соответственно, при прогнозировании такого ряда мы столкнемся со сложностями по подбору подходящей модели тренда, описывающей динамику
трендовой компоненты.
Кроме того, можно заметить, что ряд ошибок все еще содержит
сезонность (видно, что амплитуда колебаний в начале каждого года
выше, чем к концу соответствующих годов), что говорит о том, что
убрать сезонность из ряда до конца не удалось. Однако в нашем случае проблема заключается в том, что мы имеем дело с эволюционным
рядом данных, в котором изменения претерпевает не только трендовая компонента (что хорошо видно по второму графику на рис. 6.11),
но и сезонная (это можно заметить по исходному ряду данных (первый график рис. 6.11): пики и спады из года в год приходятся на разные месяцы. Все это наводит на мысль о том, что стандартные методы,
разработанные для обратимых процессов, не очень хорошо работают
в случаях с необратимыми процессами.
1985 1986 1987 1988 1989 1990 1991 1992 1993 1994
Сезонная компонента
1985 1986 1987 1988 1989 1990 1991 1992 1993 1994
Случайная компонента
Yt
0,85 1,00 1,15
Рис. 6.10. Ряд мультипликативных сезонных коэффициентов,
полученный в результате декомпозиции ряда № 1683
Ряд №1683
1985 1986 1987 1988 1989 1990 1991 1992 1993 1994
Рис. 6.11. Сверху вниз: исходный ряд данных, трендовая
компонента, сезонная компонента, остатки
6.4. Äåêîìïîçèöèÿ «X-12»
Для того, чтобы решить часть проблем, присущих методу
классической декомпозиции бюро переписи населения США
(CENSUS) в 1967 г. разработало метод X-1111, который длительное время считался стандартом при декомпозиции времен1 Shiskin J., Eisenpress H., Young A. H., Musgrave J. C. The X-11 Variant
of Census Method II Seasonal Adjustment Program. Technical Paper No. 15,
Bureau of the Census, U. S. Dept. of Commerce, 1967.
75
ных рядов. В 1980-х гг. был разработан метод X-11 — ARIMA,
основанный на X-11 и принципе применения в декомпозиции
моделей авторегрессии со скользящей средней (о которой мы
подробней расскажем в гл. 8). На смену методу X-11 в 1990-х гг.
пришел метод X-12, а уже в конце 1990-х его дополнил метод
X-12 — ARIMA1, который и считается стандартом на данный
момент. Расскажем подробней о методе X-12.
В рамках данного подхода рассматривается простая аддитивная модель, состоящая из следующих элементов:
yt  y t  ct  t .
(6.16)
Здесь подразумевается, что в трендовую компоненту
помимо самой функции тренда включается еще и дополнительная регрессионная компонента:
y t  f t   Z t  f t   TDt  E t  Ot ,
где f(t) — функция тренда; Zt — регрессионная компонента,
вводимая для того, чтобы выловить ряд специальных эффектов: TDt — эффект «торговых дней» (влияние выходных
дней на итоговое значение показателя); Et — эффект «Пасхи»; Ot — эффект «выбросов». Эффект «Пасхи» было решено
ввести после того, как в 1986-м г. пасхальные выходные значительно повлияли на импорт продукции в США.
Обратимся к самому алгоритму декомпозиции. Так как
метод разрабатывался в первую очередь для десезонализации месячных временных рядов, мы рассмотрим его для примера данных с s = 12.
Для начала исходный ряд данных подвергается преобразованию Бокса-Кокса (что возможно в случае, если все элементы временнóго ряда положительные)2:

 x , if   1
t

,
yt  ln x t , if   0

x t  1

, if  0;1


(6.17)
где xt — значение по исходному ряду данных на наблюдении t.
1 Bianchi Marco. X-12 — ARIMA (Beta Version 1.1a) // The Economic
Journal. Vol. 107. №. 444. Sep. 1997. Р. 1613—1620.
2 Box G. E. P., Cox D. R. An Analysis of Transformations // Journal of the Royal
Statistical Society. Series B (Methodological). 1964. Vol. 26. № 2. Р. 211—252.
76
Как мы отмечали ранее, мультипликативная декомпозиция может быть записана в логарифмах (6.3). Поэтому данное преобразование позволяет прийти к аддитивной модели
в случае, если λ = 1 или мультипликативной, если λ = 0.
Промежуточные значения дают степенные преобразования
исходного ряда данных. На практике значение λ подбирается
так, чтобы дисперсия результирующих ошибок не менялась
с изменением уровня ряда.
После преобразования Бокса-Кокса к исходному
ряду данных применяется SMA(12), после чего происходит повторное сглаживание скользящей средней второго порядка. Это позволяет получить более гладкий ряд,
содержащий минимальное число ошибок, а так же первое
приближение к оценке сезонной компоненты, которая рассчитывается по формуле (6.8). Стоит заметить, что если
ряд данных после преобразования Бокса-Кокса был приведен к ряду в логарифмах, то использование формулы (6.8)
равноценно расчету сезонных компонент по следу ющей
формуле: ln ct  ln yt  ln y t , откуда фактически следует формула (6.9).
Для обозначения шагов, на которых получаются те или
иные данные, мы будем использовать верхний индекс в формулах. Так, сезонные компоненты, полученные на данном
шаге, мы обозначим как c1t .
Полученные сезонные компоненты сортируются
по соответствующим месяцам и происходит сглаживание
всех месячных компонент (например, вначале — всех январских) простыми скользящими средними третьего порядка.
После этого сглаженный ряд сглаживается повторно такой
же скользящей средней для того, чтобы избавиться от ошибок в сезонных составляющих и получить более гладкую
тенденцию. В результате получается сглаженный ряд сезонных коэффициентов, который можно обозначить как ct1 .
Отсутствующие на концах наблюдения заменяются последними полученными значениями ct1 .
Данный пункт требует пояснения. Если мы рассмотрим
сезонные компоненты некоторого ряда данных (например,
рассмотренный нами ряд № 2568) в разрезе месяцев, то
увидим, как изменяется из года в год значение по каждому
месяцу (рис. 6.12).
77
–3000
–1000 0
c1t
1000 2000 3000
5000
ются. Это нужно для того, чтобы в итоге получить ряд сезонных коэффициентов без сильных «выбросов» при повторном
сглаживании. В результате этой операции получается ряд
модифицированных ошибок et1 , которые теперь уже складывается с рядом ct1 , что дает новый набор сезонных коэффициентов ct2 . Далее операция по сглаживанию сезонных коэффициентов по месяцам повторяется и получается новый набор
сглаженных сезонных коэффициентов ct2 , не содержащий
в отличие от ряда ct1 экстремальные значения ошибок.
На следующем шаге происходит десезонализация исходного
ряда данных по той же формуле, что и в (6.14), но уже с использованием нового полученного ряда сезонных коэффициентов:
yˆ1t  yt  ct2 ,
J
F
M
A
M
J
J
A
S
O
N
D
Рис. 6.12. Изменение сезонных компонент c1t для ряда
№ 2568 по годам в каждом месяце1
Как видим, практически по всем месяцам наблюдается
неравномерное изменение значений ряда. Сезонные компоненты c1t достаточно часто сами имеют некоторую тенденцию к росту либо снижению. Если использовать простую
среднюю (на рис. 6.12 они обозначены горизонтальными
линиями), то будут получены некорректные оценки сезонных компонент. Именно поэтому в данном методе предлагается их сгладить скользящими средними.
После того, как это сделано первый раз, рассчитываются
ошибки по сезонным коэффициентам по формуле
e1t  c1t  ct1 ,
(6.18)
где e1t — величина сезонной ошибки.
В полученном ряде ошибок по месяцам уменьшаются
экстремальные значения так, чтобы ошибки по январям были
сопоставимы друг с другом. Осуществляется это на основе
расчета среднеквадратического отклонения (СКО) по остаткам (σ). Все значения, выходящие за пределы 2,5σ, отбрасыва1
По оси абсцисс обозначены месяцы: J — January (Январь), F —
February (Февраль) и т.п.
78
(6.19)
где yˆ1t — первый десезонализированный ряд данных, включающий в себя как трендовую компоненту, так и ошибки.
Затем для более точного вычленения тренда к новому
десезонализированному ряду yˆ1t применяется не простая
скользящая средняя, а фильтр Хендерсона, суть которого
заключается в том, чтобы распределить веса между наблюдениями не равномерно (как это осуществлено в простой
скользящей средней), а по некоторому алгоритму, в котором
«средним» наблюдениям задаются бóльшие веса, а наблюдениям «на краях» — меньшие. Пример таких весов для месячных данных представлен на рис. 6.13.
0,3
0,25
0,2
0,15
0,1
0,05
0
1
2
3
4
5
6
7
8
9
10
11
12
13
–0,05
Рис. 6.13. Распределение весов Хендерсона между наблюдениями
79
Как видим, наибольшие веса распределяются между
соседними 6, 7 и 8 наблюдениями, остальным наблюдениям
задаются меньшие веса. Наблюдения 1, 2, 12 и 13 получают отрицательные веса. Этот фильтр дает более гладкий
ряд данных, но его использование продиктовано в первую
очередь проблемой «конечных точек»: в данном случае
можно использовать «асимметричные веса», выведенные
специально для получения сглаженного ряда на концах, так
что никакие наблюдения не выпадают из рассмотрения. Подробнее о фильтре Хендерсона и о том, как именно выводятся
эти веса, можно почитать в статье М. Доэрти11.
Получив ряд, сглаженный фильтром Хендерсона, повторяется алгоритм с расчетом и сглаживанием сезонных коэффициентов ct3 и вычислением сезонных ошибок, описанный
нами ранее, однако на данном этапе вначале используется
SMA(5), а затем — SMA(3). В результате этих трудоемких
вычислений получается новый ряд сглаженных сезонных
коэффициентов ct4 , который уже считается финальным.
На его основе рассчитывается новый десезонализированный
ряд данных: yˆt2  yt  ct4 .
Этот ряд так же сглаживается фильтром Хендерсона,
в результате чего получается финальная оценка тренда yˆt3 .
На основе этой финальной оценки и десезонализированного
ряда рассчитывается ряд финальных ошибок: t  yˆt3  yˆt2 .
В результате всех этих расчетов в распоряжении исследователя получается три ряда данных:
1) Yˆt3 — ряд сглаженной трендовой компоненты;
2) ct4 — ряд сглаженной сезонной компоненты;
3) t — ряд ошибок, содержащий в себе все упомянутые
ранее эффекты Zt.
Для вычленения эффектов Z t по остаткам строится
регрессионная модель вида:
7
r
i 1
i 9
E
O
Z t   TD
i x it   8 x 8 t    i x it .
(6.20)
1 Doherty Mike. The Surrogate Henderson Filters in X-11 // Australian &
New Zealand Journal of Statistics. 2001. № 43(4). Р. 901—999.
80
Для вычленения торговых дней в каждом месяце рассчитывается число дней недели и записывается в соответствующие переменные: x1t — число понедельник, x1t — число
вторников и т.п. Регрессор x7t убирается из модели для предотвращения проблемы мультиколлинеарности. Регрессор
x8t равен нулю везде, кроме марта и апреля, в которых его
значение равно числу дней между пасхальным воскресением
и 22-м марта (что считается самой ранней теоретически возможной датой Пасхи). Если Пасха выпадает на апрель, мартовское значение регрессора равно нулю. Если же на март,
то нулю будет равно уже апрельское значение. Последнее
значение представляет собой набор фиктивных переменных,
характеризующих наличие в определенных месяцах таких
эффектов, как резкий «выброс», изменение уровня ряда, временные резкие изменения тенденций и т.п.
После получения всех составляющих и оценки регрессионной компоненты прогнозист может подобрать подходящую
модель для трендовой компоненты, позволяющую построить прогноз показателя, после чего применить ряд сезонных
коэффициентов и регрессионную компоненту, что позволит
получить более точный прогноз для сезонного ряда.
Как видим, этот метод значительно сложнее метода классической декомпозиции, однако на выходе исследователь
получает трендовую и сезонную компоненты с минимальным
содержанием ошибок. Главным же недостатком метода
заключается то, что для нормальной оценки всех компонент
требуется большое число наблюдений. Так, чтобы сгладить
ряд сезонных коэффициентов двумя SMA(3) нужно иметь
данные как минимум за пять лет, и то получаемый в таком
случае результат будет неудовлетворительным (из-за проблемы с конечными точками).
Можно заметить, что метод в целом применим не только
для обратимых, но и для необратимых процессов. Однако,
несмотря на возможность более полной декомпозиции ряда,
он не позволяет строить эффективные прогнозы по необратимым процессам, так как не подразумевает адаптацию
отдельных компонент временнóго ряда — в его основе лежит
предположение о том, что никаких существенных изменений
в исходном ряде данных за весь наблюдаемый период не происходит (кроме описанных «статистически нестандартных»
ситуаций с «выбросами»).
В методе X-12 — ARIMA для оценки трендовой и сезонной компонент используется модель SARIMA (Seasonal
81
ARIMA — сезонная коинтегрированная авторегрессионная
модель со скользящей средней), о которой подробней будет
рассказано в параграфе 8.4. Построение регрессионной компоненты происходит аналогично тому, как это происходит
в методе X-12.
В заключение стоит заметить, что метод X-12 — ARIMA
требует наличия данных минимум за три года. При этом в прогнозировании компонент рекомендуется пользоваться моделями трендов. В случае наличия данных за 3—5 лет ARIMA
может быть построена, однако оценка эффектов торговых дней
и Пасхи в таком случае будет маломощной (из-за малого числа
наблюдений). Для наиболее эффективной работы X-12 —
ARIMA нужны данные не менее, чем за пять лет.
Подводя итог описанной методике, можно выделить
следующие преимущества X-12 — ARIMA:
1. Декомпозиция допускает изменение сезонных коэффициентов во времени.
2. Метод учитывает возможные всплески показателя,
вызванные праздниками и выходными днями.
3. Во время применения метода первые и последние
наблюдения в ряде данных не выпадают из рассмотрения.
4. Метод робастен. «Выбросы», лежащие за пределами 2,5σ, отсекаются, что позволяет убрать их влияние
на финальные значения компонент.
К недостаткам можно отнести следующее:
1. Метод сложен сам по себе и состоит из огромного числа
элементов, выведенных на основе эмпирических исследований. Пояснения тем или иным действиям в методе нет,
поэтому приходится принимать на веру то, что после применения одной скользящей средней высокого порядка нужно
применить еще несколько скользящих средних более низкого порядка.
2. Метод рассчитан на работу с месячными или квартальными данными. Применить его, например, для учета недельной сезонности не представляется возможным.
3. Бóльшая часть элементов метода автоматизирована
и не регулируется исследователем, из-за чего, например, нет
возможности определить степень сглаживания отдельных
компонент ряда.
Для автоматической декомпозиции временнóго ряда
с помощью X-12 — ARIMA бюро CENSUS разработало
специальную программу, которую можно бесплатно скачать
с их сайта: http://www.census.gov/srd/www/x12a/.
82
Рассмотрим декомпозицию с помощью X-12 на примере ряда
№ 1683 из базы M3. Для декомпозиции ряда мы воспользуемся коммерческой программой Eviews, в которой данный метод уже реализован.
Ряд № 1683 мы рассматривали в параграфе 6.3 и пришли к выводу,
что лучше всего данный ряд опишет мультипликативная сезонная
модель. Мы будем придерживаться этого вывода и трансформируем
исходный ряд данных с λ = 0.
Фильтр Хендерсона оставим таким, каким он задан по умолчанию.
Это означает, что программа самостоятельно определит, в каких случаях какой фильтр применить. Обычно для этого рассчитывается отношение средней по остаткам к средней по трендовой компоненте. Если
это отношение оказывается выше 3,49 (что говорит о том, что модель
имеет систематическое занижение), то берется фильтр с 23 весами
(что в лучшей степени сглаживает ряд и позволяет дать более точную
оценку трендовой компоненты). Если отношение лежит в пределах
от 1 до 3,49, то берется фильтр с 13-ю весами. В остальных случаях
используется фильтр с 9-ю весами.
Что касается регрессионных составляющих, то мы попытаемся оценить только влияние торговых дней и пасхальных праздников, которые
теоретически могли повлиять на отгрузку продукции. Выбросы оценивать мы не будем, так как в явном виде их нет и указать их наличие
на данном этапе крайне затруднительно.
Все расчеты в X-12 осуществляются автоматически по описанному
выше алгоритму, поэтому в результате мы получаем несколько рядов
данных, состоящих из трендовой, сезонной компонент и остатков
(рис. 6.14).
В результате декомпозиции с помощью X-12 мы получили более
гладкий тренд, нежели в случае с классической декомпозицией, и другой набор сезонных коэффициентов, которые, как легко заметить,
изменяются из года в год. Все эти отличия в первую очередь вызваны
тем, что метод X-12 позволяет сезонным коэффициентам меняться во
времени, в отличие от метода классической декомпозиции. На рис. 6.15
показаны сезонные компоненты, полученные с помощью X-12 в динамике.
Как мы можем заметить, практически во всех сезонах наблюдаются
некоторые изменения во времени, происходящие не в одном направлении: некоторые сезонные компоненты возрастают, в то время как
другие — уменьшаются. Это показывает, что мы имеем дело с эволюционным рядом данных. Горизонтальными линиями на графике показаны средние величины — это примерно те же значения, которые мы
получили бы, если бы ввели допущение о том, что сезонные коэффициенты из года в год не меняются (что лежит в основе классической
декомпозиции).
83
5,000
Series №1683
1,20
1,16
4,500
1,12
4,000
1,08
3,500
1,04
3,000
5,000
1,00
1985 1986 1987 1988 1989 1990 1991 1992 1993
Trend component
0,84
4,000
0,80
3,500
1,16
1,12
1,08
1,04
1,00
0,96
0,92
0,88
1,3
1,2
1,1
1,0
0,9
0,8
0,7
Jan Feb Mar Apr May Jun Jul Aug Sep Oct Nov Dec
Means by Season
1985 1986 1987 1988 1989 1990 1991 1992 1993
Seasonal component
Рис. 6.15. Динамика сезонных компонент после декомпозиции
ряда № 1683 методом X — 12:
«Means by Season» — средние величины
по соответствующим сезонам
Помимо компонент, изображенных на рис. 6.14, была построена
регрессия (6.20) по эффектам (рис. 6.16).
1985 1986 1987 1988 1989 1990 1991 1992 1993
Residuals
1985 1986 1987 1988 1989 1990 1991 1992 1993
Рис. 6.14. Сезонная декомпозиция ряда № 1683
с помощью X-12:
«Series No 1683» — график исходного ряда;
«Trend component» — график трендовой компоненты;
«Seasonal component» — график сезонной компоненты;
«Residuals» — график случайной компоненты.
84
0,92
0,88
4,500
3,000
0,96
Рис. 6.16. Регрессия по эффектам торговых дней и пасхи
в модели X-12 — ARIMA
Выбранные нами эффекты оказались статистически незначимыми:
так как расчетные значения t — статистик (столбец «t-value») оказались по модулю меньше критического 5%-ного (1,98), у нас нет оснований отклонить гипотезу о равенстве соответствующих коэффициентов
нулю. Следовательно, такую регрессию по остаткам в нашем случае
не имеет смысл строить.
85
Помимо всего прочего программа автоматически спрогнозировала
значения сезонных компонент на 1 год вперед. Судя по всему, это
было осуществлено с помощью модели авторегрессии, однако никакой информации о том, что было выбрано и как именно, программа
не выводит. Для более адекватного прогнозирования значений ряда
исследователю стоит отдельно рассмотреть динамику каждой из сезонных компонент, динамику трендовой компоненты, после чего дать прогноз этих значений и, соединив их вместе, дать финальный прогноз
значений по ряду данных.
и какие-нибудь другие веса, но обычно альтернативное задание весов на первом шаге практически не влияет на конечный результат декомпозиции.
2. На следующем шаге осуществляется переход на внутренний цикл, в котором используются заданные робастные
веса t , в результате которого получаются значения тренда
y t и сезонных коэффициентов ct .
3. На основе полученных значений рассчитываются
остатки по всему ряду данных:
6.5. Äåêîìïîçèöèÿ âðåìåííîãî ðÿäà ñ ïîìîùüþ LOESS
t  yt  y t  ct ,
В 1990-м г. в качестве альтернативы разрабатываемому
CENSUS методу сезонной декомпозиции появился метод
«сезонной трансформации с помощью LOESS» (Seasonal
Transformation using LOESS — «STL») 11. Как следует
из названия этого метода, в его основе лежит рассмотренный
нами в параграфе 5.1 метод локальных регрессий. Именно
с помощью LOESS и происходит сглаживание исходного
ряда данных, что позволяет сразу же решить проблему
с выпадением наблюдений на концах ряда, а так же получить
робастную оценку ряда.
Так же, как и с X-12, исследователь вправе осуществить
предварительное преобразование Бокса-Кокса для того,
чтобы получить либо модель с аддитивной, либо с мультипликативной сезонностью.
Вся процедура сезонной декомпозиции с использованием STL состоит из двух циклов: внешнего и внутреннего.
Внешний цикл заключается в расчете робастных весов через
медианное абсолютное отклонение по аналогии с тем, как
это делалось на седьмом шаге в LOESS. Внутренний цикл
включает в себя расчет трендовой и сезонной компонент.
Рассмотрим подробней (по шагам) внутренний и внешний циклы STL.
Внешний цикл состоит из следующих шагов:
1. Предварительный шаг внешнего цикла начинается
с допущения, что все робастные веса t одинаковы для всех
наблюдений. Такое предположение фактически означает
отсутствие робастных оценок. Исследователь вправе задать
по которым далее рассчитывается ряд робастных весов
по той же формуле (5.16), что и для простой LOESS, с той
же биквадратной функцией весов (5.7):
1 Cleveland Robert B., Cleveland William S., McRae Jean E., Terpenning Irma.
STL: A Seasonal — Trend Decomposition Procedure Based on LOESS //
Journal of Official Statistics. 1990. Vol. 6. № 1. Р. 3–73.
86
(6.21)
 t

t  W 
.
 6  MAD 
Шаги 2 и 3 повторяются заданное исследователем no раз.
Во внутреннем цикле активно используется сглаживание
с использованием LOESS, в который вносятся небольшие
коррективы. В процессе все так же используется трикубическая функция (5.8), дающая веса:
 xi  x j 
w j z j  WT 
,
 hi 
 
(6.22)
где hi — все так же расстояние до наблюдения, наиболее отдаленного от i — го.
Однако в некоторых случаях требуется задать большее расстояние, нежели физически позволяет это сделать исходный
ряд данных. В таком случае осуществляется простая замена:
hi  hn
q
,
n
(6.23)
где hn — расстояние до самой отдаленной точки в сглаживаемом ряде данных; n — число наблюдений в сглаживаемом
ряде данных; q — желаемая длина окна.
Такое преобразование требуется для получения более
адекватных сглаженных значений компонент.
87
Кроме того в сглаживании используется либо линейная функция тренда (5.9) yˆt  a0  a1t , либо простая средняя
величина yˆt  a0 .
Первое подразумевает наличие тенденций к росту либо
снижению, второе не подразумевает наличия каких-либо
тенденций.
Шаги внутреннего цикла включат в себя:
1. Детрендирование по формуле (6.8) c1t  yt  y t .
Здесь и далее число в верхнем индексе указывает на шаг
во внутреннем цикле, на котором получена данная оценка.
В качестве стартовой оценки для сглаженного ряда y t
можно использовать даже нули: y t  0 , t 1;T  . В таком случае трендовая составляющая окажется смешанной с сезонной компонентой, но на последующих шагах цикла они
будут разделены.
2. Сглаживание сезонных компонент.
Каждая сезонная компонента сортируется по периодам,
после чего сглаживается LOESS. Например, если исследователь имеет дело с месячными данными, то сглаживаются все
январские значения, затем февральские и т.д.
Обычно на втором шаге принимается q  rsmooth . Однозначного указания по выбору r(smooth) нет, однако можно дать
общий совет по заданию этого параметра. Если имеются
какие-то основания считать, что сезонная компонента может
эволюционировать во времени, то стоит выбирать небольшие значения r(smooth). Если же таких эволюционных изменений не предполагается, то r(smooth) нужно увеличивать. Единственное ограничение на эту величину — она не должна быть
меньше 7, что вызвано слишком сильной реакцией LOESS
в таком случае на случайные отклонения.
Стоит отметить, что при сглаживании на этом шаге
расчет ведется не только для всех имеющихся значений,
но и для значений, выходящих за рамки ряда так, чтобы расчетных значений оказалось больше, чем фактических на s
слева и s справа. В итоге полученный ряд сезонных компонент ct2 состоит T + 2s наблюдений.
3. Глубокое сглаживание сезонных компонент.
Полученные сезонные компоненты ct2 сглаживаются
по периодам еще раз. Точнее, вначале двумя простыми
скользящими средними порядка s, затем — простой скользящей средней третьего порядка. Это сглаживание убирает
88
излишние 2s наблюдений на концах, полученные на предыдущем шаге. После этого полученный ряд сглаживается
LOESS с q  rlow , где r(low) выбирается равным наименьшему
нечетному целому числу, большему s. Для месячных данных
это число равно 13.
В результате этого исследователь получает ряд сглаженных сезонных компонент ct3 . Если в сезонных компонентах
ct2 были трендовые составляющие, то после такого сглаживания они оказываются в чистом виде в ct3 .
4. Детрендирование сглаженных сезонных компонент.
Чтобы избежать попадания трендовых компонент в сезонные коэффициенты, рассчитываются новые сезонные коэффициенты: ct4  ct2  ct3 .
5. Десезонализация.
Из исходного ряда данных вычитаются сезонные коэффициенты ct4 , что приводит к получению трендовой компоненты, смешанной с ошибками: y t  t  yt  ct4 .
6. Сглаживание тренда.
После десезонализации полученный ряд сглаживается
LOESS с q  rtrend  . r(trend) выбирается в пределах от 1,5s до 2s,
что позволяет избавляться от остатков сезонных составляющих в ряде данных с ошибками.
На этом внутренний цикл заканчивается. В результате
него исходный ряд данных раскладывается на сезонную
компоненту ct4 , трендовую компоненту y t и ряд ошибок t .
Цикл повторяется исследователем ni  раз, после чего происходит переход на внешний цикл.
В своей статье Р. Б. Кливленд с соавторами11 показали,
что для эффективного сглаживания ряда достаточно задать
ni   1 и no  5 , так как при таких значениях обеспечивается оптимальная скорость схождения к оценкам трендовой
и сезонной компонент. Можно задавать и более высокие
значения, однако к радикальному качественному изменению
компонент это не приводит.
Как видим, механизм STL не отличается простотой,
однако обладает рядом преимуществ по сравнению с рассмотренным нами ранее X-12:
1 Cleveland Robert B., Cleveland William S., McRae Jean E., Terpenning Irma.
Указ. соч. С. 20.
89
90
Yt
3000 3800 4600
Ряд №1683
1985 1986 1987 1988 1989 1990 1991 1992 1993 1994
Yt
3000 3800 4600
Трендовая компонента
1985 1986 1987 1988 1989 1990 1991 1992 1993 1994
Сезонная компонента
Yt
0,90 1,05 1,20
Рассмотрим STL на примере ряда № 1683 из базы рядов M3.
Этот метод декомпозиции уже реализован в программе «R», в пакете
«forecast» (доступном для свободного скачивания).
Учитывая, что сезонная компонента имеет эволюционную структуру, мы выбрали минимальное рекомендуемое значение r(smooth), равное 7. В качестве основных функций в LOESS как в случае сезонных,
так и трендовых компонент, мы выбрали простые линейные модели
(5.9) — как мы уже убедились, все эти компоненты непостоянны
и имеют локальные тенденции либо к росту, либо к снижению. Кроме
того, мы решили обратиться к робастной оценке весов для учета возможных «выбросов» в остатках. Наконец, для большей надежности
мы задали ni   3 и no  5 . В результате расчетов ряд был разложен
на составляющие (рис. 6.17).
Как видим, декомпозиция с помощью STL дает результаты, отличные от X-12 и классической декомпозиции: трендовая составляющая
получается более гладкой, чем в X-12, однако сезонные коэффициенты
при этом изменяются более резко и менее предсказуемо. Для наглядности сезонные коэффициенты, полученные с помощью STL, показаны
по периодам на рис. 6.18.
На графике видно, что многие сезонные коэффициенты в случае
с STL не имеют постоянной тенденции, а значит и сложнее прогнозируемы. В результате этого дать точные прогнозы на следу ющие
периоды будет затруднительно. В качестве альтернативы можно
было бы задать фиксированные значения сезонных коэффициен-
тов (по аналогии с классической декомпозицией). Это, безусловно,
привело бы к более простой прогнозируемости коэффициентов,
но при этом к менее точной оценке тренда и высоким ошибкам.
В такой ситуации с меня ющимися сезонными коэффициентами,
можно дать прогноз по аналогии с методом Naïve, т.е. допустить,
что коэффициенты в будущие периоды будут равны последним
полученным.
1985 1986 1987 1988 1989 1990 1991 1992 1993 1994
Случайная компонента
Yt
0,85 1,05 1,25
1. Метод позволяет осуществлять декомпозицию
для рядов с любой сезонностью, а не только с месячной или
с квартальной (для которых разрабатывался X-12).
2. Метод так же допускает, что сезонная компонента
может меняться во времени, однако данный процесс контролируется исследователем путем выбора значения r(smooth)
на втором шаге внутреннего цикла.
3. Сглаживание тренда так же может регулироваться
исследователем путем задания величины r(trend) на шестом
шаге внутреннего цикла.
4. За счет внешнего цикла исследователь может получить
автоматические робастные веса, что приведет к более точному сглаживанию и отсеканию влияния значений, которые
могут быть отнесены к выбросам.
В качестве недостатка можно отметить, что процедура
STL не подразумевает учет влияния торговых дней, эффекта
пасхи и т.п. — все то, что учитывает X-12 на этапе построения регрессии. Однако этот недостаток может быть легко
исправлен путем построения такой регрессии по финальным
остаткам.
1985 1986 1987 1988 1989 1990 1991 1992 1993 1994
Рис. 6.17. Сезонная декомпозиция ряда № 1683 методом STL
91
0,90 0,95 1,00 1,05 1,10 1,15 1,20 1,25
Yt
Пусть перед исследователем стоит задача построить
аддитивную модель с сезонностью вида (6.1) yt  y t  ct  t ,
где в качестве y t может выступать как некоторый тренд, так
и регрессионная модель вида
y t  a0  a1x1,t  a2 x 2,t  ...
J
F
M
A
M
J
J
A
S
O
N
D
Рис. 6.18. Динамика сезонных компонент после декомпозиции
ряда №1683 методом STL
6.6. Ìîäåëèðîâàíèå ñåçîííûõ êîëåáàíèé ñ èñïîëüçîâàíèåì
ôèêòèâíûõ ïåðåìåííûõ
В стороне от методов сезонной декомпозиции стоит метод
учета сезонных колебаний в регрессионных моделях с помощью фиктивных переменных. Метод фиктивных переменных
был рассмотрен нами подробно в параграфе 4.6. Здесь мы
рассмотрим один из вариантов его применения на практике.
Как мы отмечали ранее, фиктивные переменные могут
включаться в регрессию двумя способами:
1) в константу, путем простого добавления соответствующих переменных;
2) в угол наклона, путем перемножения фиктивных переменных на факторы и включения новых полученных переменных в регрессию.
При моделировании сезонности эти способы дают совершенно разные результаты. Первый способ фактически соответствует построению модели с аддитивной сезонностью,
в то время как второй — соответствует построению модели
с мультипликативной сезонностью.
Рассмотрим для начала первый способ включения фиктивных переменных.
92
(6.24)
Для учета аддитивной сезонности в таком случае в модель
можно ввести s — 1 фиктивную переменную. Например,
в случае с квартальными данными в модель нужно будет
включить три фиктивные переменные, соответствующие
кварталам:
1) season1 = 1 — если данное наблюдение относится к первому кварталу;
2) season2 = 1 — если данное наблюдение относится ко
второму кварталу;
3) season3 = 1 — если данное наблюдение относится к третьему кварталу.
Финальная регрессионная модель будет иметь следующий вид:
yt  y t  b0 season1  c0 season2  d0 season3  t .
(6.25)
Коэффициенты такой модели могут быть оценены простым МНК.
Эталоном в данном случае выступает четвертый квартал,
для которого модель (6.25) будет принимать вид yt  y t  t .
Для всех остальных кварталов будет меняться уровень
ряда на величину коэффициента перед соответствующей
фиктивной переменной. Такое включение фиктивных переменных будет приводить к учету аддитивной сезонности:
каждый первый квартал года значение yt будет выше значения y t на одну и ту же фиксированную величину b0, что,
в принципе, соответствует простому сезонному коэффициенту для этого же квартала, получаемому в случае с классической декомпозицией. Единственное различие в коэффициентах будет заключаться в точке отсчета. Как мы обсуждали
ранее, фиктивные переменные характеризуют различия
в категориях относительно выбранного эталона. Сезонные
же коэффициенты считаются относительно некой средней
сглаженной линии. Значения сезонных коэффициентов
и коэффициентов при фиктивных переменных будут раз93
yt  y t e b0season1c0season2 d0season3 t ,
(6.27)
в которой сезонность уже действительно учтена мультипликативно. Однако подобное включение подразумевает предварительную оценку y t , например, по десезонализированному
ряду, что заставляет нас обратиться к одному из методов сезонной декомпозиции.
2. Включить фиктивные переменные в угол наклона факторов модели.
В этом случае предварительно надо понять, от какого
фактора может зависеть величина амплитуды. В модели
вида (6.24) сезонность может, например, расти с ростом x1
либо со снижением x2, либо с изменением другого фактора.
Выяснить, с динамикой какого из факторов связана сезонность, на практике может быть проблематично. Однако
если мы строим модель тренда, то сезонность можем учесть
мультипликативно, добавив фиктивные переменные в угол
наклона. Например, если мы имеем дело с простой линейной
моделью:
y t  a0  a1t ,
(6.28)
то модель с мультипликативной сезонностью будет иметь
вид
yt  a0  a1t  b1season1  t  c1season2  t  d1season3  t  ... (6.29)
В таком случае с ростом значения t значение y по сезонам
будет расти. Например, для квартальных данных на первом
наблюдении в первый сезон значение y будет выше эталонного на b1 1 , а на пятом (год спустя) — выше эталона на b1  5 .
94
Yt
9000 11 000 13 000
которая, как мы знаем, будет соответствовать модели:
7000
(6.26)
5000
ln yt  ln y t  b0 season1  c0 season2  d0 season3  t ,
Графически простая модель тренда (6.28) с фиктивными переменными может быть представлена следующим образом на примере ряда
№ 2568 (рис. 6.19).
3000
личными, однако зависимости они будут моделировать одни
и те же, по схожим принципам.
Моделирование мультипликативной сезонности с помощью фиктивных переменных возможно двумя методами:
1. Перейти к логарифмам, после чего включить фиктивные переменные. В таком случае мы получим модель:
J
F
M
A
M
J
J
A
S
O
N
D
Рис. 6.19. Ряд № 2568 в динамике по месяцам
(пунктирные линии) и его аппроксимация
(сплошные линии) с помощью модели линейного тренда
с фиктивными переменными1
Как видим по рис. 6.19, каждый год по месяцам в ряде № 2568
наблюдается тенденция к росту. Поскольку ряд № 2568 трендово стационарен, его можно было описать простой моделью тренда с добавлением фиктивных переменных (по аналогии с (6.29)). На рис. 6.19
показано, как в таком случае тенденция была описана по месяцам.
На рис. 6.20 изображена часть ряда № 2568 с упомянутой моделью
с фиктивными переменными.
Рисунок показывает, что собой представляет модель с фиктивными переменными. Прямыми пунктирными линиями показаны
модели трендов для апреля и мая каждого года. Как видим, по каждому из периодов по годам наблюдается простой линейный рост. Единственное, что происходит — от месяца к месяцу меняется константа,
которая как раз и зависит от значения коэффициента при фиктивной
переменной.
1 По оси абсцисс обозначены месяцы: J — January (Январь), F —
February (Февраль) и т.п.
95
3. Для построения модели таким методом требуется предварительно выбрать вид функции, которая лучше всего опишет данный процесс. В случае с простыми трендовыми моделями это может быть затруднительно, особенно в ситуациях,
когда трендовая компонента эволюционирует во времени.
16000
14000
12000
10000
8000
6.7. Ïðîãíîçèðîâàíèå ñ ïîìîùüþ òðåíä-ñåçîííûõ ìîäåëåé
6000
Обратимся теперь к тому, как именно можно дать прогноз
по сезонному ряду данных с использованием упомянутых
методов декомпозиции и метода фиктивных переменных.
96
4500
4000
3500
3000
2500
2000
1500
1000
0
окт. 94
500
окт. 93
Подводя итог рассмотрению моделирования сезонности
с помощью фиктивных переменных, можно выделить следующие преимущества и недостатки метода.
Преимущества:
1. Метод не требует «разложения» ряда на части, а значит, не требует и определения того, как именно сглаживать
отдельные части ряда.
2. При использовании метода не происходит потерь наблюдений (как в случае с методом классической декомпозиции).
3. Метод позволяет включить сезонность в любую регрессионную модель, а не только в модель тренда, что может быть полезно
в случае, если мы пытаемся спрогнозировать какой-то показатель
на основе значений другого известного нам показателя.
4. Метод прост в реализации: достаточно задать вид функции, определить, как именно включать фиктивные переменные, и рассчитать оценки коэффициентов методом наименьших квадратов.
Недостатки:
1. Метод подразумевает усреднение всех сезонных коэффициентов. Он не допускает возможность эволюционного
изменения сезонных составляющих во времени.
2. Метод не учитывает возможные «выбросы» — их можно
учесть только вручную, задав предварительно соответствующие веса каждому наблюдению и рассчитав оценки модели
взвешенным МНК.
окт. 92
Рис. 6.20. Часть ряда № 2568 (сплошные тонкие линии) и его
аппроксимация (пунктирные линии с точками) с помощью
модели линейного тренда с фиктивными переменными
Для примера возьмем все тот же ряд данных № 1683 из базы рядов
M3. Мы уже проводили его декомпозицию методами классической
декомпозиции, X-12 и STL. Во всех трех случаях мы сталкивались с тем,
что трендовая компонента изменяется во времени. Это означает, что
строить модель тренда по всему ряду в этом случае нецелесообразно,
для прогнозирования стоит выбрать какую — то последнюю часть.
В случае с классической декомпозицией ситуация усложняется
потерей последних шести наблюдений. Рассмотрим отдельно трендовую компоненту, полученную нами после декомпозиции в параграфе 6.3 (рис. 6.21).
окт. 91
янв. 92
окт. 90
янв. 91
окт. 89
янв. 90
окт. 88
янв. 89
окт. 87
янв. 88
окт. 86
0
окт. 85
2000
окт. 84
4000
Рис. 6.21. Трендовая компонента ряда № 1683 после
проведения процедуры классической декомпозиции и модель
тренда, построенная по всему имеющемуся ряду1
1 Вертикальной линией обозначено последнее имевшееся в распоряжении исследователя наблюдение.
97
Стандартный метод построения тренд-сезонных моделей подразумевает использование всех наблюдений в одинаковой мере, поэтому
мы построим модель линейного тренда по всему ряду данных. Кроме
того, в среднем по ряду наблюдается медленный рост, который может
быть описан такой моделью. В результате получим следующее уравнение тренда:
y t  3839,5  2,9t .
(6.30)
То, как данная модель описывает трендовую компоненту и какой
дает по ней прогноз, отражено на рис. 6.21. Как видим, модель линейного тренда сильно усредняет тенденцию, имеющуюся в ряде данных.
По рисунку так же виден промежуток с отсутствующими значениями
трендовой компоненты (часть ряда до вертикальной сплошной линии).
Прогноз по построенной модели тренда отображен после вертикальной
сплошной линии.
Чтобы дать прогноз по самому ряду, полученные значения тренда
нужно умножить на соответствующие значения сезонных коэффициентов (напоминаем, мы строили мультипликативную модель). Тогда
будет получена тренд-сезонная модель, на основе которой можно дать
следующий точечный прогноз (рис. 6.22).
Как видим, в среднем тренд-сезонная модель, построенная
на основе классической декомпозиции спрогнозировала ряд данных
неплохо, отразив все сезонные колебания. Единственная проблема
в полученном прогнозе заключается в недооценке пика, произошедшего в июле 1994 г.
Для оценки точности прогноза, мы рассчитали sMAPE. По полученной нами модели для прогнозируемого участка она получилось
sMAPE  5,61% .
Рассмотрим теперь динамику трендовой составляющей в декомпозиции X-12 (рис. 6.23).
4500
4000
3500
3000
2500
2000
1500
6000
1000
5000
500
4000
окт. 92
окт. 91
окт. 90
окт. 89
окт. 88
окт. 87
окт. 86
3000
окт. 85
окт. 84
0
2000
Рис. 6.23. Трендовая компонента ряда № 1683
после проведения процедуры декомпозиции X-12
1000
0
июл. 91
июл. 92
июл. 93
июл. 94
Рис. 6.22. Ряд № 1683 (сплошная линия с точками
до вертикальной линии и пунктирная линия
с не закрашенными кружками после вертикальной линии),
тренд-сезонная модель (сплошная линия до вертикальной
линии и сплошная линия с точками после вертикальной
линии), построенная на основе классического метода
сезонной декомпозиции, и тренд (6.30) (прерывистая линия,
проходящая по графику слева направо)
98
Динамика трендовой составля ющей здесь более гладкая, чем
в классической декомпозиции, однако менее монотонная. Начиная
с июля 1991 г. наблюдается тенденция к более сильному росту показателя, а ближе к концу ряда трендовой компоненты — нелинейный рост,
однако эти черты мы в расчет брать не будем и построим линейную
модель по всему ряду (как это и предполагает стандартный подход).
Получим следующее уравнение тренда:
y t  3857,9  4,2t .
(6.31)
Как видим, тренд (6.31) несущественно отличается от тренда (6.30):
угол наклона оказался выше на 1,1 единицы, что, возможно, вызвано
99
наличием последних шести точек, которые выпали из рассмотрения
в классической декомпозиции. Для построения финальной трендсезонной модели допустим, что в будущем мы можем ожидать такие же
значения сезонных коэффициентов, какие мы получили в последнем
году. Регрессионную составляющую мы убираем из рассмотрения, так
как в ходе проведения декомпозиции X-12 мы убедились в ее незначимости. Перемножив сезонные коэффициенты на тренд (6.31), получим
модель, показанную на рис. 6.24.
4500
6000
2000
4000
3500
3000
2500
1500
5000
1000
500
4000
3000
0
окт. 84 окт. 85 окт. 86 окт. 87 окт. 88 окт. 89 окт. 90 окт. 91 окт. 92
2000
Рис. 6.25. Трендовая компонента ряда № 1683 после
проведения процедуры декомпозиции STL
1000
0
июл. 91
июл. 92
июл. 93
июл. 94
Рис. 6.24. Ряд № 1683 (сплошная линия
с точками до вертикальной линии и пунктирная
линия с не закрашенными кружками после вертикальной
линии) и тренд-сезонная модель (сплошная линия
до вертикальной линии и сплошная линия с точками
после вертикальной линии), построенная на основе
метода X-12
Первое, что обращает на себя внимание — это то, что полученный
прогноз очень похож на прогноз по методу классической декомпозиции: он так же повторяет сезонные флуктуации и так же несколько
недооценивает пик в июле 1994 г. Симметричная ошибка аппроксимации, рассчитываемая по формуле (2.21), для данного прогноза оказалась немного меньше, чем в случае с классической декомпозицией:
sMAPE  5,41% .
Обратимся к трендовой составляющей, полученной в результате
STL (рис. 6.25).
100
Можно заметить, что трендовая составляющая, полученная в данном случае, оказалась значительно более гладкой, чем трендовые
составляющие в классической декомпозиции и X-12. Начиная с октября 1991 г., наблюдается ровная линейная тенденция. Однако для того,
чтобы создать более или менее одинаковые условия для всех моделей,
мы построим линейный тренд так же, как делали до того — по всему
ряду. Получим следующее уравнение:
y t  3820,5  4,7t .
(6.32)
Теперь так же, как мы это сделали с X-12, предположим, что
на периоде прогнозирования сезонная компонента будет идентична
полученной в последнем году, умножим ее на прогнозные значения
по тренду. В результате получим следующий прогноз (рис. 6.26).
Как видим, точечный прогноз по такой тренд-сезонной модели
лучше спрогнозировал пик и падения, однако в нескольких точках оказался дальше, чем прогнозы по предыдущим двум моделям. Вызвано
это в первую очередь тем, какими получились сезонные компоненты
в результате декомпозиции, и как мы их спрогнозировали.
Симметричная ошибка аппроксимации для данного прогноза оказалась выше предыдущих двух: sMAPE  6,86% . Более точная регулировка коэффициента сглаживания во время декомпозиции могла
бы повысить точность прогноза. Однако знать заранее, какую именно
величину надо взять для получения точного прогноза невозможно.
101
На себя обращает внимание тот факт, что фиктивные переменные
за август — ноябрь оказались значительно выше остальных переменных. Это говорит о том, что увеличение показателя происходит в большей степени в обозначенные месяцы. Пик, в среднем, приходится
на сентябрь. Прогноз по модели (6.33) представлен на рис. 6.27.
6000
5000
4000
6000
3000
5000
2000
4000
1000
3000
0
июл. 91
июл. 92
июл. 93
2000
июл. 94
Рис. 6.26. Ряд № 1683 (сплошная линия с точками
до вертикальной линии и пунктирная линия
с не закрашенными кружками после вертикальной линии)
и тренд-сезонная модель (сплошная линия до вертикальной
линии и сплошная линия с точками после вертикальной
линии), построенная на основе метода STL
Рассмотрим модель тренда с сезонностью, учтенной через фиктивные переменные. Строим мы ее так же по всему ряду данных, что создает более или менее одинаковые условия для всех моделей.
В качестве основы мы будем использовать все ту же модель линейного тренда, а для того, чтобы учесть сезонность мультипликативно,
включим фиктивные переменные в угол наклона, как это было сделано в (6.29). Чтобы получить отдельные значения коэффициентов
для каждой из фиктивных переменных, мы уберем из рассмотрения
коэффициент угла наклона при t и включим все 12 фиктивных переменных. Оценим полученное уравнение МНК, в результате чего получим следующую модель:
yˆt  3513,5  1,3 jan  t  1,9 feb  t  1,2mar  t  2,1apr  t 
0,3may  t  6,1 june  t  2,3 july  t  9,3aug  t  13,8 sep  t  ,
12,2oct  t  7,8nov  t  2,3dec  t
(6.33)
где jan, feb, mar и т.п. — фиктивные переменные, отвечающие соответственно за январь, февраль, март и т.д.
102
1000
0
июл. 91
июл. 92
июл. 93
июл. 94
Рис. 6.27. Ряд № 1683 (сплошная линия с точками
до вертикальной линии и пунктирная линия с незакрашенными
кружками после нее — ряд, использовавшийся при построении
модели) и прогноз по модели тренда с фиктивными
переменными (сплошная линия до вертикальной линии
и сплошная линия с точками — после нее)
Сразу же можно отметить, что прогноз по модели с фиктивными
переменными оказался самым точным: за счет усреднения модель
спрогнозировала как пик, так и отдельные отклонения от тренда. Симметричная ошибка здесь: sMAPE  4,24% .
Что любопытно, исходный ряд данных модель аппроксимировала
незначительно лучше, чем тренд-сезонная модель на основе классической декомпозиции; X-12 и STL в нашем примере лучше справились
с аппроксимацией.
В заключение стоит заметить, что данный пример ни
в коем случае не говорит о превосходстве одного метода
над другими. То, что линейный тренд с фиктивными переменными дал самый точный прогноз, может быть чистой случайностью. Поэтому однозначное предпочтение какому-то
103
одному из методов отдавать нельзя. Кроме того, помимо
выбора метода сезонной декомпозиции, на прогнозисте
лежит ответственность за выбор модели тренда. Возможно,
если бы мы выбрали другую модель или же построили ее
не по всему ряду данных, а по его части, ситуация изменилась бы и на первое место вышла какая-то другая трендсезонная модель.
В любом случае выбор тренда и метода декомпозиции,
на основе которого будет построен прогноз, должен осуществляться, исходя из поставленных перед прогнозистом задач,
а также с учетом всех преимуществ и недостатков рассмотренных нами в этом параграфе методов.
Ïðàêòèêóì
Вопросы для самоконтроля
1. Какие примеры сезонности в экономике вы можете привести?
2. Какие типы сезонности выделяют исследователи?
3. Какие методы определения сезонности вы знаете? В чем заключаются их преимущества и недостатки?
4. В чем суть декомпозиции временного ряда? Как декомпозиция
помогает выявить наличие сезонности?
5. Какие методы декомпозиции временнóго ряда с целью учета
сезонности динамики в настоящее время применяют чаще всего?
Чем эти методы отличаются друг от друга?
6. Как использовать фиктивные переменные для учета при прогнозировании эффекта сезонности?
7. Почему, несмотря на большой научный задел, далеко не всегда
удается выполнить точный прогноз в ситуации, когда временнóй ряд
явно содержит в себе сезонную компоненту?
Задания
Задание 1. Проанализируйте ряд № 2152 из базы M3. Посмотрите,
как изменяется показатель во времени и по месяцам. Изучите его
коррелограмму.
1. Есть ли в ряде данных сезонность? Какой характер она носит
(мультипликативная, аддитивная, постоянная, меняющаяся во
времени)?
2. Проведите классическую декомпозицию ряда, предполагая
аддитивную сезонность в ряде данных. Постройте график полученных составляющих (достаточно использовать функцию). Что можно
сказать о сезонных компонентах и о тренде по данному графику?
3. Проведите классическую декомпозицию, предполагая наличие
мультипликативной сезонности. Постройте график аналогичный
104
графику в п. 3. Отличаются ли какие-нибудь элементы графиков п. 2
и п. 3? Какие и, как вы думаете, почему?
4. Сравните остатки по п. 2 и п. 3. Постройте гистограммы и ящичковые диаграммы по остаткам. Проведите тест на нормальность
распределения остатков. Как вы считаете, с каким типом сезонности
вы имеете дело?
5. Проведите сезонную декомпозицию, используя LOESS.
Для этого в R можно воспользоваться функцией. Постройте график
компонентов так же, как сделали это в п. 2 и п. 3. Изучите остатки
для данной декомпозиции так же, как это сделали в п. 4.
6. Какому из рассмотренных методов сезонной декомпозиции вы
бы отдали предпочтение в случае с рядом данных № 2152 и почему?
Задание 2. Продолжим рассмотрение ряда № 2152. На этот раз мы
попробуем дать прогноз на 18 наблюдений вперед, используя разные
методы сезонной декомпозиции.
1. Вычлените трендовую и сезонные компоненты в аддитивной
и мультипликативной классических декомпозициях, проведенных
в предыдущем задании. Вычлените тренд и сезонные компоненты в STL.
2. Изучите полученные трендовые компоненты, подберите наилучшую модель тренда, описывающую сложившиеся тенденции
для каждой ситуации. Постройте выбранные модели и дайте с их
помощью прогнозы на 18 наблюдений вперед (не забывайте о потере шести последних наблюдений в классической декомпозиции).
Сделать это проще всего в MS Excel.
3. На основе прогноза трендов в п. 2 и имеющихся значений сезонных компонент постройте финальные прогнозы по всем моделям
и сравните их точность. Какой метод дал более точный прогноз ряда
№ 2152? Как вы думаете, почему?
Задание 3. Рассмотрите ряд № 850 (ряд по продажам электроэнергии).
1. Постройте линейный и сезонные графики по ряду. Какими
особенностями они обладают? Каков лаг сезонности в ряде данных?
2. Постройте скользящую среднюю соответствующую лагу сезонности. Какая модель тренда лучше описала бы полученную трендовую компоненту (линейный, логарифмический, экспоненциальный,
степенной ... тренд)?
3. Импортируйте ряд данных № 850 в MS Excel. Создайте столбцы
с переменными «t» (номер наблюдения), Q1, Q2, Q3 и Q4 (фиктивные
переменные, обозначающие номер квартала). Заполните полученные
столбцы. Обратите внимание, что Q1, Q2, Q3 и Q4 — фиктивные
переменные, принимающие значение «1» в случае, если данное наблюдение относится к соответствующему кварталу и «0» — в противном случае.
105
4. Используя функцию MS Excel «Анализ данных» → «Регрессия»
постройте модель регрессии значений ряда от номера наблюдений
и набора фиктивных переменных.
5. Используя полученную модель, дайте прогноз на восемь наблюдений вперед.
6. Используя любой метод сезонной декомпозиции, постройте
прогноз на восемь наблюдений вперед.
7. Сравните прогнозы в п. 5 и п. 6. Какой из них получился точнее? Почему?
Ãëàâà 7.
ÝÊÑÏÎÍÅÍÖÈÀËÜÍÎÅ ÑÃËÀÆÈÂÀÍÈÅ
В результате освоения данной главы студент должен:
знать
• основные понятия, принципы, методы и инструменты анализа
и прогнозирования эволюционных социально-экономических процессов;
• современные теории краткосрочного прогнозирования эволюционных процессов;
• характеристики и свойства модели экспоненциального сглаживания и ее модификаций;
уметь
• определять процессы, для прогнозирования которых уместно
применение модели экспоненциального сглаживания и ее модификаций;
• находить оптимальное значение постоянной сглаживания
и давать интерпретацию этому значению;
• выявлять тип социально-экономической динамики и подбирать соответствующую ей модификацию модели экспоненциального
сглаживания;
владеть
• методами и методиками прогнозирования с помощью модели
экспоненциального сглаживания;
• методами и методиками прогнозирования социальн оэкономической динамики с учетом типа этой динамики, в том числе
цикличности социально-экономических явлений;
• информационными технологиями автоматизации выбора
моделей экспоненциального сглаживания для прогнозирования
социально-экономических процессов.
Поскольку большие социально-экономические системы,
необратимо развиваясь во времени, адаптируются к различным внешним и внутренним факторам, модели, которые
описывают закономерности этого развития, также должны
учитывать это свойство, т.е. быть адаптивными. Иначе при107
чинно-следственные связи не будут описаны и прогнозные
модели будут неточны.
Понятия адаптации и адаптивности появились в лексиконе экономистов с приходом в экономику системного анализа. Практически во всех работах, посвященных анализу
свойств больших систем экономики, выявляется свойство
адаптивности, т.е. способности к адаптации, приспособлению; самообучаемости и самоорганизуемости.
Так, под адаптацией понимается способность системы
использовать получение новой информации для приближения своего поведения и структуры к оптимальным в новых
условиях. Самообучение — это способность системы, адаптируясь к новым условиям, корректировать свое поведение
с учетом допущенных ошибок. Способность же системы
изменять свою структуру, состав и параметры элементов
при изменении условий взаимодействия с окружающей средой выделяется как свойство самоорганизуемости1.
Любая большая система является адаптивной — она тем
или иным образом приспосабливается к изменившимся
условиям. Но не каждая из таких систем обладает свойством
самообучаемости — приспособления не только на основе
внешней информации, но и на основе того, насколько
поведение системы далеко от оптимального. Высший уровень живучести большой системы определяется наличием
у нее не только свойств адаптивности и самообучаемости,
но и самоорганизации.
Поскольку основной задачей социально-экономического
прогнозирования является построение прогнозных моделей, наилучшим способом описыва ющих динамику развития, то при прогнозировании эволюционных процессов
для этого используют адаптивные методы, позволяющие
в большей степени учитывать текущую информацию
и в меньшей степени — прошлую. Основное свойство таких
методов — изменение коэффициентов построенной модели
при поступлении новой информации, т.е. адаптация моделей к новым данным.
Впрочем, иногда встречается и такое понятие адаптивной корректировки параметров модели, когда они, оцененные
с помощью МНК, при поступлении новой информации про1
Математика и кибернетика в экономике : словарь — справочник. М. :
Экономика, 1975. С. 480.
108
сто пересчитываются вновь1. В данном случае нельзя говорить
об адаптации как таковой, так как последняя предусматривает
приспособление моделей к новой информации, учет ее в большей степени, чем прошлой информации, а не простой перерасчет
коэффициентов модели с учетом дополнительной информации,
которая считается одинаково важной, как в начале наблюдений,
так и в ее конце. Это уточнение модели, а не ее адаптация.
Формальной основой алгоритмов адаптации могут быть
любые итеративные методы, позволя ющие за конечное
количество шагов найти нужное решение. Именно такие
методы нашли широчайшее применение в задачах технической кибернетики. Но социально-экономические процессы
значительно многообразнее задач, которые решаются в технической кибернетике. Применительно к задачам социально-экономического прогнозирования принципиально отличающимися друг от друга выступают задачи краткосрочного
и среднесрочного прогнозирования.
При краткосрочном прогнозировании задача заключается
в том, чтобы «уловить» последние по времени сиюминутные отклонения от сложившихся тенденций, отклонения,
вызванные кратковременным действием некоторых факторов,
и учесть их при прогнозировании. После того, как действие
этих случайным образом сложившихся факторов прекратится, показатели социально-экономической системы вновь
вернутся к той траектории, по которой они двигались раньше.
При среднесрочном прогнозировании задача ставится
иначе: нет смысла учитывать текущие кратковременные
колебания и отклонения от сложившейся тенденции — они
в скором времени прекратятся. Есть смысл «уловить» наметившиеся в последние моменты наблюдений неминуемые
изменения в тенденциях развития, и, учитывая их, откорректировать прогнозную модель.
Ниже мы рассмотрим адаптивные модели, использующиеся в прогнозировании на краткосрочную перспективу.
7.1. Ìîäåëü ïðîñòîãî ýêñïîíåíöèàëüíîãî ñãëàæèâàíèÿ
Прежде всего, упростим задачу — предположим, что прогнозисту необходимо изучить некоторый временнóй ряд yt,
не имеющий какой-либо явно выраженной тенденции, и сде1 Гамбаров Г. М., Журавель Н. М., Королев Ю. Г. [и др.]. Статистическое
моделирование и прогнозирование : учеб. пособие / под ред. А. Г. Гранберга. М. : Финансы и статистика, 1990. С. 163.
109
лать прогноз в конце ряда на один шаг наблюдения yˆT 1 .
В этом случае ему проще всего воспользоваться в качестве
прогнозной модели простой средней арифметической (см.
параграф 5.2):
yˆT 1  y 
1 T
 yt
T t 1
(7.1)
Эта средняя арифметическая характеризует средний уровень ряда, отклонения от которого вызваны рядом причин.
В случае стационарного процесса и при нормальном распределении случайных величин эта процедура не вызывает
никаких сомнений и возражений. Однако если эти условия
не выполняются, то средняя арифметическая уже не будет
лучшей прогнозной моделью.
В случаях с эволюционными процессами предположение
об одинаковой важности всех наблюдений для получения
точного прогноза не может быть адекватным. Поэтому, чтобы
точнее спрогнозировать такой процесс, нужно в большей степени обращать внимание на текущие, а не на прошлые наблюдения. Например, для того, чтобы определить на завтра курс
рубля по отношению к евро, текущие значения этого курса
важнее, чем значения полугодовалой давности. Однако просто исключить из рассмотрения прошлые значения в общем
случае также будет некорректно, так как они в себе содержат
некоторую «историю изменений». Поэтому при получении
точечного прогноза в случае с эволюционными процессами
каждому наблюдению нужно задать некоторый вес. Тогда
прогноз на 1 шаг может быть получен по формуле
T
yˆT 1  T yT  T 1yT 1  ...  1y1   t yt ,
t 1
(7.2)
веса при этом должны быть такими, чтобы их сумма была
равна 1:
T
 t  1 .
(7.3)
t1
Естественное желание учесть текущую информацию
в большей степени, чем прошлую, может быть математически выражено так:
T  T 1  ...  1 .
110
Если при этом потребовать выполнения условия (7.3), то,
подставляя эти веса в (7.2), можно получить формулу взвешенной средней арифметической. В математике существует
огромное количество рядов, чья сумма будет равна единице,
а каждый вес будет убывать с убыванием наблюдений в прошлое, например, ряд

1
1
1
1

 ... 
 ...  
схо1 2 2  3
n   n  1
j 1 j   j  1
дится к единице, т.е. его сумма равна единице.
В принципе любой сходящийся к некоторому числу ряд
можно преобразовать так, чтобы его сумма была равна единице.
1 1
1
  ...   ... сходится к числу e — 1. Поэ1! 2!
n!
1
1

 ...
тому сумма такого ряда будет равна единице:
1!e  1 2!e  1
1

 ...
n !e  1
Например, ряд
Так какой ряд из огромного множества имеющихся вариантов предпочесть для случая краткосрочного прогнозирования эволюционных процессов? В каждом случае прогнозируемый процесс своеобразен и использовать один и тот же способ
задания весов будет методологически ошибочным — в каждом
отдельном случае наилучшим будет свой способ задания весов
взвешенной средней. Перебирать все возможные сходящиеся к единице ряды в поиске наилучшего из них на практике
не представляется возможным. Поэтому необходимо использовать некоторую универсальную процедуру, в которой, задавая один или несколько параметров, можно было бы наилучшим образом настроить взвешенную среднюю к свойствам
изучаемого ряда. Такая возможность имеется при показательном характере задания весов наблюдений. Соответствующая
модель была впервые предложена Р. Г. Брауном в 1956 г.11
и независимо от него — Ч. Хольтом в 1957 г.2:
S     1      1     ... .
2
(7.4)
Здесь параметр α является единственной переменной,
варьируя которую можно получить модель, пригодную
1 Brown R. G. Exponential Smoothing for Predicting Demand. Cambridge,
Massachusetts : Arthur D. Little Inc, 1956.
2 Holt C. C. Forecasting Seasonals and Trends by Exponentially Weighted
Averages. Pittsburgh, Pennsilvania : Carnegie Institute of Technology, 1957.
111
для различных по характеру изменений прогнозируемого
процесса. В общем случае веса в этом ряде распределяются
по убыва ющей показательной функции. Как мы знаем,
любая показательная функция может быть приведена
к виду экспоненты, поэтому и этот ряд обычно называют
экспоненциальным.
С помощью экспоненциально взвешенного ряда весов
легко рассчитать среднее взвешенное показателя y в момент
времени Т, которое будет являться прогнозной моделью процесса на следующий момент наблюдения (Т + 1). Обозначим
это прогнозное значение через yˆT 1 . Подставляя в (7.2) веса
(7.4), получим yˆT 1  yT   1    yT 1   1    yT 2  ...
2
Далее, вынося за скобки общий для всех, кроме первого значения, слагаемых, сомножитель (1 — α), получим
yˆT 1  yT  1    yT 1   1    yT 2  ... .
Сумма в квадратных скобках правой части полученного
равенства есть не что иное, как предыдущая взвешенная
средняя, вычисленная на множестве предыдущих значений
ряда. С учетом этого, получим окончательно:
yˆT 1  yT  1    yˆT .
(7.5)
Здесь α называется «постоянной сглаживания», а
—
«эквивалентной постоянной сглаживания».
Формула (7.5) оказалась очень удобной для расчетов
и на Западе известна под названиеми модель «простого
экспоненциальн ого сглаживания» («Simple exponential
smoothing»). В отечественной литературе ее иногда называют по имени автора — «Модель Брауна».
Как уже было сказано, модель имеет смысл только в том
случае, когда ряд весов сходится и его сумма равна единице.
В противном случае расчет по формуле (7.6) не даст взвешенную среднюю, и модель потеряет смысл взвешенной
средней.
Иногда в литературе можно встретить немного другую
формулу для модели экспоненциального сглаживания (к ней
мы обращались в параграфе 5.1.1):
yˆT  yT  1    yˆT 1 .
(7.6)
Как видим, модель в этой форме от модели в форме
(7.5) отличает лишь то, каким образом учитывается фак112
тическое значение при формировании расчетного. Форма
(7.6) чаще используется для целей сглаживания временнóго
ряда, нежели в непосредственном прогнозировании, тем
не менее обе формы имеют право на существование и во
многом похожи по своим свойствам. Здесь и далее мы будем
рассматривать модель экспоненциальн ого сглаживания
в форме (7.5).
Сразу стоит отметить, что основная цель модели Брауна — давать краткосрочные прогнозы (на 1—3 наблюдения
вперед). С ее помощью можно получить прогноз и на более
долгосрочную перспективу, но необходимо иметь в виду, что
прогноз ее тривиален и представляет собой простую прямую
линию, параллельную оси абсцисс. Получить этот прогноз
можно, введя предположение о том, что в будущем фактические значения совпадут с расчетными. Это грубое допущение, однако других вариантов, к сожалению, не существует.
В таком случае прогноз на h наблюдений, полученный методом Брауна, будет рассчитываться по формуле yˆT h  yˆT 1 .
Исходный ряд весов (7.4), предложенный Брауном,
представляет собой бесконечную геометрическую прогрессию, о которой известно, что она сходится к единице, если
для члена геометрической прогрессии выполняется единственное условие: модуль члена геометрической прогрессии
должен быть меньше единицы11.
Для нашего случая это условие запишется следующим
образом:
1   1 .
(7.7)
Из чего со всей очевидностью следует, что постоянная
сглаживания должна изменяться в пределах22:
02.
(7.8)
Легко убедиться в том, что при величине постоянной
сглаживания, превышающей единицу, ряд весов становится
знакочередующимся, но все так же сходится к единице. Это
со всей очевидностью следует из теоремы Лейбница, которая
1 Малая математическая энциклопедия. Будапешт : Изд-во Академии
наук Венгрии, 1976. С. 412.
2 Светуньков С. Г. О расширении границ применения метода Брауна //
Известия Санкт-Петербургского государственного университета экономики и финансов. 2002. № 3. С. 94–107.
113
гласит, что ряд q1  q2  q3  q4  ...   1 qn  ... , где все qn > 0,
сходится, если последовательность {qn} невозрастающая и
n 1
lim qn  0 .
Yt
(7.9)
n
Применительно к нашему ряду для 1 < α < 2 это будет
сформулировано так. Ряд значений:
2
3
   1     1     1    ...
(7.10)
0
t
имеет в своем составе только положительные члены.
Чтобы он сходился, необходимо выполнение условия (7.9),
n
что для исследуемого ряда примет вид lim  1    0 .
n
Оно выполняется, поскольку выражение под модулем
всегда меньше единицы в заданных границах 0 < α < 2.
Отметим, что еще в 1968 г. Дж. Л. Бреннер, Д. А. Д’Эспосо
и А. Г. Фаулер показали в своей статье1, что постоянная
сглаживания должна лежать именно в пределах от 0 до 2,
но до сих пор практически повсеместно используется более
узкий промежуток — от 0 до 1, использование которого существенно обедняет модель экспоненциального сглаживания.
Итак, модель Брауна имеет право на существование как
при нахождении постоянной сглаживания в пределах:
0   1,
(7.11)
которые назовем «классическими», так и в пределах:
1   2 .
(7.12)
которые мы назовем «запредельным множеством»22.
Параметр α получил название постоянной сглаживания,
потому что, как и любая взвешенная средняя, эта модель
усредняет прошлые значения, т.е. сглаживает «пики» и «провалы» графика динамики показателя (рис. 7.1).
1 Brenner J. L., D’Esposo D. A. and Fowler A. G. Difference equations in
forecasting formulas // Management Science. 1968. Vol. 15. № 3. Р. 141–159.
2 Светуньков С. Г. Запредельные случаи метода Брауна // Экономические науки: Ученые записки УлГУ. Вып. 2. Ч. 1. Ульяновск : Изд-во СВНЦ,
1997.
114
Рис. 7.2. Графическое представление сглаживания ряда
с помощью модели Брауна
Определим влияние постоянной сглаживания на результаты аппроксимации динамических рядов моделью Брауна.
Предположим, что постоянная сглаживания лежит в пределах от нуля до единицы (7.11) и принимает свое крайнее значение, равное нулю.
Тогда, подставив это значение в модель (7.5), получим
yˆT 1  0  yT  1  0 yˆT  yˆT .
В таком экстремальн ом случае модель не учитывает
текущую информацию, она становится неадаптивной. Если
в качестве стартовой оценки мы использовали среднюю
арифметическую по какой-то части ряда (либо по всему
ряду), то в этом случае мы придем к прогнозу, рассчитанному на основе этой средней величины. Однако стоит отметить, что 0 — это значение, при котором, формально говоря,
модель Брауна не существует (так как ряд весов перестает
сходиться к 1).
Теперь подставим в модель Брауна другое крайнее значение из классических пределов — единицу: yˆT 1  1 yT  1  1 yˆT 
 yT .
Модель в таком виде становится идентичной модели
Naïve, рассмотренной нами в параграфе 5.2.2. В целом
при таком значении постоянной сглаживания модель не учитывает прошлые значения, а полностью адаптируется к текущей информации.
115
Видя эти две крайние ситуации в классических пределах,
можно заключить, что постоянная сглаживания характеризует степень адаптации модели Брауна к текущей информации. О том, как влияет величина постоянной сглаживания на степень адаптации модели, свидетельствует рис. 7.2,
на котором изображены две сглаженные методом Брауна
кривые. Первая — при α = 0,3, вторая — при α = 0,7.
Yt
D 0,7
D 0,3
0
t
Рис. 7.2. Модель Брауна при разных значениях постоянной
сглаживания
Какой же экономический смысл имеют запредельные случаи
метода Брауна, определенные границами условия (7.11)? С учетом того, что запредельные случаи соответствуют условию,
при котором постоянная сглаживания всегда не меньше единицы, то можно ввести новую переменную в следующем виде
    1 , 1    1 .
(7.13)
Если теперь подставить (7.13) в исходную формулу
модели Брауна (7.5) и осуществить элементарные преобразования, можно получить следующее выражение:
yˆT 1  yT    yT  yˆT  .
(7.14)
Так как мы уже неоднократно обозначали ошибку аппроксимации как T  yT  yˆT , то модель (7.14) можно записать так:
yˆT 1  yT  T .
116
(7.15)
Таким образом, появляется возможность дать смысловое
толкование запредельным случаям модели Брауна.
Во-первых, следует сразу отметить, что при этом модель
полностью адаптивна к текущей информации — в формуле (7.15) текущая информация учитывается полностью,
поскольку первое слагаемое формулы есть не что иное, как
текущее наблюдение yt.
Во-вторых, модель становится в той или иной степени адаптивной к текущей ошибке аппроксимации — отклонению расчетных значений от фактических εt. При этом если постоянная
β равна нулю, то прогнозная модель оказывается совершенно
не адаптивной к текущей ошибке, а если она равна единице, то
в соответствии с условием (7.15) модель краткосрочного прогноза полностью учитывает величину текущей ошибки отклонения и модель становится абсолютно адаптивной к ошибке прогноза. Случаям, когда постоянная β лежит в пределах от нуля
до единицы, соответствует та или иная степень адаптивности
модели к текущей ошибке отклонения фактических значений
от расчетных (модель приобретает свойства самообучаемости).
Тут же можно заметить, что для классического предела β принимает отрицательные значения. В таком случае модель начинает медленнее реагировать на происходящие изменения.
Поскольку постоянная сглаживания определяет то, как
описывает модель Брауна прогнозируемый ряд, а, значит,
определяет и то, насколько точным может быть прогноз,
выполненный с помощью этой модели, возникает необходимость выбора наилучшего значения величины постоянной
сглаживания для каждого ряда.
В некоторых источниках можно встретить рекомендации
задавать постоянную сглаживания в пределах от 0 до 0,3 —
именно такой промежуток в свое время рекомендовал Браун.
Однако данный промежуток слишком узок и научно не обоснован. Более того, исследования по экспоненциальному сглаживанию показали, что априорное задание значений постоянной сглаживания ухудшает точность прогноза1. В наши дни
для выбора оптимального значения постоянной сглаживания
используют процедуру ретропрогноза, которая позволяет более
эффективно подобрать значение постоянной сглаживания2.
1 Chatfield C. The Holt-Winters forecasting procedure // Applied Statistics.
1978. Vol. 27. P. 264—279.
2 Gardner Jr. E. S. Exponential smoothing: the state of the art // Journal of
Forecasting. 1985.Vol. 4. P. 7.
117
Для этого исходный ряд данных yt описывают с помощью
модели Брауна, предварительно задав некоторое значение
постоянной сглаживания α, и вычисляют ошибку ретропрогноза на каждом наблюдении: t  yt  yˆt .
Ошибка ретропрогноза на каждом наблюдении мало
информативна с позиций поведения модели в целом. Общее
представление о точности модели Брауна при заданной
величине постоянной сглаживания дает некоторая обобщенная агрегированная величина: сумма квадратов отклонений,
среднее абсолютное отклонение либо некоторая другая статистическая характеристика. Выбор этой характеристики
определяется, прежде всего, задачами, которые ставит перед
собой прогнозист. Пусть, для определенности им выбран
критерий минимума дисперсии:
 2 
2
1 T 2 1 T
 t    yt  yˆt  .
T t 1
T t 1
(7.16)
Рассчитав для постоянной сглаживания α1 дисперсию
модели Брауна относительно исходного ряда, задают другое
значение постоянной сглаживания α2≠ α1, лежащее в пределах (7.8), и вновь вычисляют ошибку ретропрогноза, а на ее
основе — дисперсию ошибки.
Продолжая эту процедуру посредством изменения постоянной сглаживания в пределах ее допустимых значений, полу-


чают ряд значений  i ,  i2 . Поскольку дисперсия представляет
собой некоторую таблично заданную функцию от постоянной
сглаживания, задачу поиска оптимального значения постоянной сглаживания, при которой дисперсия ошибки будет
минимальной, можно изобразить графически (рис. 7.3).
Таким образом, задача нахождения оптимального значения постоянной сглаживания сводится к элементарному
поиску минимума этой функции. Решить эту задачу можно
с использованием численных методов, которые в массе своей
реализованы в различных статистических программах. Отметим, что чаще всего зависимость дисперсии ошибки ретропрогноза от значений постоянной сглаживания носит характер, изображенный на рис. 7.3. Однако встречаются ситуации,
когда эта зависимость имеет один или несколько локальных
минимумов (рис. 7.4.). Такие ситуации для модели простого
экспоненциального сглаживания крайне редки, но они могут
встретиться на практике.
118
V2
V21
V22
V2*
0
D1
D*
D2
2
D
Рис. 7.3. Дисперсия ошибки ретропрогноза как функция
от постоянной сглаживания
V2
V21
V22
V2*
0
D1
D*
D2
2
D
Рис. 7.4. Дисперсия ошибки ретропрогноза
как функция от постоянной сглаживания с несколькими
локальными минимумами
Поэтому рекомендуется поступать так. Изменяя величину постоянной сглаживания с шагом, равным 0,1, можно
119
вычислить соответству ющие дисперсии ретропрогноза.
Анализ этих дисперсий позволяет определить окрестности
оптимальной точки и уже в этой окрестности, используя
любой известный прогнозисту численный метод, можно
найти оптимальное значение постоянной сглаживания.
На практике иногда встречаются ситуации, в которых
минимум дисперсии получается при   0, что противоречит условию (7.8). Обычно это происходит в случаях с процессами, имеющими случайный или хаотический характер,
в которых наилучшей оценкой прогноза является либо средняя величина, либо величина, близкая к ней. В таких ситуациях исследователю стоит задать другое начальное расчетное значение yˆ0 либо использовать для прогнозирования
такого ряда вместо метода Брауна какой-нибудь иной.
Как было показано выше, в случае, когда оптимальное
значение постоянной сглаживания находится в классических пределах, модель адаптивна, когда же оно находится
в запредельном множестве, модель не только адаптивна,
но и самообучаема. Это говорит о том, что оптимальное значение постоянной сглаживания определяется свойствами
исходного ряда. Чем отличается ряд, для которого наилучшей является постоянная сглаживания, лежащая в классических пределах, от другого ряда, для которого оптимальное
значение постоянной сглаживания лежит в запредельном
множестве? Для ответа на этот вопрос проведем модельные
эксперименты на условных примерах. Рассмотрим таблицу
результатов расчета рядов, генерируемых различными моделями, имеющими тенденции различного рода (табл. 7.1)1.
Таблица 7.1
Оптимальные значения α для динамических рядов
разного типа
Модель, с помощью которой генерировался
динамический ряд
Оптимальное
значение постоянной сглаживания
Отсутствие тенденций, нормальное распределение ошибок
0,0202
Ряд с периодическим изменением уровня
0,5321
1 Светуньков С. Г., Бутуханов А. В., Светуньков И. С. Запредельные
случаи метода Брауна в экономическом прогнозировании. СПб. : Изд-во
СПбГУЭФ, 2006.
120
Окончание табл. 7.1
Модель, с помощью которой генерировался
динамический ряд
Оптимальное
значение постоянной сглаживания
Линейный рост
1,5473
Линейное убывание
1,5473
Экспоненциальный рост
1,8547
Синусоида (три периода)
1,4967
Парабола второй степени (вогнутая)
1,4724
Сумма синусоиды, параболы и экспоненты
0,2775
Логарифмическая функция
1,2745
Из данных таблицы видно, что практически во всех случаях оптимальными значениями постоянных сглаживания
являются значения, находящиеся в запредельном множестве
от 1 до 2. Исключением является случай генерации сложного динамического ряда с помощью синусоиды, параболы
и экспоненты (графически эта сумма представляет собой
невозраста ющую и неубыва ющую совокупность значений, колеблющихся вокруг некой средней величины), ряд
с периодическим изменением уровня и, конечно же, случай
с искусственным стационарным процессом (отсутствие тенденций). Понятно, что при разных значениях коэффициентов генерирующих функций будут получаться разные ряды,
а, следовательно, и разные оптимальные постоянные сглаживания, однако закономерность, показанная в табл. 7.1, сохраняется.
Теперь можно сделать необходимые обобщения, касающиеся запредельного множества Брауна. Если в процессе
оптимизации постоянная сглаживания лежит в классических пределах — от 0 до 1, то это говорит о том, что перед
исследователем представлен процесс либо с постоянным
математическим ожиданием (стационарный процесс), либо
процесс, в котором уровни ряда меняются очень редко.
В таком случае модель Брауна может достаточно эффективно
использоваться для прогнозирования. Если же оптимальное
значение постоянной сглаживания оказалось находящимся
в запредельном множестве, то это диагностирует ситуацию,
когда средняя взвешенная в принципе не может использоваться в качестве оптимальной оценки прогнозного значе121
ния моделируемого процесса. Это говорит о том, что процесс
вышел за рамки простой динамики. У него появилась некоторая тенденция в развитии. Ее математическое описание
в наблюдаемый промежуток времени возможно с помощью
одной из эконометрических моделей. В этом случае модель,
которая лучше всех описывает динамику прогнозируемого
экономического процесса, берется за основу и с ее помощью
применяется соответствующая модификация метода Брауна.
Тем не менее, если перед исследователем стоит задача
дать прогноз по модели Брауна, более точным будет прогноз
на основе постоянной сглаживания, подобранной из полного
множества (7.8), нежели из классического1.
Стоит сказать и о других критериях, использующихся
при подборе постоянной сглаживания. Помимо критерия
минимума дисперсии ошибки, в случаях, когда в ряде данных наблюдаются выбросы, рекомендуется осуществлять
подбор параметров на основе минимума средней абсолютной
ошибки:
MAE 
1 T
 t  min .
T t 1
(7.17)
Данный критерий более устойчив к «выбросам» и позволяет получить более робастное значение2.
Итак, модель простого экспоненциального сглаживания
оказывается очень удобной в практическом использовании
для целей краткосрочного прогнозирования как стационарных, так и нестационарных процессов. Однако главной
причиной, почему в литературе постоянную сглаживания
повсеместно ограничивают классическим пределом, является
проблема с интерпретацией значений, выходящих за границы
(7.8). В данном случае мы сталкиваемся с ситуацией, когда
желание интерпретировать модель значительно ее ограничивает и обедняет. Рассмотрим этот вопрос подробней.
В общем виде модель Брауна принято записывать как (7.5)
yˆT 1  yT  1    yˆT .
1
(7.18)
Hyndman Rob J., Koehler Anne B., Ord J. Keith, Snyder Ralph D.
Forecasting with Exponential Smoothing: The State Space Approach. SpringerVerlag Berlin Heidelberg. 2008. Р. 42
2 Gardner Jr. E. S. Note: Rule-based forecasting vs. damped-trend
exponential smoothing // Management Science. 1999. Vol. 45. Р. 245—253.
122
Именно в таком виде модель Брауна и стала популярной,
и именно в таком виде появляется соблазн дать постоянной
сглаживания следующую интерпретацию (которая превалирует в среде экономистов): α представляет собой некоторую
среднюю взвешенную, служащую для формирования прогнозного значения. Таким образом, прогноз складывается
из двух частей: из части фактического значения, полученного на наблюдении t, и части, спрогнозированной на это же
наблюдение t. В такой трактовке очевидно, что  0;1 , так
как подразумевается наличие средней между двумя значениями. Данной трактовки модели придерживаются многие
экономисты.
Графически формирование прогнозного значения в соответствии с формулой (7.18) представлено на рис. 7.5: точка
III считается как средневзвешенная фактического значения I и прогнозного II, ее значение как раз и становится
прогнозом — точкой IV. Далее берется средневзвешенная
между точками IV и V, получается новая средняя (точка
VI) и новый прогноз (точка VII) и т.д. Причем α в данной
интерпретации регулирует распределение весов между фактом и прогнозом.
VIII
*
yt
D
I
*
III
*
V
*
VI
*
IX *
1–D
— Модель
X
*
— Факт
*
VII
*
IV
*
II
t
Рис. 7.5. Графическое представление механизма
формирования прогноза в модели (7.18)
Однако в данном случае мы сталкиваемся с ситуацией,
в которой такая трактовка модели ее только ограничивает.
123
Если раскрыть скобки во втором множителе правой части
равенства (7.18) и перегруппировать слагаемые, то можно
получить иную форму записи модели Брауна:
yˆT 1  yˆT    yT  yˆT  .
(7.19)
В таком виде у нее более явно видны адаптивные черты:
прогнозное значение формируется на основе предыдущего
спрогнозированного, а α выступает некоторым коэффициентом адаптации модели к новой поступающей информации.
В этом случае степень адаптации может быть любой: модель
может адаптироваться незначительно и отсеивать поступающие «шумы» (когда α мал и, например, составляет 0,3) или
достаточно быстро адаптироваться к поступающей информации в случае, когда в процессе происходят качественные
изменения (когда α больше 1, например, 1,7).
Более того, поскольку выражение в скобках второго слагаемого правой части равенства (7.19) есть не что иное, как
текущая ошибка аппроксимации, то модель Брауна может
быть записана и так:
этого отклонения. Если текущая ошибка аппроксимации
отрицательна, средняя взвешенная уменьшается на откорректированную величину ошибки аппроксимации. Таким
образом, расчетные значения как бы «подтягиваются»
к текущему значению. В этом и проявляется суть адаптации
модели Брауна. Графическое представление этой трактовки
дано на рис. 7.6.
yt
VIII
*
— Модель
I
*
V
*
— Факт
D
*
*
*
II
X
*
IV
VII
IX
VI
* III
t
yˆT 1  yˆT  T .
(7.20)
Первая составляющая в (7.20) представляет собой среднюю взвешенную предыдущих значений, т.е. несет в себе
информацию обо всех предыдущих значениях изучаемого
ряда. Второе слагаемое, представляющее собой произведение постоянной сглаживания на текущую ошибку аппроксимации, характеризует способность модели учитывать текущую ошибку аппроксимации. Таким образом, модель Брауна
обладает способностью адаптироваться к текущим отклонениям от некоторого сложившегося уровня ряда.
Такая форма, стоит заметить, обычно носит название
формы «коррекции ошибок», так как модель в таком виде
корректирует свое значение к полученной на предыдущем
наблюдении ошибке.
В целом эта адаптация к ошибке происходит так. В случае, когда фактическое значение наблюдаемого ряда выше
расчетного, ошибка аппроксимации имеет положительный
знак и средняя арифметическая увеличивается на откорректированную с помощью постоянной сглаживания величину
124
Рис. 7.6. Графическое представление механизма адаптации
в модели (7.20)
Здесь расчетное значение II берется за базу для прогноза на следующем наблюдении и переносится в точку
III, которая затем корректируется на величину отклонения
фактического значения I от расчетного II. В итоге прогнозное значение из точки III «переходит» в точку IV, которая
в свою очередь становится базой для следующего прогноза
(точка VI) и т.д.
Модель Брауна можно представить и в другом виде. Так,
если обратиться к формуле (7.15):
yˆT 1  yT  T ,
(7.21)
то мы придем к новой форме, по-прежнему математически
тождественной формам (7.18) и (7.20). Однако благодаря
такому представлению, полученную модель можно в очередной раз трактовать несколько иначе. Для наглядности рассмотрим трактовку этой формы на рис. 7.7.
125
VIII
*
yt
I
*
V
*
III
*
V
IX
*
E
— Модель
— Факт
*X
*
*
VII
*
I
*
II
t
Рис. 7.7. Графическое представление механизма адаптации
в модели (7.21)
По своей логике этот механизм напоминает описанный
для рисунка 7.6, однако у него есть некоторые отличия. Так
модель изначально формируется исходя из предыдущего
фактического значения, а не из предыдущего расчетного (значение точки I переносится на следующее наблюдение в точку
III), которое затем корректируется на величину отклонения
факта (точка I) от прогноза (точка II) на предыдущем наблюдении пропорционально значению коэффициента β.
Для классических пределов изменения постоянной сглаживания от нуля до единицы, коэффициент     1 лежит
в пределах (1,0] . При положительном знаке текущей ошибки
аппроксимации фактическое значение, выступающее в качестве ориентира для прогноза, уменьшается на откорректированную величину текущей ошибки аппроксимации εT.
Это значит, что прогноз по модели Брауна при постоянной
сглаживания, лежащей в классических пределах, обладает
свойством инерционности — следующее прогнозное значение никогда не достигнет уровня уже имеющегося текущего.
В случае запредельного множества (7.12) коэффициент β
лежит в пределах [0,1) . В таком случае при положительном
отклонении фактического значения от расчетного, модель
предполагает дальнейшее увеличение показателя, превышающее достигнутый уровень. Поэтому фактическое значение
увеличивается на величину текущего отклонения, скорректированного на поправочный коэффициент β.
126
Значит, в классических границах изменения постоянной
сглаживания модель Брауна инерционна, а в запредельных
случаях инерционность модели уменьшается. Зная это свойство, можно дать интерпретацию модели Брауна.
В классических пределах, когда постоянная сглаживания
лежит в промежутке от нуля до единицы, модель отражает
изменяющиеся, но инерционные эволюционные процессы,
в которых изменения протекают с небольшой скоростью
В запредельном множестве, когда постоянная сглаживания лежит в пределах от единицы до двух, модель описывает процессы с малой инерционностью, когда качественные
изменения в исследуемом объекте происходят быстро.
7.2. Ñòàðòîâûå çíà÷åíèÿ â ìîäåëè Áðàóíà
Рассмотрим определенную особенность метода Брауна,
о которой мы не упоминали, чтобы не нарушать последовательность изложения, — необходимость задания начальных
значений модели. Действительно, для того, чтобы «запустить» расчет модели Брауна, опираясь на первое значение
исходного ряда y1, необходимо вычислить прогнозное значение модели на втором наблюдении: yˆ2  y1  1    yˆ1 .
Первое значение этой суммы при заданном α легко вычисляется, поскольку известно значение y1, а вот для расчета
второго слагаемого необходимо знать расчетное значение
показателя, определенное на предыдущем шаге, т.е. yˆ1 , а его
в распоряжении прогнозиста нет. Очевидно, что без знания
первого расчетного значения показателя модель «запустить»
не удастся. Следовательно, модель Брауна следует дополнить еще и правилом задания этого первоначального значения. С учетом этого модель должна иметь вид
yˆT 1  yT  1    yˆT , при заданном yˆ1 .
(7.22)
Но как задать это начальное условие? Если оно будет
сильно отличаться от исходного ряда, то модель начнет
плохо описывать исходный ряд, поэтому это значение
должно быть определено, исходя из свойств прогнозируемого ряда. Чтобы решить эту задачу, определим, насколько
влияет это первоначальное расчетное значение прогнозируемого показателя на точность аппроксимации ряда, и, значит,
на точность его прогноза.
127
Как следует из самой модели (7.18), после k шагов расчета, вес, придаваемый начальному значению, равен 1    :
k
yˆT 1  yT   1    yT 1  ...   1   
k 1
yT k1  1    yˆT k1 .
k
В том случае, когда число наблюдений невелико (малая
выборка), либо значение модуля эквивалентной постоянной
сглаживания 1   близко к 1, этот вес может быть очень
значительным и влияние начального значения на результат
оказывается весьма весомым. Если, например, постоянная
сглаживания близка к единице (например, 0,8), то на пятом
5
шаге этот вес составит величину, равную 1–0,8  0,00032 .
То есть, влияние неточности в определении первоначального
расчетного значения показателя в данном случае оказывается
невелико. Но вот если постоянная сглаживания оказывается
ближе к нулю (например, 0,2), то на пятом шаге вес первого
5
расчетного наблюдения составит 1  0,2  0,32768 (что даже
больше самой постоянной сглаживания). Аналогичная ситуация наблюдается и для постоянной сглаживания, близкой
к двум. Например, когда   1,8 , на пятом шаге вес первого
5
расчетного наблюдения составит 1  1,8  0,32768 . В такой
ситуации принцип задания экспоненциально убывающих
весов нарушается, что может быть источником неточности
и в прогнозе. При этом с увеличением числа наблюдений
вес первого расчетного значения все же нивелируется, и он
становится практически равным нулю, например, при постоянной сглаживания, равной 0,2, вес первоначального расчетного значения на 30-м наблюдении становится равным
1  0,230  0,001238 , и влияние ошибки в вычислении стартового значения становится ничтожным.
Итак, в ситуации малых выборок и малых значений
постоянной сглаживания следует уделять повышенное внимание оценке первого расчетного значения.
Можно выделить следующие методы задания стартового
значения в модели Брауна:
1. Экспертная оценка.
2. Первое расчетное значение выбирается равным фактическому.
3. Первое расчетное значение задается равным средней
арифметической части ряда.
128
4. Использование средней взвешенной первых значений
ряда.
5. Расчет значений на основе ряда весов метода Брауна.
6. Получение стартовых значений из процедуры «обратной точки».
7. Подбор первого значения во время поиска оптимальной α.
Рассмотрим их подробнее.
1. Экспертная оценка. Естественно, что экспертная
оценка, будучи субъективной по своему существу, по определению содержит в себе ошибку и довольно значительную.
Но если прогнозист работает с большой выборкой, то влияние этой ошибки ничтожно, а быстрота и простота получения первого расчетного значения экспертным путем выступает в виде основного и неоспоримого преимущества этого
метода перед другими. Но для малых выборок она неприемлема из-за очень сильного влияния ошибки субъективной
оценки на точность модели. Поэтому в таком случае следует
выбрать другой вариант оценки.
2. Первое расчетное значение равно фактическому. Второй вариант, когда первое расчетное значение
по модели Брауна приравнивается к первому наблюдаемому фактическому значению, является более распространенным, поскольку прост и исключает субъективизм.
Но зачастую случается так, что именно первое наблюдение подвержено воздействию случайной ошибки и далеко
отстоит от среднего уровня ряда. Поэтому в модель Брауна
при таком способе оценивания величины первоначального расчетного наблюдения закладывается возможная
случайная ошибка, которая при небольшом количестве
наблюдений, опять же, может оказать существенное влияние на результаты прогноза. Следовательно, этот способ
оценивания yˆ1 может быть использован только для больших выборок, поскольку для малых выборок он может
нести угрозу возникновения ошибки аппроксимации
и прогноза.
Стоит, однако, заметить, что применение такого простого
метода позволяет достичь условия сходимости ряда весов
(7.4) к 1, что недостижимо при использовании других методов. Покажем это.
Рассмотрим расчетное значение по модели Брауна на T +
1-м шаге. Оно, как мы помним, составит yˆT 1  yT  1    yˆT .
129
Выразим предыдущие прогнозные значения через фактические вплоть до самого первого расчетного значения. Получим следующую формулу:
yˆT 1  yT   1    yT 1   1    yT 2  ... 
2
  1   
T 1
y1  1    yˆ1
T
.
(7.23)
Учитывая, что yˆ1  y1 , мы можем осуществить замену
в (7.23), в результате чего получим
yˆT 1  yT   1    yT 1  ...   1   
T 1
y1  1    y1 .
T
Вынося в данной формуле общий для последних двух
произведений множитель 1   
T 1
, приходим к следующей
формуле: yˆT 1  yT   1    yT 1  ...  1    y1  1    y1  ,
что после простых сокращений эквивалентно:
T 1
yˆT 1  yT   1    yT 1  ...  1   
T 1
y1 .
(7.24)
Сумма весов в (7.24) может быть записана следующим
образом.
   1     ..   1   
T 2
 1   
T 1
.
(7.25)
Всего в этой сумме T элементов, причем T — 1 первых из них
представляют собой элементы геометрической прогрессии,
а последний — это элемент 1    . Сумма первых T — 1 элементов может быть рассчитана по следующей формуле1:
T 1
T 1
ST 1    1   
t 1
t 1
1  1   
T 1

1  1   
 1  1   
T 1
.
(7.26)
Подставив сумму (7.26) в (7.25), получим    1     ... 
T 2
T 1
T 1
T 1
  1     1     1  1     1     1 .
1 Лукашин Ю. П. Адаптивные методы краткосрочного прогнозирования
временных рядов : учеб. пособие. М. : Финансы и статистика, 2003. С. 18.
130
Как видим, такой простой метод задания весов позволяет
ряду сойтись к 1. Однако стоит отметить, что вес этого первого наблюдения будет отличаться от веса второго:
• он будет равен весу второго наблюдения, если α = 0,5;
• он будет меньше веса второго наблюдения, если α > 0,5;
• он будет больше веса второго наблюдения, если α < 0,5.
3. Первое расчетное значение равно средней арифметической. Рассмотрим третий из предлагаемых вариантов,
когда для оценки первого расчетного значения yˆ1 вычисляется средняя арифметическая. Для чего берется некоторое количество первых членов исходного ряда и для них
вычисляется средняя арифметическая. Достаточно часто
эта средняя арифметическая рассчитывается по первым
трем — пяти наблюдениям. Вызвано это тем, что в случае
работы с эволюционными данными уже после трех — пяти
наблюдений может произойти смена уровня ряда. В таком
случае средняя арифметическая по большему числу
наблюдений будет давать оценку, сильно расходящуюся
с первыми значениями. Из-за этого модель будет неточно
аппроксимировать ряд данных. Модель Брауна с этим
условием будет иметь вид
yˆT 1  yT  1    yˆT , при yˆ1 
1 T
 yt , T  5
T t 1
(7.27)
Эта средняя арифметическая выступает в качестве оценки
расчетного значения показателя на первом шаге и подставляется в модель Брауна. Такой вариант оценки уже не содержит в себе ошибку субъективизма экспертов или случайной
ошибки первого наблюдения, поскольку случайные ошибки
пяти первых наблюдений усредняются. Эта процедура формализована и является более приемлемой, поскольку использование модели Брауна подразумевает, что используется
логика вычисления средней. Но и к этому способу оценивания yˆ1 можно предъявить претензии — средняя арифметическая, как это неоднократно указывалось, будет лучшей
оценкой только в том случае, когда случайный процесс является стационарным и нормально распределенным, а модель
Брауна разработана как раз для случаев нестационарных
процессов, а также для процессов необратимых. К тому же
остается неясным, сколько первоначальных членов ряда
следует включать в среднюю арифметическую — два наблю131
дения явно маловато. Три, четыре или пять? — непонятно.
Формальных предложений нет, и вновь приходится прибегать к субъективным решениям.
4. Использование средней взвешенной первых значений ряда. Из недостатков предыдущего варианта оценивания первоначального расчетного значения прогнозируемого
показателя со всей очевидностью следует другой вариант,
свободный от него — использование средней взвешенной первых значений ряда1. Эта средняя взвешенная по логике процедуры должна находиться так, как это предопределяется
логикой метода Брауна, т.е. с помощью весов, задаваемых
рядом (7.4). Исследования показали, что расчет модели
Брауна следует начинать не с вычисления первого расчетного значения yˆ1 , а с вычисления третьего расчетного
значения, не прибегая непосредственно к формуле Брауна, а вычисляя это значение как среднюю взвешенную:
yˆ3  y2  1    y1 .
Теперь, зная расчетную величину третьего наблюдения, ее
можно подставить в модель Брауна, после чего продолжать
вычисления по модели для четвертого, пятого и последующих наблюдений.
Тогда, с учетом этих начальных значений, модель Брауна
в полной форме должна быть записана так2:
yˆT 1  yT  1    yˆT , T  3 , при yˆ3  y2  1    y1
(7.28)
Как видно, в этом подходе нет субъективизма, случайная ошибка первого и второго наблюдения усредняется
с помощью той же постоянной сглаживания, что и для других членов ряда. Единственным недостатком такого метода
является неравномерное и необоснованное распределение
весов между двумя первыми наблюдениями. Так, если α мал
и близок к 0, то вес у второго наблюдения становится значительно меньше, чем у первого. Если же α близок к 1, то
ситуация получается диаметрально противоположной: у второго наблюдения вес получается больше, чем у первого. Если
1 Светуньков С. Г., Бутуханов А. В., Светуньков И. С. Исследование
запредельных случаев метода Брауна применительно к малым выборкам.
СПб. : Изд-во СПбГУЭФ, 2005.
2 Светуньков С. Г., Бутуханов А. В., Светуньков И. С. Запредельные
случаи метода Брауна в экономическом прогнозировании. СПб. : Изд-во
СПбГУЭФ, 2006.
132
же α вообще лежит в запредельном множестве, то у первого
наблюдения получается отрицательный вес. Таким образом,
четкого математического обоснования у такого метода нет,
хотя он и лишен ряда недостатков других методов задания
первого расчетного значения в модели Брауна.
5. Расчет значения на основе ряда весов модели Брауна. Существует еще один способ задания начального расчетного значения в модели Брауна, который логично вытекает из сути самой модели.
Как уже отмечалось ранее, сумма ряда весовых коэффициентов на практике никогда не равна 1, а может лишь
приближаться к ней (исключением является случай, в котором   1 ). А раз так, то величина остаточного члена ряда rt
в момент времени t может быть найдена по формуле
rt  S  St  1  St ,
(7.29)
где S — сумма бесконечного ряда, равная в нашем случае
единице; St — сумма конечного ряда из его первых t членов.
Найдем, чему равен остаточный член (7.29) для двух
наблюдений: r2  1  S2  1     1     1      1     1    .
2
Теперь найдем величину остаточного члена для трех на2
блюдений: r3  1  S3  1     1      1     1      1    


  1     1    .
2
3
Очевидно, что для ряда наблюдений, состоящего из t членов, остаточный член будет равен
rt  1    .
t
(7.30)
Он будет равен нулю только тогда, когда выполняется
одно из двух условий:
1) постоянная сглаживания равна единице;
2) число членов ряда стремится к бесконечности t   .
Так как ситуация равенства постоянной сглаживания единице встречается крайне редко, а бесконечных рядов в экономике не бывает, то мы приходим к выводу, что практически всегда экспоненциально взвешенная средняя по сути
не будет таковой, поскольку не выполняется условие (7.4).
Стало быть, весовые коэффициенты для сохранения сути
модели Брауна нужно скорректировать.
133
Мы знаем, что сумма весовых коэффициентов, в соответствии с (7.29) равна
St  1  rt ,
(7.31)
или, учитывая (7.30),
St  1  1    .
t
Таким образом, если мы умножим каждый весовой коэффициент в ряде (7.4) на поправочный:
1
1  1   
t
,
(7.32)
то сумма весов S станет равной единице.
Для выборки из двух наблюдений среднее экспоненциальное взвешенное, являющееся прогнозной оценкой
третьего наблюдения, будет с учетом поправки (7.32) рассчитываться так:
yˆ3 
y2   1    y1
1  1   
2
.
(7.33)
Для выборки из трех наблюдений
y3   1    y2   1    y1
2
yˆ4 
1  1   
3
.
yˆT 1  yT  1    yˆT , T  3 , при yˆ3 
Окончательно для выборки из t наблюдений будем иметь
yT   1    yT 1   1    yT 2  ...   1   
T 1
2
yˆT 1 
1  1   
T
T

  1   
t 1
T t
yt
y1

.
(7.34)
1  1   
T
Таким образом, исследователь может сам принять решение о том, с какого значения начинать расчет, и в таком
случае в качестве первого расчетного значения использовать рассчитанное по формуле (7.34), а далее, для расчета
последующих значений, уже использовать формулу (7.26).
134
Например, если начинать расчеты с третьего наблюдения,
то можно использовать формулу (7.33) для получения этого
стартового значения.
Предложенное решение обладает несколькими преимуществами:
1) средняя взвешенная (7.34) представляет собой
экспоненциально взвешенную первых T значений ряда. Все
последующие значения ряда также рассчитываются по формуле экспоненциально взвешенной (сама модель Брауна),
в результате чего у исследователя имеется однородный ряд
расчетных значений, ситуации «чужеродного вторжения»
в процесс не происходит;
2) при подборе оптимального значения постоянной сглаживания два первых наблюдения y1 и y2 не выпадают из расчетов ошибки, так как участвуют в формировании третьего
значения через ту же постоянную сглаживания, через которую пропускается весь ряд наблюдений;
3) полностью устраняется элемент субъективизма.
Из явных недостатков такого метода можно отметить
потерю первых двух расчетных значений (так как ряд начинает заполняться значениями, начиная с третьего наблюдения), которые могут понадобиться для более корректного
сравнения разных моделей.
Таким образом, мы получили еще один вариант модели
Брауна в полной форме с учетом начальных значений:
y2   1    y1
1  1   
2
.
(7.35)
6. Получение стартовых значений из процедуры «обратного прогноза». Один из вариантов получения стартовых
расчетных значений можно вывести с помощью процедуры,
использующейся в моделях авторегрессии. Процедура эта
на английском языке называется «backcasting», что дословно
можно перевести как «приведение назад». Более корректным
было бы назвать эту процедуру «обратным прогнозированием». Суть ее заключается в том, чтобы дать оценку значений в прошлом, используя саму модель, на основе которой
мы собираемся дать прогноз. Применительно к модели Брауна формула для обратного прогноза будет иметь вид:
yˆT 1  yT  1    yˆT .
(7.36)
135
136
от которых можно начать поиск оптимальных, могут выступать значения, найденные одним из описанных выше методов задания стартового значения.
Для сравнения разных методов задания стартового значения мы
выбрали ряд № 41 из базы рядов M3 (вместо него можно было бы
взять любой другой ряд с небольшим числом наблюдений). Из рассмотрения методов задания стартового значения мы исключили экспертный метод, так как его сложно сравнивать с другими методами — вряд
ли оценка одного эксперта совпадет с оценкой другого. Для получения
стартового значения, используя среднюю арифметическую по части
ряда, мы выбрали первые три фактические значения.
По выбранному ряду данных мы построили шесть моделей Брауна,
каждая из которых соответствовала своему методу задания стартового
значения. Краткие данные по методам приведены в табл. 7.2.
Таблица 7.2
Значения
оптимальной α
Разные методы задания стартовых значений и соответствующие
им постоянные сглаживания и ошибки прогноза по ряду № 41
Модуль
эквивалентной
постоянной
сглаживания 1 
Абсолютная ошибка
прогноза
на одно
наблюдение
sMAPE
по прогнозу
на шесть
наблюдений, %
1,968
0,968
1027,74
18,82
1 3
 yt
3 t 1
1,999
0,999
1018,35
18,87
3 yˆ  y  1   y
1
3
2 
1,968
0,968
955,26
18,82
y2   1    y1 1,812
0,812
997,65
18,82
1,909
0,909
955,52
19,25
6 Подбор при оптими- 1,999
зации
0,999
1025,74
19,25
Метод (№)
Использование формулы (7.36) возможно благодаря
тому, что модель Брауна имеет эквивалентную форму
модели авторегрессии со скользящей средней, которую мы
обсудим в следующей главе.
Стоит обратить внимание на то, что в формуле (7.36)
для расчетов используются будущие расчетные значения,
которые в свою очередь вообще-то должны быть получены
по формуле (7.18). Получается своеобразный замкнутый круг,
из которого выходят следующим образом. Вначале исследователь каким-нибудь образом задает значение (например,
как равное первому фактическому значению) и на основе
него строит модель до последнего наблюдения. После этого
применяется формула (7.36), начиная с последнего наблюдения до самого первого. Получив таким образом первое расчетное значение, процедура построения модели по формуле
(7.18) повторяется. Описанную процедуру можно провести
несколько раз для того, чтобы получить значения первой
точки более адекватные для исследуемого ряда данных.
Полученная с помощью такого механизма стартовая точка
оказывается фактически «выведенной» из самой модели, что
по идее должно гарантировать более точное описание исходного ряда данных, а значит и получение более точного прогноза.
Плюсом данного метода является то, что в таком случае
из рассмотрения не выпадает первое значение, а ряд весов все так
же сходится к единице. Минусом, однако, является сложность
процедуры, в результате чего реализовать ее, например, в MS
Excel, не прибегая к программированию в Visual Basic, оказывается затруднительно. Еще один минус метода заключается в том,
что итоговые значения стартовой точки и оптимальной постоянной сглаживания могут зависеть от числа проведенных итераций:
слишком мало итераций может означать получение неточных
значений, слишком много — увеличение времени вычислений.
7. Подбор первого значения во время поиска оптимальной α. Последний используемый метод заключается
в том, чтобы во время подбора оптимальн ого значения
постоянной сглаживания подобрать и начальную точку. Очевидно, что таким образом выбирается число, никак не привязанное к исходному ряду данных, что в результате приводит к тому, что сумма весов не будет равна 1. Однако в этом
случае выбирается такое число, которое обеспечивает наилучшую аппроксимацию исходного ряда данных.
Осуществить поиск стартовых значений таким методом
может быть затруднительно, поэтому в качестве значений,
1
2
Расшифровка
метода
yˆ1  y1
yˆ1 
4
yˆ3 
1  1   
2
5 Обратный прогноз
Как видим, в данном случае для всех методов задания оптимальная
постоянная сглаживания оказалась лежащей в запредельном множестве. Модуль эквивалентной постоянной сглаживания практически во
всех случаях близок к 1, что говорит о высокой инерционности в ряде
137
данных. Наиболее точный краткосрочный прогноз (на одно наблюдение вперед) дал третий метод задания — при нем абсолютная ошибка
прогноза оказалась минимальной. В среднем же прогнозы на среднесрочную перспективу (шесть наблюдений вперед) получились практически одинаковыми по методу 1, 3 и 4. Метод 3 и 5 дали наиболее
точные прогнозы на 1 наблюдение вперед.
Графическое представление аппроксимации ряда данных и точечного прогноза на шесть наблюдений вперед приведено на рис. 7.8.
2
4
6
8 10 12 14 16 18 20
Метод 4
Y
500 2000 4000 6000
Y
500 2000 4000 6000
Метод 1
Таблица 7.3
Усредненные ошибки прогнозов по методу простого
экспоненциального сглаживания для разных методов задания
стартовых значений
2
4
6
4
6
8 10 12 14 16 18 20
2
4
6
4
6
8 10 12 14 16 18 20
8 10 12 14 16 18 20
Метод 6
Y
500 2000 4000 6000
Y
500 2000 4000 6000
Метод 3
2
8 10 12 14 16 18 20
Метод 5
Y
500 2000 4000 6000
Y
500 2000 4000 6000
Метод 2
2
2
4
6
8 10 12 14 16 18 20
Рис. 7.8. Аппроксимация ряда данных № 41 из базы M3 и его
прогноза на шесть наблюдений вперед моделью Брауна:
сплошная линия — фактические значения;
прерывистая — расчетные значения
Как видим, ряд, по которому делался прогноз, носит нестационарный
характер: в ряде данных имеется явная тенденция к росту. Именно поэтому оптимальная постоянная сглаживания оказалась в запредельном
множестве. В целом модель при разных стартовых значениях ведет себя
очень похоже, расчетные значения различаются незначительно. Оценивая только степень аппроксимации исходного ряда, сделать однозначный
вывод о том, какому из методов отдать предпочтение, невозможно.
138
Стоит отметить, что ряд данных на периоде построения модели имел
явные тенденции к росту, а вот на периоде прогнозирования стал вести
себя хаотично, колеблясь относительно одного уровня ряда. Получается, что предположение о том, что в будущем сложившиеся тенденции
сохранятся, в данном случае не выполняется. В такой ситуации прогноз, полученный по простой модели Брауна, скорее всего, будет более
точным, нежели по каким-либо другим математическим моделям.
Оценив модель Брауна с разными методами задания по всем годовым данным M3 (ряды № 0001 — № 0645), мы получили результаты,
представленные в табл. 7.3.
Метод
(№)
Горизонт прогнозирования
а>1
1
2
3
4
5
6
1—6
1
500 9,23% 13,72% 17,90% 20,24% 22,94% 24,81% 18,14%
2
492 9,21% 13,66% 17,91% 20,16% 22,76% 24,52% 18,04%
3
500 9,23% 13,72% 17,90% 20,24% 22,94% 24,81% 18,14%
4
498 8,55% 13,01% 17,25% 19,65% 22,31% 24,15% 17,49%
5
483 8,76% 13,06% 17,22% 19,61% 22,30% 24,22% 17,53%
6
498 8,80% 13,15% 17,38% 19,72% 22,42% 24,26% 17,62%
В колонке «α > 1» представлено число случаев, когда оптимальная
постоянная сглаживания оказывалась лежащей в запредельном множестве. Как видим, это число велико для всех методов задания стартового
значения. Учитывая, что в базе M3 представлено 645 годовых рядов
данных, получить случайно такое количество постоянных сглаживания, лежащих в запредельном множестве, невозможно. Полученный
результат говорит о том, что ряды в этой базе являются в своем большинстве нестационарными, а значит, для получения более точных прогнозов стоит обратиться к модификациям метода Брауна.
В той же табл. 7.3 приведены значения симметричных средних
ошибок прогноза. По ним можно сделать вывод, что для большей части
данных в среднем более точный прогноз дала модель Брауна с методом
задания стартового значения (7.28), хотя и метод обратного прогноза
оказался достаточно точным (разность в sMAPE для двух методов
меньше 0,04%).
Эти результаты могут служить некоторым ориентиром
при принятии решения о том, какой же метод задания стартовых значений выбрать при прогнозировании. В каждом конкрет139
ном случае нужно принимать самостоятельное решение о том,
к какому методу прибегнуть. В принятии правильного решения
исследователю может помочь процедура ретропрогноза.
вине коэффициента угла наклона, рассчитанного по всему
ряду данных11. Модель «Theta» была предложена в 2000 г.22
и во время исследования M3 — Competition33 дала очень
точные прогнозы по многим рядам данных.
7.3. Ïðîñòåéøèå ìîäèôèêàöèè ìîäåëè ïðîñòîãî
ýêñïîíåíöèàëüíîãî ñãëàæèâàíèÿ
Построим прогноз по ряду № 41, используя модель простого
экспоненциального сглаживания с дрейфом, принимая b равным половине коэффициента угла наклона (построим модель, эквивалентную
модели «Theta»). Фактические значения по ряду и расчетные значения
по модели, а также полученный прогноз показаны на рис. 7.9.
Используя принцип адаптации, заложенный в модель
Брауна, можно предложить несколько простых модификаций модели для различных рядов данных.
7.3.1. Простое экспоненциальное сглаживание с дрейфом
Название данная модель получила по аналогии с моделью
дрейфа, рассмотренной нами в параграфе 5.2. Сама исходная
модель, по которой осуществляется прогноз, имеет следующий вид:
yˆt  yt 1  1    yˆt 1  b ,
8000
7000
6000
5000
4000
3000
(7.37)
2000
где b — это коэффициент угла наклона, который рассчитывается по всему ряду данных.
Прогноз по этой модели осуществляется на основе формулы:
1000
yˆt h  yˆt  b  h .
(7.38)
Как можно заметить, прогноз по формуле (7.38) представляет собой простую прямую линию с углом наклона b. Отличительной особенностью в данном случае является то, что
в модели адаптируется только уровень ряда. Угол наклона
считается неизменным. Очевидно, что такая модель будет
давать точные прогнозы в ситуациях, когда в ряде данных
наблюдается более-менее постоянный рост либо снижение.
В самой модели (7.37) можно заметить, что b, скорее, играет
роль показателя прироста, нежели угла наклона.
Стоит так же отметить, что в ситуации, когда α = 0 исследователь получает простую модель тренда, которая никак
не адаптируется к значениям ряда данных.
Постоянная сглаживания в модели (7.37) лежит в тех же
пределах, что и постоянная сглаживания в модели простого
экспоненциального сглаживания.
Для старта модели можно использовать те же методы, что
и рассмотренные нами в параграфе 7.2.
Р. Хиндман показал, что модель (7.37) эквивалентна
модели «Theta» в случае, когда коэффициент b равен поло140
0
1975 1977 1979 1981 1983 1985 1987 1989 1991 1993
Рис. 7.9. Аппроксимация ряда данных № 41 из базы M3 и его
прогноз на шесть наблюдений вперед (на перидс 1989 по 1994 гг.)
моделью простого экспоненциального сглаживания с дрейфом:
линия с точками — фактические значения;
линия без точек — расчетные значения
Как видим, модель (7.37) дала прогноз из предположения о том, что
сложившиеся во время аппроксимации тенденции сохранятся на периоде прогнозирования, которое в данном конкретном случае не выполнилось. В результате этого прогноз оказался несколько завышенным:
sMAPE = 22,58%. Постоянная сглаживания оказалась лежащей в запредельном множестве: α = 1,86, что указывает на то, что в ряде данных
изменяется не только уровень, но и угол наклона: из-за того, что он
никак не адаптируется, всю адаптацию берет на себя константа.
1 Hyndman R. J., Billah В. Unmasking the Theta method // International
Journal of Forecasting. 2003. Vol. 19(2). Р. 287–290.
2 Assimakopoulos V., Nikolopoulos К. The theta model: a decomposition
approach to forecasting // International Journal of Forecasting, 2000. Vol. 16.
Р. 521–530.
3 Makridakis S., Hibon M. The M3 — competition: Results, conclusions and
implications // International Journal of Forecasting. 2000. Vol. 16. Р. 451–476.
141
ˆ1
yˆt   yt  yˆt 1 .
(7.41)
Однако из-за рекуррентного характера формулы (7.41)
требуется задать самое первое расчетное значение yˆ1 , которого, конечно же, нет в распоряжении. Его можно заменить
фактическим значением на этом наблюдении или же использовать иные процедуры, которые были описаны выше.
В модели Брауна на периоде прогнозирования вводится
предположение о том, что уровень ряда изменяться не будет,
что в разностях может быть записано как
ˆ 1yt h  
ˆ 1yt .

(7.42)
Сочетая (7.41) и (7.42), можно получить итоговую формулу для получения прогноза на h шагов вперед:
ˆ 1yt  h .
yˆt h  yˆt  
(7.43)
Стоит отдельно заметить, что, раз мы адаптируем расчетные разности к фактическим, то и критерий для оптимизации
стоит использовать по разностям. Например, минимизируемая
сумма квадратов отклонений в данном случае будет иметь вид
142
Рассмотрим прогноз по этому методу на том же примере ряда № 41
(рис. 7.10).
Метод 1
2
4
6
8 10 12 14 16 18 20
Метод 4
Y
500 2000 4000 6000
Первые разности по исходному ряду данных представляют собой прирост показателя. Если исходный ряд данных
имел какую-то стабильную тенденцию к росту, то разности
этого ряда будут иметь примерно один уровень. Отметим,
что переход к разностям сокращает имеющийся ряд данных
на одно наблюдение.
Чтобы получить прогноз по модели (7.39) после расчета оптимальной постоянной сглаживания, нужно перейти
к исходному ряду, что легко делается путем элементарных
перестановок в (7.40) для расчетных значений:
2
4
6
Метод 2
2
4
6
8 10 12 14 16 18 20
2
4
6
Метод 3
2
4
6
8 10 12 14 16 18 20
8 10 12 14 16 18 20
Метод 5
Y
500 2000 4000 6000
(7.40)
(7.44)
Очевидно, что постоянная сглаживания в данном случае
все так же лежит в пределах от 0 до 2. Получение оптимальной
постоянной сглаживания в запредельном множестве указывает на то, что ряд в разностях носит нестационарный характер, что возможно, например, в случае с нелинейными тенденциями в исходном ряде (например, если исходный ряд
данных описывается параболой, то ряд в разностях будет
описываться линейной функцией).
В качестве стартовых значений применимы все рассмотренные нами в параграфе 7.2 методы.
8 10 12 14 16 18 20
Метод 6
Y
500 2000 4000 6000
1yt  yt  yt 1 .
2
t 2
Y
500 2000 4000 6000
(7.39)
T
Y
500 2000 4000 6000
ˆ 1yt  1yt 1  1    
ˆ 1yt 1 ;

 1yt  ˆ 1yt  .
Y
500 2000 4000 6000
7.3.2. Модель адаптации к приростам
Еще одна простая модификация модели Брауна представляет собой ситуацию адаптации уже не уровня ряда, а угла
наклона. Получить такую модель достаточно просто: достаточно перейти к первым разностям в исходном ряде данных
и по ним построить модель Брауна. Итоговая модель адаптации приростов будет иметь вид
2
4
6
8 10 12 14 16 18 20
Рис. 7.10 Аппроксимация ряда данных № 41 из базы M3
и его прогнозы на шесть наблюдений вперед моделью
адаптации к приростам:
сплошная линия — фактические значения;
прерывистая — расчетные значения
143
На данном рисунке представлены модели, построенные по тем же
шести методам задания стартовых значений, что и в примере в параграфе 7.2. Как видим, во многих случаях итоговые расчетные значения сильно отклонились от фактических из-за того, что в ряде данных
тенденция к росту меняется, а оптимальная постоянная сглаживания
по ряду разностей во всех случаях оказалась небольшой (а в двух
из них — одинаковой, близкой к нулю). В табл. 7.4 приведены значения
α и sMAPE для каждого из методов.
Таблица 7.4
Разные методы задания стартовых значений
и соответствующие им постоянные сглаживания и ошибки
прогноза по ряду № 41
Метод
(№)
Значения оптимальной α
sMAPE по прогнозу
на шесть наблюдений, %
1
0,363
26,17
2
0,151
23,73
3
0,363
25,79
4
0,223
24,70
5
0,000
25,21
6
0,000
25,21
1500
–2500 –1500 –500 0 500
4
6
8
10
12
Рис. 7.11. График первых разностей ряда № 41
144
7.3.3. Модель экспоненциального сглаживания
сезонных уровней
На основе метода Брауна можно выделить еще одну элементарную модификацию, применимую на для сезонных
рядов данных. Идея этой модификации основана на модели
сезонный Naïve (параграф 5.2): вместо того, чтобы при расчете нового прогнозного значения использовать фактическое, полученное на предыдущем наблюдении, мы будем
использовать значение, полученное s наблюдений назад (где
s — лаг сезонности). Модель, таким образом, может быть
записана в виде
yˆt  yt  s  1    yˆt  s .
Если взглянуть на график по разностям ряда № 41
(рис. 7.11), то мы увидим, что в них действительно не наблюдается каких-либо существенных изменений. Поэтому,
например, по методу 6 (с подбором начальн ой точки)
2
оптимальная постоянная сглаживания оказалась фактически равной нулю: программа подобрала некоторую среднюю
величину по ряду, отклонения от которой минимальны,
адаптировать которую не имеет смысла. В результате этого
график модели с этим значением (рис. 7.10) представляет
собой прямую возрастающую линию.
(7.45)
Очевидно, что модель не подразумевает наличия какихлибо тенденций к росту либо снижению в ряде данных
и сохраняет в себе те же свойства, что были присущи модели
Брауна (включая границы постоянной сглаживания)11.
Однако при построении такой модели может возникнуть
сложность с заданием стартовых значений, так как теперь их
нужно задать несколько (s расчетных значений). В данном
случае можно прибегнуть к некоторым из методов, предложенных в предыдущем параграфе:
1. Первое расчетное значение выбирается равным фактическому.
2. Получение стартовых значений из процедуры «обратного прогноза».
3. Подбор первого значения во время поиска оптимальной α.
Использование остальных методов, к сожалению, либо
невозможно, либо связано с большими сложностями.
Во всех трех перечисленных методах несложно получить
набор стартовых значений. Так, для модели (7.45) с помощью
1 Hyndman Rob J., Koehler Anne B., Ord J. Keith, Snyder Ralph D.
Forecasting with Exponential Smoothing: The State Space Approach. SpringerVerlag Berlin Heidelberg, 2008. Р. 49.
145
80
80
20
0
20
0
40
60
Метод 3
60
Метод 2
20
40
60
Метод 1
0
40
Y
Y
Y
146
3000 3800 4600 5400 3000 3800 4600 5400 3000 3800 4600 5400
Рассмотрим пример прогнозирования ряда № 1683 (см.
параграф 6.7, посвященный сезонной декомпозиции) с помощью данной модели. Для оценки стартовых значений мы
рассмотрели все три метода («Метод 1» — это метод задания стартовых значений равным фактическим, «Метод 2» —
метод обратного прогноза, «Метод 3» — метод нахождения
оценок во время оптимизации), в результате чего были получены следующие прогнозы (рис. 7.12).
Как видим, во всех трех случаях явных тенденций к росту
либо снижению на прогнозируемом периоде не наблюдалось,
поэтом в среднем модель (7.45) дала не самый плохой прогноз,
который отличается лишь плохим прогнозированием пика.
Для этих трех методов были получены следующие симметричные относительные ошибки аппроксимации и оптимальные
постоянные сглаживания:
1. Method 1: sMAPE = 6,09%, α = 0,447.
2. Method 2: sMAPE = 6,71%, α = 0,019.
3. Method 3: sMAPE = 6,66%, α = 0,000.
Любопытно, что при подборе стартовых значений была
получена постоянная сглаживания, фактически равная
нулю. Получается, что в этом случае ни о какой адаптации
речи нет: модель приняла форму сезонного Naïve с усредненной сезонностью по всему ряду данных.
Отметим, что ошибка аппроксимации по всем трем методам
оказалась чуть меньше ошибки по методу STL, по которому мы
давали прогноз в параграфе 6.7. При этом на то, чтобы получить
эти прогнозы, мы потратили значительно меньше времени, чем
в случае с STL. Это указывает на главное преимущество методов экспоненциального сглаживания: простота в построении
при сравнимой с другими методами точности прогнозов.
80
yˆt h  yˆt h s .
Рис. 7.12. Аппроксимация ряда данных № 1683 из базы M3 и его прогнозы на 18 наблюдений вперед
моделью экспоненциального сглаживания сезонных уровней:
сплошная линия — фактические значения; прерывистая — расчетные значения
120
100
100
Смысл этой процедуры остается таким же, как и в случае
с простой моделью Брауна: получить такие стартовые значения, которые вписывались бы в общую картину.
Получить прогноз по модели (7.45) на один сезон
не вызывает сложностей, а для всех последующих сезонов
фактически будет получаться тривиальный прогноз вида:
120
(7.46)
100
yˆt  yt  s  1    yˆt  s .
120
метода обратного прогноза, учитывая лаг сезонности s, расчетное значение yˆt  s будет вычисляться следующим образом:
147
7.4. Ïîäõîä ïðîñòðàíñòâà ñîñòîÿíèé
Если рассматривать два крайних случая, то модель
экспоненциального сглаживания в соответствии с подходом
пространства состояний может быть:
1. Аддитивной:
Главное, за что, начиная с 1956 г., критиковались модели
экспоненциального сглаживания — это их плохое математико-статистическое обоснование. Действительно, модели
экспоненциального сглаживания просто описывают реальность, а не отражают «лежащие в основе генерирующего
процесса зависимости», чего так не хватает эконометристам. И пусть никакого процесса «генерации» в реальности
не существует, но желание получить модель, обладающую
важными свойствами несмещенности, эффективности
и состоятельности (пусть и не имеющими ничего общего
с эволюционирующей экономической реальностью) пересиливает разум.
Несмотря на все плюсы и минусы стандартного статистического подхода к моделированию эволюционирующей динамики, нельзя не отметить, что одного свойства
моделям экспоненциального сглаживания действительно
не хватало — не имея нормальной «статистической» модели,
построить корректный и эффективный интервальный прогноз по таким моделям крайне затруднительно. Кроме того,
было создано большое количество различных модификаций
модели Брауна, поэтому в какой-то момент возникла потребность систематизировать все накопленные знания и свести
их в какую-то одну модель.
Все это привело к появлению подхода пространства состояний к моделям экспоненциального сглаживания (в английских источниках — «State space approach»)1, который базируется на декомпозиции временнóго ряда. Как мы уже знаем,
обычно предполагается, что любой временнóй ряд может
быть описан тремя компонентами:
1. Трендовой (T). В данном подходе считается, что тренд
состоит только из уровня ряда lt и угла наклона bt.
2. Сезонной (S). Сезонной компоненте соответствуют
сезонные коэффициенты ct.
3. Ошибкой (E).
Каждая из этих компонент может входить в модель как
аддитивно, так и мультипликативно (см. параграф 6.1).
Каждая из этих компонент может адаптировать составляющую ряда по аналогии с моделью Брауна.
Наличие и тип этих трех компонент предлагается обозначать в виде ETS(*,*,*)1, где вместо символов «*» могут быть
следующие значения:
• N — компонента отсутствует;
• A — компонента носит аддитивный характер;
• M — компонента носит мультипликативный характер;
• Ad — компонента носит аддитивный характер демпфированного тренда;
• Md — компонента носит мультипликативный характер
демпфированного тренда.
Аббревиатура ETS может быть расшифрована как
«ExponenTial Smoothing»; ETS позволяет легко понять,
какой позиции соответствует тот или иной тип компоненты
(первая звездочка — ошибка, вторая — тренд, третья — сезонность).
Учет всех компонент в таком подходе фактически начинается с тренда. Тренд может быть любого из указанных
типов. Отсутствие тренда (N) подразумевает наличие лишь
уровня ряда lt. Аддитивный тренд (A) — это тренд, в котором
происходит сложение уровня lt и угла наклона bt. Мультипликативный (M) — подразумевает их перемножение. Вариации с демпфированным трендом (Ad и Md) подразумевают
умножение угла наклона на специальный коэффициент
демпфирования (подробней на этих моделях мы остано-
1 Gardner E. S. Exponential smoothing: the state of the art — part II //
International Journal of Forecasting. 2006. Vol. 22(4). Р. 637–666.
1 Hyndman Rob J., Koehler Anne B., Ord J. Keith, Snyder Ralph D. Указ.
соч. С. 17.
148
Y T S E .
(7.47)
2. Мультипликативной:
Y T S E .
(7.48)
149
150
ct   yt lt 1  bt 1   1    ct  s

ct   yt  lt 1  bt 1   1    ct  s

*
1
Ad
h

*

*
1

*

bt   lt  lt 1   1   bt 1
bt   lt  lt 1   1   bt 1




bt  * lt  lt 1   1  * bt 1
lt    yt ct  s   1   lt 1  bt 1 
lt    yt  ct  s   1   lt 1  bt 1 
lt  yt  1   lt 1  bt 1 
h


yˆt h   lt     bt  ct  s h


1
h
yˆt h  lt     bt  ct  s h



ct   yt  lt 1  bt 1   1    ct  s


bt  * lt  lt 1   1  * bt 1




bt   lt  lt 1   1   bt 1
*
*
yˆt h  lt     bt
ct   yt lt 1  bt 1   1    ct  s

bt  * lt  lt 1   1  * bt 1
lt    yt ct  s   1   lt 1  bt 1 
yˆt h  lt  hbt  ct  s h
lt    yt  ct  s   1   lt 1  bt 1 
lt  yt  1   lt 1  bt 1 
ct    yt  lt 1   1    ct  s
yˆt h  lt  hbt  ct  s h
yˆt h  lt  h  bt
A
ct    yt lt 1   1    ct  s
lt    yt ct  s   1    lt 1
yˆt h  lt
lt  yt  1    lt 1
yˆt h  lt  ct  s h
lt    yt  ct  s   1    lt 1
yˆt h  lt ct  s h
M
A
N
N
Как мы понимаем, с одной стороны каждая из компонент требует адаптации, а с другой, — получение той или
иной модели диктует свои правила по расчету прогноза на h
наблюдений вперед. Формулы адаптации каждого из элементов и расчета прогнозов для всех основных вариантов
ETS приведены в табл. 7.5.
Трендовая
компонента
Модель (7.48), например, будет обозначаться как
«ETS(M,M,M)».
Более экзотические типы моделей, например
«ETS(M,A,A)» требуют отдельного пояснения. В данном случае мы видим, что тренд должен носить аддитивный характер, сезонность — прибавляться к тренду, а вот ошибки
должны умножаться на полученные значения. Записывают
следующим образом: Y  T  S  T  S  E  T  S 1  E  .
Сезонная компонента
Простая модификация сезонных уровней (см. параграф 7.3) обозначается как «ETS(A,N,A)» и фактически соответствует модели yt  lt  ct  t .
Таблица 7.5
Формулы для построения прогноз с помощью ETS и адаптации коэффициентов различных компонент
вимся в следующем параграфе). Таким образом, на второй
позиции в ETS может быть любое из пяти представленных
выше обозначений.
Второй важный элемент, который уже взаимодействует
с «основой» (трендом) — это сезонность, которая может как
отсутствовать, так и носить аддитивный или мультипликативный характер. В связи с этим на третьей позиции в ETS
может быть «N», «A» или «M».
Ошибка в модели может быть лишь либо аддитивной,
либо мультипликативной. Отсутствие ошибок не допускается. Поэтому на первой позиции в любом случае должно
стоять либо «A», либо «M».
Каждый раз, расшифровывая ETS, мы начинаем с середины (тренда), затем переходим к сезонности и только
потом — к ошибкам.
Приняв такую таксономию, мы можем обозначить любую
модель экспоненциального сглаживания в терминах ETS.
Например, рассмотренная нами ранее модель Брауна обозначается в виде ETS(A,N,N) и в принятых обозначениях будет
иметь вид yt  lt  t .
151

t 1 t 1
 



t 1
bt  * lt lt 1
*
 
  1    b
lt  yt  1    lt 1bt1
yˆt h  lt bt
h
1


Md
t
t
ct   yt  lt 1bt1  1    ct  s
yˆt h  lt bt
h
1




t
*
t
t 1
*

t 1
t s
 
b   l l   1    b
c    y l b   1    c
lt    yt ct  s   1    lt 1bt1
bt  * lt lt 1   1  * bt1
 ct  s h

lt    yt  ct  s   1    lt 1bt1


yˆt h  lt bt
h
1


ct  s h

ct   yt lt 1bt 1   1    ct  s

ct   yt  lt 1bt 1   1    ct  s


bt  * lt lt 1   1  * bt 1


bt  * lt lt 1   1  * bt 1


bt  * lt lt 1   1  * bt 1
lt    yt ct  s   1   lt 1bt 1 
lt    yt  ct  s   1   lt 1bt 1 
yˆt h  lt bth
M
Трендовая
компонента
lt  yt 1  1   lt 1bt 1 
yˆt h  lt bthct  s h
yˆt h  lt bth  ct  s h
A
N
Сезонная компонента
M
Окончание табл. 7.5
152
В табл. 7.5 представлено 15 базовых моделей, различающихся по тому, как в них учитываются трендовая и сезонная компоненты. В таблице используются следующие обозначения:
yt — фактическое значение на наблюдении t;
yˆt — расчетное значение на наблюдении t;
lt — значение уровня ряда, полученное на наблюдении t;
bt — значение угла наклона, полученное на наблюдении t;
c t — значение сезонного коэффициента, полученное
на наблюдении t;
α, β*, γ — постоянные сглаживания, позволяющие адаптировать соответствующие компоненты (уровень ряда, угол
наклона и сезонные коэффициенты);
ϕ — коэффициент демпфирования, который позволяет
уменьшать «крутизну» наклона прямой линии, получаемой
на основе рассчитанного угла наклона;
s — лаг сезонности;
h — срок прогнозирования.
На время построения модели по имеющемуся ряду данных срок прогнозирования h обычно задается равным 1.
В таком случае фактически на каждом наблюдении модель
дает прогноз на 1 шаг вперед, после чего адаптирует полученный прогноз к имеющемуся фактическому значению.
Как видим, модель Брауна в таблице представлена системой
 yˆt h  lt
.

lt  yt  1    lt 1
(7.49)
Покажем, что от введения таких обозначений модель
на самом деле никак не изменилась.
Зададим h = 1, тогда система (7.49) примет вид
 yˆt 1  lt
.

lt  yt  1    lt 1
Из первого равенства следует, что lt 1  yˆt .
Подставляя это значение во второе равенство, а затем
новое полученное второе равенство — в первое, мы придем
к классической модели Брауна:
 yˆt 1  lt
 yˆt 1  yt  1    yˆt .

lt  yt  1    yˆt
153
Обратим внимание на то, что в табл. 7.5 постоянная сглаживания для угла наклона обозначена в виде β*. Сделано
это не просто так. Дело в том, что в том виде, в каком представлены формулы в табл. 7.5, постоянная сглаживания
у угла наклона зависит от значения постоянной сглаживания уровня ряда. Однако если представить все формулы
адаптации в форме коррекции ошибок (т.е. форме, похожей
на форму (7.20) модели Брауна), то углы наклона можно
будет адаптировать независимо от уровня ряда.
Покажем это на примере модели ETS(A,A,N), которая
 yˆ  l  h  b
t
 t h t
представлена системой lt  yt  1   lt 1  bt 1  .

*
*
bt   lt  lt 1   1   bt 1


Если принять h = 1, то мы заметим, что расчетное значение на следующий шаг просто равно сумме уровня и угла
наклона на текущем шаге:
yˆt 1  lt  bt .
(7.50)
Уровень в таком случае можно записать в другом виде:
lt  yt  1    yˆt или в форме коррекции ошибок:
lt  yˆt    yt  yˆt   yˆt  t .
(7.51)
Раскроем скобки в формуле угла наклона: bt  *lt  *lt 1 
 bt 1  *bt 1 , после чего вынесем за скобки постоянную сглаживания β*: bt  bt 1  * lt  lt 1  bt 1  .
Выражение в скобках состоит из двух частей: адаптированного тренда (7.51) и расчетного значения (7.50). Подставим эти значения: bt  bt 1  *  yˆt  t  yˆt  .
В результате мы получаем формулу адаптации угла
наклона в форме коррекции ошибок:
bt  bt 1  *t .
(7.52)
Для удобства произведение постоянных сглаживания
в (7.52) можно заменить:
*   .
154
Тогда финальная модель ETS(A,A,N) в форме коррекции
ошибок может быть записана так:
 yˆt h  lt  h  bt

lt  lt 1  bt 1   t .
b  b  
t 1
t
 t
(7.53)
Такая форма моделей экспоненциального сглаживания удобней, так как в адаптации каждого из элементов модели теперь
есть нечто универсальное: каждая из составляющих в той или
иной степени просто адаптируется к полученной ошибке на данном наблюдении. Такое единообразие значительно облегчает
работу с моделями экспоненциального сглаживания.
В табл. 7.6 представлены те же виды моделей, что и в табл.
7.5 только в форме коррекции ошибок с аддитивными ошибками. Похожие формулы с мультипликативными ошибками
представлены в табл. 7.7. Они получены путем замены обычных
аддитивных ошибок εt на мультипликативные ошибки t yˆt , так
как предлагаемая формула для построения модели с мультипликативными ошибками выглядит следующим образом:
yt  yˆt 1  t   yˆt  yˆt t .
(7.54)
Отметим, что ошибки в таблицах 7.6 и 7.7 рассчитываются по-разному:
• аддитивные ошибки (табл. 7.6):
t  yt  yˆt ;
(7.55)
• мультипликативные ошибки (табл. 7.7):
t 
yt  yˆt
.
yˆt
(7.56)
В обоих случаях вводится стандартное предположение
 
о нормальности распределения ошибок: t ~ N 0,  2 .
В случае с мультипликативной моделью из условия
нормальности распределения ошибок следует, что
 
1  t ~ N 1,  2 .
(7.57)
Это удобно, так как математическое ожидание в таком
случае будет равно 1.
155
156
157
Md
M
Трендовая компонента
Ad
A
N
Трендовая компонента
ct  ct  s    t lt 1
ct  ct  s  t
ct  ct  s  t
bt  bt 1  t
bt  bt 1  t
yˆt h  lt bt
yˆt h  lt bt
h


ct  ct  s  t
bt  bt1    t lt 1
bt  bt1    t lt 1
 ct  s h
lt  lt 1bt1  t
1
lt  lt 1bt1  t
1
h
ct  ct  s    t lt 1bt 1 
ct  ct  s  t


bt  bt 1    t ct  s lt 1 
bt  bt 1    t lt 1
bt  bt 1    t lt 1
yˆt h  lt bt
h
ct  s h
ct  ct  s    t
l

t 1bt 1

bt  bt1    t ct  s lt 1 
lt  lt 1bt1   t ct  s
1


lt  lt 1bt 1  t ct  s
lt  lt 1bt 1  t
lt  lt 1bt 1  t
yˆt h  lt bthct  s h
M
yˆt h  lt bth  ct  s h
A
Окончание табл. 7.5
ct  ct  s    t lt 1  bt 1 
bt  bt 1    t ct  s
lt  lt 1  bt 1  t ct  s
h


yˆt h   lt     bt  ct  s h


1
yˆt h  lt bth
N
Сезонная компонента
ct  ct  s  t
1
lt  lt 1  bt 1  t
lt  lt 1  bt 1  t
1
yˆt h  lt     bt  ct  s h
yˆt h  lt     bt
h
ct  ct  s    t lt 1  bt 1 
bt  bt 1  t
bt  bt 1  t
h
bt  bt 1    t ct  s
lt  lt 1  bt 1  t
lt  lt 1  bt 1  t
lt  lt 1  bt 1  t ct  s
yˆt h  lt  hbt  ct  s h
yˆt h  lt  h  bt
yˆt h  lt  hbt  ct  s h
lt  lt 1    t ct  s
lt  lt 1  t
lt  lt 1  t
yˆt h  lt ct  s h
M
yˆt h  lt  ct  s h
A
yˆt h  lt
N
Сезонная компонента
Таблица 7.6
Модели экспоненциального сглаживания в форме коррекции ошибок с аддитивными ошибками
158
159
Md
M
Трендовая компонента
Ad
A
N
Трендовая компонента
ct  ct  s 1  t 
ct  ct  s   lt 1  bt 1  ct  s  t
bt  bt1 1  t 
lt  lt 1bt1 1  t 
yˆt h  lt bt1
h
h

  l


ct  ct  s

t 1bt 1  ct  s
t
bt  bt1   lt 1bt1  ct  s t lt 1
ct  ct  s 1  t 
bt  bt1 1  t 
lt  lt 1bt1 1  t 


h


yˆt h  lt bt1 ct  s h
 ct  s h
lt  lt 1bt1   lt 1bt1  ct  s t
yˆt h  lt bt1


ct  ct  s 1  t 
ct  ct  s   lt 1bt 1  ct  s  t


bt  bt 1 1  t 
bt  bt 1   lt 1bt 1  ct  s  t lt 1
bt  bt 1 1  t 
lt  lt 1bt 1 1  t 
lt  lt 1bt 1   lt 1bt 1  ct  s  t
lt  lt 1bt 1 1  t 
yˆt h  lt bthct  s h
M
Окончание табл. 7.5
yˆt h  lt bth  ct  s h
A
Сезонная компонента
bt  bt 1   lt 1  bt 1  ct  s  t
yˆt h  lt bth
N
bt  bt 1   lt 1  bt 1  t
bt  bt 1   lt 1  bt 1  t
lt  lt 1  bt 1 1  t 
1
lt  lt 1  bt 1   lt 1  bt 1  ct  s  t
1
lt  lt 1  bt 1 1  t 
h


yˆt h   lt     bt  ct  s h


1
ct  ct  s 1  t 
bt  bt 1   lt 1  bt 1  t
yˆt h  lt     bt  ct  s h
h
ct  ct  s   lt 1  bt 1  ct  s  t
bt  bt 1   lt 1  bt 1  ct  s  t
lt  lt 1  bt 1 1  t 
yˆt h  lt     bt
h
bt  bt 1   lt 1  bt 1  t
lt  lt 1  bt 1   lt 1  bt 1  ct  s  t
lt  lt 1  bt 1 1  t 
yˆt h  lt  hbt  ct  s h
ct  ct  s 1  t 
ct  ct  s   lt 1  ct  s  t
yˆt h  lt  hbt  ct  s h
lt  lt 1 1  t 
yˆt h  lt ct  s h
M
lt  lt 1   lt 1  ct  s  t
yˆt h  lt  ct  s h
A
yˆt h  lt  h  bt
lt  lt 1 1  t 
yˆt h  lt
N
Сезонная компонента
Таблица 7.7
Модели экспоненциального сглаживания в форме коррекции ошибок с мультипликативными ошибками
Стоит, однако, обратить внимание на то, что из-за того,
что в модели с мультипликативными ошибками (7.54)
ошибки рассчитываются по формуле (7.56), рассчитывать
на выполнение такого допущения не стоит. Покажем, почему
так происходит. Если модель (7.54) привести к линейному
виду, то мы получим
ln yt  ln yˆt  ln 1  t  .
(7.58)
В такой модели, как мы уже обсуждали ранее в параграфе
6.1, если ошибки ln 1  t  распределены нормально, то экспонента этих ошибок будет распределена логнормально:
 
1  t ~ LogN 0,  2 .
(7.59)
Сравнив (7.57) с (7.59), можно увидеть, что одно из этих
условий некорректно. Если вспомнить, что собой представляет нормальное распределение, то становится понятно,
что некорректным является именно условие (7.57). Так,
нормальное распределение ошибок предполагает наличие
как положительных, так и отрицательных случайных величин. Прибавление к каждой случайной величине 1 приводит
к изменению математического ожидания, уменьшает вероятность появления отрицательных значений, но не подразумевает их полного отсутствия (как в случае с условием (7.59)).
Вероятность получить отрицательные значения в случае
с выполнением условия (7.57) составляет
 0 1
 1 
P    1  t  0   
       1     .
  
  
(7.60)
Анализируя (7.60), можно заметить, что вероятность
получения отрицательных чисел будет равна нулю только
в случае, если    0 , что на практике невозможно. Получение, например, единичной дисперсии уже будет давать
следующую вероятность: P 1  t  0  1   1  0,159 .
Кроме того, предполагая (7.57), мы ожидаем, что распределение ошибок будет симметричным, что на практике
не выполняется: форма (7.56) подразумевает возможность
появления больших положительных ошибок наряду с частым
появлением малых, близких к 0, что указывает на положительную асимметрию в распределении ошибок. Эта черта
160
характерна для логнормального, а не для нормального распределения.
Все это указывает на то, что предположение (7.57) некорректно, более естественным является предположение (7.59).
На точечный прогноз моделей такое несоответствие, конечно,
не влияет, однако это может привести к построению некорректных доверительных интервалов.
Представление моделей экспоненциального сглаживания
в форме коррекции ошибок удобней и наглядней, так как
такая форма позволяет легко включать в модель элементы
тренда и сезонности так, как это нужно исследователю,
не тратя время на то, чтобы понять, что к чему должно адаптироваться в той или иной компоненте.
Как видно из таблиц 7.6 и 7.7, точечный прогноз, полученный по моделям экспоненциального сглаживания с аддитивными и мультипликативными ошибками, будет идентичен.
Различия в данном случае будут лишь в ширине доверительных интервалов. Так, построение мультипликативной
модели фактически подразумевает, что ошибки могут расти
пропорционально yˆt — эффект, в эконометрике называемый
«гетероскедастичностью».
Выбор подходящей модели экспоненциального сглаживания обычно осуществляется либо на основе экспертного
мнения, либо автоматически на основе информационного
критерия (второй вариант будет рассмотрен нами ниже).
В общем случае исследователю нужно понять, есть ли в ряде
данных составляющие ETS и какой они могут носить характер. Так, если в ряде данных наблюдается тенденция к росту
либо к снижению, это значит, что в нем присутствует трендовая компонента («T»). Если тенденция ближе к экспоненте,
то это мультипликативный тренд. Если она ближе к логарифму или степенной функции, то имеет смысл выбрать
тренд с демпфированием. Если это простая линейная тенденция, то можно обратиться к аддитивному тренду. Кроме
того, если в ряде данных есть сезонные коллебания, значит
есть сезонная компонента («S»). Характер сезонной компоненты не всегда удается определить, но для многих рядов
лучше подходит мультипликативная сезонность. Если же ни
тренда, ни сезонности нет, значит исследователь имеет дело
лишь с «уровнем», т.е. для прогнозирования подойдет модель
простого экспоненциального сглаживания. На основе такого
экспертного мнения можно выбрать модель из табл. 7.6 и 7.7.
161
Для идентификации тенденции в ряде данных можно
прибегнуть либо к методам, описанным в параграфе 5.1, либо
к агрегированию данных. Например, имея месячные данные
за 8 лет, путем сложения можно получить ряд из 8 годовых
наблюдений. Нивелировав таким образом сезонность, можно
увидеть, есть ли тенденция в ряде данных и какой она имеет
характер.
Все описанные в данном параграфе модели реализованы
в программе «R» пакета «forecast». Функция, позволяющая
строить эти модели, носит название «ets». С ее помощью
можно легко построить любую из указанных 48 моделей.
Подробней о ней и ее свойствах можно почитать в статье
Р. Хиндмана11.
Подход пространства состояний позволяет обобщить
все модели экспоненциального сглаживания в более общую
модель, записываемую в матричном виде. Он заключается
в представлении любой модели в двух частях:
1) «измерительное уравнение», описывающее процесс
в том виде, в котором мы его воспринимаем (состоящий
из тренда, сезонности и ошибки).
yt  wx t 1  t ,
(7.61)
где xt — вектор компонент временного ряда; w — измерительный вектор, определяющий то, каким образом компоненты
должны входить в измерительное уравнение.
2) уравнения пространства состояний, описывающее различные состояния соответствующих компонент наблюдаемого показателя.
x t  Fx t 1  g t ,
(7.62)
где F — матрица переходов, определяющая, каким образом
компоненты должны адаптироваться к ошибкам; g — вектор
постоянных сглаживания.
Так для модели Хольта мы будем иметь следу ющие
матрицы и вектора:

1
 lt 
 1 1
w    , xt    , F  
 , g    .
1
b
0
1
 
 
 t


(7.63)
1 Hyndman Rob J., Khandakar Yeasmin. Automatic Time Series Forecasting:
The forecast Package for R // Journal of Statistical Software. 2008. Vol. 27 (3).
Р. 1–22.
162
Подставив (7.63) в (7.61) и (7.62), мы придем к модели
Хольта (7.53).
Такое представление позволяет рассчитывать дисперсии
для моделей и облегчает процесс построения интервальных
прогнозов.
7.5. Ìîäåëü Õîëüòà è åå âàðèàíòû
Модель Хольта соответствует модели ETS(A,A,N) или
ETS(M,A,N). Сначала рассмотрим модель в базовой форме.
Она имеет вид
 yˆ  l  h  b
t
 t h t





l
y
1

lt 1  bt 1  .
t
t

*
*
bt   lt  lt 1   1   bt 1


(7.64)
Если попытаться дать интерпретацию предложенным
Хольтом формулам, опираясь на уравнение линейного
тренда, то сделать это будет нелегко. Поэтому, чтобы понять
логику рассуждений Хольта, обратимся непосредственно
к сути формул адаптации коэффициентов в (7.64). Коэффициент lt меняется во времени и либо растет, либо снижается
(в зависимости от значений коэффициента bt), не являясь
постоянным, также как и другой коэффициент. Это следует из первой формулы (7.64), в которой первое слагаемое
характеризует достигнутый уровень возрастающего ряда,
а второе — прирост этого уровня.
Необходимо обратить внимание на следующее. Если
показатель yT измеряется, например, в рублях, то и коэффициент lt также измеряется в рублях. Из (7.64) следует, что
коэффициент bt должен измеряться как скоростной параметр отношением руб./время. Поэтому непосредственно
складывать коэффициент lt и коэффициент bt, как это сделано во втором слагаемом правой части равенства второго
уравнения в (7.64), нельзя, как нельзя складывать расстояние и скорость. Можно предполагать, что в скобках второго
слагаемого второго равенства (7.64) коэффициент bt умножается на время h, которое в данном случае равно 1 и поэтому в формулу не включено. Только в этом случае размерности слагаемых совпадут, и можно будет произвести их
сложение. Таким образом, время в модели Хольта не имеет
163
точки отсчета и его показатель h является приростным, причем расстояния между двумя соседними наблюдениями
равны 1. Время в модели Хольта равномерно. Из этого следует, что модель (7.64) представляет собой не общеизвестное
уравнение тренда, а модель линейной авторегрессии первого
порядка с постоянным приростом:
yˆt 1  yˆt  yt  lt  bt .
(7.65)
Если рассматривать модель именно так, то смысл каждого
равенства модели Хольта становится очевидным.
Вторая формула в системе (7.64), позволяющая вычислить адаптивное значение коэффициента lt, представляет
собой модель Брауна, где первое слагаемое характеризует
фактически достигнутый уровень ряда в момент времени t,
а второе — его расчетное значение в предыдущий момент.
Иначе говоря, метод Брауна в этой ситуации применим
к прогнозированию значений коэффициента lt.
Теперь легко понять смысл третьего уравнения модели
Хольта (7.64). Первое слагаемое в нем представляет характеристику постоянного прироста модели авторегрессии (7.65),
а второе — характеризует состояние коэффициента bt в предыдущий момент времени. Вновь методом Брауна прогнозируется значение коэффициента bt.
В случае, когда *   , мы получаем модель, называющуюся моделью двойного сглаживания12.
В существу ющей теории и практике социальн оэкономического прогнозирования значения постоянных
сглаживания ограничиваются пределами от 0 до 1. Если
в модели Брауна, разработанной для прогнозирования некоторого изменяющегося во времени показателя, ограничения
на постоянную сглаживания логично следовали из предпосылок самой модели, поскольку она представляла собой
среднюю взвешенную ряда, то в модели Хольта (как и во
многих других модификациях метода Брауна) такое ограничение из свойств модели не вытекает. Это возможно только
в том случае, когда есть основания априорно предполагать,
что коэффициенты линейного тренда 1) меняются во времени относительно некоторого постоянного уровня и 2)
независимы друг от друга.
1 Brown R. G. Statistical forecasting for inventory control. New York :
McGraw-Hill, 1959.
164
Прогнозист может предполагать, что на определенном
промежутке времени значения коэффициентов модели
меняются относительно некоторого своего уровня. Но независимость коэффициентов lt и bt не выполняется никогда:
при расчете коэффициента lt используется значение коэффициента bt, а при вычислении коэффициента bt напрямую
используется коэффициент lt. Поскольку каждый из коэффициентов вычисляется с помощью собственного значения
постоянной сглаживания, получается, что постоянная сглаживания α влияет на постоянную сглаживания β и наоборот.
Это говорит о том, что использование классических пределов на области изменения постоянных сглаживания в методе
Хольта является необоснованным.
Истинные пределы, в которых лежат постоянные сглаживания для модели Хольта были выведены еще в 1968 г.1
и могут быть записаны в виде системы
, *  0

.
 * 4
   2


(7.66)
В форме коррекции ошибок ограничение (7.66) принимает вид2
,   0
.

  4  2
(7.67)
Как видим из (7.67), постоянная сглаживания β лежит
в пределах от 0 до 4 (в зависимости от значений α, лежащей
в пределах от 0 до 2). Получение значений β > 1 может означать, что в исходном ряде данных происходят существенные
изменения, которые модель Хольта не успевает описать. Возможно, в таком случае имеет смысл попытаться построить
другую модель экспоненциального сглаживания (например,
модель с мультипликативным трендом).
На данный момент никаких доказательство того, что
ограничение постоянных сглаживания классическим промежутком увеличивает точность прогнозов модели, нет. Более
1 Brenner J. L., D’Esposo D. A., Fowler A. G. Difference equations in
forecasting formulas // Management Science. 1968. Vol. 15. № 3. Р. 141–159.
2 Hyndman Rob J., Koehler Anne B., Ord J. Keith, Snyder Ralph D. Forecasting
with Exponential Smoothing: The State Space Approach. Springer — Verlag
Berlin Heidelberg, 2008. Р. 155.
165
Посмотрим, какой прогноз дает модель Хольта при построении
по ряду данных № 41, рассмотренному нами ранее. Построение модели
мы осуществим в программе R. Чтобы при построении модели использовать естественные границы (7.67) в функции ets нужно добавить
параметр «bounds = “admissible”».
В результате расчетов мы получили следующие параметры модели:
  1,971

  0,058
.

l0  639,594
b0  274,022
1 Gardner Jr. E. S. Exponential smoothing: the state of the art // Journal of
Forecasting. 1985. Vol. 4. Р. 11 ; Hyndman Rob J., Akram Muhammad, Archibald
Blyth C. The admissible parameter space for exponential smoothing models //
Annals of the Institute of Statistical Mathematics, 2008. Р. 407–426.
166
Y
1500 2500 3500 4500 5500 6500
Как видим, оптимальная постоянная сглаживания для уровня ряда
оказалась больше 1, а для угла наклона — достаточно близкой к 0. Это
говорит о том, что в ряде данных происходят существенные изменения уровня, но угол наклона при этом изменяется незначительно. Тем
не менее, возможно, что использование другой прогнозной модели
позволило бы получить более точные прогнозы ряда этих данных.
На рис. 7.13 показан ряд данных № 41, модель Хольта и прогноз
по ней.
500
того, прогнозы, получаемые по моделям с более широкими
интервалами, в ряде случаях оказываются точнее прогнозов
по моделям с интервалами от 0 до 113.
Чтобы запустить модель по формуле (7.64), нужно
каким-то образом задать стартовые значения параметров l0
и b0. Обычно это делается автоматически во время нахождения значений оптимальных постоянных сглаживания.
Однако в таком случае для запуска модели требуется подобрать четыре параметра: α, β, l0 и b0, что представляет собой
нетривиальную задачу, так как во время подбора этих параметров исследователь, скорее всего, столкнется с несколькими локальными минимумами целевой функции. В таком
случае рекомендуется, во-первых, рассчитать коэффициенты модели линейного тренда по всему ряду данных
и взять полученные значения уровня ряда и угла наклона
в качестве стартовых значений для l0 и b0, а во-вторых, —
при подборе численными методами задать разные значения
α и β, от которых осуществляется поиск, найти несколько
локальных минимумов, после чего выбрать минимальный
из них. Скорее всего, полученные значения будут характеризовать глобальный минимум целевой функции.
В качестве целевой функции, на основе которой происходит подбор параметров, обычно используют дисперсию
ошибки (7.16), среднюю абсолютную ошибку (7.17) или
отрицательное значение функции правдоподобия. Функцию
правдоподобия применительно к подобным задачам мы рассмотрим в параграфе 7.7.
1976 1978 1980 1982 1984 1986 1988 1990 1992 1994
Рис. 7.13. Аппроксимация ряда данных № 41 из базы M3 и его
прогнозы на шесть наблюдений вперед моделью Хольта:
сплошная линия — фактические значения;
прерывистая — расчетные значения
Как видим, из-за смены тенденции на периоде с 1989 по 1994 гг.
модель Хольта дала не самый точный прогноз: sMAPE  25,66% .
Однако в случае сохранения линейных тенденций в ряде данных точность метода, конечно же, становится выше.
Построение модели Хольта на практических рядах данных привело прогнозистов к выводу о том, что на долгосрочной перспективе модель «перестреливает» фактические
значения, т.е. в долгосрочной перспективе простая линейная
тенденция не сохраняется, обычно рост фактических значений со временем замедляется. Чтобы учесть это и дать более
точный прогноз, в модель Хольта был введен коэффициент
167
демпфирования ϕ11. Полученная модифицированная модель
обозначается «ETS(A,Ad,N)» и имеет вид
Чтобы лучше понять смысл суммы в первом уравнении, обратимся к модели Хольта (7.64). Если расчетное значение на h шагов
вперед в ней представить не через произведение коэффициента bt
на h, а через сумму bt h раз, то мы получим yˆt h  lt  bt  bt  ...  bt.
Как видим, на каждом последующем шаге к полученному
значению в модели Хольта просто прибавляется один и тот
же коэффициент прироста bt.
В модели Хольта с демпфированием на каждом шаге коэффициент bt, прибавляемый к предыдущему уровню, умножа1
2
h
ется на ϕ в степени номера шага: yˆt h  lt   bt   bt  ...   bt .
Если  0;1 , то возведение его в степень с каждым
шагом будет давать все меньшее число. В результате получается, что прирост с каждым последующим шагом становится
все меньше, а тренд начинает затухать.
Что характерно, при ϕ = 1 мы получаем простую модель
Хольта (7.64), а в случае, когда ϕ = 0, — модель Брауна (7.6).
Теоретически возможны ситуации, когда  0;1 , но они
не имеют практической ценности, так как тренд в таком случае уже не затухает, а:
• растет экспоненциально (в случае, если   1 ); либо
• начинает колебаться вокруг прямой линии со все
увеличивающейся амплитудой (в случае, если   1 ); либо
• приводит к знакочередующемуся затухающему ряду (
  1;0 ), аналогично модели вида (5.38) с a1  1;0 .
Ограничения, накладываемые на постоянные сглаживания, в данном случае становятся еще более сложными2:
1 Gardner E. S., McKenzie Ed. Forecasting Trends in Times Series //
Management Science. 1985. Vol. 31. №. 10. Р. 1237–1246.
2 Hyndman Rob J., Koehler Anne B., Ord J. Keith, Snyder Ralph
D. Forecasting with Exponential Smoothing: The State Space Approach.
Springer -Verlag Berlin Heidelberg, 2008. Р. 155.
168
(7.69)
Построив модель Хольта с демпфированным трендом на том же
примере ряда № 41, мы получили следующие параметры:
  1,593

  0
.
  1
l  138,246
0
b0  333,827
По ним уже можно сказать, что модель Хольта с демпфированным
трендом не очень подходит для описания исходного ряда данных. Из-за
того, что коэффициент демпфирования оказался равным 1, мы пришли
к простой модели Хольта. Единственное, что отличает эту модель
от модели, полученной в предыдущем случае — это стартовые значения l0 и b0. Естественно, что прогноз, полученный в результате по этой
модели, представляет собой простую прямую линию (рисунке 7.14).
Y
(7.68)
500 1500 3000 4500 6000 7500
h


 yˆt h  lt    bt
1

lt  lt 1  bt 1  t .
b  b  
t 1
t
 t

1  1     1  1 

   1    1   2    .
0    1

1976 1978 1980 1982 1984 1986 1988 1990 1992 1994
Рис. 7.14. Аппроксимация ряда данных № 41 из базы M3
и его прогнозы на шесть наблюдений вперед моделью Хольта
с демпфированным трендом:
сплошная линия — фактические значения;
прерывистая — расчетные значения
Очевидно, что прогноз, полученный таким образом, оказался все
так же неточен, как и в случае с моделью Хольта. Ошибка здесь оказалась даже выше, чем в прошлый раз: sMAPE  26,01% .
169
Чтобы понять, чем же все таки модель (7.68) отличается от модели
(7.64), рассмотрим другой ряд данных — ряд № 42. Для него
оптимальные постоянные значения коэффициентов получились следу-
  0,267

  2,445
.
ющими:   0,789
l  334,568
0
b0  349,002
1976
1982
1988
1994
Y
500 1500 3000 4500 6000 7500
500 1500 3000 4500 6000 7500
Y
Стоит обратить внимание на то, что оптимальные постоянные
сглаживания в данном случае не вписываются в классические пределы
(0;1). При этом прогноз по полученной модели получился таким, как
показано на рис. 7.15, слева.
что привело бы к совершенно другому прогнозу (рис. 7.15, справа).
Видно, что классические ограничения, наложенные во втором случае, привели к получению завышенного коэффициента демпфирования, что в результате дало более задирающийся прогноз, чем в случае
с ограничениями (7.69): sMAPE  22,91% .
7.6. Ìîäåëü Õîëüòà-Óèíòåðñà è åå âàðèàíòû
Продолжая логику модификаций метода Брауна, в 1960 г.
студент Ч. Хольта, П. Р. Уинтерс предложил модель с сезонной составляющей. Существующие две версии этой модели
в нашей таксономии обозначаются следующим образом:
1. Модель с аддитивной сезонностью, ETS(A,A,A):
 yˆt h  lt  hbt  ct  s h

lt  lt 1  bt 1  t .

bt  bt 1  t
ct  ct  s  t
1976
1982
1988
1994
Рис. 7.15. Аппроксимация ряда данных № 42 из базы M3
и его прогнозы на шесть наблюдений вперед моделью Хольта
с демпфированным трендом с ограничениями (7.69) (слева)
и с классическими ограничениями (справа):
сплошная линия — фактические значения;
прерывистая — расчетные значения
Как видим, на этом ряде мы как раз столкнулись с ситуацией, когда
тенденция на прогнозируемом промежутке изменилась и стала более
пологой. Несмотря на то, что прогноз оказался систематически завышенным, за счет демпфирования он сильно не задирается и постепенно
приближается к фактическим значениям. Ошибка аппроксимации все
же достаточно велика: sMAPE  18,99% .
Если бы мы ограничили постоянные сглаживания классическим
промежутком, то мы получили бы другие коэффициенты модели
(с легко интерпретируемыми постоянными сглаживания):
170
  0,823

  0,823
,
  0,98
l  365,109
0
b0  183,156
(7.70)
2. Модель с мультипликативной сезонностью, ETS(A,A,M):
 yˆt h  lt  hbt  ct  s h

lt  lt 1  bt 1  t ct  s .

bt  bt 1    t ct  s
ct  ct  s    t lt 1  bt 1 

(7.71)
В данном случае подразумевается, что в распоряжении
исследователя имеется s стартовых сезонных коэффициентов. Получить их можно путем декомпозиции временнóго
ряда одним из методов, рассмотренных в параграфе 6.1.
Однако современный подход подразумевает, что все коэффициенты моделей экспоненциального сглаживания автоматически подбираются путем минимизации какого-нибудь
критерия. Поэтому полученные s коэффициентов (так же,
как и коэффициенты l0 и b0, рассчитываемые в данном случае
по аналогии с моделью Хольта, только по предварительно
десезонализированному ряду данных) обычно служат стартовыми значениями при подборе оптимальных значений.
171
В модели (7.70) можно заметить, что добавление некоторой константы a в уровень ряда и ее же вычитание в сезонной составляющей приводит к изменению компонент lt и ct:
 yˆt h  lt  a   hbt  ct  s h  a 

.
lt  a  lt 1  a  bt 1  t

b
b



t 1
t
 t
ct  a  ct  s  a  t

В результате этого часть изменений, которые должны
были уйти в трендовую составля ющую, могут перейти
в сезонную компоненту и наоборот. Казалось бы, это может
вызвать серьезные проблемы при построении прогнозов,
поэтому сезонные коэффициенты нужно каким-то образом
нормализовать1. Однако ни точечные, ни интервальные прогнозы в этом случае не претерпевают существенных изменений. Поэтому проводить дополнительные преобразования с целью добиться более точной оценки компонент ETS
не имеет смысла, причем не только в случае с аддитивной
сезонностью, но и в случае с мультипликативной.
Стоит обратить внимание, что при построении модели
Хольта-Уинтерса исследователю требуется помимо трех постоянных сглаживания подобрать еще s сезонных коэффициентов
и два коэффициента для оценки трендовой компоненты. Это
нетривиальная задача, которая, очевидно, приводит к появлению
большого количества локальных минимумов. Проблема усугубляется тем, что границы, в которых лежат постоянные сглаживания, в модели значительно сложнее. В случае с ненормализованными сезонными коэффициентами вывести их вообще
не представляется возможным, а в случае с нормализованными — для их вывода требуется решить нелинейное уравнение2.
Важно не то, что для построения модели в распоряжении
исследователя должен быть ряд данных, состоящий хотя
бы из трех периодов. По первому периоду рассчитываются
сезонные коэффициенты, по второму — строится сама модель
(но в расчете используются еще не адаптированные сезонные коэффициенты из первого периода), и только по третьей
части можно подобрать оптимальные постоянные сглаживания для сезонной компоненты (из-за лага сезонности s).
1 Hyndman Rob J., Koehler Anne B., Ord J. Keith, Snyder Ralph D.
Forecasting with Exponential Smoothing: The State Space Approach. SpringerVerlag Berlin Heidelberg, 2008. Р. 125.
2 Hyndman Rob J., Koehler Anne B., Ord J. Keith, Snyder Ralph D. Указ. соч. Р. 157.
172
Например, для построения прогноза по модели ХольтаУинтерса ежемесячных продаж продукции с января
по декабрь 2013 г. нужно располагать данными хотя бы начиная с января 2010 г.
Рассмотрим на примере ряда № 1683 прогноз по модели ХольтаУинтерса.
Постоянные сглаживания для моделей получились следующими:
1. Для аддитивной модели:
  0,109

.
  0
   0,0001

2. Для мультипликативной модели:
  0,412

.
  0
   0,0009

Как видим, для этого ряда данных как в случае с аддитивной, так
и в случае с мультипликативной сезонностью оптимальная β равна 0.
Постоянная сглаживания для сезонных коэффициентов также очень
близка к 0 и различается незначительно. Единственное различие заключается в постоянной сглаживания α, которая в итоге сыграла важную роль
в прогнозе. На рис. 7.16 приведены как аддитивная (сверху), так и мультипликативная (снизу) модели Хольта-Уинтерса и прогнозы по ним.
Как видим, модель с аддитивной сезонностью оказалась точней
модели с мультипликативной сезонностью (которая слишком задралась по сравнению с реальными полученными значениями), что, судя
по всему, вызвано именно значением α. Если сравнивать точность прогнозов по полученным ошибкам аппроксимации, то для первой модели
она составила 7,43%, а для второй — 12,58%.
Продолжая логику модели Хольта, для модели ХольтаУинтерса так же была предложена модификация с демпфированным трендом1. В табл. 7.6 это модели ETS(A,Ad,A):
h


 yˆt h  lt    bt  ct  s h

1

lt  lt 1  bt 1  t
b  b  
t 1
t
 t
c
c



 t
t s
t
(7.72)
1 Gardner Everette S., McKenzie Ed. Seasonal Exponential Smoothing with
Damped Trends // Management Science. 1989. Vol. 35. № 3. Р. 372–376.
173
сплошная линия — фактические значения; прерывистая — расчетные значения
Рис. 7.16. Ряд данных № 1683 из базы M3 и его прогноз на 18 наблюдений вперед с помощью модели
Хольта-Уинтерса с аддитивной (сверху) и мультипликативной (снизу) сезонностью:
1995
1994
1992
1989
1987
1984
1985
1986
1988
1990
1991
1993
1995
1994
1993
1992
1991
1990
1989
1988
1987
1984
1985
1986
2800
3600
4400
Y
5200
2800
3600
4400
5200
Y
174
и ETS(A,Ad,M):
h


 
 yˆt h   lt    bt  ct  s h


1


lt  lt 1  bt 1  t ct  s .
 b  b     c
t 1
t t s
 t
ct  ct  s    t lt 1  bt 1 
(7.73)
Очевидно, что и без того сложная задача подбора
оптимальных коэффициентов в данном случае еще усложняется: помимо s сезонных коэффициентов, двух стартовых
коэффициентов для трендовой компоненты и трех постоянных сглаживания, нужно подобрать еще и значение коэффициента демпфирования. Тем не менее, как показывают
испытания M3 — Competition12, точность прогноза за счет
добавления ϕ возрастает.
Рассмотрим, каким получится прогноз ряда № 1683 по моделям
(7.72) и (7.73). В результате подбора параметров были найдены следующие постоянные сглаживания:
1. Для аддитивной модели:
  0,0084

  0,0002
.

  0
  0,9752
2. Для мультипликативной модели:
  0,185

  0,004
.

  0
  0,921
В первую очередь в глаза бросается то, что сезонность в обеих моделях никак не адаптируется. В первой модели незначительно адаптируются трендовые компоненты. Во второй — чуть сильнее, чем в первой,
адаптируется уровень ряда. Коэффициенты демпфирования в обеих
моделях оказались достаточно большими, что указывает на то, что
тренд в соответствии с моделью будет представлять собой практически
прямую линию. На рис. 7.17 приведены обе модели.
1 Makridakis, S., & Hibon, M. The M3 — competition: Results, conclusions
and implications // International Journal of Forecasting. 2000. № 16. Р. 451–476.
175
1993
1992
1991
1990
1989
1988
1987
1986
1985
1984
Рис. 7.17. Ряд данных № 1683 из базы M3 и его прогноз на 18 наблюдений вперед с помощью модели
Хольта-Уинтерса с демпфированным трендом с аддитивной (сверху) и мультипликативной (снизу)
сезонностью:
сплошная линия — фактические значения; прерывистая — расчетные значения
1995
1994
1995
1994
1993
1992
1991
1990
1989
1988
1987
1986
1984
1985
3000
3800
4600
Y
5400
3000
3800
4600
5400
Y
176
Видно, обе модели дали более точные прогнозы, нежели простая
модель Хольта-Уинтерса. Ошибки получились соответственно: 6,04%
и 6,12%. Обращает внимание то, что сезонные коэффициенты никак
не адаптируются во времени, в связи с чем модель Хольта-Уинтерса
с демпфированным трендом можно упростить до модели Хольта
с демпфированным трендом, построенной по десезонализированному
ряду данных.
Отметим, что для рассматриваемого ряда № 1683 простая модель
экспоненциального сглаживания сезонных уровней (рассмотренная
нами ранее в параграфе 7.3) дала сопоставимые по точности прогнозы, но при этом потребовала значительно меньше расчетов, нежели
модели, рассмотренные нами в этом параграфе.
7.7. Àâòîìàòèçàöèÿ ìîäåëåé ýêñïîíåíöèàëüíîãî
ñãëàæèâàíèÿ
Мы разобрали только основные модели экспоненциального сглаживания, и уже успели убедиться в том, что выбор
модели значительно влияет на точность прогноза. Очевидно,
что для каждого временнóго ряда оптимальной (в смысле
точности аппроксимации) будет какая-то своя модель
из всех рассмотренных нами. Конечно, это не гарантирует,
что при этом мы получим наиболее точный прогноз, но,
к сожалению, ни на какие критерии мы больше опираться
не можем.
В связи с этим в 2002 г. был предложен алгоритм,
позволяющий автоматически выбрать наилучшую из всех
ETS-моделей и дать по ней прогноз11. Основная идея алгоритма — перепробовать всевозможные модели из таблиц 7.6
и 7.7 для аппроксимации ряда данных, после чего выбрать
наилучшую из них.
В связи с тем, что выбрать между аддитивной и мультипликативной моделями, используя стандартные критерии
(такие, как дисперсия ошибки) невозможно, Р. Хиндман
и др. предложили использовать критерий максимума функции правдоподобия, который после ряда преобразований
сводится к нахождению минимума следующей функции:
T
T 
L , X0   T log   et2   2 log kt ,
 t 1  t 1
(7.74)
1 Hyndman R. J., Koehler A. B., Snyder R. D., Grose S. A state space
framework for automatic forecasting using exponential smoothing methods //
International Journal of Forecasting. 2002. Vol. 18. Р. 439–454.
177
здесь θ — вектор постоянных сглаживания (там же — коэффициент демпфирования) используемых в оцениваемой
модели; X0 — вектор стартовых значений (уровня ряда, угла
наклона, сезонных коэффициентов); kt — коэффициент, который равен 1, если рассматривается аддитивная модель и
в случае, если рассматривается мультипликативная модель.
В (7.74) et представляет собой ошибку на наблюдении t и так
же различается в зависимости от используемой формы учета
ошибок. Рассчитывается она по формуле et 
t
, где t  yt  yˆt .
kt
Чтобы запустить подбор параметров с помощью (7.74),
нужно задать определенные стартовые значения постоянных
сглаживания и параметров X0. В данном подходе предлагается следовать следующей схеме:
1) α = β = γ = 0,5;
2) ϕ = 0,9;
3) для сезонных рядов проводится классическая сезонная
декомпозиция с нормализацией полученных сезонных коэффициентов;
4) для оценки трендовой компоненты строится модель
линейного тренда по первым 10 наблюдениям (в случае
с сезонными рядами — по десезонализированному ряду); l0
принимается равным константе, b0 — равным углу наклона;
5) в случае с мультипликативной трендовой компонентой
b0 = 1 + a1 / a0, где a1 — угол наклона построенного линейного тренда; a0 — константа.
Получив такие стартовые оценки для выбранной модели,
осуществляется подбор оптимальных θ и X0, после чего
по полученной модели рассчитывается выбранный информационный критерий, например AIC:


AIC  L ˆ, Xˆ 0  2 p ,
(7.75)
где p — число элементов вектора θ.
Смысл информационных критериев — дать такую оценку
аппроксимационным свойствам модели, которая бы с одной
стороны характеризовала качество подгонки, а с другой —
число включенных переменных. Так, чем больше в модели
переменных, тем выше будет значение AIC. В то же время,
чем точнее модель аппроксимировала ряд данных, тем
178
меньше будет AIC. Если добавление коэффициента не вносит значительных изменений в точность аппроксимации, то
AIC будет увеличиваться.
В связи с тем, что функция правдоподобия (7.74) получается разной в случае с мультипликативными и с аддитивными ошибками, полученное по формуле (7.75) значение
AIC будет различным.
Рассчитав параметры модели и AIC, переходят к следующей модели. В результате таких расчетов по всем 30
моделям экспоненциального сглаживания выбирается та,
у которой AIC наименьший. На основе этой модели даются
точечный и интервальный прогнозы.
В программе «R» весь описанный выше алгоритм уже реализован
в функции «ets». Рассмотрим, какую модель предложит нам такой подход для рядов № 41 и № 1683.
Для ряда № 41 было построено две модели:
1. С интервалами, выводимыми из свойств ETS, ETS(M,Md,N):
  3,4368

  2,3707 .
  0,0259

2. С классическими интервалами, ETS(M,A,N):
  0,9987
.

  0,0001
В очередной раз мы обращаем внимание на то, что постоянные сглаживания, полученные в результате подбора параметров в более широких интервалах, не имеют удобной интерпретации «средних величин»,
а скорее характеризуют степень адаптации различных компонент ETS.
На рис. 7.18 показаны ряд № 41 и прогнозы по нему для двух моделей, подобранных автоматически. В модели слева использовались
ограничения, выведенные из свойств модели экспоненциального сглаживания, в модели справа — классические ограничения.
Как видим, модель с более широкими интервалами для постоянной сглаживания в данном случае дала более точный прогноз: sMAPE
для нее составила 19,20%, в то время как для модели с классическими
интервалами ошибка оказалась выше — 25,44%. Напомним, что более
точный прогноз по данному ряду был получен лишь с помощью модели
Брауна (параграф 7.2).
179
Рис. 7.19 Ряд данных № 1683 и его прогноз:
сплошная линия — фактические значения; прерывистая — расчетные значения
1995
1993
1992
1991
1990
1989
1988
1987
1984
1984
4600
5400
3000
3800
4600
Y
5400
Мы уже сталкивались с ситуацией, когда постоянная сглаживания
β оказывалась близкой к нулю. При автоматическом подборе в первом
случае она так же оказалась крайне маленькой, а во втором — вообще
была убрана из рассмотрения, так как, судя по всему, вносила слишком
малый вклад в аппроксимацию ряда.
На рис. 7.19 показан этот ряд данных и прогнозы по нему для двух
моделей, подобранных автоматически. В модели сверху использовались ограничения, выведенные из свойств модели экспоненциального
сглаживания, в модели снизу — классические ограничения.
1985
  0,1497
.

   0,0001
1985
1986
2. С классическими интервалами, ETS(M,N,A):
1986
1987
1988
  0,0521

  0,0011
.

  0
  0,9783
180
1994
1995
1994
1993
1992
1991
1990
1989
Теперь рассмотрим сезонный ряд № 1683. Для него также было
построено две модели:
1. С интервалами, выводимыми из свойств ETS, ETS(M,Ad,A):
Y
Y
500 1500 2500 3500 4500 5500 6500
Рис. 7.18. Ряд данных № 41 и его прогноз:
сплошная линия — фактические значения;
прерывистая — расчетные значения
3800
Y
500 1500 2500 3500 4500 5500 6500
1976 1980 1984 1988 1992
3000
1976 1980 1984 1988 1992
181
Можно обратить внимание на то, что вторая модель оказалась
несколько завышенной и, не очень точно прогнозируя значения внизу
тренда, дала более точный прогноз его пика. Первая же модель в среднем просто чуть лучше справилась с задачей. Это видно и по рассчитанным ошибкам аппроксимации: по первой модели sMAPE = 6,08%,
по второй — 6,55%. Прогнозы, полученные автоматически, в данном
случае можно назвать сопоставимыми по точности с прогнозами
по остальным моделям экспоненциального сглаживания, рассмотренным нами в данном параграфе.
В целом, как видим, такой подход значительно облегчает
жизнь прогнозиста и позволяет достаточно быстро получать
точные прогнозы по моделям экспоненциального сглаживания.
Ïðàêòèêóì
Вопросы для самоконтроля
1. Как можно определить понятия системного анализа: «адаптивность», «адаптация», «живучесть», «самоорганизуемость», «обучение» и «самообучение»?
2. В каких случаях для более точного прогнозирования ценность
информации уменьшается с убыванием этой информации в прошлое?
3. Выведите формулу модели экспоненциального сглаживания.
Почему модель носит такое название?
4. В каких пределах изменяется постоянная сглаживания модели
Брауна?
5. Какими свойствами обладает модель экспоненциального сглаживания в классическом множестве своих значений?
6. Какими свойствами обладает модель Брауна, если постоянная
сглаживания находится в запредельном множестве?
7. В каких случаях выбор стартового значения модели
экспоненциального сглаживания является очень важной задачей,
а в каких это значение можно задавать без особого ущерба для прогнозирования?
8. Какие основные методы задания начального значения для модели экспоненциального сглаживания вы знаете? Каковы их преимущества и недостатки?
9. В каких случаях следует использовать модель экспоненциального сглаживания, а в каких — обратиться к ее модификациям?
10. Для каких типов динамических процессов разработаны основные модификации метода Брауна? Какие предположения лежат
в основе этих модификаций?
11. В чем смысл алгоритма автоматического выбора модели
экспоненциального сглаживания?
12. Для каких типов динамики прогнозируемых процессов разработаны методы экспоненциального сглаживания? Для обратимых
или необратимых?
182
Задания
Задание 1. Откройте ряд № 645 из базы M3, изучите его.
1. Как вы считаете, есть ли в этом ряде какие-либо тенденции
к росту или снижению?
2. Используя MS Excel, постройте несколько моделей простого экспоненциального сглаживания с разными методами задания
стартового значения, упомянутыми в параграфе 7.2. Дайте прогнозы
по полученным моделям на шесть лет вперед.
3. Постройте модель Брауна в «R» с расширенным интервалом
для постоянной сглаживания. Дайте прогноз на шесть лет вперед
по полученной модели.
4. Отличаются ли прогнозы по моделям из п. 3 и п. 4? Как вы
считаете, почему?
5. Оцените точность полученных прогнозов. Какая из моделей
оказалась наиболее точной?
Задание 2. Рассмотрите ряд № 625 из базы M3.
1. Выполните все задания, предусмотренные в Задании 1, для ряда
№ 625.
2. Как вы считаете, чем ряд № 625 отличается от ряда № 645?
3. Постройте для ряда № 625 модель простого экспоненциального сглаживания с классическими границами. Дайте по ней прогноз
на шесть лет вперед.
4. Какая из всех построенных моделей для ряда № 625 оказалась
наиболее точной и почему?
Задание 3. Продолжим рассмотрение ряда № 625.
1. Постройте по ряду данных модель Theta и дайте по ней прогноз
на шесть лет вперед.
2. Для того же ряда постройте модель адаптации к приростам
в MS Excel. Дайте по ней прогноз на шесть лет.
3. Сравните точность прогнозов по моделям из п. 1 и п. 2.
Задание 4. Изучите ряд № 850.
1. Какие особенности у этого ряда? Есть ли в нем сезонность?
Если да, то с каким лагом сезонности и какого типа (аддитивная или
мультипликативная)?
2. Постройте модель простого экспоненциального сглаживания
сезонных уровней в MS Excel с разными стартовыми значениями.
3. Дайте прогноз по полученным моделям на восемь наблюдений
вперед.
4. Какая из моделей оказалась точнее?
Задание 5. Вернемся к ряду № 625:
1. Постройте по нему модель Хольта с классическими и расширенными границами.
183
2. Дайте по полученным моделям прогнозы на шесть наблюдений
вперед.
3. Постройте по тому же ряду модель Хольта с демпфированным
трендом с классическими и расширенными границами.
4. Дайте прогнозы по моделям из п. 3 на шесть наблюдений вперед.
5. Сравните точность полученных прогнозов. Какая из моделей
оказалась точнее? Как вы думаете, почему?
Задание 6. По ряду № 850 постройте следующие сезонные модели
в «R»:
1. Модель Хольта-Уинтерса с аддитивной сезонностью.
2. Модель Хольта-Уинтерса с мультипликативной сезонностью.
3. Модель Хольта-Уинтерса с аддитивной сезонностью и демпфированным трендом.
4. Модель Хольта-Уинтерса с мультипликативной сезонностью
и демпфированным трендом.
5. Сравните прогнозы по построенным в п. 1 — 4 моделям и по моделям из задания 4. Какая из них дала наиболее точный прогноз? Как
вы считаете, почему?
Задание 7. Перейдем к автоматическому выбору модели
экспоненциального сглаживания.
1. Выберите наилучшую модель экспоненциального сглаживания
для ряда № 645, используя AIC . Постройте ее и дайте по ней прогноз
на шесть наблюдений вперед.
2. Какую модель вы получили? Отличается ли она от моделей
из задании 1? Как вы считаете, почему?
3. Используя ту же функцию, постройте модель для ряда № 625.
Дайте прогноз по полученной модели.
4. Какую модель вы получили в п. 3? Отличается ли она от моделей в заданиях 2, 3 и 5? Какая из них оказалась точнее? Как вы
считаете, почему?
5. Используя AIC , выберите наилучшую модель для ряда № 850.
Постройте ее и дайте по ней прогноз.
6. Сравните полученную модель и прогноз по ней с моделями
и прогнозами из заданий 4 и 6.
Ãëàâà 8.
ÌÎÄÅËÈ ÀÂÒÎÐÅÃÐÅÑÑÈÈ
È ÑÊÎËÜÇßÙÅÃÎ ÑÐÅÄÍÅÃÎ
В результате освоения данной главы студент должен:
знать
• основные понятия, принципы, методы и инструменты анализа
и прогнозирования социально-экономических процессов с помощью
моделей авторегрессии;
• современные теории авторегрессии;
• характеристики и свойства авторегрессионных моделей и их
модификаций;
уметь
• определять процессы, для прогнозирования которых уместно
применение моделей авторегрессии;
• строить коррелограммы и давать интерпретацию значениям
автокорреляционной функции;
• находить величину лага и давать интерпретацию этому значению;
владеть
• методами и методиками прогнозирования с помощью моделей
авторегрессии и их модификаций;
• методами и методиками построения авторегрессионных моделей с учетом сезонности социально-экономических явлений;
• информационными технологиями построения коррелограмм
и оценки коэффициентов моделей авторегрессий и их модификаций.
Помимо уже рассмотренных нами моделей прогнозирования социально-экономических тенденций есть еще один
крупный класс моделей, пользующийся популярностью
не только среди практикующих прогнозистов, но и среди
экономистов-теоретиков за свою хорошую статистическую
обоснованность. Это модели авторегрессии. Само понятие
«авторегрессия» уже говорит о том, что в построении регрессионной модели используются предыдущие значения показателя.
185
Идея, лежащая в основе этих моделей, вполне логична
и проста: если в какой-то момент времени t значение показателя составляло yt, то в последующие моменты времени t
+ 1, t + 2, ... t + h значения показателя так или иначе будут
зависеть от полученного на наблюдении t. Типичный пример
такой зависимости — рождаемость в стране: на то, сколько
родится младенцев в 2014 г., влияет количество младенцев,
рожденных 23—25 лет назад. Можно привести множество
примеров из экономической практики, в которых значение на одном наблюдении чисто технически будет зависеть
от значения в предыдущем. Например, если в понедельник
тапочки продавались хорошо, то продажи во вторник, скорее всего, будут примерно на сопоставимом уровне. Навряд
ли после продаж на уровне 10 тыс. последуют нулевые продажи или продажи на уровне 100 тыс. Такие события могут
произойти только в исключительных ситуациях. Зависимость в таких рядах действительно есть, но, конечно же,
утверждать, что значение продаж в понедельник порождает
значение продаж во вторник некорректно: связь в данном
случае скорее указывает на инерционность процесса продаж, нежели на существование какой-то реальной зависимости. Поэтому модели авторегрессии так же, как и модели
трендов или экспоненциального сглаживания, нужно воспринимать в первую очередь как инструмент описания
реальности, нежели инструмент, «вскрывающий реальные
зависимости».
В развитие идеи о том, что значение ряда зависит от предыдущих своих значений, появилась идея о том, что значение ряда может зависеть от случайных ошибок на предыдущих наблюдениях. Модели, описывающие такую структуру,
называются моделями скользящего среднего (нельзя путать
их с моделями, обсуждавшимися нами в параграфе 5.1).
Их существование обусловлено предположением о том,
что в основе ряда данных лежит некая математическая
модель, отклонения от которой носят случайный характер,
но при этом влияют на значения ряда в будущем. Очевидно,
что это некая абстракция, позволяющая при этом более
точно аппроксимировать временные ряды.
Модели, объединяющие авторегрессии со скользящей
средней, носят название авторегрессии со скользящей средней — АРСС. В английском языке они известны под аббревиатурой ARMA. Наиболее подробно модели класса ARMA
были рассмотрены в книге Г. Бокса и Г. Дженкинса «Анализ
186
временных рядов и прогнозирование»1. Кроме того, достаточно подробный разбор моделей класса ARMA представлен
в монографии «Бизнес-прогнозирование»22.
8.1. Îïèñàíèå ñòàöèîíàðíîãî âðåìåííîãî ðÿäà
àâòîðåãðåññèåé è ñêîëüçÿùåé ñðåäíåé
Для начала рассмотрим общую форму записи моделей
авторегрессии со скользящей средней и обсудим то, какие
виды прогнозов они позволяют давать.
Модель авторегрессии обычно обозначается в виде AR(p),
где p — это порядок модели, который показывает, от какого
значения (сколько шагов назад) зависит текущее значение
ряда. В общем виде модель AR(p) записывается следующем
образом:
yt  c  a1yt 1  a2 yt 2  ...  a p yt  p  t ,
(8.1)
где c — константа; ai — i-й коэффициент модели; εt — ошибка
модели, о которой, конечно же, предполагается, что она распределена независимо и нормально с нулевым математическим ожиданием и некоторой постоянной дисперсией.
Коэффициенты модели (8.1) легко рассчитываются обыкновенным методом наименьших квадратов. Значимость
коэффициентов полученной модели определяется стандартными методами.
Часто для упрощения представления модели авторегрессии вводят так называемые лаговый оператор — функцию,
согласно которой:
B p yt  yt  p .
(8.2)
Само содержание оператора совершенно неважно, просто
записывать модель авторегрессии высокого порядка с ним
значительно легче. Например, модель (8.1), в общем виде
с помощью (8.2) может быть переписана в другой форме:
yt  c  a1Byt  a2B2 yt  ...  a p B p yt  t .
(8.3)
1 Box George E. P., Jenkins Gwilym M. Time series analysis, forecasting and
control. Holden-day, Inc., 1976.
2 Ханк Д. Э., Уичери Д. У., Райтс А. Дж. Бизнес-прогнозирование : пер.
с англ. 7-е изд. М. : Издательский дом «Вильямс», 2003.
187
Если теперь в (8.3) справа оставить лишь ошибку и константу, а влево перенести все остальные элементы, то можно
получить общепринятую форму записи модели авторегрессии порядка p:
yt  a1Byt  a2B2 yt  ...  a p B p yt  c  t .
(8.4)
Вынося в (8.4) yt за скобки, получим:
1  a B  a B
1
2
2

 ...  a p B p yt  c  t .
(8.5)
Составляющую в скобках можно представить как функцию от оператора сдвига:
 p  B   1  a1B  a2B2  ...  a p B p .
(8.6)
Это позволяет представить авторегрессию в еще более
компактном виде:
 p  B  yt  c  t .
(8.7)
Здесь нижний индекс в самой функции определяет порядок авторегрессии, а указание на B в скобках — то, как будут
представлены элементы в (8.6). Например, для авторегрессии третьего порядка AR(3) получим
 3  B   1  a1B  a2B2  a3 B3 .
(8.8)
Подставляя (8.8) в (8.7), перегруппировывая элементы,
мы в итоге придем к модели:
Как видим, форма (8.7) удобна, благодаря своей компактности. Стоит так же отметить, что авторегрессия (8.7) обычно
рассматривается без константы, но ее наличие не критично,
так как оно лишь меняет уровень ряда. Сам смысл модели
от нее не меняется.
Чтобы дать прогноз по модели AR(p) на один шаг вперед,
достаточно подставить в оцененное уравнение имеющиеся
фактические значения на последних наблюдениях. Однако
для того, чтобы дать прогноз на два шага вперед и более,
нужно сделать допущение, идентичное тому, которое было
в экспоненциальном сглаживании:
188
yt  c  a1yt 1  t .
(8.10)
Если по этой модели дать прогноз на один шаг вперед, то
получим
yˆT 1  c  a1yT .
(8.11)
Для получения прогноза на два шага вперед подставим
полученное значение в (8.11) в модель:
yˆT 2  c  a1yˆT 1  c  a1 c  a1yT  .
(8.9)
(8.12)
Раскрывая скобки в (8.5) получаем формулу для расчета
прогноза на два шага вперед по модели AR(1):
yˆT 2  c 1  a1   a12 yT .
(8.13)
Повторяя такую итеративную процедуру, получим формулу для расчета прогноза на h шагов вперед:


yˆT h  c 1  a1  a12  ...  a1h1  a1h yT .
yt  c  a1yt 1  a2 yt 2  a3 yt 3  t .
yT 1  yˆT 1 .
В случае с простейшими моделями это допущение позволяет определить прогноз на h — шагов вперед. В случае
с более сложными моделями приходится использовать итеративную процедуру: рассчитав прогноз на один шаг вперед,
подставлять его в формулу для того, чтобы получить прогноз
на два шага вперед и т.д.
Рассмотрим свойства простейшей авторегрессионной
модели — модели авторегрессии первого порядка AR(1),
известной так же под названием «Марковский процесс».
В общем виде она может быть записана как
(8.14)
В формуле (8.14) сумма в скобках — это сумма элементов
геометрической прогрессии, которая равна
1  a  a
1
2
1

 ...  a1h1 
a1h  1
.
a1  1
(8.15)
Подставляя (8.8) в (8.7), получаем простую формулу
для расчета прогнозного значения на h шагов вперед
на основе последнего полученного фактического значения:
yˆT h  c
a1h  1
 a1h yT .
a1  1
(8.16)
189
Можно заметить, что прогнозное значение в формуле
(8.16) зависит в первую очередь от значения коэффициента
a1, причем, зависимость эта носит вид показательной функции (5.38), рассмотренной нами в параграфе 5.3. Соответственно прогноз по модели AR(1) будет представлять собой
достаточно простые траектории показательного характера,
которые мы уже рассматривали. Напомним их. На рис. 8.1
приведены четыре возможных варианта прогнозных траекторий.
1) 1 < a1
Такой процесс занимает отдельное место в эконометрике,
потому что теоретически лежит в основе множества нестационарных процессов. Графический пример процесса случайного блуждания приведен на рис. 8.2.
20
18
16
14
3) –1 < a1 < 0
0 20
Y
60
Y
–0,5 0,0 0,5
12
5
10
15
t
20
25
10
8
6
5
10
20
25
0
4) a1<–1
15
t
20
25
–100
10
5
10
15
20
25
t
Рис. 8.1. Виды прогнозных траекторий для модели AR(1)
Наибольший интерес в прогнозировании представляют
траектории с a1 > 0. Однако стоит отметить, что при построении модели ARMA ситуаций, наподобие той, когда a1 > 1,
стараются избегать в связи с тем, что при таких значениях
коэффициента модель становится не стационарной. Подробней вопросы стационарности мы рассмотрим в следующем
параграфе.
Процесс, в котором a1 = 1, называется процессом случайного блуждания, так как в таком случае в формировании
будущего значения yt основную роль играет уже не предыдущее значение yt-1, а ошибка εt: yt  yt 1  t .
190
1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31 33 35 37 39 41
Рис. 8.2. Процесс случайного блуждания
Y
0
Y
0,6
0,2
5
4
2
50
2) 0<a1<1
15
t
В связи с тем, что ошибки εt были заданы i.i.d. (независимо
одинаково распределенными) по стандартному нормальному
закону, на каждом конкретном наблюдении t могло получиться как положительное, так и отрицательное отклонение
от yt–1. В результате этого могут получаться совершенно разные траектории в совершенно разных направлениях. Естественно, в связи с тем, что ошибки на периоде прогнозирования предполагаются равными нулю, прогноз по модели
случайного блуждания соответствует прогнозу по модели
Naïve — все будущие значения равны последнему полученному фактическому. Этот тип модели не используют непосредственно в прогнозировании с помощью авторегрессий,
но скорее используют как инструмент для идентификации
временных рядов.
Порядок авторегрессии имеет особое значение — это
не просто сдвиг наблюдений на шаг или два назад, а существенное изменение сути модели. Рассмотрим для определенности модель авторегрессии второго порядка с нулевым
коэффициентом при yt — 1: yt  ayt 2 .
191
t 1
2 y
1,
если t — нечетное.
Тогда, если коэффициент авторегрессии будет по модулю
больше единицы, то модель генерирует колебательный процесс с возрастающей амплитудой колебаний, как это изображено на рис. 8.3, а если меньше, то модель будет генерировать колебательный процесс с затуханием колебаний.
a1 = 0,5, a2 = 1
2
Характер моделируемого процесса при авторегрессии второго порядка определяется значением коэффициента авторегрессии и двумя первыми значениями моделируемого ряда.
При расширении порядка авторегрессии усложняются
характеристики моделей авторегрессии.
Вторая по популярности модель авторегрессии — это
модель AR(2), известная также под названием «Процесс
Юла». В компактной форме она записывается как
 2  B  yt  c  t ,
(8.17)
А в более подробном представлении имеет вид
yt  c  a1yt 1  a2 yt 2  t .
(8.18)
Прогнозирование на один шаг вперед с помощью этой
модели осуществляется так же просто, как и с помощью
AR(1):
yˆT 1  c  a1yT  a2 yT 1 .
192
(8.19)
6
8 10 12 14
a1 = 0,5, a2 = 0,5
Yt
0 1000 3000 5000 7000 9000
Рис. 8.3.Модель авторегрессии второго порядка,
yt = 1,3yt – 2, y0 = 3, y1 = 1
4
2
4
6
8 10 12 14
a1 = 0,5, a2 = 0,2
Yt
0 1000 3000 5000 7000 9000
, если t — четное, и yt  a
2
4
6
8 10 12 14
a1 = 0,5, a2 = 0,9
Yt
0 1000 3000 5000 7000 9000
yt 
t
a 2 y0
Однако прогноз на произвольное число шагов вперед h
требует уже рекуррентной процедуры с расчетом всех промежуточных значений между наблюдениями T + 1 и T + h.
Эта модель позволяет получать значительно большее
число прогнозных траекторий и рассмотреть все из них
достаточно затруднительно. Несколько примеров таких траекторий приведены на рис. 8.4.
Yt
0 1000 3000 5000 7000 9000
При t = 2 легко заметить, что: y2  ay0 . При t = 3 вычисляется y3  ay1 . Видно, что эти два расчетных значения не зависят друг от друга. Продолжая дальше, обнаружим, что при
t = 4 y4  ay2  a 2 y0 , при t = 5 вычисляется y5  ay3  a 2 y1 .
И вообще для модели авторегрессии второго порядка
2
4
6
8 10 12 14
Рис. 8.4. Виды прогнозных траекторий для модели AR(2)
Ситуации, изображенные в левой части графика, соответствуют нестационарным моделям, к которым в практике
прогнозирования стараются не обращаться.
Как видим, при разных значениях коэффициентов a1 и a2
можно получить совершенно разные траектории: линейные,
экспоненциальные, с асимптотой, тригонометрические и т.д.
В связи с тем, что расчет коэффициентов осуществляется
с помощью МНК, выбранная траектория автоматически
должна наилучшим образом соответствовать ряду данных.
193
Условие стационарности для модели AR(2) записывается
в виде системы неравенств:
По аналогии с авторегрессией введем функцию для приведения (8.23) к компактному виду:
a2  a1  1

.
a2  a1  1
1  a  1
2

q  B   1  c1B  c2B2  ...  cq Bq .
(8.20)
Более сложные модели позволяют моделировать еще более
разнообразные и сложные прогнозные траектории. Однако
в прогнозировании стараются избегать моделей авторегрессии
порядка больше двух. Иногда это условие ослабляется до третьего порядка. Вызвано такое ограничение тем, что появление элементов четвертого порядка обычно сигнализирует
о наличии сезонности в ряде данных, а для ее моделирования
с помощью авторегрессий есть специальные модификации
(например, модель SARIMA, к которой мы обратимся позже).
Идея о том, что исследуемая величина может зависеть
от своих же значений в прошлом, получила дальнейшее развитие. Так, предполагая, что при генерации yt всегда существует некоторая ошибка (которая, конечно же, распределена
нормально, что указывает на влияние множества мелких
неучтенных факторов), появилась идея о том, что будущие
значения yt могут зависеть не только от прошлых значений
ряда, но и от случайной ошибки на предыдущих наблюдениях. Так появилась модель скользящей средней порядка q,
MA(q), которая обычно записывается в виде
yt  c1t 1  c2t 2  ...  cqt q  t .
(8.21)
В связи с тем, что в (8.21) будущие значения зависят
от предыдущих ошибок, рассчитать коэффициенты модели
МНК уже невозможно. Поэтому при оценивании модели
используются численные методы.
Стоит отметить, что сумма весов при ошибках в (8.21)
не обязательно равна 1, поэтому название «Скользящая
средняя» не совсем соответствует действительности. Однако
это название уже давно закрепилось за этой моделью.
Используя введенный нами ранее лаговый оператор B,
формулу (8.21) можно переписать в виде
yt  c1Bt  c2B2t  ...  cq Bqt  t .
(8.22)
Вынося в (8.22) за скобки εt, получим


yt  1  c1B  c2B2  ...  cq Bq t .
194
(8.23)
(8.24)
Здесь нижний индекс в функции так же, как и в случае
с авторегрессией, определяет порядок модели.
Стоит обратить внимание, что для единообразия записи
Г. Бокс и Г. Дженкинс использовали другое представление
функции (8.24):
q  B   1  c1B  c2B2  ...  cq Bq .
В таком виде она похожа на функцию (8.6) для авторегрессии и с ней удобнее работать при оценке стационарности ряда.
Однако смысла в таком искажении параметров модели в данном случае нет, потому что к такой зависимости можно прийти,
лишь предположив, что первоначальная модель (8.21) должна
иметь другой вид yt  t  c1t 1  c2t 2  ...  cqt q , что на самом
деле неудобно. Именно поэтому здесь и далее мы будем
использовать функцию (8.24), следующую из модели (8.21).
С учетом (8.23) модель скользящего среднего порядка q
может быть компактно записана, как
yt  q  B  t .
(8.25)
Чтобы дать прогноз по модели MA(q) на h шагов вперед,
нужно вначале дать прогноз на один шаг вперед, а дальше
допустить, что yT 1  yˆT 1 .
В связи с тем, что ошибка рассчитывается как отклонение
фактического значения от расчетного, на периоде прогноза все
ошибки обращаются в нуль: T h  yT h  yˆT h  yˆT h  yˆT h  0 .
Поэтому прогноз по модели MA(q) на h шагов вперед
представляет собой простую прямую линию: yˆT h  yˆT 1 .
Модель скользящей средней обычно ограничивают вторым, а иногда — третьим порядком. Вызвано это все теми же
соображениями, что и в случае с авторегрессией.
Обратим внимание на то, что для того чтобы получить ошибки, по которым далее можно запустить модель,
в модели скользящего среднего требуется задать какие-то
стартовые значения εt. Обычно для этого пользуются процедурой «обратного прогноза» (Backcast), с помощью которой
восстанавливают значения ошибок. Выводятся эти значения
с помощью самой модели. Обычно при этом предполагается,
что значения на лагах t + 1 и t — 1 коррелируют со значе195
нием t одинаково. Поэтому значение ряда можно получить,
используя не только предыдущие, но и будущие значения.
В результате этого для модели (8.21) значения ошибок
на наблюдении t будут вычисляться по формуле
t  yt  c1t 1  c2t 2  ...  cqt q .
(8.26)
Вычисляя ошибки для всего ряда данных с конца
до самого начала по формуле (8.26), можно получить ряд
стартовых значений ошибок, состоящий из q элементов.
Очевидно, что полученные таким образом ошибки будут уже
по-другому влиять на расчетные значения y, поэтому процедура обратного прогноза носит итеративный характер: после
получения оценок по формуле (8.26) коэффициенты модели
переоцениваются. Затем стартовые значения опять вычисляются, и так продолжается до получения устойчивых оценок
коэффициентов.
Процессы AR(p) и MA(q) связаны друг с другом. Так,
если обратиться к модели авторегрессии в компактном виде
без константы и выразить в ней yt, то получим
yt 
t
  p 1  B  t .
 p B
(8.27)
Выражая значение на шаге t через фактическое значение
на шаге t — 3, получим yt  a13 yt 3  a12t 2  a1t 1  t .
В общем случае значение yt может быть рассчитано через
значение yt — τ:
yt  a1 yt   a11t   a12t 1  ...  a1t 1  t .
(8.31)
a1
В (8.31) в случае со стационарным процессом
с приближением τ к бесконечности будет приближаться к 0. Тогда,
устремляя τ в бесконечность, получаем формулу, выраженную в терминах скользящей средней:
yt  t  a1t 1  ...  a12t 1  a11t   ... .
(8.32)
Используя лаговый оператор и компактный вид, приходим
к модели скользящей средней бесконечного порядка (8.28).
Аналогично можно показать, что конечным процессам
MA(q) соответствуют бесконечные AR. Все это указывает
на то, что модели авторегрессии и скользящего среднего
можно объединить для того, чтобы конечными порядками описывать соответствующие составляющие. Модель
ARMA(p,q) в первоначальном виде записывается так:
yt  c  a1yt 1  a2 yt 2  ...  a p yt  p  c1t 1  c2t 2  ...  cqt q  t (8.33)
При этом, если в исходной модели авторегрессии (8.1)
попытаться выразить текущее значение yt через предыдущие, используя саму же формулу (8.1), то мы получим бесконечный ряд ошибок с коэффициентами авторегрессионной модели, что может быть компактно записано в виде
Используя введенные нами ранее лаговые операторы
и функции (8.6) и (8.24), формулу (8.33) можно переписать
в компактном виде:
yt    B  t .
 p  B  yt  q  B  t  c .
(8.28)
Из этого следует, что авторегрессии конечного порядка
соответствует процесс скользящей средней бесконечного
порядка и наоборот.
Покажем это свойство на примере модели AR(1) без константы:
yt  a1yt 1  t .
Из (8.29) следует, что значение yt
по формуле
yt 1  a1yt 2  t 1 .
(8.29)
— 1
рассчитывается
(8.30)
Подставляя (8.30) в (8.29), получим yt  a12 yt 2  a1t 1  t .
196
(8.34)
Так, например, модель ARMA(2,1) будет иметь вид


 2  B  yt  1  B  t  c , откуда 1  a1B  a2B2 yt  1  c1B  t  c или
в полной форме: yt  c  a1yt 1  a2 yt 2  c1t 1  t .
Модель ARMA сочетает в себе свойства как авторегрессии, так и скользящей средней. А в связи с тем, что на участке
прогноза ошибки обращаются в 0 (элементы MA обращаются
в ноль), все прогнозируемые траектории ARMA(p,q) будут
соответствовать траекториям AR(p). Однако это не означает,
что скользящая средняя не нужна — ее учет позволяет более
точно аппроксимировать ряд данных и отсечь ненужные
элементы авторегрессии, которые возникли бы из-засвязи
между AR и MA.
197
8.2. Íåñòàöèîíàðíîñòü,
ìåòîäû èäåíòèôèêàöèè è óñòðàíåíèÿ
С моделями авторегрессии и скользящего среднего непосредственно связано понятие стационарности, которое мы
уже рассматривали в начале учебника. Здесь же оно обретает
конкретные виды и формы.
Для начала стоит напомнить, что считается стационарным процессом. Стационарный процесс в узком смысле —
это процесс, в котором распределение случайной величины
не изменяется со временем, т.е. распределение величин y1, y2,
..., yn такое же, как и величин y1+τ, y2+τ, ..., yn+τ 11 при любом
целом τ ≠ 0.
Однако для целей прогнозирования можно воспользоваться определением стационарности в широком смысле —
с менее жесткими ограничениями. Слабо стационарный
процесс — это процесс с постоянным математическим ожиданием и дисперсией, в котором ковариация между значениями ряда зависит только от величины лага. Это определение
подразумевает выполнение следующих трех условий:
1) M  yt    , t ;
2) D  yt    2 , t ;
3) cov  yt , yt       , t .
В принципе, второе условие идентично третьему в случае,
когда τ = 0, однако мы его выписали отдельно для наглядности.
Ранее мы уже кратко обозначили, что модели авторегрессии и скользящего среднего строятся исходя из условия стационарности. Связано это с идеей, лежащей в основе
модели линейного фильтра, на которой базируется ARMA:
временнóй ряд рассматривается как генерируемый под влиянием ряда независимых случайных шоков, имеющих некое
фиксированное распределение (обычно нормальн ое) 22.
Согласно этой идее случайные шоки проходят через фильтр
(в роли которого выступает модель ARMA), на выходе которого получаются значения ряда yt. Такая схема прекрасно
описывает технические процессы. Например, процесс ото-
пления котлом: в качестве случайных шоков выступает
поток воздуха, а выхода — количество тепла. В таких системах процессы в основном носят стационарный характер,
но могут сменяться периодами нестационарности. Экономические процессы, конечно же, значительно более разнообразны, а поэтому и нестационарность в них встречается
значительно чаще.
8.2.1. Условие стационарности в моделях ARMA
В предыдущем параграфе мы уже упомянули, что
при некоторых значениях коэффициентов модели авторегрессии начинают генерировать нестационарные процессы,
что, как видим, противоречит идеи линейного фильтра.
К таким примерам относилась ситуация с
в AR(1). Очевидно, что чем сложнее построенная модель, тем сложнее
становится условие стационарности. Универсальный механизм оценки стационарности был предложен Г. Боксом и Г.
Дженкинсом13. Он заключается в решении характеристического уравнения для модели AR(p). Если модель AR(p)


записывается в виде 1  a1B  a2B2  ...  a p B p yt  t , то его
характеристическое уравнение будет иметь вид
1  a1X  a2 X 2  ...  a p X p  0 .
(8.35)
Подставляя в (8.35) оцененные значения коэффициентов
и решая уравнение, исследователь получит p комплексных
корней: при решении полиномиальных уравнений числа
X могут быть представлены как в виде действительных,
так и в виде мнимых и комплексных чисел. В случае, если
полученное число лежит в пределах единичной окружности, модель описывает нестационарный процесс, а значит,
по стандартной методологии неприменима для прогнозирования. Условие стационарности в таком случае для моделей
авторегрессии может быть записано в виде
X  1.
(8.36)
Рассмотрим для примера модель AR(2) вида
1  0,5B  0.9B  y   .
2
t
t
(8.37)
1
Chatfield C. The analysis of Time Series. An introduction. Chapman &
Hall / CRC, 1995. Р. 28.
2 Yule G. U. On a method of investigating periodicities in disturbed series,
with special reference to Wolfer’s sunspot numbers. Phil. Trans., 1927.
198
1 Box George E. P., Jenkins Gwilym M. Time series analysis, forecasting and
control. Holden-day, Inc., 1976. Р. 53–54.
199
Запишем характеристическое уравнение для этой модели:
1  0,5 X  0.9 X 2  0 .
0,5  0,5  4  0,9  1

2  0,9
0,5  3,35
и
X2 

1,8
Данное уравнение имеет два корня: X1 
0,5  3,35 0,5  1,83i


 0,28  1,02i
1,8
1,8
 0,28  1,02i .
2
Модули этих чисел равны и составляют X1  X2  0,282  1,022 
 1,06 .
Графически это означает, что X1 и X2 лежат за пределами
единичной окружности (рис. 8.5), а значит и процесс, описываемый моделью (8.37) носит стационарный характер.
Im(X)
i
X1
1
Re(X)
X2
Риc. 8.5. Графическое представление корней
характеристического уравнения для модели (8.37)
С моделями ARMA помимо стационарности связано
условие обратимости, которое относится уже к скользящей
средней. Появляется оно вследствие связи между AR и MA
(мы уже упоминали о том, что конечный процесс MA может
быть выражен через бесконечный AR). Это условие называется условием «обратимости» и выполняется в том случае,
если корни характеристического уравнения для MA будут
лежать за пределами единичной окружности (что фактически идентично условию стационарности).
200


Для модели MA(q) yt  1  c1B  c2B2  ...  cq Bq t характеристическое уравнение будет иметь вид, похожий на (8.35)11:
1  c1X  c2 X 2  ...  cq X q  0
(8.38)
Математически условие здесь записывается так же, как
и в (8.36):
X  1.
Отметим, что никакие ограничения на коэффициенты
процесса MA для получения стационарной траектории
накладывать не требуется.
Объединяя эти условия для модели ARMA, можно
заключить, что для получения стационарной модели ARMA
должно выполняться условие (8.36) при решении характеристического уравнения (8.35), а для обратимости — условие (8.36) при решении (8.38). В случае получения нестационарной модели стоит либо обратиться к модели другого
порядка, либо привести ряд к стационарному виду.
8.2.2. Нестационарные процессы
и приведение их к стационарному виду
Чтобы разобраться в том, как привести исходный ряд
данных к стационарному виду, рассмотрим для начала, какие
типы нестационарных процессов выделяет классическая
эконометрика. А их всего два:
1) процесс, стационарный в конечных разностях;
2) процесс, не стационарный в конечных разностях.
К первому могут относиться различные процессы, описываемые моделями трендов, а так же процессы с переходом показателя с одного уровня на другой. Они изображены
на рис. 8.6.
Ко второму типу процессов относятся все остальные
нестационарные процессы.
Левый верхний график на рис. 8.6 представляет собой
нестационарный процесс, описываемый линейным трендом
yt  a0  a1t  t .
1 Box George E. P., Jenkins Gwilym M. Time series analysis, forecasting
and control. Holden-day, Inc. 1976. Р. 67.
201
Рис. 8.6. Виды стандартных нестационарных процессов
1 3 5 7 9 11 13 1517 19 21 23 25 27 29 31 33 35 37 39
0
900
800
700
600
500
400
300
200
100
0
1 3 5 7 9 11 13 1517 19 21 23 25 27 29 31 33 35 37 39
10
20
30
40
50
60
1 3 5 7 9 11 13 1517 19 21 23 25 27 29 31 33 35 37 39
70
0
5
10
15
20
25
50
45
40
35
30
25
20
15
10
5
0
1 3 5 7 9 11 13 1517 19 21 23 25 27 29 31 33 35 37 39
202
Этот процесс будет стационарным в первых разностях, так
как взятие их в такой ситуации влечет избавление от угла
наклона: 1yt  yt  yt 1  a0  a1t  t   a0  a1 t  1  t 1   a1 
 t  t 1 , что приводит нас к постоянному математическому
ожиданию и дисперсии.
Левый нижний график на рис. 8.6 демонстрирует
нестационарный процесс, описываемый параболой:
yt  a0  a1t  a2t 2  t .
По аналогии с линейным трендом, можно показать, что
этот процесс будет стационарен во вторых разностях.
На правом верхнем графике рис. 8.6 изображен нестационарный процесс со сменой уровня ряда. На себя обращает
внимание то, что примерно до 20-го наблюдения значение
yt колеблется вокруг одного значения константы, а после
него — вокруг другого. Этот ряд так же становится стационарным в случае с взятием первых разностей, так как
при этом происходит избавление от констант и все колебания происходят уже на уровне 0.
Наконец, на правом нижнем графике рис. 8.6 изображен
нестационарный процесс со сменой угла наклона. Примерно
до 20-го наблюдения динамика процесса носит более спокойный характер, чем после него. Взятие вторых разностей
в этом случае так же приводит процесс к стационарному виду.
Очевидно, что только этими видами экономические процессы не ограничиваются (мы привели в качестве примера
только базовые) и взятие разностей, к сожалению, не всегда
повышает точность прогноза. А в случае с эволюционными
процессами, в которых происходят постоянные изменения
всех статистических параметров, взятие разностей может
наоборот уменьшить точность прогноза: ряд действительно
может стать «стационарным» со статистической точки зрения, но пользы от этого будет немного, потому что уже
на периоде прогнозирования наметившаяся тенденция
может смениться. Поэтому приведение ряда к стационарному виду нельзя считать «панацеей».
Чтобы включить разности в модель ARMA, обычно
используют лаговый оператор. Например, разности первого
порядка можно записать следующим образом:
1yt  yt  yt 1  1  B  yt .
(8.39)
Вторые разности в этой же записи принимают вид
 yt  1yt  1yt 1  yt  yt 1  yt 1  yt 2  yt  2 yt 1  yt 2 .
2
(8.40)
203
Применив теперь к (8.40) лаговый оператор, получим:


 2 yt  1  2B  B2 yt  1  B  yt .
2
(8.41)
Теперь, чтобы получить финальное значение yt, нужно
воспользоваться формулой (8.39). Получим yt  yt 1  a11yt 1 
 a21yt  2  c1t 1  t или, что равноценно,
Вообще разности порядка d с помощью лагового оператора записываются в виде
yt  yt 1  a11yt 1  a21yt 2  c1t 1  t
 d yt  1  B  yt .
По модели (8.47) можно легко получить прогноз на один
шаг вперед:
d
(8.42)
Модель авторегрессии со скользящей средней, построенная на основе разностей, обозначается как ARIMA(p,d,q), где
буква I отвечает за порядок d интеграции (взятой разности),
и записывается в компактном виде
 p  B 1  B  yt  q  B  t  c .
d
(8.43)
Обычно в случае, если d > 0, константа из (8.43) убирается, так как при переходе от разностей к исходным данным
из-за нее в модели появляется тренд ct, а трендовые компоненты в ARIMA должны описываться элементами авторегрессии. Однако иногда константу оставляют, и тогда такая
модель называется модель ARIMA с дрейфом («with drift»).
Рассмотрим для примера, что будет собой представлять
модель ARIMA(2,1,1). Она записывается в виде
 2  B 1  B  yt  1  B  t .
1
(8.44)
Чтобы понять, чему соответствует такая модель, раскроем
эту запись:
1  a B  a B 1  B y  1  c B  .
1
2
1
2
1
t
t
Перепишем разность через разностный оператор:
1  a B  a B   y  1  c B 
1
2
2
1
t
1
t
(8.45)
и раскроем скобки в (8.45):
1yt  a11yt 1  a21yt 2  t  c1t 1 .
Перенесем все, кроме значения разности, на наблюдении
t, в правую часть:
1yt  a11yt 1  a21yt 2  c1t 1  t .
204
(8.46)
yˆT 1  yT  a11yT  a21yT 1  c1T .
(8.47).
(8.48)
К сожалению, для того, чтобы получить прогноз на большее число шагов вперед, нужно воспользоваться рекурсивной процедурой, описанной нами в параграфе 8.1.
Обратим внимание на то, что обычно при построении
модели ARIMA порядок разностей ограничивается числом
d = 2. Это вызвано тем, что взятие вторых разностей обычно
позволяет привести к стационарному виду практически
любые нестационарные ряды данных.
Как видим, инструмент разностей достаточно удобен
и прекрасно вписывается в модель ARMA, но это, конечно
же, не единственный инструмент по приведению нестационарного ряда к стационарному виду. Расскажем подробней
о других методах.
Один из самых простых методов приведения к стационарности — это построение по исходному ряду данных модели тренда.
Построив модель выбранного тренда, исследователь рассчитывает остатки по модели и уже по ним строит модель ARMA.
У такого метода есть один существенный недостаток —
негибкость. Сами тренды никоим образом не учитывают
новую поступа ющую информацию, поэтому и модели,
построенные на их основе, будут застывшими. Однако
использование трендов при приведении ряда к стационарному виду позволяет в ряде случаев получать более точные
прогнозы в долгосрочной перспективе1.
Достаточно перспективной, но не очень распространенной альтернативой взятию разностей является метод, предложенный в 1982 г. Э. Парзеном2. Его суть заключается
1 Makridakis Spyros, Hibon Michele. ARMA models and the Box-Jenkins
Methodology // Journal of Forecasting. 1997. Vol. 16. Р. 147–163.
2 Parzen E. ARARMA Models for Time Series Analysis and Forecasting //
Journal of Forecasting. 1982. Vol. 1. Р. 67–82.
205
8.2.3. Идентификация нестационарности
Теперь, когда мы разобрались с тем, что такое стационарный процесс, и рассмотрели основные методы приведения
нестационарных процессов к стационарному виду, выясним,
как можно определить, является ли изучаемый процесс стационарным или нет.
1 Granger C. W. J., Joyeux Roselyne. An Introduction to Long- memory
Time Series Models and Fractional Differencing // Journal of Time Series
Analysis. 1980. Vol. 1. Issue 1. Р. 15—29.
206
Возьмем для примера ряд № 1999. С помощью функции «tsdisplay»
статистического пакета «R» мы построили график исходного ряда
и коррелограммы для ряда № 1999. Все они приведены на рис. 8.7.
1979 1980 1981 1982 1983 1984 1985 1986 1987 1988 1989
0
5 10 15 20 25 30 35
PACF
–1,0 –0,6 –0,2 0,2 0,6 1,0
d
Y
3000 4500 6000 7500
ложения 1  B  в ряды Тейлора. Суть метода заключается
в том, что взятие целых разностей может быть излишним
для ряда данных (стационарность может лежать где-то между
d = 0 и d = 1). Порядок разности d в таком случае подбирается автоматически. По преобразованному ряду вновь строится ARMA. Модель, получаемая в результате этого, носит
название ARFIMA (AutoRegressive Fractionally Integrated
Moving Average)13.
Кроме того, существует метод, использующийся для получения постоянной дисперсии (обычно решающий проблему
гетероскедастичности во многих случаях), — логарифмирование исходного ряда данных. Он позволяет получить
ряд с постоянной дисперсией в тех случаях, когда ошибка
в модели носит мультипликативный характер (что приводит к тому, что с ростом уровня ряда растет и дисперсия
ошибки).
Сезонные ряды данных так же могут считаться нестационарными (так как дисперсия, например, в начале года может
отличаться от дисперсии в середине). Чтобы избавиться
от сезонности, можно либо воспользоваться одним из методов сезонной декомпозиции, либо взять сезонные разности.
Первый вариант решения данной проблемы был рассмотрен
нами в параграфе 6.1, а ко второму мы обратимся в параграфе 8.4.
Помимо очевидного графического анализа исходного
ряда данных, можно предложить еще как минимум два
метода, которые позволяют сделать более точные выводы
о стационарности.
Первый метод заключается в изучении коррелограмм
по исходному ряду данных. Сигнализировать о нестационарности исходного ряда могут следующие черты коррелограмм:
1. Автокорреляционная (АКФ) или частная автокорреляционная (ЧАКФ) функция убывает медленно, что находит
отражение в том, что несколько коэффициентов автокорреляции оказываются значимо отличными от нуля.
2. Несколько значений на лагах больше третьего в АКФ
или ЧАКФ оказались значимо отличными от нуля.
3. АКФ или ЧАКФ изменяются гармонически, колеблясь
около 0. Это может сигнализировать о наличии сезонности
в ряде данных и о том, что для приведения ряда к стационарному требуется взять сезонные разности.
ACF
–1,0 –0,6 –0,2 0,2 0,6 1,0
в том, чтобы описать исходный ряд данных нестационарной
моделью AR, после чего по полученным остаткам построить модель ARMA. Полученная в итоге модель называется
ARARMA.
Еще одним вариантом приведения ряда данных к стационарному виду является взятие нецелых разностей (когда
d становится нецелым числом), что достигается путем раз-
0
5 10 15 20 25 30 35
Рис. 8.7. Ряд № 1999, его АКФ и ЧАКФ
207
5 10 15 20 25 30 35
0
5 10 15 20 25 30 35
PACF
–1,0 –0,6 –0,2 0,2 0,6 1,0
PACF
–1,0 –0,6 –0,2 0,2 0,6 1,0
ACF
–1,0 –0,6 –0,2 0,2 0,6 1,0
0
ACF
–1,0 –0,6 –0,2 0,2 0,6 1,0
1980 1981 1982 1983 1984 1985 1986 1987 1988 1989
1979 1980 1981 1982 1983 1984 1985 1986 1987 1988 1989
0
5 10 15 20 25 30 35
Рис. 8.9. Ряд № 1999 в первых и сезонных разностях,
его АКФ и ЧАКФ
0
5 10 15 20 25 30 35
Рис. 8.8. Ряд № 1999 в разностях, его АКФ и ЧАКФ
По полученным коррелограммам видно наличие сезонности — значимыми оказались лаги высокого порядка, кроме того АКФ и ЧАКФ
не убывают, а колеблются около нуля. Это сигнализирует о наличии
сезонной нестационарности. Взятие сезонных разностей приводит нас
к следующему (рис. 8.9).
Теперь по коррелограммам видно, что коэффициенты автокорреляции и частной автокорреляции на 12-м лаге значительно выходят
за рамки доверительного интервала. Все остальные коэффициенты
(за исключением 36-го, который кратен 12-му, а значит, скорее всего,
вызван все той же сезонной зависимостью) лежат внутри интервала,
т.е. статистически незначимы.
208
Y
–4000 –2000 0 2000 4000
Y
–1500 0 1000 2500 4000
Коррелограмма по коэффициентам автокорреляции, как видим,
убывает достаточно медленно, из-зачего значимыми оказались коэффициенты автокорреляции еще вплоть до 12 лага. Это является показателем нестационарности исходного ряда данных. Кроме того, гармоническое поведение АКФ и ЧАКФ наводит на мысль о том, что в ряде
данных есть сезонность, однако медленное убывание АКФ не позволяет точно определить это из-занестационарности исходного ряда данных. Чтобы сделать однозначный вывод по поводу стационарности,
нужно рассмотреть ряд в разностях (рис. 8.8).
В результате всего этого, на основе только графического
анализа можно заключить, что ряд данных нестационарен
и в нем наблюдается сезонность.
Однако, как видим, этот метод достаточно субъективен
и требует, скорее, опыта работы с временными рядами со
стороны исследователя, нежели каких-то глубоких знаний.
Чтобы получить более объективную оценку стационарности, эконометристами были разработаны тесты, основанные
на проверке статистических гипотез. Разновидностей этих
тестов достаточно много, мы рассмотрим только две (наиболее популярные) из них.
Первый тест — это расширенный тест Дикки-Фуллера (известный за рубежом как «Augmented Dickey-Fuller
test» — ADF). Чтобы уяснить суть этого теста, для начала
надо познакомиться с базовым тестом Дикки-Фуллера.
209
В тесте предполагается построение простой авторегрессионной модели вида
yt  a1yt 1  x t  t ,
(8.49)
где δ — вектор коэффициентов, а
— вектор регрессионных элементов, который может включать в себя константу
и трендовую составляющую (линейный тренд), а может и ничего не включать. В полном виде (с константой и трендом)
модель (8.49) может быть записана как yt  a1yt 1  0  1t  t .
Если в качестве регрессоров была включена только константа, она фактически берет на себя уровень ряда и позволяет авторегрессионный элемент «очистить» от его влияния.
Таким образом, получается более достоверная оценка коэффициента a1 в тех случаях, когда ряд не колеблется вокруг
нуля.
Похожую функцию выполняет и составляющая линейного тренда: если в ряде данных на всем протяжении наблюдается тенденция к росту, тренд эту тенденцию возьмет
на себя и значение a1, опять же, будет более корректным.
Определение того, стоит ли включать эти элементы и, если
стоит, то какие, полностью ложится на плечи исследователя
и зависит только от того, с каким рядом он имеет дело.
Далее идея теста Дикки-Фуллера достаточно проста:
в случае, если коэффициент a1 оказывается равным либо
больше 1, полученный результат говорит о том, что ряд носит
нестационарный характер. Проверка этого осуществляется
посредством статистической гипотезы. Для начала, однако,
из левой и правой частей (8.49) вычитают значение yt — 1:
yt  a1yt 1  yt 1  x t  t ,
(8.50)
После чего заменяют коэффициент (a1 — 1) на α:
yt  yt 1  x t  t ,
(8.51)
Теперь, если коэффициент исходной модели равен 1, то
α = 0, если коэффициент больше 1, то α > 0, что удобно.
Далее оценивается регрессия (8.51) и по полученным значениям проверяется следующая гипотеза:
H0: α = 0;
H1: α < 0.
Как мы уже упоминали в параграфе 8.1, ситуации, когда
a1 < 0, на практике встречаются крайне редко (а ситуации
с условием a1 < –1 и вовсе не встречаются), поэтому альтер210
нативная гипотеза фактически заключается в том, что a1 < 1,
а это является индикатором того, что исходный ряд данных
описывается стационарной моделью авторегрессии первого
порядка.
Чтобы проверить такую гипотезу, достаточно рассчи
тать t-статистику: t 
, которая будет распределена
s.e.  
по Стьюденту с n — k степенями свободы в том случае, если
ошибки полученной модели распределены нормально.
Очевидно, что построив модель (8.51) по ряду данных,
исследователь не учитывает всей структуры временнóго ряда
и получает очень неточное описание ряда. Это в итоге сказывается на оценке коэффициента α, а значит и на финальном
результате проверки гипотезы. Поэтому для того, чтобы
учесть их, был предложен расширенный тест Дикки-Фуллера, отличающийся от первоначального теста только тем,
что в (8.51) добавляются еще p значений предыдущих y
в разностях (что в итоговой модели фактически соответствует авторегрессии p + 1 порядка):
yt  yt 1  x t  1yt 1  2yt 2  ... p yt  p  t .
(8.52)
Весь последующий алгоритм оценки коэффициентов
и проверки гипотезы идентичен описанному выше. Однако
в данном случае уже косвенно оценивается, описывается ли
данный временной ряд стационарной моделью AR(p + 1)
или нестационарной.
Выбор порядка p опять же оказывается на совести исследователя. Как вариант автоматизации этого процесса можно
построить p + 1 модель (8.52), выбрать из них модель с наименьшим значением информационного критерия (AIC, BIC
и т.п.) и проверить предложенную гипотезу по ней.
Для получения более точной информации о ряде данных
тест Дикки-Фуллера проводят еще и по первым, и по вторым
разностям ряда, что позволяет сделать более точные выводы
о стационарности. Причем, учитывая основные принципы
проверки статистических гипотез, тест имеет смысл начинать
с взятия вторых разностей. Логика здесь такова. Если исследователь, проведя тест по исходному ряду, получит значение,
не отвергающее нулевую гипотезу, он не может однозначно
говорить о том, что ряд нестационарен (возможно, у него
слишком мало наблюдений либо выбрана некорректная
модель). Если же вначале проводится тест по вторым разностям, затем по первым и только после этого — по исходному
211
ряду, сохраняется логика проверки гипотез: отвергнув гипотезу во вторых разностях, можно оценить, отвергается ли она
в первых разностях и т.п. Если же гипотеза не отвергается
на каком-то из шагов, то это может сигнализировать о нестационарности на данном шаге (например, ряд не стационарен
в первых разностях). Конечно же, все полученные результаты имеют смысл только в случае репрезентативности имеющейся выборки, чего достичь в реальных экономических
условиях достаточно сложно из-за постоянной эволюции
всех экономических систем.
После появления теста Дикки-Фуллера было проведено много исследований по различным рядам данных.
В ходе некоторых из них выяснилось, что для многих (если
не для всех) агрегированных экономических временных
рядов нулевая гипотеза о нестационарности не отклонялась.
Полученный результат, как это следует из принципов проверки статистических гипотез, вызван тем, как формируются нулевая и альтернативная гипотезы: для того, чтобы
отклонить нулевую гипотезу, нужны более сильные доказательства, нежели в случае с ее неотклонением. Поэтому
был предложен ряд тестов с другой нулевой и альтернативной гипотезами. Один из них — тест Kwiatkowski, Phillips,
Schmidt & Shin или сокращенно «KPSS»1.
Тест KPSS базируется на более простой модели, нежели
ADF-тест. Подразумевается, что исходный ряд данных
может быть описан тремя компонентами:
1) детерминистским трендом t ;
2) процессом случайного блуждания rt  rt 1  ut , причем
в качестве r0 обычно выбирается константа;
3) случайной стационарной ошибкой t .
Причем, как ut, так и εt i.i.d., такие, что


 
ut ~ N 0,  2u и t ~ N 0,  2 .
(8.53)
Объединяя три компоненты в единую модель, получаем
yt  t  rt  t ,
(8.54)
Нулевая гипотеза в тесте заключается в том, что дисперсия ut равна нулю, что в таком случае будет указывать на то,
что процесс описывается лишь трендовой компонентой
и константой, т.е. в таком случае процесс становится стационарным относительно тренда. В качестве альтернативного
варианта исследователь может убрать трендовую компоненту и проводить тест лишь с компонентой случайного
блуждания и ошибкой. В таком случае оценивается стационарность относительно заданного уровня. Формулируются
гипотезы соответственно:
H0:  2u  0 ;
H1:  2u  0 .
Проверяется этот тест LM-статистикой (тест множителей
Лагранжа), рассчитанной по формуле
T
LM 
 St2
t 1
ˆ 2
,
(8.55)
t
где St   ei , t  1,2,...,T , ei  yi  yˆi .
i 1
Суть теста заключается в следующем: если в процессе
имеется случайное блуждание, то оно будет приводить
к систематическим отклонениям от тренда в некоторых
частях ряда. Например, на длительном промежутке наблюдается превышение фактических значений над расчетными,
а после — занижение. Тогда накопленные остатки St будут
расти по модулю. Так, в случае с систематическим завышением St будет положительным и далее будет все увеличиваться вплоть до получения негативных остатков, после
которых начнет уменьшаться. В результате этого сумма
квадратов St в числителе (8.55) будет достаточно большой
(по сравнению с простой дисперсией остатков в знаменателе), а значит и сама LM-статистика будет большой, что уже
косвенно указывает на отклонение нулевой гипотезы.
На практике формула (8.55) применима лишь для случаев
с большими выборками и выполнением предположений (8.53).
В случае нарушения этих условий используется другая формула:
T
1 Kwiatkowski Denis, Phillips Peter C. B., Schmidt Peter, Shin Yongcheol.
Testing the null hypothesis of stationarity against the alternative of a unit
root // Journal of Econometrics. 1992. Vol. 54. Р. 159–178.
212
LM 
 St2
t 1
T 2 s 2 l 
,
(8.56)
213
s 2 l  
t 1
T
l

T
s 1
t  s 1
T
.
(8.57)
В случае отсутствия автокорреляции остатков вторая
часть суммы в (8.57) обращается в нуль, и мы приходим
к стандартной оценке дисперсии ошибок.
Процесс проверки гипотезы в тесте KPSS идентичен
общепринятому: если расчетное значение, полученное
по (8.56), оказывается меньше табличного, у исследователя
нет оснований отклонить нулевую гипотезу о стационарности процесса. Так же, как и в случае с ADF, данный тест
имеет смысл начинать со вторых разностей. Стоит, однако,
заметить, что KPSS не является тестом, замещающим ADF —
он его дополняет, о чем указывали и его авторы.
Рассмотрим на примере, как можно идентифицировать нестационарный процесс и привести его к стационарному виду, используя стандартный общепринятый подход на основе ряда данных № 2568 из базы
M3 (к которому мы уже обращались в гл. 6). Ряд выбран неслучайно:
в нем даже визуально прослеживается достаточно четкая сезонность
и явная тенденция к росту (рис. 8.10).
Кроме того, по коррелограммам на рис. 8.10 видно, что ряд нестационарен (нет затухания ACF и PACF) и имеет сезонность (коэффициент автокорреляции на 12-м лаге сильно выбивается). Проведем тесты
ADF (с константой и трендом) и KPSS (с константой и трендом). Сведем результаты тестов в табл. 8.1, где в столбце ADF будут выведены
расчетные значения t-статистик, а в столбце KPSS — расчетные значения LM-статистик.
Таблица 8.1
Результаты тестов на стационарность ряда
данных № 2568
Порядок разностей d
ADF
KPSS
2
– 13,4094
0,0168
1
– 9,6786
0,0187
0
– 4,9528
0,0788
1
214
Там же. С. 164.
1983 1984 1985 1986 1987 1988 1989 1990 1991 1992
0
5 10 15 20 25 30 35
PACF
–1,0 –0,6 –0,2 0,2 0,6 1,0
T
Y
3000 6000 9000 12 000
 et2 2  1  s l  1  et et  s
ACF
–1,0 –0,6 –0,2 0,2 0,6 1,0
где s2(l) — оценка дисперсии с учетом автокорреляции остатков, произведенная на основе спектральной функции12
0
5 10 15 20 25 30 35
Рис. 8.10. Ряд № 2568 (наверху) и его коррелограммы
Для интерпретации результатов теста возьмем критические значения для t-статистики и LM-статистики на 5%-ном уровне остаточной
вероятности:
1) t-статистика: –3,451 (округленное значение как для теста в разностях, так и для исходного ряда);
2) LM-статистика: 0,146.
Как видим, гипотеза о нестационарности (с учетом тренда и константы) по тесту ADF отклоняется на 5%, как в случае с рядом в разностях, так и в случае с исходным рядом: расчетное значение в обоих
случаях оказалось меньше табличного (значения попали в левый хвост
распределения).
Результаты с той же интерпретацией получились и для KPSSтеста: на 5% у нас нет оснований отклонить гипотезу о стационарности
(с учетом тренда и константы) как исходного, так и ряда в разностях:
расчетные значения оказались меньше табличных (значения попали
в доверительный интервал).
Все это указывает на то, что в ряде данных наблюдается постоянная
тенденция к росту, которую можно убрать, например, взятием первых
разностей. Обращаем внимание на то, что тесты проводились с трендовыми составляющими, поэтому и получен такой вывод.
215
0
5 10 15 20 25 30 35
0
5 10 15 20 25 30 35
Как видим, логарифмирование сделало дисперсию по ряду более
равномерной, при этом АКФ и ЧАКФ практически не изменились.
Для избавления от сезонности обратимся к сезонным разностям:
1s yt  yt  yt  s .
В целом сезонные разности можно рассматривать как оценку того,
насколько изменился показатель за сезон (в нашем примере они характеризуют изменение за год).
В нашем случае с учетом взятия логарифмов и того, что ряд данных
имеет явную сезонность с лагом s = 12, эта формула примет вид
(8.58)
Рассчитаем такие разности и рассмотрим полученный ряд
(рис. 8.12).
216
1986
1987
5 10 15 20 25 30 35
1988
1989
PACF
–1,0–0,6 –0,2 0,2 0,6 1,0
Y
–0,10 0,00 0,10 0,20 0,30
0
1985
0
1990
1991
1992
5 10 15 20 25 30 35
Рис. 8.12. Ряд № 2568 в сезонных разностях логарифмов
и его коррелограммы
Рис. 8.11. Ряд № 2568 в логарифмах и его коррелограммы
112 ln yt  ln yt  ln yt 12 .
1984
ACF
–1,0–0,6 –0,2 0,2 0,6 1,0
1983 1984 1985 1986 1987 1988 1989 1990 1991 1992
PACF
–1,0 –0,6 –0,2 0,2 0,6 1,0
ACF
–1,0 –0,6 –0,2 0,2 0,6 1,0
Y
8,1 8,4 8,7 9,0 9,3 9,6
На рис. 8.10 также видно, что с ростом значения растет и дисперсия, что указывает нам на мультипликативную сезонность, которая
с эконометрической точки зрения может быть обозначена как гетероскедастичность. Чтобы избавиться от нее, прологарифмируем значения
ряда. В итоге получим следующий ряд и коррелограммы (рис. 8.11).
По рис. 8.12 уже видно, что взятие сезонных разностей привело
к избавлению от сезонности в ряде данных — теперь ряд носит более
случайный характер. При этом мы потеряли 12 значений исходного
ряда данных в самом его начале. По ACF и PACF видно, что выбиваются коэффициенты на дальних лагах (большего, чем второй лаг),
что косвенно может указывать на нестационарность. Чисто визуально
по исходному ряду видно, что ряд может все еще быть нестационарным. Проведем тесты для того, чтобы понять, нужно ли над ним работать и далее. При проверке гипотез мы не будем включать трендовую
составляющую, чтобы оценить стационарность относительно уровня
ряда. Результаты тестов сведены в табл. 8.2.
Таблица 8.2
Результаты тестов на стационарность ряда данных № 2568 после
логарифмирования и взятия сезонных разностей
Порядок разностей d
ADF
KPSS
2
–10,8863
0,0294
1
–7,8611
0,0277
0
–3,4817
0,4037
217
0,25
0,2
0,15
0,1
янв. 93
янв. 92
янв. 91
янв. 90
янв. 89
янв. 88
янв. 87
янв. 86
янв. 85
янв. 84
янв. 83
0
янв. 94
0,05
–0,1
–0,15
Рис. 8.13 Ряд № 2568 в сезонных разностях логарифмов
и тренд по ряду
218
9,4
9,2
9
8,8
8,6
8,4
янв. 93
янв. 92
янв. 91
янв. 90
янв. 89
янв. 88
янв. 87
8
янв. 94
8,2
Рис. 8.14. Ряд № 2568 в логарифмах (сплошная линия
с точками), расчетные значения и прогноз по нему
(сплошная линия)
0,3
–0,05
9,6
янв. 86
Графически ряд и модель тренда по нему представлены на рис. 8.13.
(8.60)
На участке прогноза вместо ln yt  s будем подставлять ˆln yt 12 .
В результате получим следующий ряд данных и прогноз (рис. 8.14).
9,8
янв. 85
(8.59)
ˆln y  
ˆ 112 ln yt  ln yt 12 .
t
янв. 84
ˆ 112 ln yt  0,1070  0,0008t .

Теперь, чтобы вернуться к исходным величинам, нам нужно восстановить данные. Для начала от сезонных разностей нужно вернуться
к исходному ряду в логарифмах. Для этого вместо разностей в формуле (8.58) подставим расчетные значения по тренду (8.59) и из полученной формулы выразим lnyt:
янв. 83
Критические значения для преобразованного ряда на 5%-ном
уровне:
1. t-статистика: –2,891 (округленное значение как для теста в разностях, так и для исходного ряда);
2. LM-статистика: 0,463
Мы вновь приходим к тому, что по ADF-тесту есть основания
отклонить нулевую гипотезу о нестационарности исходного ряда (как
в разностях, так и исходного), а по KPSS-тесту у нас нет оснований
отклонить нулевую гипотезу о стационарности ряда. При этом, учитывая, что мы проводили тесты без трендовой компоненты, в целом
можно заключить, что ряд данных после логарифмирования и взятия
сезонных разностей можно считать стационарным. Эти результаты,
конечно же, не говорят о том, что мы имеем дело со стационарным
рядом (ведь по ряду данных на рис. 8.11 видна незначительная тенденция к уменьшению). Скорее, они указывают на то, что имеющиеся тенденции в исследуемом ряде данных сами по себе носят слабый характер и могут быть признаны статистически незначимыми.
Для дальнейшего прогнозирования по полученному ряду данных можно воспользоваться моделью ARMA либо ее модификацией
для сезонных рядов — SARIMA, либо простейшими методами прогнозирования. О том, как можно подобрать порядок модели ARMA,
мы поговорим в следующем параграфе, поэтому пока дадим прогноз
по достаточно простой модели — модели линейного тренда. Для этого
рассчитаем ее коэффициенты по преобразованному ряду:
Как видим, переход к исходному ряду привел к тому, что исходная
сезонность, наблюдавшаяся в ряде данных № 2568, вернулась: прогнозные значения повторяют динамику исходного ряда.
Однако нам осталось еще одно действие — нам нужно перейти
к первоначальным величинам. А для этого надо проэкспонировать
полученный ряд. В итоге придем к ряду расчетных значений, изображенному на рис. 8.15, и прогнозу по нему (рис. 8.16).
По рис. 8.15 видно, что итоговый ряд расчетных значений достаточно точно аппроксимировал исходный ряд: наблюдаются не только
рост значений и сезонные колебания, но еще и рост дисперсии, т.е.
все черты, присущие исходному ряду, повторяются в расчетных значениях. На себя обращает внимание потеря 12 первых значений, что
может быть неприятно на малых выборках, но в нашем случае оказалось совершенно не критичным.
219
отличить фактические значения от расчетных на рис. 8.16 было достаточно проблематично. Здесь мы видим, что примерно до июня 1993 г.
прогноз был достаточно точным: повторяется как общая динамика, так
и сезонные колебания. Однако уже после середины 1993 г. наблюдаются расхождения. Средняя относительная ошибка прогноза в результате этого оказалась равной sMAPE  7,10% . Для сравнения, в M3 —
Competitions точнее всего этот ряд смогла спрогнозировать модель
ARARMA по десезонализированному ряду данных — для нее ошибка
составила 4,29%. Модель Хольта-Уинтерса дала прогноз с ошибкой
в 7,68%.
16000
14000
12000
10000
8000
6000
4000
2000
янв. 92
янв. 91
янв. 90
янв. 89
янв. 88
янв. 87
янв. 86
янв. 85
янв. 84
янв. 83
0
Рис. 8.16. Ряд № 2568 (сплошная линия с точками)
и расчетные значения по ряду, полученные после всех
преобразований (сплошная линия)
16000
14000
12000
10000
8000
6000
4000
2000
0
фев. 90
фев. 91
фев. 92
фев. 93
Стоит отметить, что из-за многочисленных преобразований ряда минимальные ошибки, допущенные на нижнем
уровне (на уровне ряда в логарифмах и разностях), при переходе к исходному уровню могут значительно вырасти и привести к получению очень неточных прогнозов. Поэтому
к таким процедурам стоит относиться осторожно.
В целом, мы видим, что использование стандартной методики идентификации нестационарности и приведения процесса к стационарному виду сопряжено с рядом трудностей
и требует подробного анализа ряда данных и получаемых
результатов. Во многом все выполняемые исследователем
действия зависят от его субъективной оценки — в каких-то
случаях получаемые результаты могут приводить к совершенно разным выводам и решениям. Например, прологарифмировав ряд данных, можно попытаться привести
его к стационарному виду путем взятия первых разностей
и только потом пытаться избавиться от сезонности. Результаты в таком случае, скорее всего, были бы другими.
Можно заключить, что для получения более точных
прогнозов с помощью этого подхода исследователь должен
обладать большим опытом работы с временными рядами.
Тем не менее, предлагаемый стандартный подход в случае
с нестационарными (обратимыми) процессами дает хорошие
результаты и достаточно точные прогнозы.
фев. 94
Рис. 8.17. Ряд № 2568 (сплошная линия с точками) и прогноз
на 18 значений вперед (сплошная линия):
8.3. Îïðåäåëåíèå ïîðÿäêà ìîäåëè àâòîðåãðåññèè
ñ ñêîëüçÿùåé ñðåäíåé
вертикальной линией показан момент времени, относительно которого
делался прогноз
Прогноз по полученной модели специально был вынесен на отдельный график, так как из-за большого числа наблюдений визуально
Для того чтобы определить порядок модели ARMA
по исходному ряду, пользуются элементами теории раздела
прогнозирования, названного в честь ее авторов — Г. Бокса
и Г. Дженкинса. Фактически, она заключается в изучении
220
221
9 11 13 15
PACF
0,2 0,6 1,0
–0,4
5 7
9 11 13 15
1 3
5 7
9 11 13 15
0,2 0,6 1,0
5 7
1 3
–0,4
1 3
–1,0
9 11 13 15
–1,0
PACF
0,2 0,6 1,0
–0,4
5 7
0,2 0,6 1,0
1 3
–0,4
–1,0
ACF
–1,0
ACF
коррелограмм по стационарному ряду данных. Суть ее сводится к тому, что наиболее простые процессы авторегрессии
и скользящего среднего имеют коррелограммы определенного вида, соответственно, изучая их по фактическим данным, исследователь может выдвинуть предположение относительно того, какая модель лежит в основе ряда данных.
Критериями правильности выбранной модели являются
нормально распределенные, некоррелированные остатки
модели. Если один из критериев остается неудовлетвореным, поиск модели продолжается. Лишь на основе наилучшей из выбранных моделей делается прогноз.
Не углубляясь в выводы автокорреляционной и частной
автокорреляционной функций для модели ARMA, отметим
основные черты, присущие простейшим процессам авторегрессии и скользящей средней.
Для начала рассмотрим чистые процессы авторегрессии.
Если процесс генерируется моделью AR(1), то его
АКФ будет убывать экспоненциально после первого лага,
а ЧАКФ — обрываться после первого лага. Это поведение
показано на рис. 8.18.
Рис. 8.18. Коррелограммы для процесса AR(1)
с положительным коэффициентом (верхние два графика)
и отрицательным коэффициентом (нижние два графика)
222
В верхней части рис. 8.18 показаны коррелограммы
для процесса AR(1) с a1 > 0, а в нижней — для процесса с a1 <
0. За счет того, что частные коэффициенты автокорреляции
рассчитываются так, чтобы убрать влияние соседних лагов,
все частные коэффициенты для лагов, начиная со второго,
оказываются статистически незначимыми (а в нашем случае
со сгенерированным рядом — и вовсе равны нулю).
У процесса AR(2) поведение АКФ и ЧАКФ значительно
сложнее, так как в модель включены уже два коэффициента.
Более того, в ряде случаев при некоторых значениях коэффициентов коррелограммы для процесса AR(2) на практике становятся похожими на коррелограммы для процесса
AR(1). В результате выбор подходящей модели значительно
усложняется.
На рис. 8.19 приведено четыре примера коррелограмм
для процесса AR(2).
Все эти четыре ситуации, как можно заметить, объединяет одна черта: автокорреляционная функция убывает либо
экспоненциально, либо гармонически, а частные коэффициенты автокорреляции после второго лага становятся статистически незначимыми.
В целом, можно сделать следующий вывод: для чистого
AR(p) процесса характерно убывание (либо гармоническое,
либо экспоненциальное) АКФ и обрыв ЧАКФ после лага p.
Именно по второй части определить порядок авторегрессии
обычно оказывается легче всего.
Теперь рассмотрим коррелограммы чистых процессов
скользящего среднего.
Можно сразу сказать, что для этих процессов характерна
ситуация, «зеркальная» относительно авторегрессионных
процессов. Например, для чистого процесса MA(1) характерны коррелограммы, приведенные на рис. 8.20.
Как видим, если в случае с AR(1) экспоненциально убывала автокорреляционная функция, то в случае с MA(1) убывает уже частная автокорреляционная функция. При этом,
начиная со второго лага, коэффициенты автокорреляции
для MA(1) становятся статистически незначимыми.
Эта «зеркальность» сохраняется и для процессов более
высокого порядка. Поэтому можно так же обобщить:
для чистого MA(q) процесса характерно убывание (либо гармоническое, либо экспоненциальное) ЧАКФ и обрыв АКФ
после лага q.
223
9 11 13 15
9 11 13 15
–1,0
PACF
–0,4 0,2 0,6 1,0
5 7
5 7
9 11 13 15
1 3
5 7
9 11 13 15
–0,4
–0,4
ACF
1 3
1 3
Рис. 8.20. Коррелограммы для процесса MA(1):
сверху — с положительным коэффициентом;
снизу — с отрицательным
1 3
5 7
9 11 13 15
1 3
5 7
9 11 13 15
Рис. 8.19. Коррелограммы для процесса AR(2):
ряды сверху вниз: 1 — a1 > 0 и a2 > 0; 2 — a1 > 0 и a2 < 0; 3 — a1
< 0 и a2 > 0; 4 — a1 < 0 и a2 < 0
224
9 11 13 15
–1,0
–1,0
–0,4
5 7
5 7
PACF
0,2 0,6 1,0
9 11 13 15
–1,0
5 7
1 3
0,2 0,6 1,0
1 3
PACF
–0,4 0,2 0,6 1,0
1 3
–1,0
9 11 13 15
–0,4
–1,0
9 11 13 15
PACF
–0,4 0,2 0,6 1,0
5 7
–1,0
–1,0
0,2 0,6 1,0
–0,4
1 3
0,2 0,6 1,0
–1,0
ACF
ACF
5 7
–1,0
9 11 13 15
ACF
–0,4 0,2 0,6 1,0
PACF
–0,4 0,2 0,6 1,0
5 7
1 3
PACF
0,2 0,6 1,0
1 3
–1,0
ACF
–0,4 0,2 0,6 1,0
–1,0
9 11 13 15
0,2 0,6 1,0
5 7
–0,4
ACF
1 3
Зная эти черты коррелограмм для чистых AR и MA процессов, можно выбирать порядок модели, которая смогла
бы наилучшим образом описать ряд данных. Однако, очевидно, что чистые процессы встречаются достаточно редко
и чаще приходиться иметь дело с процессами смешанными. Их идентифицировать сложнее, так как в них происходит наложение АКФ и ЧАКФ из AR и MA процессов.
В результате этого обе функции затухают гармонически или
экспоненциально, но с небольшой задержкой, соответствующей порядку модели. Проблема усугубляется тем, что разные процессы ARMA могут иметь похожие коррелограммы.
В таком случае идентифицировать порядок p и q оказывается затруднительно.
В целом процесс построения модели ARIMA с помощью
методологии Бокса-Дженкинса можно свести к следующим
шагам:
1. Проверка на стационарность и приведение ряда к стационарному виду.
225
2. Изучение коррелограмм по стационарному ряду
и выбор наиболее подходящей модели ARMA.
3. Оценка модели.
4. Проверка остатков на нормальность и отсутствие автокорреляции. Если в остатках есть автокорреляция, порядок
модели модифицируется с учетом выявленных зависимостей
по коррелограммам остатков. После чего осуществляется
переход к шагу 3.
5. Построение прогноза по полученной модели ARIMA.
Как видим, элементы методологии Бокса-Дженкинса позволяют идентифицировать достаточно простые процессы авторегрессии и скользящего среднего, и в общем случае с помощью
итерационной процедуры построить модель, наилучшим образом подходящую для изучаемого временного ряда.
1984
0
1985
1986
1987
1988
5 10 15 20 25 30 35
1989
0
5
1990
1991
1992
10 15 20 25 30 35
Рис. 8.21. Ряд № 2568, приведенный к стационарному виду,
и его коррелограммы
226
Таблица 8.3
Результаты оценивания модели ARMA(3,3)
AR(1)
Coefficients
AR(2) AR(3) MA(1) MA(2) MA(3) Intercept
–0,2093 0,1190 0,9456 0,2591
0,0875 –0,8342
0,0660
s.e.
0,0555
0,0627 0,0653 0,0958
0,1019
0,0940
0,0174
p-value
< 0,01
0,0607 < 0,01 < 0,01
0,3926
< 0,01
< 0,01
Примечание: Coefficients — строка со значениями коэффициентов;
s.e. — строка со значениями стандартных ошибок коэффициентов;
p-value— строка со значениями остаточных вероятностей по значимости коэффициентов.
Математически полученная в табл. 8.3 модель (с округлением
коэффициентов до сотых) может быть записана следующим образом
(в скобках приведены стандартные ошибки, вычисляемые на основе
расчета ковариационно — вариационной матрицы коэффициентов,
похожей на матрицу (4.37), обсуждавшуюся нами в параграфе 4.3):


2
3 ˆ1
1  0,21 B  0,12 B  0,95 B  12 ln yt 
0,06
0,07 
 0,06
PACF
–1,0 –0,6–0,2 0,2 0,6 1,0
ACF
–1,0 –0,6–0,2 0,2 0,6 1,0
Y
–0,10 0,00 0,10 0,20 0,30
Рассмотрим на примере ряда № 2568 из базы M3 процесс идентификации и построения модели ARIMA и получения прогноза по ней.
Этот ряд мы уже изучали в связи с вопросом о его стационарности
в предыдущем параграфе, и пришли к выводу о том, что для приведения его к стационарному виду, достаточно его предварительно прологарифмировать, а затем взять по нему сезонные разности. На рис. 8.21
приведены итоговый полученный ряд и коррелограммы по нему.
Оценивая коррелограммы, можно заметить, что статистически значимыми оказались коэффициенты корреляции на третьем лаге. После
этого функция незначительно убывает. Скорее всего, наличие значимых коэффициентов на лагах далее третьего вызвано сезонностью
в исходном ряде данных. Можно предположить, что данный процесс
будет успешно описан моделью ARMA(3,3).
В результате оценки модели по ряду данных были получены следующие коэффициенты (табл. 8.3).


 1  0,26 B  0,09 B2  0,83 B3  t  0,07 .
0,10
0,09 
0,02
 0,10
(8.61)
Данные табл. 8.3 говорят о том, что на 5% значимыми оказались
все коэффициенты, за исключением коэффициента при скользящей средней второго порядка и авторегрессии второго порядка. Это,
правда, имеет смысл только в случае, если остатки полученной модели
распределены нормально. Чтобы проверить правильность идентификации модели, рассмотрим коррелограммы по полученным остаткам
(рис. 8.22).
Как видно из коррелограмм, значимыми оказались лишь коэффициенты автокорреляции на 12-м лаге. Это в очередной раз указывает нам на сезонность ряда данных. Чтобы учесть сезонность, нужно
воспользоваться моделью сезонной ARIMA, о которой пойдет речь
в следующем параграфе. Пока же мы на этом остановимся, так как
227
14 000
10 000
8000
6000
4000
1984
0
1985
1986
1987
1988
5 10 15 20 25 30 35
1989
1990
1991
1992
2000
0
фев. 90
фев. 91
фев. 92
фев. 93
фев. 94
Рис. 8.23. Ряд № 2568 (сплошная линия с точками) и прогноз
на 18 значений вперед по модели ARMA(3,3) (сплошная линия):
вертикальной линией показан момент времени, относительно
которого делался прогноз
0
5
10 15 20 25 30 35
Рис. 8.22. Ряд остатков по модели (8.61)
и его коррелограммы
Совершенно естественно, что из-за того, что мы не учли сезонность
в ряде данных, остатки оказались распределенными ненормально.
По крайней мере, тест Шапиро-Уилка (см. параграф 3.4) указывает, что гипотеза о нормальности распределения остатков отвергается на уровне 0,02403%, что находится в зоне отклонения гипотезы
на 5%-ном уровне.
Итак, можно заключить, что полученный результат — наилучший, если не учитывать сезонность, а модель ARMA(3,3), выявленная
по методологии Бокса-Дженкинса, подходит к исследуемому ряду
данных. Стоит, однако, заметить, что из-за взятия сезонных разностей
мы в дальнейшем работали уже не с исходным рядом данных, а с преобразованным, в связи с чем и ошибки модели считались по преобразованному ряду данных, а значит, и скользящая средняя оценивалась не по исходному ряду. Это не совсем корректно, но для того,
чтобы разобраться в том, как работает методология, это не критично.
На рис. 8.23 приведена последняя часть по ряду данных № 2568, фактические, расчетные и прогнозные значения, полученные по модели
ARMA(3,3).
228
16 000
12 000
PACF
–1,0 –0,6–0,2 0,2 0,6 1,0
ACF
Y
–1,0 –0,6–0,2 0,2 0,6 1,0 –0,15–0,05 0,05 0,15 0,25
более никаких значимых коэффициентов автокорреляции до 12-го
лага по коррелограммам выявлено не было.
Рисунок 8.23 показывает, что модель ARMA(3,3) смогла достаточно точно аппроксимировать и спрогнозировать ряд данных, ошибка
прогноза в данном случае оказалась минимальной из всех, получаемых
нами по этому ряду по другим моделям: sMAPE  2,96% . Вызвано это
в первую очередь тем, как был аппроксимирован и спрогнозирован
преобразованный ряд данных: модель линейного тренда дала прогноз
на снижение значения показателя, модель ARMA(3,3) дала прогноз
на незначительное увеличение с колебаниями (аппроксимация преобразованного ряда и прогноз показаны на рис. 8.24).
Заметим, что успешность идентификации модели ARIMA
на основе методологии Бокса-Дженкинса во многом зависит от опыта исследователя. Некоторые исследователи даже
отмечают, что это уже скорее «искусство», а не конкретное
руководство к действиям. Вызвано это не в последнюю очередь тем, что, как уже было замечено ранее, разные процессы
могут производить схожие коррелограммы. В результате
этого точная идентификация порядка модели оказывается
затрудненной. В те времена, когда был предложен описанный
подход, других методов идентификации не существовало
из-за слабой мощности компьютеров. В наши дни за счет
увеличения мощности вычислительной техники использу229
AIC  2ln  L   2  p  q  1 ,
0,35
0,3
0,25
0,2
0,15
0,1
янв. 93
янв. 92
янв. 91
янв. 90
янв. 89
янв. 88
янв. 87
янв. 86
–0,1
янв. 85
–0,05
янв. 84
0
янв. 94
0,05
–0,15
Рис. 8.24. Ряд № 2568 (сплошная линия с точками)
в логарифмах и в сезонных разностях и прогноз на 18
значений вперед по модели ARMA(3,3) (сплошная линия)
ются и другие методы идентификации процессов. Общая
черта, присущая этим методам, заключается в автоматическом построении ряда моделей и выборе наилучшей из них.
Один из таких методов заключается в том, чтобы построить всевозможные виды моделей ARIMA для исходного ряда
с ограничениями на порядок модели:
• d  2;
• p3;
• q3.
В результате это дает 48 возможных моделей, которые требуется оценить. Оценивание обычно производится методом
максимального правдоподобия из предположения о том, что
остатки должны быть нормально распределенными. После
оценки всех моделей рассчитывается информационный
критерий (AIC, BIC и т.д.), на основе которого полученные
модели затем сравниваются. Например, для модели ARMA
(p,q) информационный критерий Акайке, упоминавшийся
нами в параграфе 2.5, будет рассчитываться по формуле1
1 Hyndman Rob. J., Khandakar Yeasmin. Automatic Time Series Forecasting:
The forecast Package for R // Journal of Statistical Software. 2008. Vol. 27.
Issue 3. Р. 9.
230
(8.62)
где L — значение максимизированной функции правдоподобия.
Предпочтение отдается модели с минимальным AIC, что
указывает на модель, наилучшим образом аппроксимирующую ряд данных (с остатками, наиболее приближенными
к нормальным) при наименьшем числе коэффициентов.
В таком подходе, однако, есть свои проблемы. Одна из них
заключается в следующем. В связи с тем, что в основе функции правдоподобия лежит сумма квадратов ошибок модели,
сравнивать AIC по моделям с разными значениями d некорректно из-за использования разных значений, по которым
считаются ошибки. Так, в большинстве случаев исходные
данные будут содержать бóльшие значения, нежели данные по разностям (очевидно, что темпы роста по величине
меньше самих значений). В результате этого и модели в разностях будут иметь меньшую сумму квадратов отклонений
и, как результат, большее значение функции правдоподобия.
Это будет приводить к выбору большего порядка разности,
чем нужно, что в свою очередь грозит потенциально неточными прогнозами и широкими прогнозными интервалами.
Поэтому выбирать оптимальную модель нужно, предварительно выбрав порядок разностей. Это можно легко сделать,
проведя предварительно тесты на единичный корень (например, ADF и KPSS тесты).
Рассмотрим для нашего примера, как работает процедура подбора
модели в пакете «R». Для этого в пакете «forecast» есть функция «auto.
arima».
С ее помощью была получена модель ARIMA(2,1,3), которую
можно записать так:


2
ˆ1
1  1,18 B  0,99 B  1  B  12 ln yt 
0,02
0,02
  
  


 1  0,19 B  0,01 B2  0,86 B3  t
0,06
0,07 
 0,06
.
(8.63)
Как видим, там, где мы при проведении KPSS-теста решили,
что у нас нет оснований отклонить гипотезу о стационарности ряда,
заложенный в программе алгоритм пришел к тому, что такие основания есть. Явным результатом этого является отсутствие константы
в модели (8.63) и поучение противоположных знаков при коэффи231
14 000
12 000
10 000
8000
4000
2000
0
фев. 90
1984
0
1985
1986
1987
1988
5 10 15 20 25 30 35
1989
0
5
1990
1991
1992
10 15 20 25 30 35
Рис. 8.25. Ряд остатков по модели (8.63)
и его коррелограммы
Как видим, коррелограмма незначительно отличается от коррелограммы на рисунке 8.22: все так же значимыми оказались лишь коэффициенты на 12-м лаге. Все, что раньше него — незначимо.
По полученным признакам тяжело отдать предпочтение одной
из этих моделей. Если сравнить точность аппроксимации исходного
ряда, то она оказывается практически идентичной — средняя относительная ошибка аппроксимации по модели ARMA(3,3) составила
4,06%, а по модели ARIMA(2,1,3) — 4,34%. Таким образом, выбрать лучшую из этих двух моделей представляется практически невозможным.
Дадим прогноз по модели ARIMA(2,1,3) и преобразуем полученные значения так, чтобы прийти к исходному ряду данных. Итоговый
прогноз показан на рис. 8.26.
232
16 000
6000
PACF
–1,0 –0,6–0,2 0,2 0,6 1,0
ACF
Y
–1,0 –0,6–0,2 0,2 0,6 1,0 –0,15–0,05 0,05 0,15 0,25
циентах авторегрессии (оба положительные). Какая из полученных
моделей корректней и нужно ли было брать разности, точно сказать
невозможно.
Проведем диагностику модели. Тест Шапиро-Уилка на нормальность остатков модели ARIMA(2,1,3) позволяет на 5% отклонить нулевую гипотезу (остаточная вероятность составила 0,006942). Коррелограмма по остаткам модели (8.63) представлена на рис. 8.25.
фев. 91
фев. 92
фев. 93
фев. 94
Рис. 8.26. Ряд № 2568 (сплошная линия с точками)
и прогноз на 18 значений вперед по модели ARIMA(2,1,3)
(сплошная линия):
вертикальной линией показан момент времени, относительно
которого делался прогноз
Точность прогноза по модели ARIMA(2,1,3) оказалась несколько
ниже, чем по модели ARMA(3,3), что может быть вызвано либо взятием лишней разности, либо менее оптимистичным прогнозом преобразованного ряда (прогноз по модели ARIMA(2,1,3) оказался
несколько заниженным по сравнению с прогнозом по ARMA(3,3)).
В данном случае sMAPE  4,29% .
Что любопытно, при ограничении на порядок разностей (d = 0)
функция auto.arima выбирает модель ARIMA(3,0,3) как наиболее подходящую для преобразованного ряда данных, т.е., результат идентификации, полученный по методологии Бокса-Дженкинса, в таком случае
оказывается идентичным результату автоматического выбора по AIC .
8.4. Ó÷åò ñåçîííîñòè â ìîäåëÿõ àâòîðåãðåññèè
Ранее мы уже упоминали о том, что для моделирования
сезонности в моделях авторегрессии существует специальная
модификация. Она называется «SARIMA» («Seasonal
ARIMA») и все так же была подробно изучена в книге
Г. Бокса и Г. Дженкинса1. В наши дни она иногда считается
1 Box George E. P., Jenkins Gwilym M. Time series analysis, forecasting and
control. Holden-day, Inc., 1976. Р. 300.
233
где ηt — ошибка модели на наблюдении t; ΦP — функция
от оператора сдвига с лагом s, такая, что
P  1  A1B s  A2B2s  ...  AP B Ps ,
(8.65)
где Ai — коэффициент при значении ряда на i-м лаге.
Обратим внимание на то, что в данном случае мы ввели
другое обозначение ошибки и не ввели стандартных предположений, которые вводили до того. Почему это было сделано, мы поясним ниже.
Функция (8.65) позволяет моделировать зависимость
текущего значения не только от значения в прошлом сезоне,
но и несколько сезонов назад.
Модель SAR(P)s во многом похожа на модель AR(p). Поэтому и различные свойства стационарности в ней в целом
соответствуют моделям авторегрессии. Останавливаться
подробно на этой модели не имеет смысла.
Определяется порядок сезонной авторегрессии с помощью коррелограммы по тем же принципам, что и простая
авторегрессия, только при анализе нужно уже учитывать
периодичность s. Так, при наличии значимого частного коэффициента автокорреляции на лаге Ps и дальнейшем обрыве
ЧАКФ, имеет смысл построить модель SAR(P)s.
На рис. 8.27 приведен пример сезонного ряда данных (ряд
№ 1100) и его коррелограммы.
Как видим по графику и коррелограммам, в ряде данных
наблюдается сезонность, причем квартальная. По автокорреляционной функции можно сказать, что она имеет затухающий вид, что сигнализирует о возможности построения
SAR(P)s. При этом по частной автокорреляционной функции
видно, что значимыми оказались коэффициенты на лагах
2 и 4. Скорее всего, в данных условиях достаточно будет
234
1980 1981 1982 1983 1984 1985 1986 1987 1988 1989 1990 1991
0
5 10 15 20 25 30 35
PACF
–1,0 –0,6–0,2 0,2 0,6 1,0
(8.64)
Y
3500 4500 5500 6500 7500 8500
 
P B s yt  t ,
построить модель SAR(1)4. Возможно, построение такой
модели уберет автокорреляцию второго порядка. Если же
она останется, то нужно будет построить модель с простой
авторегрессионной компонентой, к рассмотрению которой
мы перейдем далее.
ACF
–1,0 –0,6–0,2 0,2 0,6 1,0
просто частью модели ARIMA. Рассмотрим ее форму записи,
основные свойства и то, как можно с ее помощью получать
прогнозы.
Идея моделирования сезонности с помощью моделей
авторегрессии опирается на все те же лаговый оператор
и зависимость текущего значения от предыдущих ошибок.
Модель сезонной авторегрессии SAR(P)s в первом приближении может быть записана так:
0
5
10 15 20 25 30 35
Рис. 8.27. Ряд № 1100 и его коррелограммы
Если бы по коррелограмме на рис. 8.27 в частной автокорреляционной функции значимыми оказались коэффициенты
на лагах 4 и 8 с последующим обрывом ЧАКФ, то имело бы
смысл построить модель SAR(2)4.
Модель SMA(Q)s — сезонной скользящей средней —
записывается следующим образом:
 
yt  Q B s t ,
где Q  1  C1B s  C2B2s  ...  CQ BQs ,
(8.66)
(8.67)
Ci — коэффициент при значении ряда на i-м лаге.
235
Обратим внимание, что аббревиатуру SMA мы так же
использовали ранее для обозначения простых скользящих
средних. Записи действительно похожи — их различает
только нижний индекс с указанием сезонности в модели
сезонной скользящей средней, но путать их не стоит.
Как видим, эта модель так же позволяет моделировать
зависимость текущего значения от значений в нескольких
сезонах назад. У этой модели те же условия обратимости, что
и у модели простой скользящей средней, и тот же принцип
прогнозирования: когда модель начинает опираться на расчетные значения, элемент скользящей средней становится
равным нулю. Так, модель позволяет дать прогноз на s шагов
вперед, опираясь на имеющиеся фактические значения.
Определение порядка модели сезонного скользящего среднего происходит по аналогии с моделью простого скользящего среднего, так же «зеркально» по отношению к модели
SAR(P)s, поэтому отдельно на этом вопросе мы останавливаться не будем.
Объединяя (8.64) и (8.66), мы получим модель SARMA(P,Q)s:
 
 
P B s yt  Q B s t .
(8.69)
где xt — вектор регрессионных элементов, который может
включать в себя любые факторы, в том числе и авторегрессионные; β — вектор коэффициентов при регрессорах;
d t — вектор фиктивных переменных, характеризу ющих
1
Canova Fabio, Hansen Bruce E. Are Seasonal Patterns Constant over
Time? A Test for Seasonal Stability // Journal of Business & Economic
Statistics. 1995. Vol. 13. № 3. Р. 237–252.
236
 t   t 1  ut ,

(8.70)

где γ0 фиксирована и ut ~ N
.
Нулевая и альтернативная гипотезы CH теста формулируются идентично тому, как это было в KPSS тесте:
0;  2u
H0:  2u  0 ;
H1:  2u  0 .
Для проверки этой гипотезы так же рассчитывается
LM-статистика на основе ковариационной матрицы коэффициентов при фиктивных переменных.
Если в результате проведения теста исследователь приходит к тому, что в ряде данных наблюдается сезонная нестационарность, то для оценки модели SARMA требуется взятие
сезонных разностей. В модель (8.68) они так же включаются
по аналогии с моделью ARIMA:
 
(8.68)
Продолжая аналогии с оригинальной моделью ARIMA, мы
поймем, что построение модели можно осуществлять лишь
в том случае, если ряд стационарен в сезонах, т.е. из сезона
в сезон не наблюдается постоянной тенденции к росту либо
какие-нибудь еще виды нестационарности. Для определения сезонной стационарности ряда существуют различные
тесты. Одним из таких применяемых на практике является
тест Канова-Хансен (Canova-Hansen test, CH test), который
проверяет наличие тренда в сезонных компонентах11. Он во
многом напоминает KPSS тест. Модель, на основе которой
происходит тестирование, имеет вид:
yt  x t   t dt  t ,
соответствующие части сезона; γ’t — вектор коэффициентов
при фиктивных переменных, который описывается процессом случайного блуждания
P B s 1  B s

D
 
yt  Q B s t .
(8.71)
Как видим, модель (8.71) очень похожа на модель ARIMA.
Она называется чистой сезонной моделью в том случае, если
ошибки модели ηt не автокоррелированы и распределены
нормально. Однако на практике чистые сезонные процессы
встречаются крайне редко, поэтому из-за того, что в такой
модели не учтены элементы простой авторегрессии и скользящей средней, ошибки η t будут автокоррелированы.
Для исключения этой автокорреляции остатки ηt требуется
описать моделью ARIMA:  p  B 1  B  t  q  B  t , откуда
d
можно выразить ηt: t 
 1  B 
P B
s
s
D
yt 
 
q  B   t
 p  B 1  B 
d
Q B s q  B  t
 p  B 1  B 
d
и подставить в (8.70):
, чтобы получить оконча-
тельную модель SARIMA:
 
P B s 1  B s

D
 
 p  B 1  B  yt  Q B s q  B  t .
d
(8.72)
237
D
 
 p  B 1  B  yt  Q B s q  B  t  c .
d
Модель (8.72) обычно обозначается как SARIMA(p,d,q)
x(P,D,Q)s и чисто внешне состоит из элементов:
1) AR(p);
2) I(d);
3) MA(q);
4) SAR(P);
5) SI(D);
6) SMA(Q);
7) лаг сезонности s.
Такая форма записи, как (8.72) помимо прочего позволяет моделировать сезонность более сложного характера
и «экономить» на коэффициентах. Покажем, например, что
будет представлять собой модель SARIMA(1,0,1)x(1,0,1)4,
подставив параметры в (8.72):
 

 
1 B4 1  B4 1  B 1  B  yt  1 B4 1  B  t .
0
0
Теперь запишем значения функций от соответствующих
лагов:
1  A B 1  a B y  1  C B 1  c B  .
1
4
t
1
1
4
1
(8.73)
t
Затем раскроем скобки в (8.73):
1  a B  A B
1
1
4



 a1A1B5 yt  1  c1B  C1B4  c1C1B5 t .
Далее выразим Yt через остальные элементы, чтобы прийти к финальной записи модели:
yt  a1yt 1  A1yt 4  a1A1yt 5  c1t 1  C1t 4  c1C1t 5  t . (8.74)
Как видим, в модели (8.73) помимо включенных элементов на наблюдениях t — 1 и t — 4 за счет перемножения появился еще и элемент t — 5, который, в случае, если модель
стационарна, будет меньше, чем c1 и C1 по отдельности.
Включение его в модель позволяет более точно описать зависимость текущего значения от предыдущих и убрать из ошибок автокорреляцию. При этом, если бы мы оценивали
238
В параграфе 8.3 мы определили, что по дифференцированному
ряду № 2568 можно построить модель ARMA(3,3). Построим теперь
по ряду № 2568 модель SARIMA. Ранее мы уже идентифицировали
ряд элементов модели, запишем их:
1) s = 12;
2) D = 1;
3) p = 3;
4) q = 3;
5) d = 0.
Обратимся к коррелограммам по остаткам модели (8.61). Для удобства приведем их еще раз на рис. 8.28.
0
5 10 15 20 25 30 35
PACF
–1,0 –0,4
0,2 0,6 1,0

ACF
0,2 0,6 1,0
 
P B s 1  B s
модель (8.74) напрямую, нам нужно было бы оценить шесть
коэффициентов вместо четырех. В этом как раз и заключается «экономия» на коэффициентах.
Заметим, что для построения SARIMA без сезонных разностей в распоряжении исследователя должно быть минимум
2s наблюдений. И то в таком случае фактически построение
модели будет происходить лишь по второму сезону, так как
данные из первого сезона становятся своеобразными «стартовыми значениями» и выпадают из аппроксимации. Взятие
сезонных разностей в таком случае в принципе невозможно,
да и выявить порядок модели становится крайне сложно.
В таких условиях говорить о точности модели не приходится. Поэтому с практической точки зрения строить модель
имеет смысл при наличии хотя бы 3s наблюдений (что,
вообще говоря, так же мало). При прогнозировании обратимых процессов с помощью модели SARIMA сохраняется
стандартный статистический принцип: чем больше данных,
тем лучше.
–1,0 –0,4
Если в модель нужно включить константу, то это делается путем ее добавления в правую часть (8.72):
0
5
10 15 20 25 30 35
Рис. 8.28. Коррелограммы
по ряду остатков по модели (8.61)
239
1
12
12
1
1
2
2



 a3 B3 yt  1  c1B  c2B2  c3 B3 t .
Оценка этой модели дает значения коэффициентов, приведенные
в табл. 8.4.
Таблица 8.4
Результаты оценивания модели SARIMA(3,0,3)x(1,1,0)12
AR(1)
AR(2)
AR(3) MA(1) MA(2) MA(3) SAR(1)
Coeffi- –0,1697 0,1664
cients
0,9930
0,2664
0,0627 –0,8439 –0,3370
s.e.
0,0093
0,0096
0,0073
0,0606
0,0719
0,0666
0,0934
p-value
< 0,01
< ,01
< 0,01
< 0,01
0,3851
< 0,01
< 0,01
Примечание: Coefficients — строка со значениями коэффициентов;
s.e. — строка со значениями стандартных ошибок коэффициентов;
p-value— строка со значениями остаточных вероятностей по значимости коэффициентов
Запишем эту модель в виде уравнения, округляя значения коэффициентов до сотых (в скобках указаны стандартные ошибки):



1
12
12
2
3
1  0,34 B  1  B
1  0,17 B  0,17 B  0,99 B  yt 
0.01
0.01 
 0.09

 0.01




 1  0,27 B  0,06 B2  0,84 B3  t
0.07
0.06 
 0.06
. (8.75)
Как видим, в полученной модели незначимым оказался только один
коэффициент — при скользящей средней второго порядка. Однако
исключать его из модели не корректно, так как из-за этого нарушится
вся структура SARIMA. На рис. 8.29 приведен ряд остатков модели
и его коррелограммы.
240
0,20
Y
0,10
0,00
–0,10
0
0
10
20
30
40
5 10 15 20 25 30 35
50
PACF
–1,0 –0,6 –0,2 0,2 0,6 1,0
1  A B 1  B  1  a B  a B
ACF
–1,0 –0,6 –0,2 0,2 0,6 1,0
На этом рисунке обращают на себя внимание выбивающиеся
за пределы доверительного интервала коэффициенты корреляции
на 12-м лаге. После, на 24 и 36 лагах затухающего характера АКФ
и ЧАКФ не наблюдается. Поэтому для начала мы попробуем оценить
модель с P = 1. Если полученная модель не будет нас устраивать, мы
еще раз обратимся к коррелограмме и попробуем вновь идентифицировать модель.
В итоге пошаговый подбор, рассмотренный нами в нескольких
параграфах, приводит нас к тому, что по ряду в логарифмах нужно
построить модель SARIMA(3,0,3)x(1,1,0)12:
60
0
70
80
90
100
5 10 15 20 25 30 35
Рис. 8.29. Ряд остатков по модели (8.75)
и его коррелограммы
Как видим, автокорреляции в остатках не наблюдается, в результате чего можно сделать вывод, что добавление каких-либо еще элементов вряд ли улучшит модель. Однако остатки все так же нельзя
признать нормально распределенными из-за сильно выбивающегося
остатка в апреле 1987 г. Если обратиться к исходному ряду данных, то
можно заметить, что на этот месяц пришелся пик, который действительно выбивается из общей картины. Если признать его случайным
«выбросом» (значением, которое не может быть объяснено моделью
по каким-то фундаментальным причинам) и убрать из рассмотрения,
то тест Шапиро-Уилка дает остаточную вероятность в 0,2862, что уже
больше 5% и не дает оснований отклонить нулевую гипотезу о том, что
остатки распределены нормально. При прогнозировании на практике
следует отдельно выяснить, что же произошло в апреле 1987 г., что
именно привело к такой ситуации. Информация о причинах такого
значения позволит принять правильное решение для дальнейшего
моделирования и прогнозирования.
Дадим прогноз по модели (8.75). Графически он представлен
на рис. 8.30.
241
16000
14000
12000
10000
8000
6000
4000
2000
0
фев. 90
фев. 91
фев. 92
фев. 93
фев. 94
Рис. 8.30. Фактические значения ряда № 2568, расчетные
по модели (8.75) и прогноз
Заметно, что на последних трех значениях прогноз оказался менее
точным, чем по предыдущим моделям. Возможно, из-за этого, а возможно, и из-за неточного прогноза и по другим точкам, но ошибка
прогноза в модели (8.75) составила sMAPE  5,38% , что больше, чем
в случае с построением модели ARMA по ряду сезонных разностей
логарифмов. Это, однако, не говорит о том, что модель SARIMA неприменима вообще. Возможно, что на других рядах данных она даст более
точные прогнозы.
Здесь нельзя не вспомнить один из выводов, сделанных
по результатам испытаний M3 — Competition: сложные,
статистически обоснованные модели, не обязательно дают
более точные прогнозы, чем простые11.
8.5. Ñâÿçü ìåæäó ARIMA è ýêñïîíåíöèàëüíûì
ñãëàæèâàíèåì
Между моделями ARIMA, рассмотренными нами в данной главе, и моделями экспоненциального сглаживания,
рассмотренными нами в гл. 7, существует связь. Одно время
статистики, обратив внимание на то, что многие модели
1
Makridakis S., Hibon, M. The M3 — competition: Results, conclusions and
implications // International Journal of Forecasting. 2000. № 16. Р. 451–476.
242
экспоненциального сглаживания являются частными случаями моделей ARIMA, пришли к выводу о том, что первые
и вовсе не нужны. Однако это заключение впоследствии
было признано ошибочным12 по следующим основаниям:
1. Не все модели ETS имеют аналоги в моделях ARIMA.
Например, нелинейные модели экспоненциального сглаживания (с мультипликативной ошибкой, трендом или сезонностью) не имеют аналогов среди моделей ARIMA.
2. Модели экспоненциального сглаживания строятся,
исходя из конечных стартовых значений, а модели ARIMA
предполагают, что временнóй ряд имеет бесконечное прошлое.
3. Все модели ARIMA стационарны, так как этого требует
методология Бокса-Дженкинса, в то время как практически
все модели экспоненциального сглаживания по сути своей
нестационарны.
4. Эти два разных класса моделей основаны на совершенно разных подходах, которые дают, соответственно, разные результаты при прогнозировании.
Тем не менее, модели связаны друг с другом, и выражение моделей экспоненциального сглаживания через модели
ARIMA может быть полезным, так как позволяет по-другому
рассматривать эти модели.
Покажем на нескольких примерах эту связь. Удобнее
всего выявлять ее на моделях в форме коррекции ошибок,
представленных в табл. 7.6.
Для начала рассмотрим простейшую модель — модель
Брауна, ETS(A,N,N). Напомним ее математическую формулу:
 yˆt  lt 1
.

lt  lt 1  t
(8.76)
Приводя модель (8.76) к «уменьшенному виду», т.е.
к виду одного уравнения, получим
yˆt  lt 2  t 1 .
(8.77)
Далее, используя первое равенство в системе (8.76), заменим lt — 1 в (8.77): yˆt  yˆt 1  t 1 .
1 Hyndman Rob J., Koehler Anne B., Ord J. Keith, Snyder Ralph D.
Forecasting with Exponential Smoothing: The State Space Approach. SpringerVerlag Berlin Heidelberg, 2008. Р. 168.
243
Затем заменим расчетные значения на фактические
с ошибками: yt  yt 1  t 1  t 1  t .
Перенесем Yt в левую часть и сгруппируем ошибки в правой. Получим
yt  yt 1    1 t 1  t .
(8.78)
Если теперь в левой части (8.78) ввести разностный оператор, а (α — 1) заменить на коэффициент с1, то мы получим
модель 1yt  c1t 1  t или
1  B yt  1  c1B t .
(8.)
Перед нами модель ARIMA(0,1,1). Используя модель
(8.79), можно не только произвести оценку коэффициента при помощи стандартного подхода, но, например, еще
и вывести ограничения на постоянную сглаживания α. Так,
для выполнения свойства обратимости модели для модели
MA(1) должно выполняться условие c1  1 , которое соответствует условию   1  1 , из которого, в свою очередь, следует
знакомое нам условие 0    2 .
Стоит отдельно отметить, что в случае, когда α = 0, модель
Брауна еще имеет какой-то смысл (ряд данных описывается
стартовым значением, в качестве которого может выступать,
например, средняя величина), а вот в модели MA(1) эквивалентное ему условие с1 = 1 уже неприемлемо, так как в таком
случае модель теряет свойство обратимости.
Рассмотрим для примера еще одну модель — модель
Хольта, ETS(A, A, N), которая описывается системой уравнений:
 yˆt  lt 1  bt 1

lt  lt 1  bt 1  t .
b  b  
t 1
t
 t
(8.80)
(8.81)
Подставим второе и третье уравнение в первое в (8.80),
а так же подставим вместо расчетного значения (8.81):
yt  lt 2  bt 2  t 1  bt 2  t 1  t .
244
yt  yt 1  t 1  t 1  bt 2  t 1  t .
(8.82)
Теперь выразим из (8.81) bt — 1 и подставим его в (8.82):
yt  yt 1  t 1  t 1  yt 1  lt 2  t 1  t 1  t , заменим значение
lt — 2 на значение из второго уравнения в (8.80), попутно
используя (8.81):
yt  yt 1  t 1  t 1  yt 1   yt 2  t 2  t 2   t 1  t 1  t . (8.83)
Теперь перегруппируем значения в (8.83) так, чтобы
все yt находились в левой части, а все ошибки — в правой:
yt  2 yt 1  yt 2  t 1  t 1  2t 1   t 2  t 2   t , и вынесем
все одинаковые ошибки за скобки:
yt  2 yt 1  yt 2      2 t 1  1    t 2  t .
(8.84)
В левой части (8.84) представлено не что иное, как вторая
разность по yt, которую мы обычно записывали следующим
образом:


yt  2 yt 1  yt 2  1  2B  B2 yt  1  B  yt .
2
(8.85)
Подставляя (8.85) в (8.84) и переходя к лаговым операторам, придем к финальной формуле:
1  B2 yt  1      2 B  1    B2  t .
(8.86)
Если в этой формуле заменить     2 на c1, а 1  
на c2, то мы придем к модели ARIMA(0,2,2):
1  B2 yt  1  c1B  c2B2  t .
Первое уравнение в системе (8.80) может быть переписано через фактическое значение с ошибкой:
yt  lt 1  bt 1  t .
Используя (8.81), заменим сумму уровня с коэффициентом прироста:
Из этой же модели в свою очередь можно получить ограничения на постоянные сглаживания (7.67) в модели Хольта.
По аналогии с этими двумя примерами можно показать,
что многие другие модели экспоненциального сглаживания
имеют аналоги среди моделей ARIMA. В частности:
1) ETS(A, Ad, N) эквивалентна ARIMA(1,1,2);
2) ETS(A, N, A) эквивалентна SARIMA(0,0,s)x(0,1,0)s;
245
3) ETS(A, A, A) эквивалентна SARIMA(0,1,s+1)x(0,1,0)s;
4) ETS(A, Ad, A) эквивалентна SARIMA(1,0,s+1)x(0,1,0)s.
Мультипликативные модели ETS аналогов среди ARIMA
не имеют.
8.6. Ïðåèìóùåñòâà è íåäîñòàòêè ìîäåëåé ARIMA
Чтобы подытожить наше рассмотрение моделей ARIMA,
обсудим их преимущества и недостатки.
К очевидным преимуществам можно отнести то, что эти
модели имеют очень четкое математико-статистическое обоснование, что делает их одними из наиболее научно обоснованных моделей из всего множества моделей прогнозирования тенденций во временных рядах.
Еще одним преимуществом является формализованная
и наиболее подробно разработанная методика, следуя которой можно подобрать модель, наиболее подходящую к каждому конкретному временнóму ряду. Формальная процедура
проверки модели на адекватность достаточно проста, а разработанные методики по автоматическому подбору наилучшей ARIMA и вовсе «значительно облегчают жизнь» прогнозиста.
Кроме того, точечные и интервальные прогнозы следуют
из самой модели и не требуют отдельного оценивания.
Одним из явных недостатков моделей заключается в требовании к рядам данных: для построения адекватной модели
ARIMA требуется не менее 40 наблюдений, а для SARIMA —
порядка 6—10 сезонов1, что на практике не всегда возможно.
Вторым серьезным недостатком является неадаптивность
моделей авторегрессии: при получении новых данных модель
нужно периодически переоценивать, а иногда — и переидентифицировать.
Третий недостаток заключается в том, что построение
удовлетворительной модели ARIMA требует больших затрат
ресурсов и времени. Само же построение модели скорее
является «искусством», т.е. требует большого опыта со стороны прогнозиста.
Но эти все преимущества и недостатки касаются лишь
процесса построения модели. Интересно сравнение точности прогнозов моделей ARIMA с другими моделями, которое
1 Ханк Д. Э., Уичери Д. У., Райтс А. Дж. Бизнес-прогнозирование : пер.
с англ. 7-е изд. М. : Издательский дом «Вильямс», 2003. С. 506.
246
было осуществлено в ряде испытаний, проводимых Международным институтом прогнозистов (International Institute
of Forecasters).
До 1982 г. среди прогнозистов бытовало мнение, что
модели ARIMA дают самые точные прогнозы, так как являются более общими для класса других моделей. Однако
после проведения первых испытаний точности прогнозирования различных моделей в рамках «M — Competition»,
проведенного Международным институтом прогнозистов,
в ходе которого модели ARIMA показали себя не лучше
моделей экспоненциального сглаживания, это мнение сменилось на вполне логичное представление о том, что в каждом конкретном случае нужно использовать свою модель1.
Более того, дальн ейшие исследования показали, что
использование моделей AR(1), AR(2) и ARMA(1,1) в обход
методологии Бокса-Дженкинса (т.е. без исследования коррелограмм и оценки остатков) дает не менее точные прогнозы,
чем по моделям ARIMA, построенным на основе методологии Бокса-Дженкинса2. Данный вывод указывает на то,
что для получения точных прогнозов с помощью моделей
ARIMA добиваться некоррелированных нормально распределенных остатков не имеет смысла: одно просто не зависит
от другого.
Исследования в рамках последующих испытаний, опубликованных в статьях 1998-х, 2000-х и 2005-х гг.3, показали,
что статистически обоснованные модели (в первую очередь
имелась в виду именно ARIMA) не превосходят другие
модели по точности прогнозов.
Все это вызывает вопросы о том, почему же методы, имеющие такое хорошее научное обоснование с точки зрения
1 Makridakis S., Andersen A., Carbone R., Fildes R., Hibon M., Lewandowski
R., Newton J., Parzen E., Winkler R. The accuracy of extrapolation (time series)
methods: Results of a forecasting competition // Journal of Forecasting. 1982.
Vol. 1. Issue 2. Р. 111–153.
2 Makridakis S., Hibon M. ARMA models and the Box-Jenkins
Methodology // Journal of Forecasting. 1997. Vol. 16. Р. 147–163.
3 Fildes R., Hibon M., Makridakis S., Meade N. Generalising about univariate
forecasting methods: further empirical evidence // International Journal of
Forecasting. 1998. Vol. 14. Issue 3. Р. 339–358 ; Makridakis S., Hibon M. The
M3 — Competition: results, conclusions and implications // International
Journal of Forecasting. 2000. Vol. 16. Р. 451–476 ; Koning A. J., Franses P. H.,
Hibon M., Stekler H. O. The M3 competition: Statistical tests of the results //
International Journal of Forecasting. 2005. Vol. 21. Р. 397–409.
247
математической статистики, не превосходят «дикие» методы,
у которых какое-то статистическое обоснование появилось
в лучшем случае в 2008 г.
Ответ на этот вопрос заключается в самом подходе, лежащем в основе этих методов: все построение моделей ARIMA
основывается на предположении о том, что временнóй ряд
генерируется бесконечно в соответствии с какой-то функцией, параметры которой нам нужно идентифицировать
и оценить, т.е. в основе подхода ARIMA лежит предположение о застывшем характере протекающих процессов, эволюционность как таковая в модели не учитывается. Вызвано
это не в последнюю очередь тем, что модели изначально
разрабатывались для моделирования физических и технических процессов (например, один из основоположников
моделей авторегрессии, Дж. Юл, в своих работах опирался
на моделирование числа пятен на солнце1), в которых практически все виды процессов описываются либо как стационарные, либо как стационарные в разностях. Проблема же
применения этих методов к экономическим рядам заключается в том, что экономические процессы, как мы уже знаем,
по сути своей необратимы, а значит и такое «техническое»
отношение к ним не позволяет учесть их особенности и, как
результат, не позволяет давать точные прогнозы.
В эконометрике считается, что для получения адекватных
прогнозов нужно добиться различными способами несмещенных, эффективных и состоятельных оценок коэффициентов модели, избавиться от гетероскедастичности и автокорреляции, получить нормально распределенные остатки и т.д.
И, конечно же, при прогнозировании тенденций во временных рядах эконометрика всего этого добивается с помощью
модели ARIMA (и различных ее модификаций для отдельных случаев автокорреляции остатков и гетероскедастичности). Однако все эти характеристики имеют смысл только
в случае с техническими процессами либо при работе с пространственными данными — там, где нет эволюции. В эволюционных процессах происходят постоянные изменения
всех характеристик распределения, в связи с чем «гонка»
за лучшими оценками скорее напоминает поиски единорога:
мы ищем то, что не существует, там, где его в принципе нет.
1 Yule G. Udny. On a Method of Investigating Periodicities in Disturbed
Series, with Special Reference to Wolfer’s Sunspot Numbers // Philosophical
Transactions of the Royal Society of London. 1927. Ser. A. Vol. 226. Р. 267–298.
248
Более того, зависимость текущего значения от предыдущего во многих рядах носит скорее виртуальный, нежели
реальный характер: действительно, если в понедельник продажи тапочек были на одном уровне, то и во вторник они
будут близки к нему. Однако это ни в коей мере не говорит
о том, что количество проданных тапочек в понедельник
действительно влияет на то, сколько будет продано тапочек
во вторник. По сути своей это независимые друг от друга
события, на которые влияют какие-то внешние факторы.
Но формально при построении коррелограмм мы увидим,
что между этими событиями есть некая корреляция. Очевидно, что она носит ложный характера, а значит и модели,
основывающиеся на ней, будут носить ложный характер.
Модели экспоненциального сглаживания, не имея столь
хорошего статистического обоснования, как модели ARIMA,
одновременно с этим не вводят каких-то предположений
о том, как процесс генерируется и какие в нем имеются зависимости. Они нацелены, в первую очередь, не на «вскрытие
зависимостей», а на «внешнее» описание динамики. Именно
поэтому, например, в M3 — Competition самые точные прогнозы во многих случаях дал один из наименее статистически обоснованных на тот момент методов — метод Theta11
(который, как мы уже рассматривали в параграфе 7.3, является частным случаем модели простого экспоненциального
сглаживания с дрейфом).
Конечно, у моделей ARIMA есть свои недостатки, лежащие в самой их основе. Однако это ни в коей мере не говорит
о том, что от этих моделей надо отказаться и при прогнозировании использовать только модели экспоненциального
сглаживания! Для каждого конкретного случая стоит обращаться к своей прогнозной модели: будь то простейшие
модели, модели трендов, сезонной декомпозиции, модели
экспоненциального сглаживания или модели авторегрессий
со скользящей средней. Просто стоит иметь в виду как положительные, так и отрицательные стороны используемых
моделей, и опираться на те прогнозы, относительно которых
(на основе экспертного мнения и фундаментального анализа
отрасли) можно сказать, что они лучше опишут реальную
ситуацию в будущем.
1 Makridakis S., Hibon M. The M3 — competition: Results, conclusions and
implications. Р. 451–476.
249
Ïðàêòèêóì
Вопросы для самоконтроля
1. Почему модели авторегрессии получили такое название?
2. Есть ли какая-то взаимосвязь между инерционностью динамики объекта прогнозирования и возможностью использования
моделей авторегрессии?
3. Как взаимосвязаны модели авторегрессии и модели БоксаДженкинса?
4. Что такое «порядок» авторегрессии?
5. Как выглядит модель Юла?
6. Как использовать МНК для оценки коэффициентов моделей
авторегрессии?
7. В чем различие понятий «стационарный в узком смысле процесс» и «слабо стационарный процесс»?
8. Как в математической статистике рекомендуется приводить
нестационарные процессы к стационарному виду? Какие предположения при этом высказываются?
9. Как определить, является ли изучаемый процесс стационарным
или нет?
10. В чем суть статистических тестов на наличие стационарности?
11. Есть ли взаимосвязь между моделями экспоненциального
сглаживания и моделями авторегрессии?
12. Если предстоит моделировать и прогнозировать динамический ряд с сезонной составляющей, как модифицировать модель
авторегрессии?
Задания
Задание 1. Проведите анализ ряда № 2712.
1. Постройте линейный график и коррелограммы исходного ряда.
Как вы считаете, стационарен ли представленный ряд?
2. Проведите тесты ADF и KPSS для ряда № 2712 вначале по вторым разностям, потом по первым, потом по исходному ряду. Каков
порядок стационарности ряда d?
3. Изучите коррелограммы ряда в разностях выбранного порядка
в п. 2. Есть ли в ряде в разностях какие-либо значимые коэффициенты
автокорреляции и частной автокорреляции? Какому порядку модели
ARIMA(p,d,q) соответствуют эти значения?
4. Постройте модель ARIMA(p,d,q) порядка, выбранного в п. 3.
5. Изучите коррелограмму остатков полученной модели. Есть ли
еще какие-то неучтенные элементы в модели? Если есть, добавьте их
в модель — вернитесь к п. 4.
6. Постройте гистограмму по остаткам финальн ой модели
ARIMA. Проведите тест на соответствие распределения остатков
нормальному (например, тест Шапиро-Уилка). Можно ли считать
остатки по полученной модели распределенными нормально?
250
7. Дайте прогноз по итоговой модели ARIMA на 18 наблюдений
вперед.
8. Постройте модель экспоненциального сглаживания (на основе
автоматического выбора порядка модели) для этого же ряда, дайте
по ней прогноз на 18 наблюдений вперед.
9. Постройте модель Theta для того же ряда и дайте по ней прогноз
на 18 наблюдений вперед.
10. Какая из моделей оказалась точней? Как вы считаете, почему?
11. Постройте модель ARIMA, используя автоматический выбор
порядка модели на основе AIC . Соответствует ли она полученной
вами в п. 6?
Задание 2. Изучите ряд № 2796.
1. Есть ли в нем сезонность? Если есть, то каков лаг сезонности
и каким может быть характер сезонности? Как вы это выяснили?
2. Постройте коррелограмму по исходному ряду и по рядам
в первых и вторых разностях. Что можно сказать по полученным
графикам?
3. Определите порядок модели ARIMA(p,d,q) на основе тестов
на стационарность и коррелограмм из п. 2.
4. Постройте модель из п. 3. Изучите остатки модели. Если в них
есть автокорреляция низкого порядка (не выше 3), то попытайтесь
ее устранить путем добавления элементов авторегрессии и скользящего среднего в модель.
5. Добавьте в полученную модель сезонные элементы порядка
(P,D,Q) на основе предварительного анализа того, какие элементы
нужно включить.
6. Изучите остатки полученной модели. Если в них есть какиелибо проблемы, доработайте модель.
7. Дайте прогноз по итоговой модели на 18 наблюдений вперед.
8. Используя автоматический выбор на основе AIC , постройте
модель SARIMA для этого же ряда. Дайте по ней прогноз на 18 наблюдений вперед.
9. Используя автоматический выбор, найдите наилучшую
для данного ряда модель экспоненциального сглаживания. Дайте
по ней прогноз на 18 наблюдений вперед.
10. Сравните прогнозы по построенным в этом задании моделям.
Ãëàâà 9.
ÏÎÑÒÐÎÅÍÈÅ ÈÍÒÅÐÂÀËÜÍÛÕ ÏÐÎÃÍÎÇÎÂ
В результате освоения данной главы студент должен:
знать
• основные принципы построения доверительных границ
при прогнозировании эволюционных социально-экономических
процессов;
• современные подходы и методы получения интервальных прогнозов эволюционных процессов;
уметь
• применить к точечному прогнозному значению интервальную
оценку;
• подобрать нужное значение уровня доверительной вероятности;
• выбрать метод построения интервальной оценки прогноза
эволюционных социально-экономических процессов;
владеть
• методами и методиками построения интервальных прогнозов;
• навыками самостоятельной научной и исследовательской
работы в части интервальной оценки прогнозных значений.
Из теории вероятностей и математической статистики
известно, что вероятность того, что непрерывная случайная
величина примет какое-то конкретное значение, равна нулю.
Поэтому, давая точечный прогноз, мы, скорее, не пытаемся
угадать точное значение показателя, а задаем общее направление его изменения. В случае с краткосрочным прогнозом
мы пытаемся описать отклонения от заданной траектории,
со среднесрочным — саму траекторию.
Однако одной точечной оценки для прогнозирования
недостаточно. Для того чтобы можно было принять взвешенное решение, менеджеру нужно знать, в каких пределах будет колебаться прогнозируемый показатель. С одной
стороны, это дает информацию о «наихудшем» и «наилучшем» сценариях, а с другой, — дает понимание того, что мы
252
в любом случае имеем дело с некоторой неопределенностью.
Будущее не предопределено, поэтому и его прогноз должен
нести в себе отсутствие предопределенности.
Чтобы получить такую оценку, обычно наравне с точечными прогнозами строят еще и интервальные прогнозы,
которые основываются на инструментах математической
статистики. Именно поэтому прогнозисты стараются делать
так, чтобы остатки по полученной модели были нормально
распределенными, а сама модель не содержала в себе такие
неприятные эффекты, как гетероскедастичность и автокорреляция остатков.
Для начала стоит определить два похожих термина:
1. Прогнозный интервал — интервал, строящийся
для определения границ, в которых может лежать изучаемая
случайная величина. Например, при определении интервала
для курса рубля к евро на ММВБ, аналитик будет иметь
дело именно с прогнозным интервалом.
2. Доверительный интервал — интервал, строящийся
для определения границ, в которых может лежать изучаемая статистическая величина (например, математическое
ожидание, дисперсия и т.д.). При определении интервала
для средней стоимости бензина АИ-95 по Санкт-Петербургу,
например, исследователь будет иметь дело с доверительным
интервалом.
Прогнозистов обычно интересует построение прогнозных
интервалов, в то время как эконометристов — доверительных.
Выделяют три типа методов построения прогнозных
интервалов:
1) параметрические;
2) непараметрические;
3) полупараметрические.
Первые основаны на оценке статистических характеристик и введении допущений о законе распределения исследуемой случайной величины, вторые — на эмпирических
данных и строятся исходя из меньшего числа допущений,
чем в первой группе методов. Третьи представляют собой
симбиоз первых двух: они основываются на некоторых допущениях, но при этом позволяют получить более близкие
к эмпирическим данным оценки.
Общий принцип построения любых интервалов заключается в том, чтобы наравне с условным математическим
ожиданием (т.е. точечным прогнозом по модели) еще и полу253
чить характеристику, отражающую степень колеблемости
признака относительно этого математического ожидания.
Обычно в качестве такого показателя используется дисперсия ошибки модели. Однако иногда вместо этой характеристики используются квантили функции плотности распределения остатков.
Эти методы мы рассмотрим в данной главе.
9.1. Ïàðàìåòðè÷åñêèå ìåòîäû
ïîñòðîåíèÿ èíòåðâàëüíûõ ïðîãíîçîâ
Параметрические методы построения интервалов обычно
сводятся к следующим шагам:
1. Выбор и построение модели так, чтобы получить
нормальное распределение остатков.
2. Получение точечных прогнозов на h наблюдений вперед yˆT h по выбранной модели.
3. Расчет дисперсии модели D  yˆT h  на h наблюдений
вперед на основе дисперсии остатков.
4. Допущение о нормальности распределения остатков.
5. Построение интервала по формуле:
yˆT h  z  2 D  yˆT h  1,
(9.2)
где df — число степеней свободы в модели.
Правда, различия в интервалах, рассчитанных по (9.1)
и (9.2), становятся заметными лишь при числе наблюдений
меньше 20 1.
Фактически умножение статистики на среднеквадратическое отклонение в (9.1) и (9.2) дает нам оценку квантиля
нашего распределения: сама статистика показывает количество СКО, отложенных влево и вправо от математического
ожидания. На рис. 9.1 показан график плотности сгенерированной случайной величины, распределенной по нормальному закону (с математическим ожиданием равным 50 и СКО,
равным 10) и 95%-ный доверительный интервал для этой
величины, рассчитанный на основе формулы (9.1).
2,5%
95%
2,5%
9,0%
8,0%
7,0%
6,0%
(9.1)
где z(α/2) — квантиль функции стандартного нормального
распределения, характеризующий остаточную вероятность
α (т.е. какой процент из всех наблюдений в будущем не попадет в построенный прогнозный интервал). Обычно α задается равным 1%, 5% или 10% для того, чтобы получить соответственно 99%, 95% или 90%-ный прогнозный интервал.
Корень из дисперсии в (9.1), как мы знаем, — не что иное,
как среднеквадратическое отклонение.
На практике для того, чтобы получить адекватный интервал, используя функцию плотности нормального распределения, нужно обладать большой выборкой. Работая с малыми
выборками, вместо квантиля нормального распределения
используется квантиль распределения Стьюдента. Тогда
формулу (9.1) можно заменить следующей:
1 Chatfield Chris. Calculating Interval Forecasts // Journal of Business &
Economic Statistics. Vol. 11. № 2 (Apr., 1993). Р. 121–135.
254
yˆT h  t  2, df  D  yˆT h  ,
5,0%
4,0%
3,0%
2,0%
1,0%
0,0%
20 24 28 32 36 40 44 48 52 56 60 64 68 72 76 80
Рис. 9.1. Эмпирическое и теоретическое распределение
сгенерированной случайной величины xi~N(50,100)
На рисунке изображены эмпирический (столбики)
и теоретический (колоколообразная линия) графики плотности сгенерированной случайной величины. Кроме того
вертикальными линиями обозначен 95%-ный доверительный интервал, а фигурными скобками показаны теорети1
Там же. С. 124.
255
ческие проценты величин, попадающие в соответствующие
части (в левом хвосте распределения — 2,5%, в правом —
столько же, в середине — 95% всех наблюдений). Стоит,
однако, обратить внимание на то, что даже в нашем условном
примере с 200 сгенерированными наблюдениями в построенный по формуле (9.1) 95%-ный интервал попало 94% наблюдений, а в интервале, построенным по формуле (9.2), оказалось 95%. Этот результат, конечно, может быть случайным
сам по себе, но сам факт того, что интервалы на основе статистики Стьюдента все-таки шире интервалов по z-статистике,
не подвергается сомнению.
Здесь следует сделать одно замечание. Стандартная методика построения параметрических интервалов применима
при выполнении следующих базовых условий:
1. В построенной модели учтены все факторы, нет пропущенных существенных переменных — в таком случае влияние остальных факторов действительно оказывается незначительным и легко описывается гауссианой. При отсутствии
в модели важных переменных их влияние на исследуемый
показатель может быть существенным, что в свою очередь
приводит к получению ненормальных остатков.
2. Дисперсия остатков в модели конечна и не зависит
от значений факторов в модели. Это значит, что в модели
нет гетероскедастичности, а значит и распределение остатков одинаково для всех наблюдений.
3. Остатки в модели независимы друг от друга, т.е.,
в модели нет автокорреляции. В противном случае на различных наблюдениях мы будем получать разные функции
распределения остатков.
4. Изучаемый процесс по природе своей обратим. В данном
случае имеется в виду то, что процесс описывается некоторой функцией, а значит и получить значения, выбивающиеся,
например, за 3 СКО в таком случае крайне маловероятно. Если
мы имеем дело с необратимыми процессами, вероятность редких событий оказывается значительно выше, чем предполагает
нормальный закон распределения11, а значит и адекватный
параметрический интервальный прогноз, учитывающий такие
события, построить не представляется возможным.
Рассмотрим, как можно построить прогнозные интервалы
для методов, рассмотренных нами в предыдущих главах.
1 Nassim Nicholas Taleb. Errors, robustness, and fourth quadrant //
International Journal of Forecasting. 2009. Vol. 25. Р. 744–759.
256
9.1.1. Простейшие методы
Чтобы дать интервальный прогноз исследуемого показателя, используя среднюю величину, достаточно рассчитать
его дисперсию:
D  yt   s y2 ,
(9.3)
где для получения несмещенной оценки дисперсия Y рассчитывается путем деления не на количество наблюдений,
а на число степеней свободы (которое в случае с простой
средней арифметической равно T — 1) по формуле
s y2 
2
1 T
  yt  y  .
T  1 t 1
Из-за базовых условий мы можем предполагать, что
дисперсия yt на несколько шагов вперед не будет зависеть
от значений на предыдущих шагах. При этом на первом шаге
для интервального прогноза мы можем использовать просто
дисперсию D  yt  , а для того, чтобы оценить значение дисперсии на втором шаге, нам нужно учесть, что на первом
шаге уже была получена случайная величина с той же дисперсией D  yt  : D  yt 2   D  yt 1   D  yt   D  yt   D  yt   2D  yt  .
Продолжая рассуждения таким же образом для h шагов,
можем в общем случае записать
D  yt h   h  D  yt  .
(9.4)
Теперь, подставляя значение (9.4) в формулу (9.2), получим следующий интервальный прогноз для средней величины:
y  t  2, df  h  s y2  yT h  y  t  2, df  h  s y2 .
(9.5)
Как видим, в формуле (9.6) под корнем стоят не только
дисперсия yt и число наблюдений, но и номер шага, на который делается прогноз. В результате интервальный прогноз
будет иметь колоколообразную форму.
Для условного примера, который мы рассматривали в параграфе 5.2,
получим интервальный прогноз, изображенный на рис. 9.2.
В данном случае мы строили 95%-ный интервал, в расчете средней
использовалось пять наблюдений (T = 5). В связи с тем, что в модели
рассчитывается фактически лишь один коэффициент (само среднее
значение), число степеней свободы составило df = 5 — 1 = 4. Из-за
малого числа степеней свободы прогнозный интервал оказался достаточно широким.
257
Как видим по рис. 9.3, из последних пяти значений, на которые мы
делали прогноз, в построенный нами интервал попали четыре. В целом,
это не самый плохой результат, учитывая простоту использованного
метода прогнозирования.
50 000
45 000
40 000
Рассмотрим теперь, как можно построить интервальный
прогноз для методов Naïve и сезонный Naïve.
В данном случае нам уже нужно оценить, какой будет случайная величина на шаге T + 1. Используя формулу (5.23),
можно записать как
35 000
30 000
25 000
20 000
yT 1  yT  T 1 ,
15 000
10 000
5000
0
1
5
9
13 17 21 25 29 33 37 41 45 49 53
Рис. 9.2. Условный ряд данных, точечный (сплошная линия
с крестиками) и интервальный (пунктирные линии) прогнозы
по нему методом средней величины
В связи с тем, что мы применили метод расчета средней величины
для явно нестационарного процесса, просто исключив из рассмотрения бóльшую часть наблюдений, мы получили, возможно, не самую
точную оценку. Однако в данном конкретном случае сложившаяся
на последних наблюдениях тенденция продолжилась, в результате чего
таким простым методом был получен не самый плохой по точности
интервальный прогноз (рис. 9.3).
25 000
где t  yt  yˆt .
Используя ту же методику построения параметрических
прогнозных интервалов, найдем дисперсию выражения (9.6).
Однако стоит иметь в виду, что в данном случае мы уже
имеем дело не с отклонениями от средней, а от расчетного
значения по модели, т.е. не с безусловной, а с условной дисперсией
D  yT 1 | yT   D  yT  T 1  ,
(9.7)
так как в соответствии с базовыми условиями мы предполагаем, что yt не зависит от ошибки εT+1, то дисперсию суммы
в (9.7) мы можем переписать в виде суммы дисперсий:
D  yT 1 | yT   D  yT   D T 1  .
(9.8)
В связи с тем, что прогноз на шаг T + 1 зависит от фактического значения на шаге T, yT уже перестает носить случайный характер, а значит и дисперсия его будет равна нулю.
Кроме того, можно заметить, что в соответствии с теми же
базовыми условиями мы предполагаем, что ошибки не коррелируют друг с другом, а значит (9.8) в итоге может быть
переписано в виде
20 000
15 000
10 000
D  yT 1 | yT   D t  .
5000
0
1
3
5
7
9
11
13
Рис. 9.3. Условный ряд данных, точечный (сплошная линия
с крестиками) и интервальный (пунктирные линии)
прогнозы по нему
258
(9.6)
(9.9)
Чтобы сделать прогноз на h шагов вперед, мы так же, как
и в случае со средней, предполагаем независимость дисперсий, что из тех же рассуждений, что и в (9.4), приводит нас к
D  yT h | yT   h  D t  .
(9.10)
259
Дисперсию ошибки в (9.10) так же стоит рассчитать
с учетом степеней свободы в модели. В связи с тем, что фактически единственным параметром в модели Naïve является
коэффициент перед фактическим значением (который равен
1), df = T — 1: D t   s2 
1 T 2
 .
T  1 t 1
интервалу (9.11). Стоит, однако, отметить, что в нашем случае из-за появления лага сезонности прогноз на s шагов вперед будет базироваться на основе имеющихся фактических
значений. Таким образом, интервал для s первых наблюдений
не должен расширяться. В результате этого условная дисперсия на h шагов вперед может быть представлена в виде
h
D  yT h | yT h s      s2 ,
s
Соединяя теперь (9.2) и (9.10), получим
yT  t  2, df 
h  s2
 yT h  yT  t  2, df 
h  s2
.
(9.11)
Для нашего условного примера мы получим следующий прогнозный интервал (рис. 9.4).
50 000
40 000
(9.12)
где  x  означает округление x в большую сторону.
Кроме того, в качестве задаваемых значений в модели
используется s первых фактических наблюдений, что дает df
= T — s число степеней свободы.
Итоговая формула для расчета прогнозного интервала
будет иметь вид
30 000
h
h
yT h s  t  2, df     s2  yT h  yT h s  t  2, df     s2 . (9.13)
s
 
s
20 000
Покажем, как будет выглядеть интервальный прогноз по методу
сезонного Naïve на примере ряда № 1100 (рис. 9.5).
10 000
9000
10 000
8000
0
1
5
9
13
17
21
25
29
33
37
41
45
49 53
7000
6000
–10 000
5000
Рис. 9.4 Условный ряд данных, точечный (сплошная линия
с крестиками) и интервальный (пунктирные линии)
прогнозы по нему методом Naïve
4000
Как видим, из-за высокой дисперсии ошибки мы получили очень
широкий интервал, который помимо прочего еще и захватывает отрицательные значения (что, конечно же, обычно не имеет смысла). В случаях, когда нижняя граница оказывается отрицательной, но мы точно
знаем, что исследуемый показатель (например, объем продаж) быть
отрицательным не может, нижнюю границу имеет смысл заменить
просто на 0.
Логика построения интервальных прогнозов по сезонному
Naïve идентична описанной выше. Можно показать, что итоговый прогнозный интервал в этом случае будет аналогичен
260
3000
2000
1000
0
янв. 85 янв. 86 янв. 87 янв. 88 янв. 89 янв. 90 янв. 91 янв. 92
Рис. 9.5. Ряд данных № 1100 (сплошная линия с точками),
точечный (сплошная линия с крестиками) и интервальный
(пунктирные линии) прогнозы по нему методом сенного Naïve
Как видим, прогнозный интервал для ряда № 1100 по методу
сезонный Naïve все так же с каждым наблюдением становится все
261
шире, повторяя при этом динамику точечного прогноза. В самом ряде
№ 1100 тренд и сезонность незначительно меняются во времени, поэтому и прогноз по модели оказался достаточно точным. В таком случае
можно было бы построить и более узкий интервал.
ких оснований, а вот независимость ошибки от параметров
модели — вполне естественное допущение, поэтому дисперсия суммы в (9.15) будет раскрыта следующим образом:
Для построения прогнозных интервалов методами дрейфа
и средних отрезков лучше воспользоваться непараметрическими методами. Вычисление дисперсии напрямую в них
затруднено.
D  yt | t   D a0   t 2D a1   2t cov a0 ; a1   D t  .
9.1.2. Тренды и тренд-сезонные модели
Рассмотрим теперь общий принцип построения прогнозных интервалов для трендов и тренд-сезонных моделей.
В общем случае методика построения интервалов похожа
на описанную выше для простейших методов прогнозирования: нужно получить точечный прогноз по модели и рассчитать условную дисперсию. Если с точечным прогнозом
проблем не возникает, то вот с расчетом дисперсии в случае
с нелинейными моделями (оценки которых найдены численными методами) могут возникнуть сложности. Прогнозные интервалы для таких моделей лучше рассчитать какимнибудь непараметрическим методом.
Рассмотрим, как можно наиболее корректно рассчитать
дисперсию для линейного тренда. Далее все полученные
результаты можно будет распространить на нелинейные
тренды, линеаризованные тем или иным способом.
Модель тренда в параграфе 5.3 с учетом ошибки на шаге t
может быть записана в виде
yt  a0  a1t  t .
(9.14)
Условная дисперсия (9.14) тогда может быть выведена
следующим образом:
D  yt | t   D a0  a1t  t  .
(9.15)
Значение t в (9.15) неслучайно, поэтому, казалось бы,
условная дисперсия должна быть равна дисперсии ошибки.
Однако это не так. Коэффициенты тренда были найдены
по какой-то выборке. Стало быть, добавление в эту выборку
дополнительных наблюдений будет приводить к изменению
коэффициентов, т.е. на самом деле коэффициенты a0 и a1
имеют какую-то дисперсию относительно «среднего значения» (оценку которого как раз и дает МНК). Предполагать,
что коэффициенты независимы друг от друга, нет ника262
(9.16)
Чтобы рассчитать дисперсию коэффициентов и ковариацию между ними, нужно оценить ковариационно-вариационную матрицу коэффициентов, которая вычисляется
по следующей формуле1
D a  
1
1
RSS
X X      X X  ,

df
(9.17)
где a — это вектор коэффициентов; X — матрица объясняющих переменных; RSS — сумма квадратов ошибок модели,
а df — число степеней свободы в модели (df = T — k, где k —
число коэффициентов в модели). Математически каждый
из этих элементов записывается следующим образом:
 1 X1,0
 a0 
1 X
 a 
1,1
1 
a
, X
 ... ...
 ... 



 ak1 
 1 X1,T
... X k1,0 
... X k1,1 
;
...
... 

... X k1,T 
(9.18)
T
RSS   2t .
(9.19)
t 1
В результате расчетов по формуле (9.17) получается квадратная матрица размерности k  k , такая что:
 D a0 
cov a0 , a1 

cov
a
,
a
D a1 


1 0
D a   

...
...

 cov ak1, a0  cov ak1, a0 
... cov a0 , ak1  

... cov a1, ak1  
.

...
...

...
D ak1  
1 Магнус Я. Р., Катышев П. К., Пересецкий А. А. Эконометрика.
Начальный курс : учебник. 6-е изд., перераб. и доп. М. : Дело, 2004. С. 71.
263
Для нашей ситуации с линейным трендом все это значительно упрощается и имеет вид
1
1
 a0 
a , X 
 ...
 a1 

1
1
2
.
... 

T
Квадратная матрица в (9.17) будет рассчитываться

T
по формуле X X   T
 t
 
t 1
T

t 
t 1
,
2
t
 
t 1 
T
или, заменяя соответствующие элементы суммами арифметических прогрессий,


T T  1
 T

2
X X  
.
 T T  1 T T  12T  1 


2
6
(9.20)
Рассчитаем обратную матрицу в (9.17):
 T T  12T  1
 X X 1  

 X X 
1
6
T 
T T  1 T T  1 


2
2

 T T  12T  1
T T  1 



6
2


T T  1


T
 

2
Полученную матрицу в (9.21) теперь достаточно умножить на дисперсию ошибки для того, чтобы получить ковариационно-вариационную матрицу коэффициентов, которая
в случае с линейным трендом будет иметь вид
 D a0 
cov a0 , a1  
D a   
.
D a1  
 cov a0 , a1 
,
 T T  12T  1
T T  1 

,
 2
 2T  1 T  1   
6
2
 T T  1 





 6
4  

T T  1

T
 

2
(9.22)
Подставляя значения из (9.22) в (9.16), мы получим наиболее статистически корректную оценку условной дисперсии yt.
Однако для того, чтобы построить прогнозный интервал
на несколько шагов, нам все так же к предыдущей дисперсии
нужно прибавлять последующую. Тогда итоговая формула
для расчета прогнозного интервала будет выглядеть следующим образом:
yˆT  h  t  2, df   h  D  yt | t   yT  h  yˆT  h  t  2, df  
 T T  12T  1
T T  1 
2



T
T
T
1
1





6
2

,
 X X 1 
12
T T  1


T
 

2
264
2
 T 3 T  12 2T  1T  1
T 3 T  1 T  1 



72
24
 . (9.21)
 X X 1  
2
3
4
T T  1 T  1
T T  1T  1 
  



24
12
 h  D  yt | t 
.
(9.23)
Существует более простой вариант построения прогнозных интервалов для моделей трендов. Выводится он из предположения о том, что условную дисперсию можно заменить
дисперсией ошибки. В таком случае прогнозный интервал
будет иметь вид
yˆT  h  t  2, df   h  s  yT  h  yˆT  h  t  2, df  
 h  s
.
(9.24)
Рассмотрим пример ряда № 25 из базы M3. На рис. 9.6 показаны
интервальные прогнозы, построенные по формулам (9.23) и (9.24).
265
8000
7000
6000
5000
4000
3000
2000
1000
0
1975 1977 1979 1981 1983 1985 1987 1989 1991 1993
Рис. 9.6. Ряд данных № 25 (сплошная линия с точками),
точечный (сплошная линия) и интервальный (пунктирные
линии) прогнозы по нему, полученные по линейному тренду
Интервалы, полученные по формулам (9.23) и (9.24), оказались
настолько близкими друг к другу, что невооруженным взглядом найти
отличия между ними на графике не представляется возможным. В расчетах разница составляет четыре единицы, учитывая, что прогнозируемая величина измеряется в тысячах. Очевидно, что в таком случае проще
использовать формулу (9.24), которая, хоть и не совсем статистически
корректна, но при этом требует значительно меньше вычислений.
Что касается самого прогноза, можно в целом заметить: из-за того,
что линейный тренд не смог дать адекватный точечный прогноз (он
оказался значительно заниженным), в прогнозный интервал не попало
ни одно значение.
Методика построения прогнозных интервалов для
остальных моделей трендов аналогична и дает примерно
такие же результаты. В случае с тренд-сезонными моделями
к значению по тренду прибавляются (либо умножаются)
еще и сезонные коэффициенты. В самой методике построения ничего не меняется. Стоит только обратить внимание
на то, что при расчете дисперсии ошибок по тренд-сезонным
моделям оценивать сами ошибки нужно с учетом как тренда,
так и сезонности. Так, например, для модели с аддитивной
сезонностью ошибки будут рассчитываться по формуле
(6.8): t  yt   y t  ct  , где y t — расчетное значение по тренду
на наблюдении t.
266
Чтобы получить интервальный прогноз по мультипликативной тренд-сезонной модели, легче всего ее предварительно линеаризовать путем взятия логарифмов. Далее все
расчеты по ней будут идентичными расчетам по аддитивной
модели.
9.1.3. Модели экспоненциального сглаживания
Универсальной формулы для вывода дисперсии для всех
моделей экспоненциального сглаживания не существует,
поэтому их нужно рассматривать по отдельности. В зависимости от учета ошибок, а также типа тренда все модели ETS
можно разделить на классы11, представленные в табл. 9.1.
Таблица 9.1
Классы моделей по методу расчета дисперсии
Класс
модели
Тип сезонности
N
A
Класс 1
A,N,N
A,A,N
A,Ad,N
A,N,A
A,A,A
A,Ad,A
Класс 2
M,N,N
M,A,N
M,Ad,N
M,N,A
M,A,A
M,Ad,A
Класс 3
M
M,N,M
M,A,M
M,Ad,M
Класс 4
M,M,N
M,Md,N
Класс 5
A,M,N
A,Md,N
M,M,M
M,Md,M
A,M,A
A,Md,A
M,M,A
M,Md,A
A,N,M
A,A,M
A,Ad,M
A,M,M
A,Md,M
Классы объединяются по следующему принципу:
1. Класс 1 — линейные модели с аддитивной ошибкой.
2. Класс 2 — линейные модели с мультипликативной
ошибкой.
1 Hyndman Rob J., Koehler Anne B., Ord J. Keith, Snyder Ralph D.
Forecasting with Exponential Smoothing: The State Space Approach. SpringerVerlag Berlin Heidelberg, 2008. Р. 76.
267
3. Класс 3 — модели с линейным трендом, но мультипликативной ошибкой и сезонной компонентой.
4. Класс 4 — модели с мультипликативной ошибкой
и трендовой компонентой и либо без сезонности, либо
с мультипликативной сезонностью.
5. Класс 5 — тяжело оцениваемые модели с сочетанием
аддитивных и мультипликативных элементов.
Аналитические формулы для дисперсии можно вывести
только для моделей первых трех классов. Для последних
двух классов рекомендуется пользоваться непараметрическими методами. Модели класса 5 могут вызывать численные сложности при построении долгосрочных точечных прогнозов.
Рассмотрим, как можно рассчитать дисперсию для моделей из первого класса, на примере модели Брауна.
В соответствии с формой коррекции ошибок из табл. 7.6
будущее значение yt по ETS(A,N,N) на h шагов вперед может
быть записано в виде
 yt h  lt  t h
.

lt  lt 1  t
(9.25)
Чтобы корректно рассчитать дисперсию, далее делается
предположение о том, что модель (9.25) лежит в основе процесса, а значит вплоть до шага h уровень будет адаптироваться к ошибкам. Первое уравнение из системы переписывается в виде
yt h  lt h1  t h
h1


 h1

D  yt h | lt   D  lt    t   t h    2D   t    D t h  ,


 1

1
j 1
yˆT  h  t  2, df   s
 s
 h  1  1
. (9.28)
 h  1  1  y
2
T h
 yˆT  h  t  2, df  
. (9.29)
10 000
9000
8000
6000
5000
4000
3000
2000
1000
(9.27)
Затем рассчитаем условную дисперсию (9.27) с учетом
наших базовых предположений:
268

Рассмотрим, каким получится прогнозный интервал для метода
Брауна на примере ряда № 41. Мы уже делали точечный прогноз
для этого ряда, на рис. 9.7 показаны точечный и интервальный прогнозы
по модели Брауна с первым методом задания стартового значения.
Теперь подставим в (9.26) вместо lt+h — 1 значение, рассчитанное по второму уравнению из системы (9.25):
yt h  lt h2  t h1  t h .
Продолжая итеративно подставлять вместо lt расчетные
значения, полученные на основе второго уравнения в (9.25),
получим
1

 s2  2 h  1  1
2
7000
yt h  lt  t 1  ...  t h1  t h  lt    t   t h .

Формула (9.28) считается наиболее корректной для расчета дисперсии в модели Брауна. Использование вместо нее
просто дисперсии ошибок некорректно, так как такое допущение не учитывает структуру экспоненциального сглаживания.
На основе полученной дисперсии можно легко рассчитать
прогнозный интервал для модели Брауна:
(9.26)
h1

h 1
D  yt  h | lt    2  D t   D t   D t   2 h  1  1 
0
1975
1977
1979
1981
1983
1985
1987
1989
1991
1993
Рис. 9.7. Ряд данных № 41 (сплошная линия с точками),
точечный (сплошная линия) и интервальный (пунктирные
линии) прогнозы по нему, полученные по методу Брауна
269
Можно обратить внимание на то, что первое прогнозируемое фактическое значение не попало в доверительный интервал, хотя верхняя граница
оказалась достаточно близко к нему. Все же остальные значения, вплоть
до значения на 1994-й г., оказались лежащими внутри интервала. Правда,
сам интервал оказался очень широким, таким, что границы на 1994-й г.
получились (2284; 8589). Однако, если бы он был ýже, то, скорее всего,
некоторые значения просто не попали бы в него. Здесь мы сталкиваемся
с классической проблемой: в слишком узкие интервалы попадает меньшее число значений, что приводит к недооценке показателя, в то время
как слишком широкие границы не несут полезной информации.
Дисперсии по другим моделям класса 1 выводятся
по аналогии с дисперсией для модели Брауна. В табл. 9.2
приведены параметры, позволяющие рассчитать дисперсию
для каждого из методов классов 1 и 2.
Таблица 9.2
Параметры методов классов 1 и 2,
использующиеся при расчете дисперсии
cτ
(A,N,N) / (M,N,N)

(A,A,N) / (M,A,N)
  
    i
i 1
  d
(A,A,A) / (M,A,A)
    d
(A,Ad,A) / (M,Ad,A)
i 1
Примечание: dj = 1, если j = 0 и dj = 0 во всех остальных случаях.
Для расчета дисперсии моделей класса 1 используется
формула
(9.30)
Можно заметить, что дисперсия для моделей класса 1
зависит от срока прогнозирования. Причем, если в модели
есть трендовая компонента, то эта зависимость носит нели270

yˆt21, h  1

h1
h   2
.
2
2
 yˆt h  s  c h , h  1

1
(9.32)
Как мы уже обсуждали, аддитивная модель отличается
от мультипликативной лишь тем, как строится доверительный
интервал — точечные прогнозы в них абсолютно идентичны.

     i  d

s2 , h  1

D  yt h | yˆt    2  h1 2 
.
 s 1   c  , h  1
1

(9.31)
Посмотрим на примере ряда № 41, как различаются интервальные
прогнозы по модели ETS(A,N,N) и ETS(M,N,N) (рис. 9.8).

(A,N,A) / (M,N,A)

D  yt h | yˆt   1  s2 h  yˆt2h ,
где
0 4000 9000 14000
(A,Ad,N) / (M,Ad,N)

0 4000 9000 14000
Модель
нейный характер — интервалы в таком случае будут быстрее
расширяться, нежели в случае отсутствия такой компоненты.
Из-за того, что мультипликативная модель экспоненциального сглаживания отличается от аддитивной лишь
формой ошибки, параметры, приведенные в табл. 9.2, могут
быть с успехом применены для расчета дисперсий моделей
класса 2. Однако, очевидно, что сама формула должна отличаться от (9.30)1:
ETS(A,N,N)
1976 1978 1980 1982 1984 1986 1988 1990 1992 1994
ETS(M,N,N)
1976 1978 1980 1982 1984 1986 1988 1990 1992 1994
Рис. 9.8. Ряд данных № 41 (сплошная линия с точками),
точечный (сплошная линия) и интервальный (пунктирные
линии) прогнозы по нему, полученные по методу Брауна
1
Hyndman Rob J., Koehler Anne B., Ord J. Keith, Snyder Ralph D. Указ. соч. С. 83.
271
Как видим, интервалы, построенные для модели с мультипликативной ошибкой, оказались значительно шире интервалов по модели
с аддитивной ошибкой, причем, в общем-то, неоправданно шире — уже
на 1992 г. нижняя граница уперлась в отметку «0», а верхняя — перевалила за 10 000, что совершенно не информативно, учитывая точечный
прогноз примерно в 5500. Однако если в данном случае прогнозный
интервал по модели Брауна получился слишком широким, это не говорит о том, что для другого ряда с другой моделью он так же будет шире
интервала с аддитивной ошибкой. В каждом конкретном случае нужно
принимать индивидуальное решение о том, какую модель выбрать.
Последний класс моделей экспоненциального сглаживания, для которых мы рассмотрим метод построения параметрических прогнозных интервалов — это модели класса 3.
Дисперсия для этих моделей должна учитывать мультипликативную сезонную составляющую и рассчитывается так,
как это показано в табл. 9.3.
Таблица 9.3
Параметры методов класса 3,
использующиеся при расчете дисперсии
Модель
(M,N,M)
(M,A,M)
(M,Ad,M)
cτ
y t h
lt

lt  hbt
  
i 1
Как видим, значения введенного параметра cj для моделей
класса 3 совпадает со значениями для первых трех моделей
классов 1 и 2. В столбце y t h приведены формулы для расчета прогнозов по трендовой компоненте.
Формула расчета дисперсии для методов класса 3 выглядит несколько сложнее формулы (9.31) и имеет вид



D  yt h | yˆt   ct2h s  h 1  s2 1   2s2


h

 y t2h  ,

(9.33)
где

y t21, h  1 .

h1
h   2
2
2
 y t h  s  c h , h  1

1
272
h
a1h  1
 a1h yT   a1h T  .
a1  1
1
(9.35)
Сумма в правой части сформирована за счет учета всех
ошибок на шагах между 1 и h, которая из-за рекурсивной
формулы имеет вид
    i
j 1
9.1.4. Модели авторегрессии
Принципы построения прогнозных интервалов для моделей авторегрессии аналогичны используемым в случае
с моделями экспоненциального сглаживания. Здесь так же
требуется оценить дисперсию модели, на основе которой
далее строится интервальный прогноз. Покажем, как это
делается, на простом примере модели AR(1), которая имеет
вид yt  c  a1yt 1  t .
Если она лежит в основе генерирующего процесса, то
и на наблюдении h прогноз по ней будет осуществляться
следующим образом: yT h  c  a1yT h1  T h .
Выражая значение на наблюдении T + h через предыдущие (в соответствии с выводами (8.16) в параграфе 8.1),
получим
yT h  c

h
lt     bt
Стоит заметить, что с помощью формул (9.33) и (9.34)
для прогноза на период h > s можно получить лишь приблизительную оценку дисперсии. Более точные формулы более
громоздки, однако при этом не дают значительного повышения точности прогноза.
(9.34)
h
 a1hT   a1h1T 1  a1h2T 2  ...  a11T h1  T h .
1
(9.36)
Оценим теперь дисперсию выражения (9.35). Поскольку
первое слагаемое в правой части (9.35) представлено константами, его дисперсия будет равна нулю. В результате
этого получим
h


D  yT h | yT   D  a1h yT   a1h T   .


1
(9.37)
Первая составляющая в (9.37) не случайна, а задана конкретным значением, относительно которого мы строим прогноз. Поэтому дисперсия его будет равна нулю. В результате
273
все, что нам нужно сделать, — это оценить дисперсию суммы
(9.36):

(9.38)
В связи с тем, что после построения модели предполагается, что остатки не автокоррелируют, дисперсию суммы
в (9.38) можно переписать как сумму дисперсий и заодно
вынести коэффициенты за скобки:

 a121D T  h 1   D T  h 
.
(9.39)
Учитывая предположение о том, что дисперсия в модели
постоянна (т.е. в модели нет гетероскедастичности), мы
можем дисперсии ошибок на разных шагах заменить общей


2 h1
2 h2
D  yT h | yT   a1    a1   ...  a121  1 s2 .
(9.40)
Выражение в скобках можно переписать через формулу
суммы элементов геометрической прогрессии:
D  yT h | yT  
a12h  1
a12
1
s2 .
(9.41)
Дальнейшее построение прогнозных интервалов достаточно стандартно: предполагая, что остатки распределены
нормально, мы строим интервал по формуле
yˆT  h  t  2, df   s
a12h  1
a12  1
 s
 yT  h  yˆT  h  t  2, df  
a12h  1
a12  1
. (9.42)
Анализируя формулу (9.42), можно заметить, что в случае с построением нестационарной модели AR(1) (в которой
a1 ≥ 1) доверительный интервал будет нелинейно увеличиваться, что не очень хорошо, так как в таком случае он будет
излишне широким. Это одна из причин, почему модели
ARMA должны быть стационарными.
274


D  yT h | yT   1  12   22 ...   h12 s2 .
2h2
s2  a1
s2 ...  a121 s2  s2 .
дисперсией ошибки: D  yT h | yT   a1
Теперь вынесем дисперсии за скобку, чтобы получить
формулу оценки условной дисперсии y на h шагов вперед:
(9.43)
после чего рассчитать его условную дисперсию, которая
с учетом введенных предположений относительно ошибок
будет рассчитываться по формуле
(9.44)
Построим прогнозный интервал по модели ARIMA для ряда № 41.
Результаты проведения теста на стационарность указывает на то, что
исходный ряд данных нестационарен, а значит нужно строить модель
в разностях. Ряд в разностях и его коррелограммы приведены на рис. 9.9.
Y
ACF
–1,0–0,6–0,2 0,2 0,6 1,0 –200 0 200 400 600 800
2h1

yT h  1  1B   2B2  ...   h1Bh1 T h ,
2 h 1
2 h2
D  yT  h | yT   a1   D T 1   a1   D T  2 ... 
1976
1978
1980
1 2 3 4 5 6 7 8 9 1011 12
1982
PACF
–1,0–0,6–0,2 0,2 0,6 1,0

D  yT h | yT   D a1h1T 1  a1h2T 2  ...  a11T h1  T h .
В общем случае для того, чтобы оценить дисперсию произвольной модели ARMA, нам нужно ее представить в виде
модели MA бесконечного порядка и оценить дисперсию ошибок с учетом коэффициентов. Мы уже обсуждали в параграфе
8.1, что любая AR модель может быть приведена к бесконечной
MA. Именно такой переход от AR к MA мы и проделали только
что для модели AR(1). По аналогии с AR(1), можно выразить
прогнозное значение yT+h в любой модели ARIMA в виде
1984
1986
1988
1 2 3 4 5 6 7 8 9 10 11
Рис. 9.9. Ряд данных № 41 в разностях (сверху)
и его коррелограммы
275
По коррелограммам видно, что в ряде в разностях значимых коэффициентов автокорреляции нет, а значит, описываться этот ряд будет
просто константой, т.е. оптимальная модель ARIMA для этого ряда —
модель ARIMA(0,1,0) с дрейфом:
1  B yt  c  t .
(9.45)
Если эту модель привести к линейному виду, получим
yt  yt 1  c  t .
Прогноз по такой модели на h шагов получить достаточно просто:
yˆT h  yˆT h1  c  yT  c  h , что, если обратить внимание, аналогично
модели (5.26), рассмотренной нами в параграфе 5.2.
Точечный и интервальный прогнозы по этой модели приведены
на рис. 9.10.
1000 2000 3000 4000 5000 6000 7000 8000 9000
Прогноз по модели ARIMA(0,1,0) с дрейфом
Построим прогнозный интервал для модели № 2568, идентификацией и оцениванием которой мы занимались в гл. 8. Напомним, что мы
пришли к модели SARIMA(3,0,3)x(1,1,0)12:




12
12
2
3
1  0,34 B  1  B 1  0,17 B  0,17 B  0,99 B  yt 
0.01
0.01 
 0.09

 0.01




 1  0,27 B  0,06 B2  0,84 B3  t
0.07
0.06 
 0.06
.
(9.46)
Если эту модель представить в линейном виде (т.е. раскрыть скобки
и перегруппировать элементы), то она получается очень громоздкой
и будет выглядеть следующим образом:
yt  0,17 yt 1  0,17 yt  2  0,99 yt  3  0,66 yt 12  0,11yt 13 
 0,11yt 14  0,65 yt 15  0,34 yt  24  0,06 yt  25  0,06 yt  26 
.
 0,34 yt  27  t  0,27t 1  0,06t  2  0,84t  3
1976 1978 1980 1982 1984 1986 1988 1990 1992 1994
Рис. 9.10. Ряд данных №41 (сплошная линия с точками),
расчетные значения по модели (9.45) (сплошная линия),
точечный и интервальный прогнозы по нему
Как видим, из-затого, что тенденция на периоде прогнозирования
сменилась, прогноз по модели ARIMA с дрейфом оказался неточным. Более того, в прогнозный интервал попало только два значения
из шести.
276
Для моделей более высокого порядка методика построения прогнозных интервалов остается такой же, хотя
и усложняется из-за расчета дисперсии на несколько шагов
вперед.
Процесс построения интервалов для моделей SARIMA
аналогичен описанному здесь для моделей ARIMA, но очевидно, что он еще сложнее, так как в этих моделях используется значительно больше коэффициентов, а значит и выражения текущего значения через предыдущие становится
более громоздким.
Конечно же, в таких условиях расчет весов ψj для оценки дисперсии
(9.44) на h шагов вперед — нетривиальная, хотя и выполнимая, задача.
В наше время такие задачи могут автоматически выполнять различные
статистические пакеты. Так, в пакете «forecast» статистической программы «R» реализованы все необходимые формулы для построения
прогнозных интервалов. Единственной сложностью в нашем случае
заключается перевод всех расчетных значений и интервалов в исходные величины (в связи с предварительным логарифмированием ряда
данных). Данные по последним 1,5 годам и прогноз на 1,5 года вперед
по модели (9.46) представлены на рис. 9.11.
На себя обращает внимание то, что, несмотря на не самую высокую точность точечного прогноза, в построенный прогнозный интервал попали практически все фактические значения (за исключением
значения в январе 1994 г.). Можно заключить, что поскольку модели
277
15000
20
Series: SER01
Sample 1 116
Observations 116
Mean
–0,002216
Median
–0,003268
Maximum
0,216676
Minimum –0,120055
Std, Dev,
0,050972
Skewness
0,719445
Kurtosis
5,432547
Jarque–Bera 38,60716
Probability
0,000000
13000
16
11000
12
8
9000
4
0
5000
7000
–0,10 –0,05 –0,00 0,05 0,10 0,15 0,20
1991,0
1991,5
1992,0
1992,5
1993,0
1993,5
1994,0
Рис. 9.11. Ряд данных № 2568 (сплошная линия с точками),
точечный (сплошная линия) и интервальный (пунктирные
линии) прогнозы по нему, полученные по модели SARIMA
удалось в целом предугадать динамику ряда, прогнозный интервал
оказался достаточно широким для того, чтобы в него попали практически все значения (17 / 18 — это около 94% всех прогнозных значений),
но при этом и достаточно узким, чтобы сохранить смысл, хотя можно
заметить, что нижнюю границу интервала можно было бы безболезненно поднять. Если обратиться к распределению остатков в модели,
то мы увидим, что оно не только ненормально (что нарушает предпосылку для построения интервалов), но и имеет положительную асимметрию (рис. 9.12).
На рис. (9.12) на себя обращает внимание «выброс» после
0,20, исключение которого позволяет получить остатки ближе
к нормальным (мы это уже обсуждали в параграфе 8.4). Наличие этого
«выброса» так же вносит искажение в ширину прогнозного интервала.
Однако если его убрать, то уменьшатся как нижняя, так и верхняя
границы интервала, так как они рассчитываются по единой формуле,
основанной на СКО, что в итоге не очень хорошо скажется на точности
интервального прогноза.
Как видим, в данном случае учет «выброса» позволил получить
достаточно точные прогнозные интервалы, что не вписывается в стандартную методологию и, возможно, стоит рассматривать как исключение из правил.
278
Рис. 9.12. Распределение остатков модели SARIMA для ряда
№ 2568 и основные его статистические характеристики:
Справа от графика остатков приведены основные статистические
характеристики: Мean — средняя величина; Мedian — медиана;
Мaximum — максимальное значение; Мinimum — минимальное
значение; Std. Dev. — СКО; Skewness — асимметрия; Kurtosis —
эксцесс. Последние два значения — это статистика теста ХаркеБера и соответствующая ей остаточная вероятность. Тест ХаркеБера проверяет гипотезу о нормальном распределении случайно
величины по показателям эксцесса и асимметрии.
Отметим недостатки параметрических методов построения прогнозных интервалов:
1. При построении интервалов должны выполняться
стандартные предположения относительно остатков:
a. Математическое ожидание остатков должно быть
равно нулю;
b. Остатки должны быть распределены в соответствии
с нормальным законом распределения;
c. Остатки не должны автокоррелировать;
d. Дисперсия остатков должна быть постоянной;
e. Остатки не должны коррелировать с регрессорами.
2. Расчет дисперсии yt для построения прогнозных интервалов — нетривиальная процедура. В случае с более сложным моделями, расчет дисперсии оказывается отдельной
серьезной задачей.
3. Для получения точных прогнозных интервалов, нужно
получить точную оценку динамики ряда в будущем.
4. Для получения точных прогнозов в распоряжении
исследователя должно быть много наблюдений.
279
Для решения некоторых из обозначенных недостатков
можно обратиться к альтернативным методам построения
прогнозных интервалов — к таким, как непараметрические
и полупараметрические.
9.2. Íåïàðàìåòðè÷åñêèå è ïîëóïàðàìåòðè÷åñêèå ìåòîäû
ïîñòðîåíèÿ èíòåðâàëüíûõ ïðîãíîçîâ
Непараметрические и полупараметрические методы
построения интервалов обычно используются в одном
из следующих случаев:
1) в распоряжении прогнозиста имеется слишком мало
данных, из-за чего вводить какие-либо предположения
о законе распределения случайной величины неразумно,
либо параметры предполагаемого распределения не удается
адекватно оценить;
2) прогнозист имеет дело со сложной нелинейной моделью, в которой корректно рассчитать такие характеристики,
как условное математическое ожидание или условная дисперсия, не представляется возможным;
3) прогнозист просто не хочет вводить какие-либо дополнительные предположения об изучаемом процессе.
Если часть вычислений основывается на вводимых исследователем предположениях, можно говорить об использовании «полупараметрического» метода построения интервального прогноза. Если же в вычислениях не вводится вообще
никаких предположений, то говорят об использовании
«непараметрических» методов.
Например, прогнозисту требуется построить интервальный прогноз на основе предположения о распределении
случайной величины, но при этом он хочет получить непараметрическую оценку дисперсии. В такой ситуации можно
говорить об использовании «полупараметрического» метода
построения интервального прогноза.
Рассмотрим наиболее простые и популярные непараметрические и полупараметрические методы построения
интервальных прогнозов.
9.2.1. Метод Монте-Карло
В тех случаях, когда вычислить статистические характеристики, использующиеся при построении прогнозных
интервалов, оказывается сложно, можно использовать метод
280
Монте-Карло, который фактически подразумевает генерацию большого числа случайных величин на основе заданного
закона распределения вероятностей и построенной модели,
на основе которых далее получаются желаемые характеристики.
Так, построив ту или иную прогнозную модель, мы можем
предположить, что далее ряд данных будет описываться этой
же моделью с некоторой ошибкой:
yt h  yˆt h  t h ,
(9.47)
в которой обычно считается:
 
t ~ N 0;  2 .
(9.48)
Впрочем, ничто не мешает вместо нормального распределения использовать какое-то другое (например, равномерное
распределение случайных величин) — все зависит от предположений, вводимых прогнозистом.
Соответственно для получения прогнозных интервалов
нужно на основе (9.48) сгенерировать большое число ошибок и подставить их в формулу (9.47). Тогда будет получено
множество различных теоретических траекторий yt, по которым можно построить интервальный прогноз. Чтобы получить более адекватные оценки, имеет смысл сгенерировать
хотя бы по 1000 наблюдений на каждый шаг τ. На основе
полученных таким образом искусственных выборок можно,
например, выбрать 2,5%-ный квантиль справа и 97,5%-ный
квантиль слева для того, чтобы получить 95%-ный прогнозный интервал.
Например, мы можем все так же предположить, что ряд
№ 41 в будущем будет описываться моделью Брауна, в соответствии с которой новые фактические значения получаются
на основе формулы, взятой из табл. 7.6:
 yt h  lt h1  t h
.

lt  lt 1  t
(9.49)
Для того чтобы получить в MS Excel стандартно
нормально распределенную случайную величину, можно воспользоваться следующей непростой формулой: = SQRT( — 2
* LN(RAND()) )* SIN(2 * PI() * RAND()).
281
282
Рис. 9.13. Гистограммы распределений случайных величин, сгенерированных методом Монте-Карло
для прогнозов на 1–6 шагов вперед по модели Брауна
0,0%
1300 2100 2900 3700 4500 5300 6100 6900 7700 8500 9300 10 100
2,0%
4,0%
6,0%
8,0%
W 6
10,0%
12,0%
0,0%
1700 2300 2900 3500 4100 4700 5300 5900 6500 7100 7700 8300
4,0%
6,0%
8,0%
10,0%
9,0%
W 5
8,0%
7,0%
6,0%
5,0%
4,0%
3,0%
2,0%
1,0%
0,0%
1900 2500 3100 3700 4300 4900 5500 6100 6700 7300 7900 8500 9100 9700
2,0%
0,0%
2300 2900 3500 4100 4700 5300 5900 6500 7100 7700 8300 8900
4,0%
2,0%
6,0%
8,0%
W 4
10,0%
0,0%
3300 3700 4100 4500 4900 5300 5700 6100 6500 6900 7300 7700 8100 8500
10,0%
2,0%
0,0%
4400 4600 4800 5000 5200 5400 5600 5800 6000 6200 6400 6600
12,0%
4,0%
2,0%
W 3
6,0%
4,0%
12,0%
8,0%
6,0%
14,0%
10,0%
8,0%
12,0%
14,0%
W 1
12,0%
На рис. 9.13 показаны гистограммы распределений случайных
величин, полученных с помощью метода Монте-Карло на основе
модели (9.49) и предположения (9.48) с    335,57 . Всего было сгенерировано по 1000 случайных величин на каждый шаг прогноза.
На рисунках представлено шесть гистограмм, в правом верхнем
углу каждой из которых записан номер шага, на который делался
интервальный прогноз. Как видим, с каждым шагом распределение
случайных величин обретает все меньший эксцесс, становится более
пологим, вследствие чего 95%-ный интервал на первом шаге (примерно
от 4800 до 6100) получается значительно уже интервала на шестом
шаге (примерно от 2500 до 8500). По полученным гистограммам мы
выбрали соответствующие квантили, так, чтобы получить симметричные интервалы (чтобы слева и справа от границ было по 2,5% значений) и построили 95%-ный интервальный прогноз, который показан
на рис. 9.14.
На рисунке так же представлен интервальный прогноз, полученный
параметрическим методом в параграфе 9.1. Как видим, смоделированный нами интервал оказался незначительно ýже (что можно списать
на случайность), но в целом — во многом повторяет параметрический
интервал.
В случаях, когда рассчитать дисперсию по модели оказывается сложно, можно воспользоваться методом МонтеКарло. Например, для моделей экспоненциального сглаживания классов 4 и 5 рекомендуется при построении
интервальных прогнозов пользоваться этим методом, что,
как видим, приводит к неплохим результатам.
Стоит, однако, заметить, что метод требует значительных
вычислений и серьезной работы с массивами данных, что,
впрочем, в наше время может быть автоматизировано. В случае с построением интервального прогноза на шесть наблюдений вперед, мы сгенерировали 6 · 1000 = 6000 случайных
величин, а в случае с прогнозированием на 18 наблюдений
вперед нужно будет сгенерировать 18 000 случайных величин.
Главный недостаток метода Монте-Карло на самом деле
заключается в предположении относительно распределения
ошибок в модели. Существует много работ на тему того, что
нормальное распределение плохо описывает экономические
10,0%
W 2
В русском MS Office эта функция будет иметь вид =
КОРЕНЬ( — 2*LN(СЛЧИС()) )* SIN(2* ПИ()* СЛЧИС()).
Чтобы получить распределение с заданным СКО, нужно
эту величину умножить на нужное значение. Например, это
значение можно умножить на СКО ошибок модели (9.49)
283
10 000
9000
8000
7000
6000
5000
4000
3000
2000
1000
0
1975 1977 1979 1981 1983 1985 1987 1989 1991 1993
Рис. 9.14. Ряд данных № 41 (сплошная линия с точками),
точечный (сплошная линия) прогноз, полученный по модели
Брауна, и интервальные прогнозы, рассчитанные на основе
параметрического метода (мелкая пунктирная линия)
и метода Монте-Карло (прерывистая линия)
процессы, так как вероятность более редких событий на практике оказывается значительно выше, чем это предполагает
гауссиана1. Чтобы убрать это предположение, можно воспользоваться одним из методов «бутстрапирования», которые
основаны на идее генерации случайных величин на основе
имеющегося эмпирического распределения величины.
Однако существуют и более простые методы получения
оценок, не основанные на предположении о нормальности
распределения ошибок, не требующие оценки функции распределения и генерации случайных величин. Рассмотрим
подробнее два из них.
9.2.2. Построение интервальных прогнозов на основе
неравенства Чебышева
Еще в начале 1970-х гг. прогнозисты начали замечать,
что фактические значения, получаемые на прогнозируе1 Эта проблема лучше всего рассмотрена в книге: Талеб Нассим Николас. Черный лебедь. Под знаком непредсказуемости / пер. с англ. В. Сонькина, А. Бердичевского, М. Костионовой, О. Попова ; под ред. М. Тюнькиной. М. : Издательство КоЛибри, 2009.
284
мом периоде, попадают в прогнозные интервалы с меньшей
частотой, чем это заявлено по нормальному закону распределения случайных величин1. Так, в 95%-ный интервал в лучшем случае попадало 85,7% всех наблюдений, а в 90%-ный —
только 80%. В 1987 г. С. Макридакис показал, что с ростом
горизонта прогнозирования процент попадающих значений
в доверительный интервал уменьшается2. Так, например,
если в 95%-ный прогнозный интервал на 1 шаг вперед попадало около 82,7% всех наблюдений, то уже на 6 шагов вперед
в том же интервале оказывалось лишь 73,7% наблюдений.
На основе этих эмпирических наблюдений был разработан простой метод построения прогнозных интервалов,
состоящий их следующих шагов3:
1. На основе построенной модели на каждом наблюдении
дается прогноз на один шаг вперед. На основе этого прогноза
рассчитываются соответствующие «одношаговые» ошибки:
e1t  yt  yˆ1t ,
где верхний индекс определяет горизонт прогнозирования h,
а нижний — номер наблюдения.
Если в ряде данных было T наблюдений, то на основе них
будет получено T — 1 одношаговых прогноза и T — 1 одношаговая ошибка.
2. На основе той же модели на каждом наблюдении дается
прогноз на два шага вперед (например, на основе первого
наблюдения дается прогноз на третье и т.д.). По полученным
расчетным значениям так же рассчитываются ошибки, которые можно назвать «двухшаговыми»: et2  yt  yˆt2 , причем
число этих ошибок уже будет равно T — 2.
3. Продолжая давать точечные прогнозы на 3, 4, … h шагов
по аналогии с тем, как это делалось в шаге два, получаются
соответствующие ряды ошибок et3 , et4 , …, eth . Число ошибок
1 Williams W. H., Goodman M. L. A Simple Method for the Construction
of Empirical Confidence Limits for Economic Forecasting // Journal of the
American Statistical Association. 1971. Vol. 66. № 336. Р. 752—754.
2 Makridakis S., Hibon M. Confidence Intervals. An Empirical Investigation
of the Series in the M — Competition // International Journal of Forecasting.
1987. Vol. 3. Р. 489–508.
3 Gardner E. A Simple Method of Computing Prediction Intervals for Time
Series Forecasts // Management Science, 1988. Vol. 34. № 4. Р. 541–546.
285
в каждой из этих частей будет соответственно равно T — 3,
T — 4, …, T — h.
Получив h рядов ошибок, по каждому из них рассчитывается τ СКО по стандартной формуле:
 e 
 
1 T 1 
 et
T  1 t 1
2
.
(9.50)
4. Далее строится доверительный интервал. Однако
в связи с тем, что интервал, построенный на основе нормального закона распределения вероятностей, на практике оказывается слишком узким, Е. Гарднер предложил вместо
z-статистики использовать неравенство Чебышева, которое
записывается следующим образом13:
P  Y      
1
2
,
(9.51)
Раскрывая модуль в (9.54), приходим к неравенству:

1
1 
P  
  y 
   ,

 

(9.55)
на основе которого теперь можно построить прогнозный интервал шириной (1 — α). Применительно к нашему случаю
он будет рассчитываться для каждого
шага τ на
СКО
1 
1 основе
 e  y  yˆt  
 e , где τ = 1,
ошибок для этого шага: yˆt  


2, …, h.
Полученные таким методом интервалы будут неровными
и достаточно широкими.
Рассмотрим, каким получится интервал для метода Брауна для ряда
№ 41. На рис. 9.15 показаны интервалы, построенные на основе неравенства Чебышева (прерывистая линия) и (для сравнения) интервалы,
построенные стандартным методом для ETS(A,N,N) (мелкая пунктирная линия).
10 000
9000
что может быть интерпретировано следующим образом: вероятность того, что случайная величина отклонится от своего математического ожидания на величину бóльшую  ,
меньше 1 2 . На основе неравенства (9.51) можно сформировать прогнозные интервалы. Для начала выразим остаточную вероятность через α:

1
2
7000
6000
5000
4000
,
(9.52)
3000
2000
откуда следует, что
1000

1

.
(9.53)
Подставляя (9.52) и (9.53) в (9.51), получим:

1 
P y 
   .
 

(9.54)
1 Вентцель Е. С. Теория вероятностей : учебник. 11-е изд. М. : КНОРУС, 2010. С. 331.
286
8000
0
1975 1977 1979 1981 1983 1985 1987 1989 1991 1993
Рис. 9.15. Ряд данных № 41 (сплошная линия с точками),
точечный (сплошная линия) прогноз, полученный
по модели Брауна, и интервальные прогнозы, рассчитанные
на основе параметрического (мелкая пунктирная линия)
и непараметрического (прерывистая линия) методов
Как видим, интервалы, рассчитанные таким методом, оказались бессмысленно широкими. Вызвано это двумя причинами.
287
Первая заключается в том, что само неравенство Чебышева универсально и подразумевает широкие интервалы.
Тут можно отметить, что в случае, если t-статистика для 5%
и числа степеней свободы больше пяти уже становится
меньше 2,5, то статистика, рассчитанная на основе неравенства Чебышева для той же остаточной вероятности, составит
1
0,05
 4,47 .
Очевидно, что именно из-за этого наблюдается такое
существенное различие между этими двумя методами. Это
же отмечалось в различных работах, посвященных построению эмпирических прогнозных интервалов11.
Однако это не единственная причина получения таких
неадекватно широких интервалов для нашего случая. Из-за
того, что мы применили метод Брауна к нестационарному
процессу, точечные прогнозы на 2, 3, … 6 шагов вперед оказались с серьезными систематическими занижениями. В итоге
и СКО в каждом из этих случаев оказалось слишком большим. Можно заключить, что в тех случаях, когда на периоде аппроксимации модель демонстрирует систематические
завышения либо занижения, предложенным методом пользоваться не стоит.
Рассмотрим этот же метод построения интервалов применительно
к другой модели, построенной по тому же ряду данных. Для примера
мы взяли модель Хольта, которая теоретически должна давать более
точные прогнозы в таких случаях, как в ряде № 41 (с возрастающей
тенденцией). Далее, используя описанный в данном параграфе метод
на основе неравенства Чебышева, мы оценили ошибки и их СКО.
В результате всех расчетов был получен прогнозный интервал, показанный на рис. 9.16.
Как видим, из-за того, что тенденция на периоде прогнозирования
сменилась, только 50% всех фактических значений попало в интервал,
построенный на основе параметрического метода и предположения
о нормальности распределения остатков модели. Напротив, в интервал,
построенный на основе неравенства Чебышева, попали все значения.
Конечно, он все так же остается шире стандартного интервала, однако
за счет более точного выбора аппроксимирующей модели интервалы
оказались ýже, чем в случае с моделью Брауна.
1 См., например: Chatfield C. Calculating interval forecasts // Journal of
Business and Economic Statistics. 1993. Vol. 11. Р. 121–135.
288
10 000
9000
8000
7000
6000
5000
4000
3000
2000
1000
0
1975 1977 1979 1981 1983 1985 1987 1989 1991 1993
Рис. 9.16. Ряд данных № 41 (сплошная линия с точками),
точечный (сплошная линия) прогноз, полученный
по модели Хольта, и интервальные прогнозы, рассчитанные
на основе параметрического (прерывистая линия)
и непараметрического (мелкая пунктирная линия) методов
Из всего этого следует важный вывод: для того, чтобы
получить адекватные прогнозные интервалы, используя описанный выше подход, нужно предварительно выбрать наиболее подходящую для ряда данных аппроксимирующую
модель. Тогда мы получим, с одной стороны, широкие интервалы за счет высокого значения статистики
1

, а с дру-
гой, — узкие интервалы за счет небольших значений СКО
для соответствующих шагов.
Для уменьшения ширины интервалов с сохранением
самого принципа, можно на каждом шаге τ рассчитывать
свои оптимальные коэффициенты, которые гарантировали
бы более точную аппроксимацию моделью ряда данных
с учетом прогноза не на один шаг вперед на периоде аппроксимации, а на τ шагов вперед. Главная проблема, однако, тут
заключается в том, что такой подход требует значительно
больше вычислений, чем в случае с простым расчетом τ —
шаговых СКО. Кроме того, такой подход требует обоснования, потому что в соответствии с общепринятым стандартом
289
при построении модели по ряду данных предполагается, что
выбранная модель оптимальна и позволяет описать исследуемый процесс наилучшим образом. Пересчет же модели
с учетом прогноза на τ шагов вперед противоречит этому
стандарту.
Ïðàêòèêóì
Вопросы для самоконтроля
1. Почему возникает необходимость получения интервальных
прогнозных оценок?
2. В чем различие понятий «доверительный интервал» и «прогнозный интервал»?
3. Какие типы методов построения прогнозных интервалов используются в прогнозировании?
4. Что представляет собой параметрический метод оценки прогнозных интервалов?
5. Какую роль в параметрическом методе играет дисперсия
ошибки?
6. Как использовать параметрический метод интервальн ой
оценки прогнозов для простых моделей, для трендов, для моделей
экспоненциального сглаживания и моделей авторегрессии?
10. Почему параметрические методы получения интервальных
прогнозных оценок не всегда могут использоваться в социальноэкономическом прогнозировании?
11. Какие методы получения интервальных прогнозных оценок
называют непараметрическими? Чем они отличаются от полупараметрических?
12. Как, используя метод Монте-Карло, получить интервальную
прогнозную оценку?
13. Каковы важные положительные характеристики метода
Монте-Карло, используемого для построения интервальных прогнозов, а также его недостатки?
14. Что представляет собой неравенство Чебышева?
15. Как, используя неравенство Чебышева, получить интервальные прогнозные оценки?
16. В чем главный недостаток применения неравенства Чебышева
для оценки интервала прогноза?
Задания
Задание 1. Обратимся к моделям, построенным в задании 1 гл. 5.
Все расчеты для этого задания рекомендуется выполнять в MS Excel.
1. Постройте параметрические прогнозные интервалы для полученных моделей.
2. Постройте полупарметрические интервалы, используя неравенство Чебышева.
290
3. Постройте интервалы методом Монте-Карло, предполагая, что
остатки модели распределены нормально и независимо друг от друга.
4. Постройте линейные графики по фактическим, расчетным
и прогнозным значениям. Какой из интервалов, по вашим оценкам,
получился наиболее адекватным? Почему?
Задание 2. По ряду № 625 постройте модель простого
экспоненциального сглаживания (см. задание 2 гл. 7). Все расчеты
для этого задания рекомендуется выполнять в MS Excel.
1. По полученной модели постройте параметрические прогнозные
интервалы на шесть наблюдений вперед.
2. Постройте интервалы, используя неравенство Чебышева.
3. Постройте интервалы, используя метод Монте-Карло со стандартными предположениями относительно распределения остатков.
4. Постройте линейные графики по фактическим, расчетным
и прогнозным значениям. Сравните полученные интервальные
прогнозы. Каковы особенности этих интервалов? Какой из методов,
по вашим ощущениям, дал более адекватные прогнозные интервалы?
10.1. Ìåòîä íàèìåíüøèõ êâàäðàòîâ ñ äèñêîíòèðîâàíèåì
Ãëàâà 10.
ÀËÜÒÅÐÍÀÒÈÂÍÛÅ
ÌÅÒÎÄÛ ÎÖÅÍÊÈ ÊÎÝÔÔÈÖÈÅÍÒÎÂ
ÏÐÎÃÍÎÇÍÛÕ ÌÎÄÅËÅÉ
В результате освоения данной главы студент должен:
знать
• границы области применения методов регрессионно-корреляционного анализа выборочного метода и границы области применения альтернативных методов оценки коэффициентов прогнозных
моделей;
• современные подходы и методы оценки коэффициентов прогнозных моделей;
• о многообразии способов решения задачи оценки коэффициентов прогнозных моделей;
уметь
• применять системный подход к выбору метода оценки коэффициентов прогнозных моделей;
• применять ситуационный подход для выбора адекватного
метода оценки коэффициентов прогнозных моделей;
• выбирать метод построения интервальной оценки прогноза
эволюционных социально-экономических процессов;
• формулировать гипотезы, проводить эмпирические и прикладные исследования с целью выбора адекватного метода оценивания
коэффициентов прогнозных моделей;
владеть
• методикой использования МНК для оценки коэффициентов
моделей прогнозирования эволюционных социально-экономических
процессов;
• методом z-множителей для выбора лучшего способа задания
этих множителей;
• навыками самостоятельной научной и исследовательской
работы в части выбора лучшего метода оценивания коэффициентов
прогнозной модели.
292
Если задачей краткосрочного прогнозирования эволюционных процессов является приспособление модели к краткосрочно действующим отклонениям от общей тенденции,
то задача среднесрочного прогнозирования эволюционной
динамики заключается в том, чтобы, уловив наметившиеся
отклонения от общей тенденции, вызванные адаптацией
социально-экономического объекта к изменившимся внешним и внутренним условиям, оценить будущую динамику
с учетом этих отклонений.
Как мы обсуждали ранее, главный принцип выборочного
метода (чем больше собрано информации о прошлом состоянии объекта, тем лучше) для необратимых эволюционных
процессов абсолютно непригоден. В этом случае необходимо собрать информацию о динамике объекта только за тот
период, когда сам объект не успел изменить свои основные
свойства, когда наблюдаемые количественные наблюдения
не привели объект к новому качеству. Необходимо предварительно определить период инерционности объекта
социально-экономического прогнозирования, а затем, ориентируясь на продолжительность этого периода, сформировать
базу данных. К сожалению, формальных процедур, решающих эту задачу, пока не разработано. Приходится предварять сбор статистики серьезным экономическим анализом
(фундаментальным анализом), опираясь на опыт и интуицию экспертов.
Поскольку построенная в такой ситуации модель нельзя
воспринимать как приближение к «истинной модели, лежащей в основе процесса», а следует понимать только как некоторое описание тенденции, действовавшей в определенный
промежуток времени, то требования к оценкам таких моделей существенно смягчаются.
Экономические системы, которые являются объектом
прогнозирования, развиваются во времени. И это развитие
носит, в том числе и эволюционный характер. Это означает, что все сложившиеся к какому-либо отрезку времени
отношения, пропорции и взаимосвязи постепенно изменяются — система адаптируется к внешним и внутренним воздействиям. Если для такого отрезка времени удается построить адекватную модель этой системы, то она будет хорошо
работать только в этот промежуток времени и некоторый
промежуток времени в будущем, пока по инерции сохра293
няются отдельные пропорции и взаимосвязи. Но на среднюю и дальнюю перспективы эта модель не дает прогнозы
необходимой точности — экономическая система изменится,
а модель останется неизменной. Поскольку экономическая
система меняется, адаптируясь к новым состояниям внешней и внутренней среды, то и модель, которую хотелось бы
использовать для прогнозирования, необходимо адаптировать вслед за объектом прогнозирования. Сделать это можно
несколькими способами, каждый из которых имеет свои преимущества и недостатки. Выбор лучшего из них — за прогнозистом.
Исторически первым возник метод адаптации прогнозных моделей, ориентированный на корректировку оценок
МНК — дисконтированный МНК. Как уже отмечалось,
для прогнозиста в случае прогнозирования эволюционно
протекающих процессов важнее построить такую прогнозную модель, которая более точно описывает последние
наблюдения, нежели те, которые убывают в прошлое. Ведь
тем самым учитываются изменения в тенденциях, сложившиеся в последнее время. Тогда модель вслед за прогнозируемым объектом будет адаптироваться к этим новым
тенденциям. Поэтому ошибки аппроксимации ε последних
наблюдений должны учитываться в большей степени, чем
ошибки аппроксимации предыдущих наблюдений. Важно,
чтобы ошибки аппроксимации в последние моменты наблюдений были как можно меньшими, а что касается тех наблюдений, которые оказались в далеком прошлом, их значимость
для прогнозирования весьма мала. Действительно, для того
чтобы спрогнозировать цену за одну тонну зерна на будущий
год, менее всего важно знать, какой была эта цена, например, в 1950 г. и уж совсем бессмысленно ориентироваться
на цены 1700 г.
Логично поэтому задать квадратам ошибок аппроксимации (как положительным значениям, характеризующим
меру отклонения) прогнозной моделью фактических данных некоторые веса vt так, чтобы их значения уменьшались
с убыванием наблюдений в прошлое:
T  T 1  ...  1 .
(10.1)
Для удобства вводят дополнительное условие:
T
S   t  1 ,
t 1
294
(10.2)
но его выполнение не является обязательным.
Тогда ряд квадратов ошибок аппроксимации с учетом весов
(10.1) можно представить, как некоторый взвешенный ряд:
T T2 , T 1T2 1,..., 112 .
(10.3)
Необходимо подобрать такие значения коэффициентов
модели, чтобы сумма этого ряда была минимально возможной. Этот критерий формулируется так:
Q   t 2t   t  yt  yˆt   min .
2
t
(10.4)
t
Использование такого критерия, например, для линейной
однофакторной модели
yˆt  a0  a1x t
(10.5)
приведет к необходимости решения системы двух таких
уравнений:
 t yt  a0  t  a1  t x t
t
t
t

2 .
 t x t yt  a0  t x t  a1  t x t
t
t
t
(10.6)
Из этой системы можно вывести формулы для расчета
коэффициентов модели:

 t yt  a1  t x t
t
a  t
0

 t

t

 t x t yt   t x t  t yt .
a  t
t
t
2
 1



 t x t2    t x t 
t

t

(10.7)
Чтобы вычислить значения коэффициентов в (10.7), необходимо задать характер взвешивания, т.е. ответить на вопрос,
как задавать веса vt? Очевидно, что способов задания весов
для квадратов ошибок аппроксимации таких, чтобы выполнялись условия (10.1) и (10.2), очень много. Из этого мно295
допустить, что она в соответствии с (10.2) будет равна 1.
Однако делать этого нельзя, так как, как мы уже выяснили
в параграфе 7.2, на практике в ряде случаев сумма весов
(10.2) к 1 не сходится. В частности, она не будет сходиться
к 1 при малых значениях α, а в случае с МНК с дисконтированием нас могут интересовать эти значения для того,
чтобы более равномерно распределить веса между наблюдениями.
Как видим, МНК с дисконтированием требует априорного задания постоянной сглаживания — в данном случае
выбор значения α остается целиком и полностью на совести
прогнозиста. В этом заключается одновременно как преимущество, так и недостаток метода.
Очевидно, что МНК с дисконтированием может использоваться и при расчете коэффициентов трендов. Для этого xt
нужно всего лишь заменить на t.
Рассмотрим, как можно построить модель линейного тренда МНК
с дисконтированием с различными значениями постоянной сглаживания, на примере ряда № 42 из базы M3. На рис. 10.1—10.3 представлены ряды данных и их прогнозы моделью линейного тренда, коэффициенты которой рассчитаны МНК с дисконтированием с различными
значениями постоянной сглаживания. Последние шесть значений
при построении модели были исключены.
296
3000
2000
1000
2000
1000
0
0
1975
1977
1979
1981
1983
1985
1987
1989
1991
1993
3000
Рис. 10.1. Ряд данных № 42 и его прогноз моделью линейного
тренда, рассчитанного МНК с дисконтированием:
слева — α = 0,01; справа: α = 0,25
6000
6000
5000
4000
5000
4000
3000
3000
2000
1000
2000
1000
0
0
1975
1977
1979
1981
1983
1985
1987
1989
1991
1993
t
5000
4000
Рис. 10.2. Ряд данных № 42 и его прогноз моделью линейного
тренда, рассчитанного МНК с дисконтированием:
слева — α = 0,5; справа — α = 0,75
6000
6000
5000
4000
5000
4000
3000
3000
2000
1000
2000
1000
0
0
1975
1977
1979
1981
1983
1985
1987
1989
1991
1993
Обратим внимание на то, что в случае задания α = 1, расчет коэффициентов по формуле (10.7) невозможен из-затого,
что в таком случае мы пытаемся оценить коэффициенты парной регрессии по одной точке, что в принципе невозможно.
В частности, в знаменателе угла наклона в таком случае
будет использоваться лишь xT и, в результате сокращений,
знаменатель становится равным нулю.
Кроме того, при расчете константы в знаменателе представлена сумма весов  t , по поводу которой есть соблазн
5000
4000
1975
1977
1979
1981
1983
1985
1987
1989
1991
1993
(10.8)
6000
1975
1977
1979
1981
1983
1985
1987
1989
1991
1993
vT  , vT 1  (1  ),...vt  (1  )T t ,...
6000
1975
1977
1979
1981
1983
1985
1987
1989
1991
1993
жества следует выбрать некий универсальный способ, который он мог бы быть использован в самых различных случаях
прогнозирования. А таким универсальным способом задания
весов является тот, который использовался для случая краткосрочного прогнозирования Брауном, т.е.
Рис. 10.3. Ряд данных № 42 и его прогноз моделью линейного
тренда, рассчитанного МНК с дисконтированием:
слева — α = 0,99; справа — α = 1,25
297
Как видим, при малых значениях постоянной сглаживания
(рис. 10.1, слева) в расчете тренда используются практически все
значения с более-менее одинаковыми весами (которые, тем не менее,
медленно убывают). Из-за этого те значения, которые были получены
в период с 1975 по 1979 гг., оказывают достаточно сильное влияние
на окончательную сумму квадратов отклонений, в результате чего
и тренд на периоде прогноза оказывается с систематическим занижением. При увеличении постоянной сглаживания в расчете коэффициентов используется все меньше и меньше старых значений, веса перераспределяются между более новыми значениями (рис. 10.1, справа,
и рис. 10.2). Наиболее точный прогноз, как видим, получается при α,
лежащей в районе 0,25.
Когда постоянная сглаживания близка к 1 (рис. 10.3), в расчете
используется последнее значение и в очень малой мере — предпоследнее. Все остальные наблюдения фактически не учитываются. Именно
поэтому тренд в таком случае очень сильно задирается и представляет
собой линию, проведенную через последние две имеющиеся точки
(на 1987—1988 гг.).
Использование значений постоянной сглаживания из запредельного множества не имеет особого смысла, так как в этом случае угол
наклона модели продолжает расти, в связи с чем она перестает прогнозировать что бы то ни было (рис. 10.3, справа).
Как видим, прогноз зависит от постоянной сглаживания.
Возникает вопрос: как же выбрать оптимальную постоянную сглаживания? Казалось бы, ответ очевиден: рассчитать
сумму квадратов отклонений и минимизировать ее, подбирая значение α. Но в данном решении есть серьезный изъян.
Сам МНК с дисконтированием подразумевает, что каждому
наблюдению исследователь задает разный вес. Применение
в таком случае критерия минимума квадратов отклонений
противоречит этой идее: мы подбираем веса из предположения о том, что веса одинаковы.
К сожалению, универсального решения в данном случае
нет. Однако мы предлагаем воспользоваться процедурой
ретропрогноза, которую можно автоматизировать следующим образом. На основе большей части данных по формулам (10.7) рассчитываются значения коэффициентов
с заранее заданной величиной постоянной сглаживания.
По полученной модели дается прогноз на участок ретропрогноза, оценивается его точность. В качестве коэффициента
оценки точности можно использовать любой из рассмотренных нами в параграфе 2.5. Для простоты можно рассчитать
RSS. Далее численными методами подбирается такое значение α, которое минимизировало бы значение RSS. Исполь298
зуя полученное значение, исследователь может на его основе
пересчитать коэффициенты модели с учетом новых данных
и дать прогноз на наблюдения вне выборки.
Как видим, такой подход не очень удобен и не позволяет
модели адаптироваться при поступлении новых данных —
коэффициенты модели при этом придется вновь пересчитать.
Однако на основе МНК с дисконтированием можно предложить адаптивный метод, свободный от этого недостатка.
Обратим внимание на то, что левая часть первого уравнения в (10.6) представляет собой не что иное, как взвешенную
среднюю переменной yt:
T
yT   t yt .
t 1
(10.9)
Первое слагаемое правой части уравнения представляет
собой произведение коэффициента a0 на сумму весов S.
В случае выполнения (10.2) это слагаемое становится просто
неизвестным значением коэффициента модели a0. Однако
это условие не всегда выполняется на практике.
Второе слагаемое правой части первого уравнения в (10.6)
представляет собой сумму произведений весов на переменную,
и как следствие этого — взвешенную среднюю переменной xt:
T
xT   t x t .
t 1
(10.10)
Первое уравнение системы (10.6) можно представить так:
yT  a0 S  a1xT ,
(10.11)
Второе уравнение системы (10.6) также можно рассмотреть через средние взвешенные значения:
yT xT  a0 xT  a1 xT2 ,
T
T
t 1
t 1
где yT xT   t x t yt , xT2   t x t2 .
С учетом этого, система уравнений МНК с дисконтом для
линейной однофакторной модели может быть представлена
в виде
 yT  aS  a1xT
.

2
 yT xT  a0 xT  a1 xT
(10.12)
299
Применяя этот способ задания весов квадратов ошибок
аппроксимации, получаем необходимость вычисления таких
адаптивных средних, которые одновременно являются прогнозом на последующее (T + 1)-е наблюдение:
yT 1  yT  1    yT ;
(10.13)
xT 1  xT  1    xT ;
(10.14)
yT 1xT 1  yT xT  1    yT xT ;
(10.15)
xT2 1  xT2  1    xT2 .
(10.16)
Такой способ более интересен и удобен не только тем, что
позволяет построить адаптированную к последним наблюдениям модель, но и тем, что при появлении новых наблюдений t = T + 1 легко пересчитывать коэффициенты модели.
Однако подбор оптимальной постоянной сглаживания все
так же сопряжен с обозначенными выше сложностями.
Единственным адекватным решением на данный момент
является использование процедуры ретропрогноза при подборе оптимальной α.
Чтобы обобщить МНК с дисконтированием для множественных регрессий, рассмотрим его в матричном виде
для модели вида
Y  XA   .
(10.17)
Здесь Y (фактические значения зависимой переменной),
A (коэффициенты модели) и ε (ошибки модели) — это векторы, а X (независимые переменные) — матрица, такие, что
 1 x1,0
 y0 
1 x
y 
1,1
1
Y  , X 
 ... ...
 ... 

 
 yT 
 1 x1,T
... x k,0 
 a0 
 0 
a 
 
... x k,1 
 , A  1 ,    1  .
... ... 
 ... 
 ... 

 
 
... x k,T 
 ak 
 T 
Чтобы применить МНК с дисконтированием, вводится
квадратная матрица весов, на диагонали которой стоят веса,
соответствующие наблюдениям, а в остальных ячейках — нули:
 vT
0

0

0
300
0
vT 1
0
0
0 0
0 0
 , где t   1   t .
... 0 

0 v0 
Итоговый вектор коэффициентов в матричном виде рассчитывается по формуле

A  X T X

1
X T Y .
(10.18)
Таким образом, задавая различные значения постоянной
сглаживания, можно получать такие оценки множественной
регрессии, которые позволяли бы в разных ситуациях учитывать имеющиеся в распоряжении наблюдения в разной
степени.
Заметим, что МНК с дисконтированием фактически
является одной из разновидностей взвешенного МНК. Главное отличие от этого метода заключается в том, что в МНК
с дисконтированием веса распределяются в соответствии
с принципом обесценивания данных во времени: новые
наблюдения имеют бóльшую ценность, чем старые.
Рассмотрим пример с построением модели множественной регрессии. В табл. 10.1 приведены данные условного примера.
Таблица 10.1
Данные условного примера
Месяц
Объем
Стоимость
Затраты
Затраты
выпуска, yt материалов, x1,t труда, x2,t капитала, x3,t
Январь 09
147
22
63
1002
Февраль 09
175
22
64
1035
Март 09
175
20
65
1027
Апрель 09
151
24
65
994
Май 09
170
23
66
995
Июнь 09
167
24
67
992
Июль 09
172
24
67
1016
Август 09
151
23
68
1048
Сентябрь 09
156
23
68
1030
Октябрь 09
160
24
69
1065
Ноябрь 09
173
26
70
1054
Декабрь 09
165
27
70
1060
Январь 10
158
28
71
1077
Февраль 10
168
30
71
1083
301
Окончание табл. 10.1
Объем
Стоимость
Затраты
Затраты
выпуска, yt материалов, x1,t труда, x2,t капитала, x3,t
31
74
1277
Июль 10
190
30
74
1298
Август 10
187
31
75
1268
Сентябрь 10
201
31
76
1302
Октябрь 10
189
31
76
1302
Ноябрь 10
199
33
77
1290
Декабрь 10
203
34
77
1313
Январь 11
199
36
78
1287
Февраль 11
194
38
78
1274
Март 11
206
37
79
1321
Апрель 11
205
38
80
1323
Май 11
204
38
80
1273
Июнь 11
194
38
81
1280
Июль 11
230
37
82
1336
Август 11
219
37
82
1347
Сентябрь 11
230
37
83
1341
Октябрь 11
208
39
83
1275
Ноябрь 11
232
40
84
1334
Декабрь 11
251
40
84
1459
Для построения модели воспользуемся предложенным нами принципом минимизации ошибки ретропрогноза. Для этого из всех наблюдений уберем последние 12: по наблюдениям с января по июнь 2011 г.
мы будем оценивать значение α (подставляя в модель имеющиеся
значения X), по последним шести наблюдениям мы будем сравнивать
прогнозы по полученной модели с прогнозами по модели, оцененной
обычным МНК.
В результате оценки коэффициентов МНК с дисконтированием
была получена следующая модель:
302
300
250
200
150
100
50
0
ноя. 11
177
сен. 11
Июнь 10
май. 11
1179
июл. 11
73
мар. 11
30
янв. 11
156
сен. 10
Май 10
ноя. 10
1051
июл. 10
72
май. 10
29
янв. 10
141
мар. 10
Апрель 10
(10.19)
По значению постоянной сглаживания видно, что для минимизации ошибки ретропрогноза в расчете коэффициентов использовалось
такое значение постоянной сглаживания, которое гарантирует медленное убывание весов. Это значит, что в формировании значений коэффициентов первые наблюдения используются в меньшей степени, чем
последние имеющиеся, однако некоторую роль они все равно играют:
вес самого первого наблюдения оказался равен примерно 0,001028.
В случае с обычным МНК его вес был бы равен 0,041667, это значение
играло было более существенную роль в формировании оценок коэффициентов.
SMAPE (для наблюдений с июля по декабрь 2011 г.) по полученной
модели (10.19) оказалась равной 6,26%. Графически расчетные значения и прогноз по модели представлены на рис. 10.4 (жирная сплошная
линия).
ноя. 09
1063
сен. 09
72
май. 09
31
июл. 09
161
мар. 09
Март 10
  0,2058 .
янв. 09
Месяц
yˆt  144,2834  0,3260 x1,t  2,2214 x 2,t  0,1162 x 3,t ,
Рис. 10.4. Объем выпуска, расчетные и прогнозные значения
по моделям (10.19), (10.20)
Как видим, значения оказались систематически заниженными,
что может быть вызвано малой выборкой, по которой рассчитывалась
ошибка ретропрогноза. Однако сами значения оказались достаточно
близки к фактическим.
303
В качестве альтернативы рассчитаем коэффициенты той же модели
МНК по ряду наблюдений с января 2009 по июнь 2011. Получим
следующую регрессионную модель:
yˆt  28,4507  0,0108 x1,t  0,0268 x 2,t  0,1298 x 3,t .
(10.20)
Как видим, коэффициенты моделей (10.19) и (10.20) различаются
значительно: некоторые из факторов в одной модели влияют на результат положительно, а в модели (10.20) — уже отрицательно. Это указывает на то, что в исследуемом объекте произошли качественные,
необратимые изменения. В связи с тем, что модель (10.20) усредняет
значения по всем наблюдениям, эти качественные изменения были так
же усреднены. В результате этого точность прогноза по модели, оцененной МНК, оказалась ниже: sMAPE составила 12,26%. Графически
модель (10.20) и прогноз по ней изображены на рис. 10.4 пунктирной
линией. Видно, что из-зазадания одинаковых весов модель дала прогноз с бóльшим занижением, чем модель (10.19).
Заметим, что в нашем условном примере мы специально сформировали ряд данных таким образом, чтобы зависимость после июня
2010 г. изменилась. По объективным причинам результирующая
модель (10.19) по своим оценкам оказалась ближе к модели «лежащей
в основе» нашего ряда, чем модель (10.20).
Одной из проблем МНК с дисконтированием, как мы уже
отметили, является невозможность автоматической оценки
модели по исходному ряду данных (в связи с чем и приходится прибегать к процедуре ретропрогноза). С ней связана
и проблема построения прогнозных интервалов. Действительно, обычно при расчете прогнозных интервалов требуется оценить дисперсию ошибок, но в случае МНК с дисконтированием ошибки в начале ряда не имеют смысла
из-за того, что учитываются с малыми весами, а ошибки
в конце ряда оказываются крайне малыми из-за больших
весов при расчете коэффициентов. Единственной оценкой
дисперсии ошибок может выступать дисперсия ошибок
ретропрогноза. Статистически обосновать методы построения интервальных прогнозов в таких условиях оказывается
крайне затруднительно. Простым выходом из этой ситуации
может быть построение прогнозного интервала на основе
неравенства Чебышева (пример метода построения таких
интервалов был рассмотрен нами в параграфе 8.2) с использованием дисперсии ошибок ретропрогноза:
yˆt 
304
1

ˆ   yt  yˆt 
1

ˆ  ,
(10.21)
T m
где ˆ   1  t2 — дисперсия ошибки ретропрогноза.
m t T 1
Интервалы, построенные таким образом для модели (10.19), показаны на рис. 10.4. Видно, что в связи с небольшим значением дисперсии ошибки интервалы получились не слишком широкими, однако
в них попала бóльшая часть прогнозируемых значений.
Результат предложенного в данном параграфе метода
автоматической оценки значения постоянной сглаживания
при использовании этого подхода в МНК с дисконтированием сильно зависит от числа наблюдений, включенных
в часть для ретропрогноза, и от того, какие именно наблюдения включаются в нее. Тем не менее, метод имеет право
на существование и в ряде случаев позволяет достаточно
быстро получить точные прогнозы.
10.2. Îáùàÿ ñõåìà îöåíèâàíèÿ ïðîãíîçíûõ ìîäåëåé
z-ìíîæèòåëÿìè
Мы уже обращали внимание на одну очевидную мысль:
МНК является лишь одним из возможных и далеко не самых
лучшим методом оценки коэффициентов моделей прогнозирования процессов социально-экономической динамики.
Даже в случае применения выборочного подхода обратимых
процессов МНК является лучшим способом оценки коэффициентов модели лишь в ситуации нормального распределения случайных величин. Для других распределений предпочтительными будут другие методы — обобщенный метод
моментов, метод максимального правдоподобия, метод Ньютона, метод спейсингов или разнообразные методы непараметрической регрессии. Конечно, МНК используется чаще
всего при обработке статистических выборок, но это вовсе
не говорит о том, что он — лучший метод для любых ситуаций. Просто чаще всего в случайных совокупностях проявляются условия, для которых наилучшим будет именно
МНК — множество случайных факторов действуют на статистический показатель незначительно, причем действуют
разнонаправлено, поэтому результат этого действия вполне
описывается нормальным распределением.
Какие же методы могут выступить в виде альтернативы
МНК для решения задачи оценивания коэффициентов
моделей, описывающих необратимые процессы? Ведь эти
305
процессы многообразны и узнать наперед, к какому типу
они относятся, чтобы применить лучший метод (или набор
методов), чаще всего нельзя. Нужен некоторый набор различных методов, в том числе и МНК, для того, чтобы, испробовав каждый из них, с помощью процедуры ретропрогноза
выбрать лучший для процесса метод. Вместо априорного
подхода, характерного для задач математической статистики, следует использовать апостериорный подход, когда
тщательно изучив особенности прогнозируемого процесса,
не задавая никаких предварительных предположений о нем,
испробовав несколько подходов и методов оценки прогнозной модели, выбирают наилучший из них.
При построении прогнозных моделей необратимых процессов прогнозист не может быть уверен в том, какая модель
лучше всего будет прогнозировать следующие будущие
наблюдения — та, которая имеет в прошлом минимальную
дисперсию, та, которая имеет в прошлом минимальную
среднюю абсолютную ошибку аппроксимации, или какая-то
еще. Для такого априорного вывода нет никаких оснований.
Необходимо различными методами сгенерировать множество различных оценок выбранной модели на некоторой
части имеющейся базы; проверить с помощью процедуры
ретропрогноза точность прогноза каждого из методов оценки
коэффициентов модели на проверочном множестве и отдать
предпочтение тому из них, который показал наилучшие прогнозные оценки. Здесь, конечно, мы возвращаемся к индуктивному методу, предполагая, что если некоторый выбранный метод в прошлом давал лучшие прогнозные оценки, то
и в будущем он будет обладать подобными же свойствами.
Но так и делается в современной науке — она представляет
собой синтез гипотетико-эмпирического и эмпирико-дедуктивного выводов.
Покажем, как можно получить множество способов оценивания коэффициентов прогнозных моделей с помощью
метода z-множителей11.
Следуя общенаучному принципу «от простого — к сложному», рассмотрим самую простую модель линейной однофакторной зависимости, на примере которой будет ясен
смысл метода z-множителей. После этого можно будет легко
1 Светуньков С. Г. Эконометрические методы прогнозирования спроса
(на примере промышленной энергетики). М. : Изд-во МГУ, 1993. С. 86.
306
использовать метод и для оценки коэффициентов более
сложных моделей.
Вспомним вначале, что для нахождения значений коэффициентов прогнозной модели мы должны каким-то образом получить такое число уравнений n, которое бы соответствовало числу n неизвестных коэффициентов этой модели.
Решая эту систему из n уравнений с n неизвестными, можно
найти численные значения коэффициентов.
Действительно, если, например, перед прогнозистом стоит
задача найти коэффициенты линейного тренда (с двумя
коэффициентами), то тот же МНК предлагает ему решить
систему двух нормальных уравнений с двумя неизвестными,
в результате чего вычисляются значения двух неизвестных
коэффициентов тренда. Если же прогнозисту необходимо
оценить значения коэффициентов квадратичной функции
с тремя коэффициентами, тот же МНК приводит его к необходимости решения системы трех нормальных уравнений
и т.д. Следовательно, необходимо, каким-то образом обрабатывая статистические данные, получить систему из такого
количества независимых уравнений, сколько неизвестных
коэффициентов содержит прогнозная модель.
Любая модель, очевидно, описывает реальный процесс
с некоторой ошибкой аппроксимации εt, поэтому для любого
значения t выполняется такое равенство:
yt  yˆt  t  a0  a1x t  t ,
(10.22)
Для использования этой модели при прогнозировании
необходимо на имеющемся множестве значений yt найти значения двух коэффициентов — a0 и a1. Значит, надо каким-то
образом построить два уравнения с этими двумя неизвестными коэффициентами и, решая эту систему из двух уравнений, оценить значения коэффициентов прогнозной модели.
Очевидно, что равенство (10.22) не нарушится, если
его левую и правую части умножить на некоторый заранее
известный заданный прогнозистом множитель z0t ≠ 0:
yt z0,t  a0 z0,t  a1x t z0,t  t z0,t .
(10.23)
Если теперь просуммировать левую и правую части полученного равенства по всем наблюдениям t, получим уравнение
 yt z0,t  a0  z0,t  a1  x t z0,t   t z0,t .
t
t
t
(10.24)
t
307
Теперь умножим левую и правую части равенства (10.22)
на другой, также заранее известный и заданный прогнозистом множитель z1,t ≠ 0, не являющийся линейным преобразованием множителя z0,t:
 yt z0,t  a0  z0,t  a1  x t z0,t  k0
t
t
t
.

 yt z1,t  a0  z1,t  a1  x t z1,t  k1
t
t
t
yt z1,t  a0 z1,t  a1x t z1,t  t z1,t .
Поскольку k0 и k1 заданы, то получена система двух уравнений с двумя неизвестными, которое имеет одно решение.
Очевидно, что значения коэффициентов модели будут определяться как характером задания z-множителей, так и значениями констант k0 и k1.
Самый простой случай рассматриваемой задачи соответствует ситуации, когда k0 = k1 = 0, т.е.
(10.25)
Просуммировав теперь и это уравнение по всем наблюдениям t, получим второе уравнение:
 yt z1,t  a0  z1,t  a1  x t z1,t   t z1,t .
t
t
t
(10.26)
t
Сведем уравнения (10.23) и (10.26) в одну систему:
 yt z0,t  a0  z0,t  a1  x t z0,t   t z0,t
t
t
t
t
.

 yt z1,t  a0  z1,t  a1  x t z1,t   t z1,t
t
t
t
t
(10.27)
(10.28)
где k0 и k1 — наперед заданные числа.
Тогда при выполнении условий (10.28) система уравнений (10.27) будет записана так:
308
(10.29)
Для него будет получена система
Данная система — система двух линейных уравнений
с (Т + 2) неизвестными — а0, а1 и εt (численные значения
множителей z0,t и z1,t задаются прогнозистом). Очевидно, что
эта система имеет множество возможных решений, и потому
для задачи нахождения оценок коэффициентов линейной
однофакторной модели она непригодна. Но на ее основе
можно добиться решения поставленной задачи, для чего
необходимо задать некоторые дополнительные условия
к этой системе.
Для задания этих условий будем исходить из того очевидного положения, что точность описания некоторого процесса с помощью любой модели определяется характером
ошибок аппроксимации εt. Поэтому, если и следует задавать
некоторые условия к задаче (10.27), то их следует связывать
именно с этими ошибками аппроксимации. Можно, например, задать такие дополнительные условия именно относительно этих ошибок аппроксимации:
 t z0,t  k0  const
t
,

 t z1,t  k1  const
t
 t z0,t  0
t
.

 t z1,t  0
t
 yt z0,t  a0  z0,t  a1  x t z0,t
t
t
t
.

y
z
a
z
a
x t z1,t





t
1,
t
0
1,
t
1

t
t
t
(10.30)
С ее помощью коэффициенты а0 и а1 могут быть легко
найдены.
Такой случай предпочтительнее случая, задаваемого
условием (10.28), поскольку при этом появляется возможность интерпретации свойств получаемых оценок.
Действительно, пусть, например, используются такие
z-множители:
 z0,t  C0  const
,

t
 z1,t   1
(10.31)
а относительно ошибок аппроксимации выполняется (10.29).
Тогда в случае, если число наблюдений T четное, получим
C0  yt  C0a0T  C0a1  x t
t
 t
.

t
t
 yt  1  a1  x t  1
t
t
(10.32)
Коэффициенты прогнозной модели для этого способа
находятся очень просто — из второго уравнения сразу же
309
вычисляются значения коэффициента а1, а после этого, подставляя полученные значения в первое уравнение системы,
легко найти а0. Следует отметить, что для этой модели
выполняются условия
 t  0
t
,

t
 t  1  0
t
(10.33)
которые со всей очевидностью следуют из (10.29).
Из этой системы равенств вытекает понимание того, что
будет собой представлять линейная модель, если использовать этот способ задания z-множителей.
Так, сумма отклонений расчетных значений модели
от фактических всегда будет равна нулю. Это означает, что
модель с коэффициентами, полученными таким способом
задания z-множителей, будет всегда проходить через среднюю арифметическую точку. Это со всей очевидностью следует из первого равенства системы (10.32).
Второе равенство (10.33) свидетельствует о том, что
сумма ряда ошибок аппроксимации ε t , умноженных
на знакочередующийся ряд единиц, будет равна нулю (второе равенство системы (10.33)). В результате этого второе
равенство системы (10.32) может быть записано так:
T
T
2,4,6,...
2,4,6,...
 y  a1  x  .
Это значит, что коэффициент пропорциональности находится через приросты показателей и характеризует средний
прирост за рассматриваемый период.
Итак, во-первых, с помощью системы (10.30), задавая
различные значения z-множителей, можно получить и различные значения коэффициентов прогнозной модели.
Во-вторых, с учетом одновременного выполнения системы
равенств (10.29) и (10.30) прогнозист имеет дополнительную
информацию о том, какими свойствами обладают ошибка
аппроксимации и применяемый метод оценки коэффициентов прогнозной модели. Заметим, однако, что построение
модели по выборке с учетом условия (10.29) еще не гарантирует, что и на периоде прогнозирования это условие будет
выполняться. Однако если в исследуемом ряде данных
не будет происходить существенных качественных изме310
нений, можно по индукции ожидать выполнения условия
(10.29) в будущем.
Сразу же возникает вопрос: а как соотносится этот метод
с методом наименьших квадратов? Ответ прост: если множители задать так:
 z0,t  1
,

 z1,t  x t
(10.34)
то, подставляя их в (10.30), получим систему двух уравнений,
которая в точности будет соответствовать системе нормальных уравнений МНК. Действительно, в этом случае получим
 yt  a0T  a1  x t
t
t

2 .
 yt x t  a0  x t  a1  x t
t
t
t
(10.35)
Но теперь метод z-множителей позволяет получить
не только оценки МНК применительно к линейной модели,
но и дополнительную интерпретацию оценок МНК,
поскольку будет выполняться и условие (10.29). Мы можем
с полным основанием утверждать, что МНК, примененный
к линейной функции, дает такие значения коэффициентов
модели, при которых всегда выполняются условия
 t  0
t
.

 t x t  0
t
(10.36)
Какой смысл имеют эти условия?
Первое равенство в системе (10.36) свидетельствует
о том, что для оценок МНК сумма ошибок аппроксимации
всегда будет равна нулю и всегда оценки МНК линейной
однофакторной зависимости будут такими, что модель будет
проходить через среднюю арифметическую наблюдений.
А если описываемый с помощью линейной модели процесс
будет нелинейным, как будет вести себя модель, коэффициенты которой найдены с помощью МНК? Как следует
из первого равенства (10.36), модель пройдет через среднюю
точку, а сумма отклонений фактических значений от расчетных будет равна нулю. Иногда приходится сталкиваться
с экономистами, которые считают, что если для построенной с помощью МНК модели сумма ошибок аппроксимации
311
равна нулю, то модель лучше всего описывает исследуемый
процесс. Ошибочность этой точки зрения теперь очевидна —
МНК, примененный к любому процессу, будет всегда давать
такие оценки коэффициентов модели (не важно, линейной
или нелинейной), при которых сумма ошибок аппроксимации равна нулю. О пригодности или непригодности модели
сумма ошибок аппроксимации ничего не говорит.
Чтобы понять смысл второго равенство в системе (10.36),
нужно обратиться к ковариации между ошибкой и фактором xt:
cov t ; x t  
1
 t    x t  x  .
T t
(10.37)
Средняя величина по ошибкам в связи с первым равенством в (10.36) будет равна нулю, поэтому ковариация
в (10.37) упростится до вида
1
 1

cov t ; x t     t x t   t x     t x t  x  t  . (10.38)



Tt
T
t
t
t
В (10.38) в правой части полученного равенства второе
слагаемое в скобках представляет собой произведение средней арифметической на сумму ошибок, которая в силу того же
равенства (10.36) будет равна нулю. В результате получаем
равенство, включающее в себя второе равенство из (10.36):
z-множителей. Задавая различные z-множители, прогнозист,
решая систему (10.30), получает различные значения коэффициентов линейной однофакторной модели и выбирает ту пару
значений z-множителей, при которой ошибка ретропрогноза
минимальна. Это могут быть и оценки МНК, но для необратимых процессов чаще всего это будут другие оценки.
Кроме того, исследователь может оценить коэффициенты
модели (10.22) таким образом, чтобы выполнялись нужные
ему предположения. В качестве варианта таких предположений можно предложить отсутствие автокорреляции первого
порядка, что в случае, если сумма ошибок равна нулю, записывается как  t 1t  0 .
t
Осуществляется это путем задания z-множителей в виде
 z0,t  1
, откуда следует такая система уравнений:

 z1,t  t 1
 yt  a0T  a1  x t   t
t
t
t
.

y


a


a


t t 1
t 1
0
1  x t  t 1    t  t 1

t
t
t
t
(10.39)
Примем выполнение таких условий:
 t  0,

 t t1  0.
Полученная система в итоге упрощается до
1
cov t ; x t    t x t .
T t
 yt  a0T  a1  x t
t
t
.

y


a
x


t t 1
1
t  t 1

t
t
Таким образом, второе условие в (10.36) гарантирует
получение таких оценок коэффициентов, при которых ковариация между ошибками и фактором xt всегда будет равна
нулю, что фактически влечет за собой условие некоррелированности ошибок с регрессорами в уравнении, оцененном
МНК. Это указывает на то, что в случае корректной оценки
модели методом наименьших квадратов в модели не может
быть проблемы эндогенности.
Как видно, МНК является частным случаем Общей схемы
оценивания (ОСО) коэффициентов модели с помощью
Однако для осуществления расчетов по (10.40) исследователю нужно предварительно иметь ошибки εt — 1, которые получаются лишь после оценки модели. Данная задача
может быть решена итеративно: оценив модель, например,
с помощью МНК, получают первоначальный набор ошибок,
который затем используется в переоценке модели в соответствии с условиями (10.40).
Как видим, метод z-множителей позволяет задавать различные условия при построении модели, которые могут
быть нужны в различных ситуациях.
312
(10.40)
313
Рассмотрим теперь, как можно использовать метод
z-множителей для более сложных моделей, например, квадратичной модели:
yˆt  a0  a1x t  a2 x t2 .
(10.41)
Поскольку модель содержит три неизвестных коэффициента a0, a1 и a2, то необходимо использовать три множителя: z0,t ≠ z1,t ≠ z2,t (не являющихся линейным преобразованием друг друга) для получения системы из трех уравнений
с тремя неизвестными. Опуская вывод системы уравнений
метода z-множителя, аналогичный выводу системы уравнений для линейной однофакторной модели, получим следующую систему для нахождения значений коэффициентов
квадратичной модели (10.41):

2
 yt z0,t  a0  z0,t  a1  x t z0,t  a2  x t z0,t
t
t
t
 t
2
 yt z1,t  a0  z1,t  a1  x t z1,t  a2  x t z1,t ,
t
t
t
t

 yt z2,t  a0  z2,t  a1  x t z2,t  a2  x t2 z2,t
 t
t
t
t
(10.42)
которой соответствует система равенств, задающая условия
для ошибки аппроксимации:

 t z0,t  0
t
 t z1,t  0
t
 t z2,t  0
t
(10.43)
Покажем, как получить из этой общей системы оценивания коэффициентов квадратичной модели такие коэффициенты, которые будут соответствовать оценкам МНК.
Для этого зададим такие множители: z0,t = 1, z1,t = xt, z2,t = xt2.
Тогда система (10.42) будет соответствовать системе
нормальных уравнений МНК. Действительно, подставляя
эти множители в (10.42), получим

2
 yt  a0T  a1  x t  a2  x t
t
t
t

2
3
 yt x t  a0  x t  a1  x t  a2  x t ,
t
t
t
t
 yt x t2  a0  x t2  a1  x t3  a2  x t4
 t
t
t
t
314
(10.44)
что, как легко убедиться, полностью соответствует системе
уравнений МНК.
Если теперь задать, например, совокупность множителей
z0,t = t, z1,t = xt, z2,t = xt2, то полученные оценки будут близки
к оценкам МНК, но все же отличаться от них.
Изложенный метод z-множителей позволяет предложить
бесконечное множество способов оценки коэффициентов
моделей прогнозирования, причем МНК — только один
из этого множества. Поэтому, используя разумное число
возможных комбинаций и способов задания множителей,
прогнозист может из этого множества выбрать тот из них,
который демонстрирует свои лучшие свойства в процедуре
ретропрогноза.
Методическое свойство метода z-множителей заключается в том, что с его помощью можно легко сформулировать систему нормальных уравнений МНК для любых
аддитивных моделей, что позволяет сформировать систему
нормальных уравнений для различных моделей, не прибегая
к утомительному выводу этой системы традиционным путем
через вычисление производных по коэффициентам функции
минимизации суммы квадратов отклонений фактических
значений от расчетных.
Пусть, например, прогнозист хочет с помощью МНК оценить коэффициенты такой модели:
yt  a1 sin x t  a2 ln x t .
(10.45)
Для построения системы нормальных уравнений МНК
оценивания коэффициентов этой модели с помощью ОСО
следует левую и правые части равенства умножить на z0,t =
sinxt, после чего просуммировать по всем t. После этого левую
и правую части равенства следует вновь умножить на z1,t =
lnxt, после чего полученные произведения просуммировать
по всем t. Сведем два полученных уравнения в систему:
 yt sin x t  a1  sin 2 x t  a2  sin x t ln x t
t
t
t
.

2
y
ln
x
a
sin
x
ln
x
a





1
2  ln x t
t
t
t
t
t
t
t
(10.46)
Не менее просто получить систему нормальных уравнений МНК для многофакторной аддитивной модели, например, такой:
yt  a0  a1x1,t x 2,t  a2 ln x 2,t  a3e
x 3,t
.
(10.47)
315
Z-множители такой модели для получения системы
нормальных уравнений очевидны:
z0  1 , z1,t  x1,t x 2,t , z2,t  ln x 2,t , z3,t  e
x 3,t
Метод z-множителей может быть так же легко представлен
в матричном виде. Модель множественной линейной регрессии в матричном виде записывается следующим образом:
(10.48)
Y  XA   ,
(10.31)
С их помощью легко получить искомую систему уравнений:
 y  a T  a  x x  a  ln x  a  e x3,t
0
1
1,t 2,t
2
2,t
3
t t
t
t
t

2
 yt x1,t x 2,t  a0  x1,t x 2,t  a1   x1,t x 2,t   a2  x1,t x 2,t ln x 2,t 
t
t
t
t
. (10.49)
 a e x3,t x x
1,t 2,t
 3
t

2
 yt ln x 2,t  a0  ln x 2,t  a1  x1,t x 2,t ln x 2,t  a2  ln x 2,t  
t
t
t
t
 a  e x3,t ln x
2,t
 3t

x
x
x
x 3, t
 a0  e 3,t  a1  x1,t x 2,t e 3,t  a2  ln x 2,t e 3,t 
 yt e
t
t
t
t

 a3  e 2 x3,t

t
Естественно, что в силу (10.29) для полученных оценок
МНК будут выполняться следующие условия:
 t  0
t
 t x1,t x 2,t  0
t
  ln x  0 .
t
2,t

t

x 3,t
 t e  0
t
x 2,1
x 2,2
x 2,3
...
x 2,T
... x k,1 
 y1 
 a0 
 1 
... x k,2 
y 
a 
 

... x k,3  , Y   2  , A   1  ,    2  .
 ... 
 ... 
 ... 

... ... 
 
 
 
 T 
 yT 
 ak 
... x k,T 
Сформируем матрицу, состоящую из z-множителей:
 z0,1
z
 0,2
Z   z0,3

 ...
 z
0,T
z1,1
z1,2
z1,3
...
z1,T
z2,1
z2,2
z2,3
...
z2,T
... zk,1 
... zk,2 

... zk,3  .

... ... 
... zk,T 
Умножение матрицы Z на все элементы уравнения (10.31)
даст нам следующее равенство:
Z TY  Z T XA  Z T  ,
(10.32)
(10.30)
Теперь, как видно, можно сформировать систему
нормальных уравнений для оценки с помощью МНК коэффициентов любой аддитивной модели.
Эта методическая помощь важна, но в рассматриваемом
контексте не является самоцелью. Для эволюционных процессов оценки МНК не являются наилучшими, поэтому,
используя различные z-множители, можно получать самые
различные системы уравнений, в результате решения
которых формируется семейство оценок коэффициентов,
из которого посредством процедуры ретропрогноза выбирается лучший набор z-множителей.
316
 1 x1,1
1 x
1,2

где X   1 x1,3

 ... ...
 1 x
1,T
естественным предположением в котором будет:
Z T   k ,
(10.33)
где Οk — вектор-столбец длиной k, составленный из нулей.
Условие (10.33) как раз гарантирует то, что произведение
всех z-множителей на ошибки будет равно нулю. С учетом
этого итоговая формула для получения оценок коэффициентов в (10.31) будет иметь вид

A  ZT X

1
Z TY .
(10.34)
В эконометрике схожим образом вычисляются
оценки коэффициентов в случае с применением метода
317
инструментальн ых переменных. Метод z-множителей
от метода инструментальных переменных отличают три особенности:
1. В качестве z-множителей могут выступать любые
переменные по выбору исследователя, вне зависимости
от предположений относительно эндогенности переменных
в модели.
2. Из метода z-множителей явно следует условие (10.33),
которое является определяющим при принятии решения
о том, какую модель исследователь хочет получить, т.е. принцип метода z-множителей отличается от принципа метода
инструментальных переменных: исследователь задает условия, в которых хочет построить модель, после чего составляет соответствующую матрицу z-множителей и оценивает
коэффициенты модели.
3. Метод инструментальн ых переменных позволяет
оценивать коэффициенты регрессий в случае, если в качестве инструментов выбрано такое количество переменных,
которое оказывается не меньше коэффициентов в модели
(с учетом константы). В случае с методом z-множителей
число z-множителей должно совпадать с числом столбцов
в матрице X, иначе ограничения на ошибки не имеют смысла,
т.е. в методе z-множителей требования к количеству множителей более жесткие.
Из второго условия в частности следует, что какие бы
переменные исследователь ни включил в матрицу Z, они
не будут коррелировать с ошибками в модели. Однако если
в качестве z-множителей выбирать переменные, не входящие в регрессию, то для переменных X, включенных в нее,
условие некоррелированности с ошибкой перестает действовать, т.е. в случае использования инструментальн ых
переменных исследователь может получить модель с обозначенной выше проблемой эндогенности. При этом проблема
становится менее явной, если выбранные z-множители
сильно коррелируют с факторами модели X. Поэтому
использование инструментальных переменных само по себе
сопряжено с некоторыми рисками, о которых прогнозист
должен знать.
Формально же расчеты по данным двум методам в случае
равенства числа инструментальных переменных числу коэффициентов в модели осуществляются одинаково, по формуле (10.34).
318
Рассмотрим простой пример. В табл. 10.2 приведены статистические данные, которые мы будем использовать для демонстрации
метода z-множителей.
Таблица 10.2
Данные условного примера
Месяц
Объем Доход потреЗатраты
Рыночная
продаж, y бителей, x1 на рекламу, x2 цена продукции, x3
Январь 09
149
10 078,82
11 000
127
Февраль 09
153
9901,76
10 000
105
Март 09
277
9968,59
11 000
157
Апрель 09
163
11 827,17
11 000
136
Май 09
153
11 496,26
10 000
127
Июнь 09
248
11 954,79
10 000
136
Июль 09
253
12 012,63
10 000
142
Август 09
267
11 672,39
11 000
152
Сентябрь 09
273
11 719,17
11 000
153
Октябрь 09
167
13 167,83
11 000
134
Ноябрь 09
274
13 308,06
11 000
143
Декабрь 09
175
13 200,16
11,000
142
Январь 10
172
13 286,91
11 000
144
Февраль 10
182
13 149,22
12 000
129
Март 10
201
13 504,04
13 000
164
Апрель 10
375
13 152,63
14 000
196
Май 10
205
13 398,53
14 000
171
Июнь 10
371
13 635,36
13 000
198
Июль 10
362
14 521,33
14 000
199
Август 10
350
14 497,11
13 000
186
Сентябрь 10
192
14 855,05
12 000
163
Октябрь 10
194
14 784,21
13 000
109
Ноябрь 10
365
14 633,45
14 000
198
Декабрь 10
403
14 476,58
15 000
210
Январь 11
235
14 485,14
15 000
210
319
Окончание табл. 10.2
Месяц
Объем Доход потреЗатраты
Рыночная
продаж, y бителей, x1 на рекламу, x2 цена продукции, x3
Февраль 11
449
14 582,06
16 000
243
Март 11
434
14 658,35
15 000
234
Апрель 11
475
14 523,20
16 000
254
Май 11
238
14 550,53
15 000
199
Июнь 11
236
14 568,49
15 000
192
Июль 11
446
15 742,71
16 000
233
Август 11
461
15 522,71
15 000
245
Сентябрь 11
249
15 461,62
16 000
233
На статистических данных с января 2009 по декабрь 2010 г. мы
будем с помощью разных способов задания z-множителей оценивать
коэффициенты многофакторной линейной модели. Данные за 2011 г.
мы используем как проверочные для определения точности ретропрогноза. Будем использовать три способа задания множителей:
1. z0,t = 1, z1,t = x1,t, z2,t = x2,t, z3,t = x3,t который подразумевает выполнение условий МНК:
 t  0
t
 t x1,t  0
t
.

 t x 2,t  0
t
 t x 3,t  0
t
(10.35)
 t t  0
t
 t x1,t  0
 t
.

1
0
 t
 t x 2,t
 t x 3,t  0
 t
3. z0,t = 1, z1,t = (x1,t)0,5, z2,t = t, z3,t = x3,t,
(10.37)
Первый способ задания z-множителей, очевидно, соответствует
оценкам МНК. Второй способ будет приводить к тому, что прогнозная модель будет построена со смещением (что следует из условия
(10.35)), в связи с тем, что мы убрали условие равенства суммы ошибок нулю. Из-за этого и произведение ошибок на z-множители уже
не соответствует корреляции между этими компонентами. Из условия (10.36) следует, что корреляция между ошибкой и x1 и ошибкой
x2 может быть отлична от нуля. Однако это позволяет нам наложить
другие условия: некоррелированности ошибок со временем и с корнем
из x1. Использование таких z-множителей позволило построить следующие модели (табл. 10.3).
Таблица 10.3
Модели, построенные на основе данных табл. 10.2
с помощью метода z-множителей
Модель
Уравнение модели
(10.35)
yˆt  93,6880  0,0029 x1,t 
SMAPE
SMAPE по пропо ряду, %
гнозу, 5
16,32
20,54
38,38
15,19
15,91
22,72
 2,4238 x 2,t  2,6207 x 3,t
(10.36)
2. z0,t = t, z1,t = x1,t, z2,t = 1/x2,t, z3,t = x3,t в соответствии с которым
выполняется
320
 t  0
t
  x  0
 t t 1,t
.

 t t  0
t
 t x 3,t  0
t
yˆt  81,0108  0,0467 x1,t 
 91,5014 x 2,t  5,2620 x 3,t
(10.37)
yˆt  130,5071  0,0099 x1,t 
 14,6548 x 2,t  2,1284 x 3,t
(10.36)
Как видим, модели существенно различаются по значениям коэффициентов. Кроме того, ошибки аппроксимации у них так же различаются: наименьшая ошибка аппроксимации оказалась в модели
(10.37), наивысшая — в (10.36). Модель, рассчитанная МНК, оказалась
достаточно точной в аппроксимации и по ошибке ближе к последней
модели. При этом точность прогноза оказалась выше у модели (10.36),
нежели у других моделей.
Графически аппроксимация исходного ряда и прогнозы по моделям представлены на рис. 10.5.
321
600
включить в модель факторы, не влияющие линейно на y, т.е.
коэффициент корреляции для которых будет близок к нулю.
Их добавление не исказит оценки коэффициентов при других регрессорах, коэффициент перед этой переменной нам
неважен, сам фактор нас не интересует, поэтому у нас появится возможность внести еще одно условие.
500
400
300
Например, для того же ряда был сгенерирован ряд случайных
чисел, такой, чтобы коэффициент корреляции между ним и y был близок к нулю. Этот ряд представлен в табл. 10.4.
200
Таблица 10.4
Сгенерированный ряд случайных чисел
Месяц
100
сен. 11
июл. 11
май. 11
мар. 11
янв. 11
ноя. 10
сен. 10
июл. 10
май. 10
мар. 10
янв. 10
ноя. 09
сен. 09
июл. 09
май. 09
мар. 09
Январь 09
янв. 09
0
Рис. 10.5. Условный ряд данных (сплошная линия
с закрашенными точками), его аппроксимация и прогнозы
по моделям (10.35) (пунктирная линия), (10.36) (сплошная
линия) и (10.37) (сплошная линия с незакрашенными точками):
слева от вертикальной линии — значения, по которым
осуществлялась аппроксимация; справа — прогноз
Февраль 09
Март 09
Ряд случайных
чисел, w1
41,3948
–12,8646
15,2099
Месяц
Январь 10
Февраль 10
Март 10
Ряд случайных
чисел, w1
–6,6728
5,7511
–30,6059
Апрель 09
–17,7654
Апрель 10
35,6043
Май 09
–22,1040
Май 10
–8,5939
Июнь 09
16,2187
Июнь 10
–45,1969
Июль 09
16,8460
Июль 10
47,3522
Август 09
1,0046
Август 10
–16,0487
Сентябрь 09
–34,7405
Сентябрь 10
–33,5200
Заметно, что модель (10.36), построенная с систематической ошибкой, аппроксимирует исходный ряд данных хуже всех (а в октябре расчетное значение по модели и вовсе оказалось отрицательным), однако
она же оказывается и самой точной на периоде ретропрогноза за счет
того, что более точно описывает значения в мае и июне 2011 г.
Октябрь 09
28,3079
Октябрь 10
47,1478
Ноябрь 09
–30,1744
Ноябрь 10
5,5082
Декабрь 09
16,0227
Декабрь 10
15,6376
У метода z-множителей есть один существенный недостаток: он не позволяет вводить условий больше, чем число
коэффициентов в модели. Из-за этого задание условий
(10.33) напоминает перетягивание одеяла: исследователь
вводит условие не коррелированности ошибки с факторами,
но тогда он лишается права вводить другие интересующие
его условия. Т.е. включение дополнительных условий оказывается возможным лишь при включении дополнительных переменных, относительно которых исследователь так
же может захотеть наложить какие-то условия. Но на самом
деле решение у данной проблемы достаточно простое: нужно
yt  a0  a1x1,t  a2 x 2,t  a3 x 3,t  b1w1,t  t .
322
Чтобы включить новое условие, нам нужно оценить модель вида
Как вариант, попробуем построить такую модель, в которой помимо
стандартных условий МНК ошибка не коррелировала бы с зависимой
переменной. Это подразумевает следующие z-множители:
 z0,t  1

 z1,t  x1,t

 z2,t  x 2,t
z  x
3,t
 3,t
 z4,t  yt
323
и соответствующие им условия:
На периоде ретропрогноза сгенерированные переменные были
заданы равными нулю, поэтому и прогноз вел себя более стабильно.
Полученный результат, конечно же, не гарантирует, что, используя
предложенный подход, можно всегда добиться более точных прогнозов. Он свидетельствует о многообразии инструментов социальноэкономического прогнозирования.

 t  0
t
 t x1,t  0
 t
 t x 2,t  0 .
t
 t x 3,t  0
t
 t yt  0
 t
В результате расчетов получаем следующую модель:
yˆt  54,3325  0,0242 x1,t  79,9516 x 2,t  5,3307 x 3,t  5,9751w1,t . (10.38)
SMAPE по исходному ряду в данной модели оказалось очень большим — 62,52%, однако на периоде ретропрогноза ошибка составила
14,34%. Графически аппроксимация ряда и прогноз по модели (10.38)
представлены на рис. 10.6.
700
На практике лучшим решением было бы включение
в модель каких-то факторов, заведомо не влияющих линейно
на y (вместо генерации случайных величин), которые
не должны вносить серьезных искажений в модель. В таком
случае в модели может быть эконометрическая проблема
«лишних переменных», которая из-за отсутствия корреляции должна нивелироваться. Однако данный вопрос пока
до конца не изучен.
Теперь воспользуемся выводами этого параграфа
для того, чтобы понять суть МНК с дисконтированием.
Систему уравнений (10.6) можно получить с помощью
общей схемы оценивания методом z-множителей (10.27)
если задать z-множители так:
 z0,t  t
.

 z1,t  t x t
600
(10.39)
500
Это означает, что решая систему (10.6) мы получаем
такие оценки коэффициентов прогнозной модели, для которой выполняются условия (10.29), применительно к рассматриваемому случаю имеющие вид
400
300
200
   t t  0
t
.

   t t x t  0
t
100
сен. 11
июл. 11
май. 11
мар. 11
янв. 11
ноя. 10
сен. 10
июл. 10
май. 10
мар. 10
янв. 10
ноя. 09
сен. 09
июл. 09
май. 09
мар. 09
янв. 09
0
Рис. 10.6. Условный ряд данных (сплошная линия
с закрашенными точками), его аппроксимация и прогнозы
по модели (10.2.40) (сплошная линия без точек):
слева от вертикальной линии — значения, по которым
осуществлялась аппроксимация; справа — прогноз
324
(10.40)
Смысл первого уравнения системы (10.40) очевиден:
поскольку веса по определению убывают в прошлое, прогнозная модель будет описывать исходный ряд данных так,
что ошибки аппроксимации, убывающие в прошлое, будут
больше, чем ошибки аппроксимации последних наблюдений.
При этом модель обязательно будет иметь как положительные, так и отрицательные ошибки аппроксимации, иначе
сумма дисконтированных ошибок аппроксимации не будет
равна нулю. Модель, как следует из сказанного, хорошо опи325
сывает текущие наблюдения и плохо — прошлые, она пройдет не через среднюю арифметическую точку, а через среднюю взвешенную арифметическую точку.
Близкий к этому смысл будет иметь и второе уравнение
системы (10.40): в нем представлена часть дисконтированных ковариации между ошибкой и фактором x, которая
должна быть равна нулю. Это значит, что при оценке модели
задается такое условие, в соответствии с которым ковариация между ошибкой и x на последних наблюдениях оказывает большее влияние на итоговую ковариацию, чем на ранних значениях.
В матричном виде МНК с дисконтированием будет эквивалентен методу z-множителей при выполнении равенства
ZT  XT  .
Смысл каждого из условий, вытекающих из этого равенства, будет аналогичен смыслу второго равенства в системе
(10.40).
Мы вновь убедились в том, что метод z-множителей
ОСО включает в себя не только МНК, как частный случай, но и метод дисконтированного МНК, так же, как один
из возможных случаев. Поэтому метод z-множителей действительно представляет нам общую схему оценивания
коэффициентов эконометрических прогнозных моделей.
Проанализировав с помощью метода z-множителей суть
дисконтированных оценок МНК, можно заметить, что с его
помощью получаются и иные способы использования дисконтированных оценок. Например, применяя общий принцип учета текущих наблюдений в большей степени, чем
более ранних, можно получить новые оценки коэффициентов с учетом дисконтированных данных. Например, можно
задать такие z-множители:
 z0,t  t
.

 z1,t  t yt
(10.41)
Тогда будет получена другая система уравнений:
 t yt  a0  t  a1  t x t
t
t
t

2

y

a

y

a


t t
t t
0
1  t x t yt

t
t
t
326
(10.42)
Решая эту систему, прогнозист получит оценки адаптированной модели, ведь текущая информация используется в большей степени, чем прошлая, но эти оценки
будут отличаться от оценок МНК с дисконтированием и,
возможно, в некоторых случаях будут давать более точные
прогнозы.
Ряд различных способов дисконтирования данных, который открывает метод z-множителей, довольно широк. Это
вооружает прогнозиста новым дополнительным инструментом построения адаптивных моделей среднесрочного прогнозирования.
Ïðàêòèêóì
Вопросы для самоконтроля
1. МНК — один из основных методов оценки параметров регрессионных моделей выборочного метода. Основной принцип выборочного
множества — чем больше собрано наблюдений, тем точнее статистическая оценка. Обращаясь к рядам социально-экономической динамики, ответьте на вопрос, когда это правило работает, а когда нет?
2. Если ценность информации убывает с убыванием в прошлое
этой информации, выборочный метод становится неэффективным
в получении статистических оценок. Какие требования должны
в этом случае предъявляться к МНК?
3. Как задать характер изменения весовых коэффициентов МНК
с дисконтированием? Какие для этого существуют подходы?
4. Почему сумма весовых коэффициентов МНК с дисконтированием не обязательно должна быть равна нулю? Для чего тогда
вводят это условие?
5. Рассматривая систему нормальных уравнений МНК с дисконтом, укажите, какие ее элементы могут быть представлены как
средние взвешенные?
6. Как можно применить модель экспоненциального сглаживания
к задаче оценки коэффициентов прогнозных моделей с помощью
МНК с дисконтированием?
7. Почему МНК с дисконтированием фактически является одной
из разновидностей взвешенного МНК?
8. В чем сложность оценки интервала прогноза если для прогнозирования используется МНК с дисконтированием?
9. Что представляют собой метод z-множителей при оценке коэффициентов прогнозных моделей?
10. Какие требования предъявляются к z-множителям?
11. Как доказать, что МНК представляет собой частный случай
общей схемы оценивания регрессионных моделей?
327
12. Какие дополнительные знания о свойствах оценок МНК дает
общая схема оценивания?
13. Иногда встречается мнение, что при использовании МНК
может иметь место коррелированности ошибок с регрессорами
в уравнении, оцененном МНК, и предлагаются сложные процедуры
борьбы с этим явлением. Как с помощью общей схемы оценивания
доказать, что в случае корректной оценки модели методом наименьших квадратов, в модели не может быть проблемы эндогенности?
14. Как можно использовать метод z-множителей для нелинейных
моделей?
15. Как с помощью общей схемы оценивания можно представить
МНК с дисконтированием?
16. Как использовать в общей схеме оценивания принципы модели экспоненциального сглаживания?
Задание
Компания по производству мороженого, работающая с 2006 г.,
собрала помесячные данные о продажах мороженого «Самый-самый
сладкий рожок» за период с 2009 по 2012 гг. Чтобы спрогнозировать
продажи, аналитик компании решил построить регрессионную
модель. Считая, что на продажи мороженого (Sales, тыс. упаковок)
могут влиять такие факторы, как средняя месячная температура
воздуха (Temperature, градусов по Цельсию), количество осадков
(Rain, в мм), количество праздничных и выходных дней (Holidays,
дней в мес.), затраты на рекламу (Ads, тыс. руб.) и цена мороженого
(Price, руб.), он собрал данные и свел их в таблицу:
Month
January February
09
09
March 09
April 09
May 09
June 09
Продолжение таблицы
Month
Price
Month
Sales
January February
09
09
22,00
20,00
January February
10
10
47,97
45,23
March 09
April 09
May 09
June 09
19,00
19,00
18,00
19,00
March 10
April 10
May 10
June 10
80,39
111,68
150,77
191,53
Temperature
2,10
4,30
7,40
10,70
12,50
17,80
Rain
51,80
100,40
39,80
23,20
20,60
12,40
Holidays
16,00
9,00
9,00
8,00
12,00
9,00
Ads
5,00
15,00
53,00
103,00
210,00
299,00
Price
19,00
19,00
20,00
21,00
23,00
24,00
Month
July 10 August 10 September October November December
10
10
10
10
Sales
188,69
157,10
127,96
98,51
Temperature
20,05
17,40
15,30
11,75
6,55
1,20
Rain
18,00
88,60
38,20
74,80
32,20
21,40
Holidays
9,00
9,00
8,00
10,00
9,00
8,00
Ads
360,00
389,00
110,00
91,00
15,00
0,00
Price
24,00
23,00
21,00
20,00
21,00
21,00
March 11
April 11
May 11
June 11
95,68
132,55
154,72
143,20
Month
January February
11
11
69,58
43,50
Sales
41,45
35,83
73,12
95,01
154,13
198,48
Temperature
3,55
4,95
8,30
11,65
14,25
17,30
Sales
Rain
72,40
69,60
30,00
28,00
29,80
34,00
Temperature
5,10
7,50
8,05
14,15
14,40
15,85
Rain
76,80
42,80
14,60
2,40
24,60
84,00
66,88
87,23
Holidays
15,00
9,00
10,00
8,00
12,00
9,00
Ads
15,00
5,00
10,00
51,00
101,00
115,00
Holidays
16,00
9,00
9,00
9,00
11,00
9,00
Price
17,00
17,00
18,00
19,00
21,00
22,00
Ads
0,00
0,00
8,00
55,00
189,00
254,00
Price
21,00
21,00
21,00
22,00
23,00
25,00
Month
July 09 August 09 September October November December
09
09
09
09
Sales
204,20
194,78
124,49
89,39
51,57
30,39
Temperature
18,35
19,00
16,25
12,80
10,00
Rain
71,40
39,60
36,00
39,40
148,00
Holidays
Ads
328
Month
July 11 August 11 September October November December
11
11
11
11
4,15
Sales
182,60
184,87
164,96
137,05
106,66
84,60
Temperature
17,15
17,60
16,85
14,10
10,45
6,85
49,80
68,80
35,00
18,40
29,00
63,00
10,00
8,00
8,00
10,00
9,00
9,00
8,00
10,00
8,00
9,00
10,00
8,00
Rain
224,00
208,00
51,00
10,00
9,00
15,00
Holidays
69,62
329
Окончание таблицы
Month
Ads
Price
January February
09
09
345,00
367,00
26,00
26,00
March 09
April 09
May 09
June 09
201,00
41,00
6,00
0,00
24,00
23,00
23,00
23,00
March 12
April 12
May 12
June 12
86,56
120,48
94,84
167,68
175,08
6,60
4,65
9,70
9,10
13,95
15,50
Rain
34,40
16,80
16,20
98,40
25,40
110,80
Holidays
15,00
9,00
10,00
9,00
10,00
10,00
Ads
0,00
1,00
24,00
64,00
115,00
215,00
Price
24,00
24,00
24,00
24,00
25,00
27,00
Month
January February
12
12
Sales
103,38
Temperature
Month
July 12 August 12 September October November December
12
12
12
12
Sales
179,76
205,86
195,65
101,60
80,37
63,59
Temperature
17,25
18,90
15,15
11,10
7,80
5,80
Rain
71,80
36,40
41,20
88,40
71,80
95,80
Holidays
9,00
8,00
10,00
8,00
9,00
10,00
Ads
401,00
387,00
256,00
17,00
0,00
0,00
Price
28,00
27,50
26,00
25,00
25,00
25,00
1. Если по этим данным построить множественную регрессию, то
какие можно было бы ожидать коэффициенты перед факторами —
положительные или отрицательные, значимые или незначимые?
Дайте обоснование своим предположениям.
2. По полученным данным постройте множественную регрессию,
используя МНК. Оцените значимость коэффициентов модели. Какой
смысл имеет константа в полученной модели? Можно ли сделать
вывод о том, что цена мороженого не влияет на продажи? Имеет
ли полученный коэффициент какой-то смысл при себестоимости
мороженого?
3. Постройте линейный график по продажам мороженого.
Нанесите на него полученные расчетные значения по вашей модели. Что можно сказать об аппроксимации моделью фактических
значений? Изучите остатки модели. Что можно по ним сказать о построенной модели?
4. Постройте по этим же данным модель множественной регрессии МНК с дисконтированием. В качестве постоянной сглаживания
330
возьмите значение 0,25. Что можно сказать о коэффициентах этой
модели? Имеют ли они какой-либо смысл? Соответствуют ли они
вашим ожиданиям?
5. Постройте график по фактическим продажам и расчетным.
Какие особенности можно выделить по полученному графику?
6. Прошло полгода, стали доступны данные о продажах и выбранных факторах. Оцените точность прогнозов моделей из п. 2 и п. 4
на основе этих данных:
Month
Sales
Temperature
Rain
Holidays
Ads Price
01/01/13
77,271
4,25
48,6
14
0
24
01/02/13
79,519
3,95
32,8
8
0
23
01/03/13
72,746
4,05
52,8
11
5
23
01/04/13
115,233
9,1
34
8
50
25
01/05/13
130,868
12,05
41,8
13
87
27
01/06/13
163,424
14
70
11
199
28
7. Как вы считаете, почему модели дали разные прогнозы? Какой
из этих моделей вы бы отдали предпочтение?
Входное
воздействие
x
Ãëàâà 11.
ÌÅÒÎÄ ÍÅÐÀÂÍÎÌÅÐÍÎÃÎ ÑÃËÀÆÈÂÀÍÈß
В результате освоения данной главы студент должен:
знать
• основные результаты новейших исследований по проблемам
повышения точности социально-экономических прогнозов;
• современные подходы и методы адаптивной оценки коэффициентов прогнозных моделей;
уметь
• применять модификации метода стохастической аппроксимации и иных рекуррентных методов для адаптации коэффициентов
прогнозных моделей;
• выявлять перспективные направления научных исследований
в области современной прогностики, обосновывать актуальность,
теоретическую и практическую значимость адаптивных методов
прогнозирования;
• формулировать гипотезы, проводить эмпирические и прикладные исследования с целью выбора лучшего метода и модели
прогнозирования;
владеть
• методом неравномерного сглаживания;
• методом определения лучшего значения параметра демпфирования колебаний;
• навыками самостоятельной научной и исследовательской
работы в части адаптации эконометрических прогнозных моделей
методом неравномерного сглаживания.
11.1. Ìåòîä ñòîõàñòè÷åñêîé àïïðîêñèìàöèè
è åãî ìîäèôèêàöèÿ
В технической кибернетике часто приходится решать
задачи, когда объект управления представляет собой сложную систему, структура и взаимосвязи между элементами
которой исследователю неизвестны. Поэтому объект представляется в виде «черного ящика» (рис. 11.1).
332
Результат
Объект
исследования
y
Рис. 11.1. Объект исследования как «черный ящик»
Исследователю необходимо найти такое управляющее
воздействие x на систему из допустимого множества X,
чтобы на выходе из нее было достигнуто некое оптимальное
значение y, численно равное наперед заданному u. Как найти
это управляющее воздействие? Можно использовать метод
простого перебора. Но при этом нет никакой гарантии, что
решение будет найдено — простой перебор может привести
к случайному нахождению этого решения, а может и не привести к этому. Поэтому надо использовать процедуры целенаправленного перебора. Но поскольку зависимость между
входной и выходной переменными в явном виде не известна,
далеко не каждая процедура целенаправленного перебора
может использоваться для решения этой задачи. Поскольку
чаще всего стоит задача скорейшего поиска оптимального
управляющего воздействия на объект, например, для корректировки полета ракеты, то надежность алгоритма и скорость поиска этого наилучшего управленческого решения
являются превалирующими.
Одним из лучших методов, приспособленных для решения такой задачи, является метод стохастической аппроксимации, суть которого впервые отразили в 1951 г. Г. Роббинс
и С. Монро1. Этот метод и стал формальным основанием
для целого ряда задач адаптации в технической кибернетике. Области применения и разновидности решения различных задач технической кибернетики с помощью метода
стохастической аппроксимации разнообразны. В отечественной науке наиболее полно методы решения таких
задач адаптации и управления представлены в работах
Я. З. Цыпкина2.
1 Robbins H., Monro S. A stochastic aррroximation method //Annual
mmanhematics statistics. 1951. V. 22. Р. 400—407.
2 См., например: Цыпкин Я. З. Адаптация и обучение в автоматических
системах. М. : Наука, 1968.
333
Суть метода стохастической аппроксимации заключается
в следующем.
В допустимой области Х выбираем произвольное значение xt, проводим эксперимент с данным значением входа
в систему и наблюдаем на выходе некоторое значение
y = f(xt). Таким образом, у исследователя есть первая пара
взаимосвязи между входной переменной и выходной. Если
бы объект был стационарен, можно было бы с помощью
конечного множества наблюдений собрать достаточное множество пар значений xt и f(xt) такое, чтобы построить регрессионную зависимость между переменными. Тогда, зная
коэффициенты регрессионной зависимости, можно легко
решить поставленную задачу — найти такое значение входного управляющего воздействия x, при котором на выходе
из объекта наблюдается заданное u. Но объект нестационарен, поэтому такой статистический подход не приведет
к нужному результату. Кроме того, если система отклоняется от некоторой траектории развития, необходимо срочно
откорректировать ее поведение для того, чтобы вернуть ее
на прежний путь, или близкий к нему. Поэтому возможности собирать статистические данные и анализировать их
на предмет выявления вида и степени взаимосвязи нет возможности.
В методе стохастической аппроксимации выделяют две
разновидности:
• процедура Роббинса-Монро;
• процедура Кифера-Вольфовица (в приращениях)1.
Применительно к задачам адаптации прогнозных моделей
используется процедура Роббинса-Монро, согласно которой
для поиска оптимального управляющего значения x* выбираем убывающую с ростом n (числа испытаний) последовательность положительных чисел γ[n]. Необходимо за конечное число шагов испытаний определить такое значение x*,
принадлежащее множеству Х, чтобы
y  x *  u
(11.)
Для выбора значения x в следу ющем эксперименте
используется рекуррентное соотношение Роббинса — Монро:
1 Хасьминский Р. З. Стохастическая аппроксимация // Математическая
энциклопедия. М. : «Советская энциклопедия», 1984. Т. 5. С. 235—236.
334



x  n   x  n  1    n  u  y x  n  1 .
(11.2)
Разность в круглых скобках иногда называют «функцией
невязки». Здесь положительное число γ[n] получило название «параметр демпфирования колебаний». Именно способ
задания параметров демпфирования колебаний определяет
характеристики алгоритма метода стохастической аппроксимации, в первую очередь — скорость его сходимости
к оптимальному значению. Теоретическим исследованиям
процессов адаптации на основе алгоритма Роббинса-Монро
посвящено значительное число работ специалистов в области
математики и технической кибернетики. Доказано11, что если
   n    ,   2  n    ,
n
(11.3)
n
то x стремится к x*.
В зависимости от способа задания параметров демпфирования колебаний различают три различных алгоритма адаптации:
1. Алгоритм адаптации с постоянным шагом:
  n     1 .
(11.4)
Например,   n   1 n  1 .
2. Алгоритм адаптации с переменным шагом, когда параметры демпфирования колебаний изменяются в зависимости от числа испытаний n:
  n   f  n  .
(11.5)
Например,   n   1 n  1 .
3. Алгоритм адаптации с нелинейным шагом, когда параметры демпфирования колебаний определяются таким образом, чтобы в зависимости от конкретных величин y[n] и x[n]
при данном испытании наискорейшим путем приблизиться
к оптимуму (11.1):
  n   F  y, x , n  .
1
(11.6)
Вазан М. Стохастическая аппроксимация. М. : Наука, 1972.
335
Метод стохастической аппроксимации может быть отнесен к множеству рекуррентных численных методов, с помощью которых, как известно, решаются самые сложные математические задачи.
Первыми из множества возможных алгоритмов метода
стохастической аппроксимации были использованы и исследованы на практике алгоритмы адаптации с переменным
шагом. Здесь можно предложить самые различные способы
задания параметра демпфирования колебаний, например,
1
1
  n  
или   n  
и т.п.
n 1
n  12
В качестве преимущества такого подхода следует указать его простоту и формализм — параметр меняется только
в зависимости от шага аппроксимации. Это же можно рассматривать и как недостаток алгоритма адаптации с переменным шагом — закон изменения параметра демпфирования колебаний влияет на скорость достижения оптимума
и в каждом случае методом перебора надо определять лучший из них.
Пример. Нам необходимо решить уравнение: x  9 . Для решения
этой задачи воспользуемся итеративной процедурой метода стохастической аппроксимации.
Предположим, что в нашем распоряжении нет калькулятора или
компьютера, а корень извлечь нужно. При этом нам не нужно знать
абсолютно точное значение, можно найти корень и с некоторой небольшой ошибкой. Воспользуемся для этого алгоритмом метода стохастической аппроксимации.
3
Вначале задаем функцию невязки: F  9  x  n  .
Будем считать, что нас устраивает такое значение корня, когда
функция невязки по своему абсолютному значению не превышает η =
3
0,1. Выберем следующий способ задания параметра γ:  
1
.
n 1
Пусть на первом шаге исследователь задает x[0] = 2. Тогда в соответствии с алгоритмом Роббинса-Монро следующее значение x[n]
определится так:
1
1
x 1  x 0   (9  x 3 0 )  2  (9  8)  2,5 .
2
2
Возводим x[1] = 2,5 в третью степень и вычисляем модуль невязки:
|9 — 15,625| = 6,625. Она больше заданной η = 0,1, поэтому продолжаем
336
вычисления. Следующее значение входной переменной вновь вычислим,
1
используя метод Роббинса-Монро: x 2  2,5  (9  15,625)  0,292 .
3
Возводим x[2] = 0,292 в третью степень и вновь считаем невязку:
|9 — 0,025| = 8,975. Она больше допустимой, поэтому вычисляем новое
1
значение корня: x 3   0,292  (9  0,025)  2,536 .
4
Возводим новое значение искомой переменной в третью степень
и считаем невязку: |9 — 16,305|. Она оказалась больше допустимой,
поэтому вычисляем новое значение корня на четвертом и последующих шагах до тех пор, пока невязка не станет меньше допустимой
величины:
1
x 4   2,536  (9  16,305)  1,075 (невязка |9 — 1,242| > η);
5
1
x 5  1,075  (9  1,242)  2,368 (невязка |9 — 13,277| > η);
6
1
x 6   2,368  (9  13,277)  1,757 (невязка |9 — 5,424| > η);
7
1
x 7   1,757  (9  5,454)  2,204 (невязка: |9 — 10,71| > η);
8
1
x 8   2,204  (9  10,71)  2,014 (невязка: |9 — 8,174| > η);
9
x 9  2,014 
1
(9  8,174)  2,096 (невязка на этом шаге: |9 —
10
9,208| > η = 0,1);
x 10   2,096 
1
(9  9,208)  2,076 (невязка: |9 — 8,95| < η = 0,1,
11
что нас вполне устраивает).
Итак, окончательное решение поставленной задачи с наперед
заданной точностью — x* = 2,076.
На графике рис. 11.2 показано, как менялись значения переменной
x с каждым шагом аппроксимации.
Для справки: более точное значение этого корня равно 2,080084,
т.е., используя метод стохастической аппроксимации, мы оценили его
довольно близко к истинному. Если бы мы хотели получить более
близкое к истинному значение решения, следовало бы взять меньшую
величину невязки, например, η = 0,05.
337
3
x
k
имеет вид   n  
2,5
1,5
1
0,5
0
2
4
6
8
10
12
Рис. 11.2. Графическое изображение процесса поиска
решения поставленной задачи
В том, что параметр демпфирования колебаний не зависит от величины невязки и определяется только шагом
аппроксимации, видится недостаток алгоритма с переменным шагом — моделируемые процессы могут быть самыми
различными по сложности, отличаясь друг от друга; первое
приближение x[0] в одном случае может быть достаточно
далеким от оптимума, а в другом — близким к нему. Алгоритм же этих особенностей не учитывает. Поэтому можно
случайным образом или быстро найти искомое решение, или
так же случайно получить такой алгоритм, который затянет
решение задачи на много операций.
Чтобы избавиться от влияния такого случая, алгоритмы
аппроксимации с нелинейным шагом являются более предпочтительными, поскольку их задают так, чтобы параметр
демпфирования колебаний учитывал величину невязки
и алгоритм «подтягивает» модель к реальным данным с той
или иной степенью в зависимости от величины невязки.
Такие алгоритмы имеют большую скорость сходимости,
но в каждом конкретном случае исследователю приходится
подбирать свой вид функции, которая описывает процесс
изменения параметра демпфирования колебаний. Например, для параметрической идентификации линейных многофакторных систем в технической кибернетике используют
алгоритм, при котором параметр демпфирования колебаний
338
j 1
k
, где k — число входных
 x 2j  n 
j 1
2
0
y  n    a j x j  n 
переменных объекта.
Алгоритмы адаптации с постоянным шагом не нашли широкого
применения в задачах технической кибернетики, хотя известно,
что скорость сходимости к оптимуму в этих случаях может быть
наибольшей. Однако способ задания постоянного шага слабо формализуем — для каждого случая необходимо подбирать собственную постоянную величину демпфирования колебаний.
Успех применения адаптивного алгоритма идентификации
моделей технической кибернетики с помощью методов Роббинса-Монро дал основания надеяться на успех его применения и в экономической практике. Огромным преимуществом
здесь по сравнению с другими методами адаптации прогнозных
моделей является отсутствие каких-либо априорных предположений о характере процесса. Есть просто некоторый явно
заданный оптимум, которого необходимо достичь. Поэтому
в конце ХХ в. многие специалисты в области экономико-математического моделирования пытались использовать этот метод
применительно к задачам социально-экономического прогнозирования. Из множества этих попыток в прогнозировании
экономики следует отметить работы Е. М. Левицкого1, заложившего еще в 1970-е гг. основы адаптации эконометрических
моделей методом стохастической аппроксимации для целей
прогнозирования. Эти идеи в дальнейшем были развиты 2,
но сложности отечественной науки в 1990-е гг. привели к тому,
что это направление исчезло как из научных монографий, так
и из общедоступных учебников по прогнозированию.
Чтобы эффективно использовать алгоритм адаптации
Роббинса-Монро в прогнозной практике, необходимо получить четкие ответы на следующие вопросы3:
1. Что является целью адаптации?
2. Что является предметом адаптации?
3. Каковы ожидаемые результаты адаптации?
1 Левицкий Е. М. Адаптация в моделировании экономических систем.
Новосибирск : Наука. Сиб. отд-ние, 1977; Левицкий Е. М. Адаптивные эконометрические модели. Новосибирск : Наука, 1981.
2 Светуньков С. Г. Эконометрические методы прогнозирования спроса
(на примере промышленной энергетики). М. : МГУ, 1993.
3 Багиев Г. Л., Светуньков С. Г. Моделирование электропотребления
в промышленности // Промышленная энергетика. 1988. № 4.
339
Дадим ответы на эти вопросы.
1. Что является целью адаптации? Поскольку социально-экономическая динамика многообразна, каждый ее тип
описывается с помощью соответствующей модели. Модель
должна меняться следом за объектом, который она описывает, адаптируясь к изменениям в тенденциях, если такие
изменения наблюдаются, и оставаться неизменной, если
изменений не происходит.
В конечном итоге под адаптацией понимается такое изменение эконометрической модели, при котором расчетное
значение показателя yˆt наилучшим образом приближалось
бы к некоторому оптимальному значению ut. С учетом того,
что адаптация эконометрических моделей — не самоцель,
а попытка описать изменившееся качественное состояние
системы в результате эволюционного развития, становится
ясно, что это оптимальное значение ut представляет собой
фактическое наблюдение, подверженное влиянию различных факторов — детерминированных, случайных и неизвестных. К этому фактическому значению и должна адаптировать модель свои расчетные значения.
Получается, что целью адаптации следует считать корректировку модели так, чтобы она лучше описывала последние
наблюдения, чем все предыдущие.
2. Что является предметом адаптации? Адаптировать
модель к текущим изменениям в тенденциях можно либо
меняя структуру модели, либо корректируя коэффициенты
модели.
Чтобы поменять структуру модели, необходимо выявить,
какие факторы перестали воздействовать на объект прогнозирования (их необходимо удалить из модели) и какие
новые факторы, оказывающие влияние на прогнозируемый
показатель, появились (их следует включить в модель).
При современном состоянии науки эффективно решить эту
задачу не получается. Единственный способ ее решения —
использовать экспертные процедуры, но это вносит в саму
процедуру большую долю субъективизма, и результаты прогноза оказываются неудовлетворительными.
Поэтому, оставляя неизменным вид и структуру модели,
будем изменять ее коэффициенты, т.е. предметом адаптации выступят коэффициенты прогнозной модели. Их значения будут корректироваться в том случае, когда траектория
развития прогнозируемого объекта начинает отклоняться
от той, которую описывает модель.
340
3. Каковы ожидаемые результаты адаптации? Чтобы
ответить на этот вопрос, необходимо вспомнить, что для эволюционных процессов его показатели y t формируются
под воздействием составляющих, информация о которых
может быть:
• детерминированной y t ;
• случайной εt;
• неопределенной μt.
Процесс формирования итогового показателя с учетом
введенных обозначений можно представить так:
yt  y t  t  t .
(11.7)
Однако при построении модели выделить все три
составляющие невозможно, поэтому реальный процесс приходится описывать с помощью двух слагаемых — собственно
модели (регулярная составляющая) и некоторой ошибки
аппроксимации, которая характеризует воздействие случайных процессов и неизвестных факторов и процессов:
yt  yˆt  t .
(11.8)
Регулярная составляющая построена не только с учетом
детерминированных факторов, но и с учетом факторов, неизвестных исследователю, которые мы ранее назвали «неопределенными». Поэтому даже после выявления степени и силы
взаимодействия факторов при построении модели нет никаких гарантий того, что конкретные численные значения
определенных коэффициентов модели отражают влияние
только детерминированных факторов. Если модель хорошо
описывает развитие системы в среднем, в той или иной степени отражая происходящие в действительности процессы,
то в результате эволюционного изменения самой системы
к последним наблюдениям модель начинает все хуже и хуже
описывать реальные процессы. Для улучшения ее свойств
и возникает необходимость адаптации эконометрической
модели, ее приспособления к этим наметившимся изменениям в тенденциях динамики, суть и причина которых прогнозисту еще не ясна.
Точность описания фактических значений с помощью
модели отражает ошибка аппроксимации εt. Очевидно, нет
никакой необходимости требовать сведения этой ошибки
к нулю, наоборот, эта ошибка не должна превышать некоторого допустимого значения η. Причем этим допустимым
значением может быть и среднее абсолютное отклонение,
341
и СКО, и границы, определенные с помощью t-статистики
Стьюдента, и другие критерии, применяемые в зависимости
от апостериорно выявленного характера исследуемого процесса. Таким образом, адаптацию эконометрической модели
следует производить только в случае, когда абсолютное значение текущего отклонения расчетных значений от фактических превышает некоторое наперед заданное допустимое
значение
t   .
yˆt  f  x1,t , x 2,t ,..., x k,t , aˆ0 , aˆ1,..., aˆk  ,
(11.10)
где x1,t, x2,t,... xk,t — факторы, влияющие на yt; a0, a1,..., ak — коэффициенты, оцененные с помощью МНК.
Критерий адаптации и сам алгоритм адаптации можно
представить следующим образом. Выразим из (10.10) каждый коэффициент модели через значения yˆt , xt и оставшиеся коэффициенты:

aˆ j  f yˆt , x1,t , x 2,t ,..., x k,t , aˆ0 , aˆ1,...aˆ j 1, aˆ j 1,..., aˆk .
342


a j ,t  f yt , x1,t , x 2,t ,..., x k,t , aˆ0 , aˆ1,...aˆ j 1, aˆ j 1,..., aˆk .
(11.12)
(11.9)
В этом случае адаптация производится с целью изменения коэффициентов модели так, чтобы расчетные значения
вновь удовлетворительно описывали реальный ряд значений, т.е. чтобы модель с адаптированными коэффициентами
описывала последние наблюдения с ошибкой, по модулю
меньшей наперед заданной ошибки.
Следовательно, ожидаемые результаты адаптации —
корректировка коэффициентов модели таким образом,
чтобы модель вновь описывала исходные значения в заданных
границах, обусловленных действием случайных факторов.
Теперь становится понятным содержание процесса адаптации прогнозных моделей — с помощью алгоритма Роббинса-Монро коэффициенты эконометрических моделей
должны приблизиться к некоторому оптимальному своему
значению для новых изменившихся условий функционирования системы. Как определить это оптимальное значение
коэффициентов, ведь они зависят и от вида модели, и от конкретных значений и факторов, и показателя?
Рассмотрим многофакторную эконометрическую модель
вида

Если теперь для некоторого момента наблюдения t
в полученное выражение (11.11) подставить вместо расчетного значения показателя yˆt его фактическое значение yt, то
будет получен коэффициент аj,t, отличный от расчетного aˆ j
, который, при подстановке его в модель, позволяет модели
в точности описывать фактическое наблюдение:
(11.11)
В общем случае значения полученных таким образом
коэффициентов модели аjt будут отличаться от рассчитанных ранее значений aˆ j . Назовем для определенности полученные с помощью (11.12) коэффициенты фактическими.
Если вспомнить, что фактическое и расчетное значения отличаются друг от друга на ошибку аппроксимации,
то, подставляя (11.8) в (11.12), увидим, что a j , t 
 f yˆt  t , x1, t , x 2, t , ..., x k, t , aˆ0 , aˆ1,... aˆ j 1, aˆ j 1, ..., aˆk , т.е. отличие
фактических коэффициентов от расчетных вызвано наличием ошибки аппроксимации. В случае, когда зависимость
между факторами функциональная, ошибка аппроксимации
равна нулю и коэффициенты (11.11) и (11.12) равны друг
другу. Чем дальше зависимость между переменными отстоит
от функциональной, тем больше ошибка аппроксимации,
тем сильнее различие между расчетными и фактическими
переменными.
Расчетные коэффициенты модели не меняют свои значения, поскольку они найдены для всего множества значений
исходных переменных yt и xt, а фактические коэффициенты
в общем случае меняются на каждом наблюдении t.
Если модель в последние моменты наблюдения начинает
все хуже описывать реальный процесс за счет того, что прогнозируемый объект эволюционирует и меняет свою траекторию развития, фактические коэффициенты все более
отдаляются от расчетных значений. Поэтому в случае, когда
модель начинает плохо описывать реальный процесс, необходимо откорректировать коэффициенты модели так, чтобы
их расчетные значения (11.11) приближались к фактическим
(11.12). Поскольку в процессе адаптации расчетные значения
коэффициентов меняют со временем свои значения, следует
ввести в их обозначения индекс t. Мы будем их обозначать
aˆ j ,t и называть «адаптированными коэффициентами».


343
Адаптация модели в момент времени t осуществляется
при выполнении условия (11.9) по следующей модификации
формулы Роббинса-Монро1:

aˆ j ,t  n   aˆ j ,t  n  1    n  a j ,t  aˆ j ,t  n  1

(11.13)
Здесь aˆ j ,t 0  aˆ j ,t 1  N  , где N — последний шаг адаптации
коэффициента на предыдущем наблюдении.
Для адаптации прогнозных моделей можно использовать
любой из алгоритмов (11.3) — (11.5). Проведенные исследования показали, что наилучшими в случае аддитивных
моделей будут являться алгоритмы адаптации с постоянным
шагом. Здесь можно предложить самые разные варианты
вычисления величин параметров демпфирования колебаний, например, 1/2 или 1/3 и т.п. На каждом наблюдении
t с помощью такого постоянного параметра демпфирования колебаний за конечное число шагов можно будет приблизиться к допустимым границам. Однако для рассматриваемого случая адаптации эконометрических прогнозных
моделей оказывается возможным не заниматься перебором
разных значений параметра демпфирования колебаний,
а находить такое его значение, при котором адаптация коэффициентов будет осуществляться за один шаг2:
 j ,t   j  t   j
t  
t
,
(11.14)
k
(11.15)
j0
1 Светуньков С. Г. Адаптивные методы в процессе оптимизации режимов электропотребления // Нормирование и учет в системе энергосбережения : межвузовский сборник. Ленинград : ЛИЭИ, 1985.
2 Светуньков С. Г. Параметры демпфирования колебаний при адаптивном подходе к задаче идентификации динамических систем // Моделирование и разработка технических средств для АСУ ТП. Ташкент : ТашПИ,
1987.
344
 j ,t   t 
1 t  
.
k t
(11.16)
Исследования показали, что рассчитываемое с помощью
формулы (11.14) или (11.16) значение параметров демпфирования колебаний является оптимальным для инерционных процессов, так как адаптация при этом не имеет многоитеративного характера, а осуществляется за один шаг,
поэтому при таком параметре демпфирования колебаний
(11.13) можно записать так:


aˆ j ,t  aˆ j ,t 1   t a j ,t  aˆ j ,t 1 .
где весовой коэффициент νj характеризует степень адаптации и направление изменения данного коэффициента
по сравнению с остальными коэффициентами, причем сумма
этих весовых коэффициентов должна быть равна единице:
 j 1.
Ограничений на веса кроме (11.15) не накладывается,
так что, в принципе, у некоторых коэффициентов веса могут
быть отрицательными, что будет приводить к адаптации
в «противофазу».
В общем же случае нет оснований считать, что адаптация одних коэффициентов должна осуществляться в более
значительной степени, чем других, поэтому можно принять
указанный весовой коэффициент νj одинаковым для всех
коэффициентов, и тогда параметр демпфирования колебаний для каждого из k коэффициентов рассчитывается достаточно просто:
(11.17)
Данная модификация метода стохастической аппроксимации является вполне самостоятельной, нацелена на адаптацию прогнозных моделей и фактически имеет немного
общего с исходным методом стохастической аппроксимации.
К тому же предлагаемый механизм адаптации имеет особенность, к которой мы обратимся в следующем параграфе. Все
это указывает на то, что предложенный метод нужно идентифицировать самостоятельно. Для такой идентификации
назовем его «методом неравномерного сглаживания». О том,
что за сглаживание происходит и почему оно неравномерное,
мы поговорим в параграфе 11.2.
Покажем суть алгоритма на примере простой линейной
однофакторной модели:
yˆt  aˆ0  aˆ1x t .
(11.18)
Пусть на имеющемся множестве значений переменных
были оценены значения коэффициентов этой модели, напри345
мер, с помощью МНК. Эти коэффициенты являются теми
самыми значениями, которые при необходимости следует
откорректировать с помощью метода неравномерного сглаживания. Адаптацию этих коэффициентов модели следует
осуществить, если на некотором наблюдении t реальные значения, вычисленные по этим расчетным значениям коэффициентов aˆ0 и , выходят за допустимые границы:
t   , где t  yt  aˆ0  aˆ1x t  .
(11.19)
В этом случае расчетные коэффициенты aˆ0 и aˆ1 становятся теми начальными параметрами, которые подлежат
адаптации, т.е.
aˆ0  aˆ0,t 1 и aˆ1  aˆ1,t 1 .
(11.20)
В соответствии с (11.20) однофакторная регрессионная
модель будет преобразована в модель
yˆt  aˆ0,t 1  aˆ1,t 1x t .
(11.21)
В соответствии с вышеизложенным выразим каждый
коэффициент линейной однофакторной модели через yt, xt
и оставшийся коэффициент. Для фактического коэффициента а0 линейной однофакторной модели в момент времени
t имеем a0,t  yt  aˆ1,t 1x t ; для коэффициента а1 — a1, t

yt  aˆ0,t 1
xt
.
y  aˆ0
 t

xt
В этом случае, используя коэффициенты aˆ0,t 1 и aˆ1,t 1
как значения коэффициентов на начальном шаге адаптации,
получим:
aˆ0,t  aˆ0,t 1   t  yt  aˆ1,t 1x t  aˆ0,t 1  ;
(11.22)
 yt  aˆ0,t 1  aˆ1,t 1xt  .
(11.23)
aˆ1,t  aˆ1,t 1   t
xt
С учетом того, что выражения в скобках в правых частях
равенств (11.22) и (11.23) есть не что иное, как текущая
ошибка аппроксимации εt, и поскольку адаптация осуществляется за один шаг, получим простую запись для вычисления адаптированных коэффициентов:
346
aˆ0,t  aˆ0,t 1   t t ;
(11.24)
t
.
xt
(11.25)
aˆ1,t  aˆ1,t 1   t
Чтобы произвести адаптацию по этим формулам, вычислим для данного наблюдения в соответствии с (11.16) параметр демпфирования колебаний:  t 
1 t  
.
2 t
Полученные адаптированные значения коэффициентов
используются в дальнейших расчетах.
Итоговая модель парной регрессии в тех случаях, когда
ошибка превышает заданную величину, имеет вид

 yˆ  aˆ
ˆ1,t 1x t
0,t 1  a
 t
ˆ
ˆ


a
a
.
 0,t
0,t 1  t  t


aˆ1,t  aˆ1,t 1   t t
x

t
(11.26)
Если теперь обратить внимание на суть формул (11.24)
и (11.25) при параметре демпфирования колебаний (11.16),
то становится ясен смысл алгоритма адаптации с помощью метода неравномерного сглаживания — с его помощью
модель как бы «подтягивается» к фактическим значениям
на расстояние, равное η (т.е. к ближайшей границе).
Чтобы понять суть алгоритма адаптации прогнозных
моделей таким методом, на рис. 11.3 приведена схема алгоритма адаптации модели.
В начале тем или иным способом (например, с помощью
МНК) оцениваются коэффициенты модели на всем имеющемся множестве наблюдений. Выбор модели определяется
свойствами объекта прогнозирования и характером статистической взаимосвязи между прогнозируемым показателем
и факторами. Модель в среднем должна хорошо описывать
исходные данные, но если в тенденциях развития прогнозируемого процесса наблюдаются некоторые систематические отклонения, вызванные адаптацией объекта прогнозирования к неизвестным пока новым факторам и условиям,
модель также должна адаптироваться к этим изменениям
347
Статистическая оценка значений коэффициентов
прогнозной модели aˆj на всем множестве
значений t = 1, 2, 3, …, T
Определение доверительного интервала η,
t = 0, aˆj = aˆj, 0
t = t+1
aˆj, t = aˆj, t–1
да
t>T
нет
εt = Yt – Yˆj
|εt| > η
нет
да
Адаптация коэффициентов модели методом
стохастической аппроксимации, пересчет
aˆj, t
Модель адаптирована,
пригодна для прогнозирования
Рис. 11.3. Алгоритмическая схема адаптации прогнозной
модели
в тенденциях и повторять траекторию движения во времени
прогнозируемого показателя.
Для этого прогнозист задает величину доверительной границы модели η, в рамках которой отклонения модели от фактических значений объясняются действием случайных величин, а выход за эти рамки служит основанием для адаптации.
348
Итак, в начале алгоритма задаются исходные условия — исходные значения оценок коэффициентов модели
и допустимая величина отклонения модели от фактических
наблюдений η. На первом же наблюдении t = 1 проверяется
выполнение условия (11.9). Если условие не выполняется,
т.е. модель хорошо описывает исходные данные, следует
переходить к следующему наблюдению, не выполняя никаких действий.
Но если это условие выполняется, что означает выход
модели за доверительные границы, необходимо адаптировать модель, корректируя ее коэффициенты указанным
выше способом. Эти адаптированные коэффициенты подставляются в модель, и для следующего наблюдения t = t + 1
вновь проверяется выполнение условия (11.9). Этот процесс
продолжается на всей базе данных до последнего наблюдения t = T. Последние адаптированные коэффициенты
модели и дают прогнозисту ту модель, которая адаптировалась к изменениям в тенденциях, если они были. Если же
изменений в тенденциях не было, то коэффициенты модели
не пересчитывались, и модель не изменила своего вида.
Пример. По данным табл. 11.1 на первых 10 наблюдениях с помощью МНК была построена следующая модель: yˆt  8,0269 x t  10,4506,
где yt — электропотребление промышленностью, млрд кВт/ч; xt — численность занятых в промышленности (млн чел.).
Таблица 11.1
Исходные данные для адаптации прогнозной модели
Номер наблюдения, t
yt
xt
t
yt
xt
1
5,570
1,953
13
17,100
3,252
2
6,360
2,055
14
17,490
3,334
3
7,500
2,291
15
17,900
3,415
4
8,280
2,350
16
18,480
3,469
5
9,060
2,443
17
19,220
3,551
6
9,740
2,535
18
19,910
3,644
7
10,360
2,634
19
21,100
3,721
8
11,600
2,773
20
22,100
3,819
9
12,790
2,878
21
23,400
3,950
10
13,920
2,965
22
24,300
4,090
349
Рассчитаем по этим данным среднюю абсолютную ошибку аппрок-
1 T
симации: MAE   t .
T t 1
Она оказалась равной 0,2738. Эти исходные значения дают возможность провести адаптацию модели с помощью метода неравномерного
сглаживания.
Процесс адаптации данной модели заключается в изменении коэффициентов модели в том случае, когда текущее отклонение модели
от фактических данных будет превышать среднее абсолютное отклонение, равное η = 0,2738. Вопросу выбора величины η далее будет
посвящен отдельный параграф. Здесь мы будем использовать среднюю
абсолютную ошибку аппроксимации.
Последовательность изменений коэффициентов модели в процессе
ее адаптации отражена в табл. 11.2. В том случае, когда ошибка аппроксимации не превышала указанный предел, параметры модели оставались неизменными.
Таблица 11.2
Адаптация линейной однофакторной модели во времени
Год
Текущее
Коэффициент демпфи- Коэффициенты модели
отклонение, εt рования колебаний, γt
Как видно, коэффициент пропорциональности увеличился, так
же, как увеличился и свободный член. Это свидетельствует о том, что
адаптированная модель отразила тенденцию изменения пропорции
между xt и yt.
Сравним точность условного прогноза каждой из моделей на краткий срок (до трех лет), средний срок (от четырех до семи лет) и долгий
срок (от восьми до 13 лет). Для этого будем использовать те данные,
которые не вошли в базу построения модели, т.е. с 11 по 23 наблюдение.
Результаты ретропрогноза на эти три периода по двум моделям
приведены в табл. 11.3.
Таблица 11.3
Ошибки прогноза по моделям (11.27) и (11.28)
t
MAPE(t) модели (11.27), %
MAPE(t) модели (11.28), %
11
5,82
3,81
12
7,83
5,93
13
8,46
6,65
11—13
7,37
5,46
aˆ0,t
aˆ1,t
14
6,74
4,94
1
0,3440
0,2040
–10,4155
8,0449
15
5,24
3,47
2
0,2432
0,1257
–10,4155
8,0449
16
5,87
4,14
3
–0,5154
0,4687
–10,5362
7,9922
17
6,07
4,38
4
0,0346
6,9036
–10,5362
7,9922
14—17
5,98
4,23
5
0,0714
2,8364
–10,5362
7,9922
18
5,58
3,92
6
0,0161
16,0149
–10,5362
7,9922
19
7,97
6,40
7
–0,1551
0,7651
–10,5362
7,9922
8
–0,0260
9,5136
–10,5362
7,9922
20
8,58
7,05
9
0,3248
0,1569
–10,5108
8,0010
21
9,16
7,70
10
0,7077
0,6131
–10,2938
8,0742
22
7,90
6,46
23
8,10
6,68
18—23
7,88
6,37
Адаптация проводилась для первых 10 наблюдений. Теперь сравним прогнозные результаты исходной модели с оценками МНК и адаптированной модели. Модель с оценками МНК имеет вид
yˆt  8,0269 x t  10,4506 ,
(11.27)
а адаптированная методом неравномерного сглаживания модель —
yˆt  8,0742 x t  10,2938 .
350
(11.28)
Из табл. 11.2 видно, что адаптированная модель дает более точный
прогноз — средняя относительная ошибка аппроксимации для нее
на всех периодах оказывается ниже, чем для модели, оцененной МНК.
Графически расчетные значения по модели и условный прогноз
по ней представлены на рис. 11.4.
351
aˆ0,t 1  yˆt  aˆ1,t 1x1,t  ...  aˆk,t 1x k,t  .
30
25
Подставляя вместо расчетного значения моделируемого
показателя его фактическое значение, получим «фактическое» значение коэффициента, к которому следует адаптировать расчетное, если модель начинает плохо описывать
реальные процессы и ее коэффициенты следует откорректировать:
20
15
10
a0,t 1  yt  aˆ1,t 1x1,t  ...  aˆk,t 1x k,t  .
5
0
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23
Рис. 11.4. Графическое представление аппроксимации ряда
и прогноза моделью (11.28):
сплошная линия с точками — фактические значения; сплошная
линия без точек — расчетные значения; пунктирные линии —
границы фильтра; вертикальная линия отмечает момент,
до которого велась адаптация
По графику видно, как модель адаптируется к новой информации.
В тех случаях, когда значения лежат внутри границ фильтра, никаких
изменений с моделью не происходит. Когда же значения оказываются
вне границ, модель с запаздыванием на один шаг подтягивает свою
ближайшую границу к уровню, на котором находилось предыдущее
фактическое значение. В целом можно обратить внимание на то, что
в долгосрочной перспективе модель (11.28) дает систематическую
ошибку, однако на таких больших периодах прогнозирования это
и не удивительно.
Разработанный алгоритм адаптации эконометрических
моделей может быть использован не только для адаптации
однофакторных моделей, но и для адаптации многофакторных моделей. Покажем, как это сделать на примере простой
линейной многофакторной модели, коэффициенты которой
найдены на некотором статистическом множестве:
yˆt  aˆ0,t 1  aˆ1,t 1x1,t  ...  aˆk,t 1x k,t .
(11.29)
Сначала необходимо вывести каждый из коэффициентов
модели через исходные переменные и другие коэффициенты
модели. Для коэффициента — свободного члена многофакторной модели — имеем:
352
(11.30)
(11.31)
Поскольку модель аддитивна и линейна, все остальные
расчетные коэффициенты выводятся одинаковым образом.
Для i-го коэффициента модели имеем
aˆ j ,t 1 

yˆt  aˆ0,t 1  aˆ1,t 1x1,t  ...  aˆ j 1,t 1x j 1,t  aˆ j 1,t 1x j 1,t  ... 
x j ,t
. (11.32)
Подставляя вместо расчетного значения моделируемого
показателя его действительные значения, вычисляются
«фактические» значения коэффициента, к которым в результате адаптации как бы «подтягиваются» расчетные значения:


a j , t 1 
yt  aˆ0, t 1  aˆ1, t 1x1, t  ...  aˆ j 1,t 1x j 1,t  aˆ j 1, t 1x j 1, t  ...  aˆk,
. (11.33)
x j, t
Адаптация модели (10.29) осуществляется в соответствии
с все тем же алгоритмом. Легко заметить, что вновь приходится сталкиваться с ошибкой аппроксимации εt. С учетом
этого для адаптации свободного члена линейной многофакторной модели используется формула
aˆ0,t  aˆ0,t 1   0,t t .
(11.34)
Адаптация каждого последующего за свободным членом
коэффициента также осуществляется по простой формуле:
aˆ j ,t  aˆ j ,t 1   j ,t
t
.
x j ,t
(11.35)
353
Здесь параметры демпфирования колебаний могут вычисляться по формуле (11.14), а если степень адаптации каждого из коэффициентов одинакова, то по формуле (11.16).
Итоговая модель множественной регрессии, адаптированная с помощью метода неравномерного сглаживания,
может быть представлена в виде системы уравнений, которая визуально будет напоминать модель экспоненциального
сглаживания в форме коррекции ошибок (см. параграф 7.4):


 yˆt  aˆ0,t 1  aˆ1,t 1x1,t  ...  aˆk,t 1x k,t
aˆ0,t  aˆ0,t 1   t t

t

.
aˆ1,t  aˆ1,t 1   t
x1,t

...

t
aˆ  aˆ
k,t 1   t
 k,t
x
k,t

(11.36)
Если переписать первое уравнение системы (11.36)
с использованием индекса на единицу выше (t + 1 вместо t),
это соответствие становится еще более очевидным:


 yˆt 1  aˆ0,t  aˆ1,t x1,t 1  ...  aˆk,t x k,t 1
aˆ0,t  aˆ0,t 1   t t

t

.
aˆ1,t  aˆ1,t 1   t
x
1,t

...

t
aˆ  aˆ
k,t 1   t
 k,t
x
k,t

354
Пример
По данным табл. 10.1 построим многофакторную модель объема продаж от ряда факторов. По этим данным в гл. 10 мы уже
оценивали модель обычным МНК и методом z — множителей.
Обычный МНК дал нам следу ющие оценки коэффициентов:
yˆt  93,6880  0,0029 x1,t  2,4238 x 2,t  2,6207 x 3,t.
Эта модель описывает исходные значения объема произведенной продукции со средней абсолютной ошибкой
аппроксимации, равной 35,4650. Проведем адаптацию
модели с помощью метода неравномерного сглаживания
(11.36). Процесс адаптации модели к текущим изменениям
показан в табл. 11.4.
Таблица 11.4
Адаптация линейной многофакторной модели во времени
Год
(11.37)
Так, в случае, если в модели не будет никаких факторов
(т.е. yt будет описываться лишь средней величиной), система
(11.37) примет вид модели Брауна в форме коррекции ошибок, в которой уровень ряда адаптируется к ошибкам модели:
 yˆt 1  aˆ0,t
.

aˆ0,t  aˆ0,t 1   t t
Существенное отличие моделей, адаптированных методом
неравномерного сглаживания, от моделей экспоненциального сглаживания заключается в использовании фильтра
шумов, в результате чего адаптация происходит только в тех
случаях, в которых это действительно необходимо.
Как видим, метод неравномерного сглаживания является
более общим по сравнению с методом экспоненциального
сглаживания и позволяет адаптировать не только модели
тенденций, но и факторные зависимости.
Январь09
Текущее Коэфотклоне- фициент
ние, εt демпфирования
колебаний, γt
–34,5084 0,0277
Коэффициенты модели
aˆ0,t
aˆ1,t
aˆ2,t
aˆ3,t
–93,6880 –0,0029 –2,4238
2,6207
Февраль 09 24,2146
0,4646
–93,6880 –0,0029 –2,4238
2,6207
Март 09
14,5534
1,4369
–93,6880 –0,0029 –2,4238
2,6207
Апрель 09
–39,0689 0,0922
–94,4087 –0,0029 –2,4893
2,6154
Май 09
–26,1078 0,3584
–94,4087 –0,0029 –2,4893
2,6154
Июнь 09
46,6996
0,2406
–92,1618 –0,0027 –2,2646
2,6319
Июль 09
27,0792
0,3097
–92,1618 –0,0027 –2,2646
2,6319
Август 09
16,0896
1,2042
–92,1618 –0,0027 –2,2646
2,6319
Сентябрь 09 19,5862
0,8107
–92,1618 –0,0027 –2,2646
2,6319
355
Окончание табл. 11.4
Коэффициенты модели
aˆ0,t
aˆ1,t
aˆ2,t
aˆ3,t
400
2,6223
Январь 10
–96,0062 –0,0030 –2,6141
2,6050
1,6657
–96,0062 –0,0030 –2,6141
2,6050
Март 10
–55,1764 0,3572
–99,9484 –0,0033 –2,9173
2,5809
Апрель 10
53,7501
0,3402
–96,2914 –0,0031 –2,6561
2,5996
Май 10
–65,1379 0,4555
–102,2260 –0,0035 –3,0800
2,5649
Июнь 10
53,0971
0,3321
–98,6996 –0,0032 –2,8087
2,5827
Июль 10
33,0860
0,0719
–98,6996 –0,0032 –2,8087
2,5827
Август 10
51,7737
0,3150
–95,4378 –0,0030 –2,5578
2,6002
Сентябрь 10 –60,9478 0,4181
–100,5344 –0,0034 –2,9826
2,5689
Октябрь 10 102,9063 0,6554
–87,0461 –0,0024 –1,9450
2,6927
Ноябрь 10
–18,1196 0,9573
–87,0461 –0,0024 –1,9450
2,6927
Декабрь 10 –10,8702 2,2626
–87,0461 –0,0024 –1,9450
2,6927
–47,9674 0,2606
Февраль 10 13,3043
Видно, что модель адаптируется к ошибкам достаточно
часто, тем не менее, в некоторых частях ряда коэффициенты
остаются на том же уровне из-за фильтрации ошибок.
В результате адаптации многофакторная модель изменила
свои коэффициенты и к последнему шагу адаптации имеет
вид yˆt  87,0461  0,0024 x1,t  1,9450 x 2,t  2,6927 x 3,t .
Различия в коэффициентах, как можно заметить, не существенные. Вызвано это, судя по всему, тем, что в ряде данных
за все время не происходило существенных изменений в связях между y и факторами, влияющими на него.
Графически исходный ряд данных и адаптирующаяся
модель множественной регрессии представлены на рис. 11.5.
356
200
100
0
июл. 11
–93,5057 –0,0029 –2,3868
апр. 11
Декабрь 09 –57,9905 0,3884
янв. 11
2,6540
окт. 10
–89,0006 –0,0025 –1,9772
июл. 10
0,3083
апр. 10
Ноябрь 09
300
янв. 10
2,6319
окт. 09
–92,1618 –0,0027 –2,2646
июл. 09
Октябрь 09 –32,4266 0,0937
51,2712
500
апр. 09
Текущее Коэфотклоне- фициент
ние, εt демпфирования
колебаний, γt
янв. 09
Год
600
Рис. 11.5. Графическое представление аппроксимации ряда
и прогноза методом стохастической аппроксимации:
сплошная линия с точками — фактические значения; сплошная
линия без точек — расчетные значения; пунктирные линии —
границы фильтра; вертикальная линия отмечает момент,
до которого велась адаптация
По рисунку видно, как часто и в каких наблюдениях модель адаптировалась к новым фактическим значениям.
Обратим внимание на то, что адаптация многофакторных моделей, заложенная в методе стохастической аппроксимации в том виде, в котором она описана в данном параграфе, не учитывает реальное изменение в связях между
результатом и факторами: в случае, если ошибка оказалась
положительной, все коэффициенты будут увеличиваться.
Если же ошибка отрицательна, то все коэффициенты будут
уменьшаться. Таким образом, коэффициенты, рассчитанные
методом стохастической аппроксимации, интерпретировать
бессмысленно — это всего лишь один из вариантов описания
сложного эволюционного процесса. Для того чтобы получить более соответствующие реальности коэффициенты,
нужно менять механизм адаптации коэффициентов и задавать неравномерные веса в коэффициентах γj,t.
357
Данное замечание не относится к однофакторным моделям, в которых влияние фактора на результат рассматривается изолированно от остальных возможных факторов.
11.2. Êîýôôèöèåíò äåìïôèðîâàíèÿ êîëåáàíèé
è ãðàíèöû ôèëüòðà
В адаптации модели важную роль играют два коэффициента: коэффициент демпфирования колебаний γ и коэффициент, задающий границы фильтра η. Очевидно, что методов
их задания можно предложить очень много и в зависимости
от используемого метода, точность прогнозов будет меняться.
В этом параграфе мы обсудим самые простые методы задания этих двух коэффициентов.
11.2.1. Методы задания границ фильтра
Для начала, мы предлагаем выделить следующие методы
задания η:
1. η можно задать на основе экспертного мнения. Данный
вариант не очень хорош, так как обоснован лишь мнением
исследователя относительно того, что отсеивать, а к чему
адаптироваться. В некоторых случаях, если исследователь
хочет включить в интервал какие-то конкретные значения,
он может внести правки в значение η, но полагаться целиком
и полностью на экспертное мнение не стоит.
2. η можно задать на основе статистик по остаткам
регрессионной модели, построенной по тому же ряду данных.
Здесь возможны различные варианты реализации. Например, можно построить регрессию по всему ряду данных
и получить распределение остатков, которое затем потребует изучения. Кроме того, учитывая эволюционность ряда,
можно построить регрессию по какой-нибудь первой его
части, и, опять же, изучить распределение остатков. Второй
вариант, однако, менее предпочтителен из-за слабой формализуемости — в нем остается неясным число наблюдений,
требуемое для включения при построении регрессии.
Здесь и далее мы будем основывать вычисления
на первоначальной оценке модели МНК по всему ряду данных.
Среди статистик, которые можно использовать для фильтра, выделим следующие:
а) средняя абсолютная ошибка:
358
  MAE 
1 T
 t ,
T t 1
(11.38)
где εt — ошибка на наблюдении t в модели регрессии, оцененной МНК по всему ряду.
Ранее мы уже использовали этот показатель для задания
η. Средняя абсолютная ошибка в регрессии обычно меньше
ско ошибок, что приводит к более частой адаптации модели.
В некоторых случаях это хорошо, так как позволяет более
часто учесть возможные изменения в связях;
б) среднеквадратическое отклонение ошибки:
   
2
1 T
  t  .
T  k t 1
(11.39)
Установление такой меры фактически означает задание
таких интервалов, в которых в случае с нормально распределенной случайной величиной лежало бы не более 68,2%
всех ошибок модели. Если распределение несимметрично,
процент включенных наблюдений может быть меньше, что
будет приводить к более частой адаптации модели.
С использованием ско можно предложить и другой вариант задания границ;
в) границы на основе t-статистики:
  t ,T  k    .
(11.40)
В таком случае исследователь будет определять процент
ошибок (считающихся случайными), который надо включить в интервал. Это позволяет более гибко варьировать
ширину интервала. Эмпирическое правило здесь заключается в следующем. Если исследователь предполагает, что
в ряде данных не происходит сильных изменений в связях,
то можно установить более широкий интервал (например,
с α = 0,1). Если же есть основания предполагать, что зависимости между результатом и факторами могут меняться более
хаотично, то стоит установить более узкий интервал (например, с α = 0,25). Правда, при малых значениях остаточной
вероятности полученный интервал будет включать все
ошибки и модель не будет адаптироваться. При этом метод
(11.40) будет иметь смысл лишь при нормальном распределении оцененных ошибок. Кроме того, на ско будут оказывать значительное влияние «выбросы» в остатках (в нашем
359
случае это будут отклонения, выходящие за определенные
нами рамки, но, тем не менее, имеющие случайный характер). Если в распределении имеются «выбросы», то в качестве робастной оценки ско можно использовать медианное
абсолютное отклонение — MAD;
г) медианное абсолютное отклонение:
где   Me t  .
MAD  Me t   ,
(11.41)
Значение MAD меньше ско и обычно ниже MAE, поэтому
при задании границ с использованием (11.41) модель будет
адаптироваться к ошибкам чаще, чем при других статистиках.
Как мы помним из параграфа 5.1, в случае с нормальным
распределением остатков выполняется равенство
  1.4826  MAD .
(11.42)
В таком случае, используя (11.42), можно прийти
к робастной оценке ско и использовать ее далее в формуле
(11.40).
Впрочем, в случае ненормально распределенных остатков
эта оценка может быть заниженной по сравнению с оценкой
ско (11.39);
д) доля от максимальной абсолютной ошибки:
  1     max t ,
(11.43)
где β — коэффициент фильтрации — устанавливаемая прогнозистом величина, по смыслу близкая к постоянной сглаживания в модели Брауна. В случае если β = 0, в границы
войдут все ошибки и модель адаптироваться не будет. Если
β = 1, в границы не войдет ни одна ошибка, а значит, модель
будет адаптироваться ко всем ошибкам подряд. Выбор β осуществляется самим исследователем, что усложняет оценку
интервала, но при этом данный вариант задания границ никак не завязан на симметричность распределения остатков.
Конечно же, существует множество других статистик,
с помощью которых можно задавать границы фильтра. Мы
не ставим перед собой задачу описать их все, а лишь рассказываем о самых простых и эффективных. Заметим, что в случае наличия систематических ошибок при оценке исходного
ряда данных остатки модели будут излишне завышенными,
360
а значит и любые статистики, рассчитанные по ним, будут
велики. Это, в конце концов, будет приводить к тому, что
модель будет адаптироваться значительно реже, чем следовало бы с учетом этих систематических ошибок. Поэтому
можно предложить и другой метод задания границ фильтра.
3. η можно подобрать автоматически.
В данном случае в качестве критерия выбора можно
использовать, например, минимум RSS, а подбирать границы можно, либо непосредственно изменяя η, либо изменяя β в формуле (11.43). Последнее удобней, так как легче
воспринимается, поэтому далее при автоматическом подборе
границ фильтра мы будем обращаться к величине коэффициента фильтрации.
Очевидно, что при подборе нужно ставить ограничение
на η, которая должна быть неотрицательна, что достигается
за счет β < 1. Учитывая, что при β = 0 адаптации уже не происходит, можно ограничить этот коэффициент пределами
от 0 до 1.
При использовании такого метода задания границ фильтра
мы, однако, можем столкнуться с проблемой большого числа
локальных минимумов, из-за которых будет невозможно
найти оптимальное значение коэффициента фильтрации β.
Рассмотрим различные методы задания границ фильтра на примере
модели линейного тренда, построенной по данным ряда № 25 из базы
рядов M3 — competition. Последние шесть значений из ряда данных
мы возьмем для проверки точности модели и исключим при построении прогнозов.
По этому ряду были построены модели, в которых коэффициент демпфирования колебаний задавался по формуле (11.16)  j ,t   t 
1 t  
.
k t
В результате расчетов были получены значения, сведенные в табл. 11.5.
Таблица 11.5
Результаты адаптации модели линейного тренда методом
неравномерного сглаживания при разных значениях границ фильтра
№ Формула Используемая стаметода
тистика
1 11.38
η = MAE = 115,91
Финальное
уравнение
Yt = 1266,74 +
+ 248,65t
SMAPE SMAPE
по ряду, по про%
гнозу, %
3,91
9,15
361
Окончание табл. 11.5
№ Формула Используемая стаметода
тистика
2 11.39
3 11.40
4 11.41
η = σ = 155,13
Финальное
уравнение
SMAPE SMAPE
по ряду, по про%
гнозу, %
Yt = 1247,03 +
+ 247,26t
4,07
η = σ t(0,5; 12) =
= 107,89
Yt = 1271,25 +
+ 248,90t
3,87
η = MAD = 76,43
Yt = 1289,86 +
+ 249,82t
3,76
9,93
8,99
8,37
8000
7000
8000
1
6000
6000
5000
5000
4000
4000
3000
3000
2000
2000
1000
1000
0
η = (1 — 0,8) 287,01 = Yt = 1301,73 +
= 57,40
+ 250,33t
3,73
8,01
6 11.43
η подобран = 0
3,22
7,05
8000
7000
Yt = 1371,76 +
+ 249,43t
По данным таблицы видно, что для этого ряда наиболее точным
получается прогноз при использовании как можно более узких границ
(что было достигнуто за счет установления границ с β = 1 в шестом
методе). Что характерно, за счет того, что в данном случае на периоде
ретропрогноза тенденции, наметившиеся ранее, сохранились, видна
закономерность: чем ниже sMAPE по ряду, тем меньше sMAPE по прогнозу.
Графически аппроксимация ряда данных разными методами и прогнозы представлены на рис. 11.6. Графики пронумерованы в соответствии с номерами методов в табл. 11.5.
По рисунку видно, что чем ýже оказываются границы, тем сильнее модель адаптируется к последнему скачку, произошедшему
в 1988 г. Более того, если попытаться подобрать такое значение
β без ограничений, которое гарантировало бы минимум ошибки
аппроксимации ряда, это значение оказывается равным 1,23.
С точки зрения задания ширины интервала, это не имеет никакого смысла, так как η оказывается в таком случае отрицательной.
Однако вызвано это тем, что мы задавали коэффициент демпфирования колебаний по формуле (11.16). В результате этого η <
0 приводит к более сильной адаптации модели, чего ей в случае
с данным рядом как раз и не хватает.
Итак, для каждого ряда данных должна быть выбрана своя
оптимальная ширина фильтра. В каких-то случаях эту ширину можно
задать одной из статистик, но в общем случае она требует отдельного
подбора со стороны прогнозиста.
362
1975 1977 1979 1981 1983 1985 1987 1989 1991 1993
8000
3
7000
6000
6000
5000
5000
4000
4000
3000
3000
2000
2000
1000
1000
0
4
0
1975 1977 1979 1981 1983 1985 1987 1989 1991 1993
8000
7000
2
0
1975 1977 1979 1981 1983 1985 1987 1989 1991 1993
5 11.42
7000
1975 1977 1979 1981 1983 1985 1987 1989 1991 1993
8000
5
7000
6000
6000
5000
5000
4000
4000
3000
3000
2000
2000
1000
1000
0
1975 1977 1979 1981 1983 1985 1987 1989 1991 1993
6
0
1975 1977 1979 1981 1983 1985 1987 1989 1991 1993
Рис. 11.6. Адаптация модели линейного тренда
по ряду № 25 и прогнозы по ней с использованием разных
методов задания границ
363
11.2.2. Методы задания параметра демпфирования
колебаний
Из всевозможных методов задания параметра демпфирования колебаний мы рассмотрели только один:
 j ,t   j
t  
t
.
(11.44)
При задании коэффициента по формуле (11.44) модель
адаптируется к данным в разной степени в зависимости
от удаленности фактических значений от расчетных. Преимущество данного метода заключается в том, что он не требует определения величины коэффициента со стороны
исследователя. Все, что требуется для адаптации модели
в таком случае, — это распределить веса между наблюдениями и задать ширину границ η. Правда, адаптация в соответствии с (11.44) происходит таким образом, что модель
подтягивает свою ближайшую границу к фактическому
значению. Такой метод адаптации имеет смысл использовать в тех случаях, когда изучаемый процесс имеет высокую инерционность, тенденции и связи в котором меняются медленно.
По аналогии с этим методом задания γ можно предложить
еще несколько, которые так же были бы автоматизированы:
 j ,t   j
t  
t
.
(11.45)
При использовании формулы (11.45) модель будет подтягиваться к значениям, вышедшим за рамки интервала,
противоположной границей. Такой метод задания обладает
теми же преимуществами, что и метод (11.44) и может быть
использован при адаптации моделей в более динамичных
условиях (когда нужно более резко и быстро реагировать
на происходящие изменения).
Следующий метод задания по своей идее близок к моделям экспоненциального сглаживания
 j ,t   j  .
364
(11.46)
В данном случае при любых выходах значений за границы интервала модель будет адаптироваться на фиксированную величину α, которая распределяется между коэффициентами с заданными весами. Выбор коэффициента α,
однако, связан с рядом сложностей. Во-первых, экспертно
его выбрать достаточно сложно, хотя по аналогии с моделями экспоненциального сглаживания понятно, что значения, близкие к нулю, будут приводить к более медленной
адаптации, а близкие к единице — к более быстрой. Ну,
а во-вторых, границы, в которых лежит значение α определить достаточно сложно. Можно, конечно, наложить
искусственное ограничение от 0 до 1, но в таком случае
прогнозные свойства модели будут существенно снижены.
В этих условиях даже автоматический выбор коэффициента не гарантирует, что будет найдено оптимальн ое
для прогноза значение. Преимуществом данного метода
является то, что модель может адаптироваться и так, чтобы
фактические значения попадали в интервал, в то время как
ее недостатком является негибкость такого коэффициента
демпфирования колебаний: какими бы ни были отклонения, модель будет все время адаптироваться в одной и той
же степени.
Несколько более гибкий метод задания заключается
в выборе постоянных αj для каждого коэффициента:
 j ,t   j .
(11.47)
Здесь задание коэффициентов αj оказывается еще более
сложным и исследователь неминуемо столкнется с проблемой большого числа локальных минимумов, которая
может приводить к значительным сложностям при выборе
оптимальных значений коэффициентов модели. При этом
сохраняются все те же преимущества и недостатки, что
и в случае с (11.46). Единственное, что появляется, — возможность задать степень адаптации индивидуально для каждого коэффициента, что, в принципе, может регулироваться
за счет задания разных весов в (11.46).
Исследователь также вправе скомбинировать любые
из методов (11.44) — (11.47) для того, чтобы получить более
гибкую модель, однако в таком случае может «всплыть» проблема с выбором оптимальных значений коэффициентов,
вызванная большим числом локальных минимумов.
365
Рассмотрим на примере разные методы задания коэффициента
демпфирования колебаний. Возьмем все тот же ряд № 25 и построим
по нему модель линейного тренда. В качестве коэффициента фильтрации возьмем MAD.
Для простоты во всех случаях, требующих задание весов, примем
веса одинаковыми и равными 1/k.
В результате расчетов были получены значения, представленные
в таблице 11.6.
Таблица 11.6
Результаты адаптации модели линейного тренда методом
неравномерного сглаживания при разных значениях коэффициента
демпфирования колебаний
№
Метод задания γjt
Финальное
уравнение
SMAPE SMAPE
по ряду, по про%
гнозу, %
Yt = 1289,86 +
+ 249,82t
3,76
Yt = 1371,54 +
+ 254,90t
3,81
3 (10.30), α = 1,62
Yt = 1427,60 +
+ 258,88t
3,44
2,74
4 (10.31), α0 = 0,60, α1 = 0,69
Yt = 1365,15 +
+ 256,55t
3,09
5,02
1 (10.28)
2 (10.29)
8,37
5,40
8000
1
7000
6000
6000
5000
5000
4000
4000
3000
3000
2000
2000
1000
1000
0
1975 1977 1979 1981 1983 1985 1987 1989 1991 1993
8000
7000
Чтобы упростить процесс автоматического выбора коэффициента демпфирования колебаний, нужно попытаться
вывести если не границы, в которых он лежит, то хотя бы
условие, которое гарантировало бы устойчивость модели.
Для этого представим весь метод неравномерного сглажива-
2
0
1975 1977 1979 1981 1983 1985 1987 1989 1991 1993
8000
7000
3
6000
6000
5000
5000
4000
4000
3000
3000
2000
2000
1000
1000
0
1975 1977 1979 1981 1983 1985 1987 1989 1991 1993
В связи с тем, что исходный ряд данных имеет тенденцию к росту,
метод задания с подтягиванием к противоположной границе (11.45)
дал более точный прогноз, нежели метод (11.44), хотя последний
и аппроксимировал исходный ряд данных лучше.
Подобрать оптимальн ые значения коэффициентов в методах
(11.46) и (11.47) было непросто, так как задача имеет локальные минимумы. Тем не менее, как видим, метод (11.47) позволил наилучшим
образом аппроксимировать исходный ряд данных, а метод (11.46) —
получить наиболее точный прогноз на шесть наблюдений вперед.
Графически процесс адаптации и прогнозы по полученным моделям (табл. 11.6) представлены на рис. 11.7.
Преимущество метода 3 (он же (11.46)) по сравнению с другими
методам здесь, как видим, оказалось очевидным.
366
8000
7000
4
0
1975 1977 1979 1981 1983 1985 1987 1989 1991 1993
Рис. 11.7. Адаптация модели линейного тренда по ряду № 25
и прогнозы по ней с использованием разных методов задания
коэффициента демпфирования колебаний
ния для произвольной многофакторной модели в матричном
виде. Многофакторная регрессионная модель на наблюдении
t + 1 в соответствии с (11.37) может быть записана в виде
yt 1  X t1At  t 1 ,
(11.48)
 1 
x 
где X t   1,t  — вектор k факторов (единица здесь нужна
 ... 


 x k,t 
для учета константы), имеющихся в распоряжении на наблюдении t; X t — транспонированный вектор Xt (т.е. вектор aˆ0,t 
 aˆ 
1,t
строка); At    — вектор-столбец расчетных значений ко ... 
ˆ 
 ak,t 
367
эффициентов при соответствующих факторах на наблюдении
t; yt+1 — фактическое значение зависимой переменной на наблюдении t + 1; εt+1 — ошибка модели на наблюдении t + 1,
такая, что t 1  yt 1  yˆt 1 .
В тех случаях, когда фактическое значение на наблюдении t лежит в пределах границ фильтра, коэффициенты
модели остаются такими же:
At  At 1 .
(11.49)
Если же ошибка по модулю превысила значение η, коэффициенты должны адаптироваться по формуле
At  At 1  Z t  t t ,
(11.50)
где Z t  diag  X t  — обратная диагональная матрица, составленная из элементов вектора Xt:
1
1

0

Zt  
...


0

0
1
x1,t
...
...
...
...
0 

0 
;
0 

1 
x k,t 
(11.51)
0 ...
  0,t 
 
1,t 
t  
— вектор коэффициентов демпфирования коле ... 


  k,t 
баний, задаваемых исследователем по одному из условий
(11.44) — (11.47).
Так, если мы хотим построить модель y от x1 и x2, мы
будем иметь следующие матрицы и вектора:

1
 1 
 aˆ0,t 

X t   x1,t  , At   aˆ1,t  , Z   0





t
 x 
 aˆ 

2,t
2,t

0

0
1
x1,t
0

0 
  0,t 
    
,
t
0 
 1,t  .
  

2,t
1 

x 2,t 
При перемножении вектора Xt на Аt получим:
yˆt 1  X t1At  1 x1,t 1
368
 aˆ0,t 
x 2,t 1    aˆ1,t   aˆ0,t  aˆ1,t x1,t 1  aˆ2,t x 2,t 1 ,


 aˆ 
2,t
что полностью соответствует первому уравнению в (11.37).
При этом при адаптации коэффициентов перемножение матриц будет давать

1
 aˆ0,t 1  

At  At 1  Z t  t t   aˆ1,t 1    0


 aˆ
 
2,t 1 

0

0
1
x1,t
0




 
 aˆ




 0,t 1 0,t t 
 aˆ0,t 1   0,t 
 



  aˆ1,t 1    1,t   t   aˆ1,t 1  1,t t 


x1,t 

 aˆ
  x1,t 
2,t 1  


 2,t 

 aˆ2,t 1  2,t t 


x 2,t 

 x 2,t 

0 
  0,t 
 
0   1,t   t 


   
2,t
1 

x 2,t 
,
что в свою очередь соответствует формулам адаптации
в (11.37).
Как видим, использование матриц позволяет более компактно записать всю схему адаптации методом неравномерного сглаживания через три формулы:
yt 1  X t1At  t 1 ;
At  At 1 , если t   ;
At  At 1  Z t  t t , если t   .
В дальнейших рассуждениях нас будут интересовать
только случаи выхода фактических значений за границы,
поэтому рассмотрим отдельно механизм адаптации коэффициентов. Очевидно, что в реальности коэффициенты будут
адаптироваться не на каждом наблюдении, но пока для простоты мы сделаем допущение о том, что они адаптируются
на каждом.
Из формулы (11.48) можно вывести значение ошибки
на наблюдении t + 1. По аналогии с ней запишем формулу
для расчета ошибки на наблюдении t:
t  yt  X t At 1 .
(11.52)
369
Теперь подставим формулу ошибки (11.52) в формулу
адаптации (11.50) At  At 1  Z t  t  yt  X tAt 1  и раскроем
скобки:
At  At 1  Z t  t yt  Z t  t X t At 1
(11.53)
В формуле (11.53) за скобки можно вынести общий множитель At 1 , тогда в первом слагаемом правой части формулы (11.53) на его месте образуется единичная матрица Ik,
состоящая из k элементов:
At  Z t  t yt   I k  Z t  t X t  At 1 .
(11.54)
Формула (11.54) уже дает нам некоторые представления
о том, что собой представляет механизм адаптации в методе
неравномерного сглаживания. Он напоминает механизм,
заложенный в модели экспоненциального сглаживания,
в котором постоянная сглаживания регулирует распределение весов между фактическими и расчетными значениями.
Чтобы далее не путаться в матрицах, перемножающихся
друг на друга, произведем замену:
Gt  Z t  t ; Dt  I k  Z t  t X t .
(11.55)
С учетом (10.39) формулу (11.54) можно записать в компактном виде:
At  Gt yt  Dt At 1 .
(11.56)
Очевидно, что в случае постоянной адаптации коэффициенты, найденные на наблюдении t — 1, будут адаптироваться
к фактическим значениям на наблюдении t — 1 по той же
формуле (11.56). Заменим At — 1 в (11.56) на расчетное значение на предыдущем наблюдении:
At  Gt yt  Dt Gt 1yt 1  Dt 1At 2   Gt yt  DtGt 1yt 1  Dt Dt 1At 2 .
Если снова провести такую же замену с использованием
уже расчетного значения на наблюдении t — 2, получим
At  Gt yt  DtGt 1yt 1  Dt Dt 1 Gt 2 yt 2  Dt 2 At 3  , откуда следует,
что At  Gt yt  DtGt 1yt 1  Dt Dt 1Gt 2 yt 2  Dt Dt 1Dt 2 At 3 .
Если продолжить заменять предшествующие значения
At расчетными, мы получим последовательность слагаемых,
через которые определяется текущее значение коэффициентов At:
370
At  Gt yt  DtGt 1yt 1  ...   Dt Dt 1  ...  Dt T 1 Gt T yt T 
  Dt Dt 1  ...  Dt T  At T 1
.
(11.57)
Устремляя последовательность (11.57) в бесконечность, увидим, что в компактном виде (11.57) может быть записана так:

 i

At   yt i   Dt 1  Gt i .
 1

i 0
(11.58)
Если теперь подставить (11.58) в формулу (11.48), то поймем, что прогнозное значение на шаге t + 1 зависит от предыдущих фактических значений:

 i

yˆt 1  X t1  yt i   Dt 1  Gt i .


i 0
1
(11.59)
Формула (11.59) показывает, что будущее прогнозное
значение yˆt 1 определяется через взвешенную сумму предыдущих фактических значений, что в принципе похоже
на механизм адаптации в модели экспоненциального сглаживания. Существенное отличие данного механизма
от экспоненциального сглаживания заключается в делении
значений коэффициентов демпфирования колебаний на фактические значения факторов. Если по каким-то причинам
факторы и коэффициенты демпфирования колебаний оказались бы одинаковыми, вне зависимости от сдвига τ, то мы бы
пришли к матричной записи формулы экспоненциального
сглаживания: yˆt 1  Gyt  DGyt 1  D2Gyt 2  ...  DT Gyt T .
Это показывает, что метод простого экспоненциального
сглаживания (и любая его модификация) является частным случаем метода неравномерного сглаживания, базирующегося на модификации метода стохастической аппроксимации.
Логичным требованием к методу неравномерного сглаживания будет требование сходимости суммы модулей весов
в (11.58):
 i
i 0  1
T


   Dt 1  Gt i   .
(11.60)
371
В таком случае веса будут распределяться так, чтобы
более новые значения yt сильнее влияли на прогнозное значение yˆt 1 , нежели старые значения yt–i.
Заметим, что в ряде случаев веса между наблюдениями
(11.59) могут распределяться неравномерно: для каких-то
наблюдений они будут по модулю больше 1, а для других —
меньше. В данном случае в весах нет никакого четкого убывающего закона, однако за счет умножения прошлых значений
на матрицу Dt–τ–1 со временем влияние устаревших значений будет уменьшаться.
Смысл условия (11.60) в случае, если адаптация происходит не на каждом наблюдении, не меняется. Единственное,
что при этом изменится, — лаги между значениями, входящими в сумму (11.60). Модель при этом все так же будет
в большей степени учитывать текущую информацию, нежели
прошлую. В принципе, для пропущенных значений можно
задать γj,t = 0, что не изменит смысла МНС, но при этом
будет легче представимо в виде суммы (11.60).
К сожалению, в связи с тем, что коэффициенты демпфирования колебаний могут задаваться разными на каждом наблюдении (например, по формуле (11.44)), а факторы в модели
постоянно меняются, вывести ограничения на коэффициенты демпфирования колебаний, исходя из условия (11.60),
не представляется возможным. Однако условие (11.60) можно
использовать для проверки стабильности модели. Ведь, если
оно нарушается (т.е. по мере отдаления в прошлое сумма растет), значит, старые значения в модели с каждой адаптацией
будут учитываться в большей степени, чем новые.
Для примера, рассмотренного нами ранее при задании коэффициента демпфирования колебаний по формуле с подтягиванием к противоположной границе (11.45) получились следующие значения коэффициентов в тех случаях, в которых коэффициенты адаптировались
к новым значениям (табл. 11.7).
Таблица 11.7
Ряд коэффициентов демпфирования колебаний полученных
при адаптации модели тренда к ряду № 25 из базы M3
372
t
γt
4
1,94
5
1,32
7
1,78
Окончание табл. 11.7
t
γt
8
1,22
11
1,63
12
1,51
14
1,22
Попробуем рассчитать по этим значениям сумму (11.60). Для этого
запишем наши данные в матричном виде:
1 
1 
1 0 
 aˆ0,t 
 1
 2 t 
 2 t 




X t    , At  
Z

Z


,
,
,
1
1   .
1 
t t
t
t

0

t 
 aˆ\1,t 
 t




t
2 t 
2 t 
Покажем, как можно рассчитать сумму (11.60) по данным 14 и 12
наблюдений:
  0,5 1,51 
 0,5 1,22  
 0,5 1,22 
1 0







1 
1  1 14  
1   ... 
 0,5 1,22     0 1   0,5 1,22  
 0,5 1,51 


 
14  
14 
12 
 0,61    1 0   0,61 0,6114    0,75 

 ... 

  

0,61    0,05 
 0,04    0 1   0,04
 0,61   0,39 8,56   0,75 
 0,61  0,14   0,47 

   0,04 0,39    0,05   ...   0,04    0,01   0,03 
0,04

 
 


 
 

В целом сумма (11.60) для всех данных табл. 11.7 будет представлять собой вектор:
 0,61  0,24   0,10  0,19 
 0,04    0,01    0,01   0,01  

 
 
 

0,02  0,17  0,12   –0,04 





 0,01   0,01   0,01   0,07 
.
Как видим, в связи с округлением до сотых суммы, представленные
в расчетах выше, не совпадают с реальными. Для наглядности представим полученные веса на графике (рис. 11.8).
373
0,7
0,6
0,5
0,4
0,3
0,2
0,1
0
0 2
–0,1
–0,2
–0,3
4
6
0,7
0,6
0,5
0,4
0,3
0,2
0,1
0
8 10 12 14 16
0 2
–0,1
–0,2
–0,3
yˆt  aˆ0e aˆ1t .
Линеаризуем эту модель с помощью логарифмирования:
ln yˆt  ln aˆ0  aˆ1t .
4
6
8 10 12 14 16
Рис. 11.8 Динамика весов в методе неравномерного
сглаживания на основе данных табл. 11.7:
По оси абсцисс откладывается время наблюдений
На рисунке 11.8 график слева показывает, как дисконтируются веса
для наблюдений с 1 по 14 при адаптации константы на 14-м наблюдении, а график справа показывает распределение весов для тех же
наблюдений только уже для коэффициента угла наклона. На себя обращает внимание то, как распределяются веса: веса при t = 14 оказываются наибольшими, а далее при уменьшении t они начинают убывать,
причем убывание это носит сложный нелинейный характер. Также
на себя обращают внимание малые значения весов для коэффициента
угла наклона. Получить такие значения было вполне ожидаемо, так как
при адаптации коэффициентов при факторах в соответствии с методом
неравномерного сглаживания происходит деление на значение фактора.
11.3. Àäàïòàöèÿ íåëèíåéíûõ ìîäåëåé ìåòîäîì
íåðàâíîìåðíîãî ñãëàæèâàíèÿ
Адаптацию прогнозных эконометрических моделей
с помощью метода неравномерного сглаживания можно
проводить и для нелинейных моделей. Сами нелинейные
модели, как известно, могут быть двух видов — линейные
по параметрам и нелинейные по параметрам. Адаптация
первого типа (линейных по параметрам) моделей осуществляется довольно просто. Для этого следует линеаризовать
модель и применить к ней алгоритм (11.17).
Пусть, например, необходимо адаптировать прогнозную
модель в виде экспоненциального тренда, стартовые значения коэффициентов которой найдены с помощью какоголибо метода:
374
(11.61)
(11.62)
Применим к этой линеаризованной модели метод неравномерного сглаживания.
Сначала необходимо вычислить ошибки аппроксима