Читать текст

Тема 6. Временные ряды
Цель и задачи
Цель контента темы 6 — Познакомить с временными рядами, методами их анализа.
Задачи контента темы 6:
• Дать обзор динамических моделей, используемых в эконометрике;
• Показать специфику статистического анализа временных рядов;
Выделить основные компоненты временных рядов;
• Дать представление о методах оценки неслучайных компонент,
методах сглаживания;
• Дать понятие об авторегрессиионных моделях, методах оценки
их параметров;
• Обсудить проблему автокорреляции и методы ее устранения.
Оглавление.
§ 6.1. Временные ряды.
§ 6.2. Критерии случайности.
§ 6.3. Оценка тренда и периодической составляющей (аналитическое
выравнивание).
§ 6.4. Сглаживание (скользящие средние).
§ 6.5. Экспонециальное сглаживание.
§ 6.6. Авторегрессия и автокорреляция.
§ 6.7. Подбор модели временного ряда. Прогнозирование.
§ 6.1. Временные ряды
При анализе многих экономических показателей используются
ежедневные, еженедельные, ежемесячные, ежекваральные и т.п.
данные — например, это могут быть ежедневные данные о котировке
акций, месячные данные о продаже продукции, годовые данные о ВНП
и т.д.
Методы исследования моделей, основанных на данных пространственных выборок и временных рядов (см. § 1.2), вообще говоря,
существенно различаются. Под временным рядом (динамическим рядом) подразумевается последовательность значений (наблюдений)
некоторого признака (случайной величины) в последовательные моменты времени (то есть последовательность наблюдений, упорядоченных в порядке возрастания моментов времени). Отдельные на1
блюдения yt , t = 1,2,K , n (где n — число наблюдений) называются
уровнями ряда, индекс t указывает на момент времени, в который получено наблюдение.
Итак, в отличие от ранее рассматриваемых пространственных
данных, значения yt рассматриваются как реализация некоторого
случайного процесса (случайным процессом в общем случае называется функция, значения которой при каждом значении t являются случайными величинами). Уровни временного ряда, как правило, не являются статистически независимыми и одинаково распределенными
случайными величинами, то есть для них не выполнены основные
предположения классической модели регрессионного анализа. На
рис. 6.1 приведен пример временного ряда, отражающего спрос на некоторый товар.
При практическом анализе временных рядов на основании эмпирических данных (наблюдаемого отрезка временного ряда конечной
длины) необходимо сделать выводы о свойствах этого ряда, механизме случайного процесса, порождающего рассматриваемый ряд. При
этом обычно ставятся следующие цели:
1. Описание основных характеристик, особенностей временного
ряда;
2. Подбор статистической модели, описывающей временной ряд;
3. Прогнозирование будущих значений на основе имеющихся наблюдений, относящихся к прошлому.
При изучении зависимостей, развивающихся во времени, в качестве объясняющих переменных рассматриваются не только значения
времени t , текущие значения объясняющих переменных, но и их предыдущие значения. Переменные, влияние которых характеризуется
104
102
100
98
96
94
92
90
88
86
1959
1963
1967
1971
1975
1979
1983
1987
1991
Рис. 6.1
2
некоторым запаздыванием во времени, называются лаговыми переменными. Причин использования подобных переменных достаточно
много, среди них можно выделить следующие:
1. Инерционность экономических показателей — привычка людей к определенному образу жизни, потреблению, а также внутренняя
инерционность механизмов формирования экономических показателей;
2. Институциональные причины — например контракты, трудовые договоры подразумевают определенное постоянство механизмов
формирования цен, заработной платы и т.п.;
3. Технологические причины — замена оборудования, внедрение новых технологий, безусловно, требует определенного времени.
Среди динамических моделей можно выделить
1. Модели с лагами (распределенными лагами) — модели, содержащие в качестве лаговых переменных только независимые (объясняющие) переменные, например
yt = α + β 0 xt + β1 xt −1 + K + β k xt −k + ε t .
2. Авторегрессионные модели — модели, в которых в качестве
лаговых переменных участвуют значения зависимых переменных, например
yt = α + β xt + γ yt −1 + ε t .
В практике анализа эконометрических показателей, образующих
временные ряды, обычно предполагают, что значения уровней временных рядов yt складываются из следующих компонент:
1. Тренд ut , представляющий собой плавно меняющуюся компоненту, отражающую влияние долговременных, систематических факторов, основную тенденцию в формировании рассматриваемого показателя. Для моделирования тренда используют плавно меняющиеся,
гладкие функции;
2. Сезонная компонента st , отражающая повторяемость экономических процессов в течение не слишком длительного периода (например, года, месяца, недели). Причины сезонных колебаний могут
быть связаны с природно-климатическими условиями, могут носить
социальный характер (например, увеличение закупок в предпраздничные дни, увеличение платежей в конце квартала и т.д.) Для описания
сезонной компоненты используют периодические функции;
3. Циклическая компонента ν t , отражающая повторяемость экономических процессов в течении длительных периодов (например
волны экономической активности, демографические, инвестиционные
циклы);
4. Случайная компонента ε t , отражающая влияние случайных, а
также неучтенных факторов.
3
Первые три компоненты (тренд, сезонная компонента и циклическая компонента) являются неслучайными или закономерными. Типичной задачей при исследовании временного ряда является выявление и оценка неслучайных компонент, а также изучение статистических свойств случайной компоненты. При выборе модели детерминированной составляющей прежде всего учитываются содержательные
составляющие, экономические закономерности, обуславливающие ее
формирование.
Если временной ряд представляется в виде суммы соответствующих компонент, то полученная модель называется аддитивной
моделью временного ряда:
yt = ut + st + vt + ε t ,
(6.1.1)
Если же временной ряд представляется в виде произведения
компонент, то получаем мультипликативную модель временного ряда:
yt = ut × st × vt × ε t .
(6.1.2)
В общем случае возможны и смешанные модели, содержащие
как аддитивную, так и мультипликативную составляющие. Следует
отметить, что выбор вида модели и выделение указанных компонент
во многом условны и определяются целями исследования: так, если
амплитуда сезонных колебаний приблизительно постоянна, то обычно
рассматривается аддитивная модель, если же амплитуда меняется, то
более адекватна мультипликативная модель.
Важную роль при описании временных рядов и их случайных составляющих имеют так называемые стационарные временные ряды.
Можно сказать, что стационарным (в узком смысле) является временной ряд, вероятностные свойства которого (закон распределения
yt и его числовые характеристики) не зависят от момента времени t .
В эконометрике рассматриваются также стационарные ряды в широком смысле — ряды, числовые характеристики которых (первые и
вторые моменты) не зависят от времени. Для стационарного временного ряда математическое ожидание и среднее квадратическое отклонение оцениваются, соответственно, следующим образом:
n
y=
∑ yt
t =1
n
, St2 =
∑(y
t =1
t
− yt ) 2
.
n
n
Стационарный временной ряд, у которого математическое ожидание равно нулю, а возмущения ε t некоррелированы называется
«белым шумом» (таким образом, в классической линейной регрессионной модели возмущения образуют белый шум, а в случае их нормального распределения — нормальный (гауссовский) белый шум).
В качестве основных этапов исследования временных рядов
можно выделить следующие:
1. Графическое представление временного ряда;
4
2. Выявление и оценка закономерных (неслучайных) составляющих, удаление их из рассматриваемого ряда;
3. Сглаживание и удаление низко- и высокочастотных составляющих (так называемая фильтрация);
4. Исследование случайной составляющей, проверка адекватности построенной модели;
5. Прогнозирование на основе построенной модели.
§ 6.2. Критерии случайности
Как было отмечено выше, основной задачей является выделение неслучайных компонент временного ряда. Важным является вопрос о наличии или отсутствии тренда (тенденции) в изучаемом ряде
наблюдений (такой вопрос возникает, например, при изучении динамики курса акций). Подобные вопросы сводятся, в частности, к проверке независимости и стационарности распределения (одинаковой
распределенности) наблюдений, образующих ряд.
Гипотезу о независимости и стационарности в дальнейшем будем называть гипотезой случайности значений ряда наблюдений, в
частности, гипотезой об отсутствии регулярных составляющих (тренда, периодических составляющих) в ряде наблюдений.
Для проверки гипотезы случайности рассмотрим несколько критериев (отметим, что эти критерии носят, во многом, эмпирический характер). Заметим также, что критерий Дарбина-Уотсона, с помощью
которого можно проверить наличие автокорреляции в остатках (см. §
3.3), по существу также проверяет случайность наблюдений, понимаемую как независимость (или слабую коррелированность) соседних
возмущений.
6.2.1. Критерий серий, основанный на медиане выборки
Гипотеза случайности согласно этому критерию проверяется
следующим образом:
1) Элементы исходного ряда располагаются в порядке возрастания, т.е. из исходного ряда y1 , y2 ,K , yn образуется ранжированный (вариационный) ряд.
2) Определяется медиана ранжированного ряда:
y( m+1) , если n = 2m + 1,


med =  y( m) + y( m+1)
, если n = 2m.


2
3) Сравнивая значения исходного ряда yi , i = 1, n с медианой, составляется последовательность d1 , d 2 ,K , d n по правилу
5
 +, если yi > med,

d i =  0, если yi = med,
 −, если y < med.
i

В дальнейшем рассматриваются только плюсы и минусы, нули
не участвуют в анализе.
4) Подсчитывается число серий ν (n) в последовательности
d i , i = 1,K , n . Под серией понимается последовательность подряд идущих плюсов или минусов. Один отдельно стоящий плюс или минус тоже считается серией.
5) Определяется τ max (n) — протяженность самой длинной серии.
6) При условии случайности ряда y1 , y2 ,K , yn (т.е. в отсутствии
тенденции) протяженность самой длинной серии не должна быть
слишком большой, а общее число серий — слишком маленьким. Поэтому, если нарушается хотя бы одно из следующих неравенств, гипотеза о случайности отвергается приблизительно для 5%-ного уровня значимости:

1

 ν (n) >  2 n + 1 − 1,96 n − 1  ,

τ max (n) < [3,3lg(n + 1)].
Здесь с помощью квадратных скобок [⋅] обозначена целая часть
числа. Если оба неравенства выполнены, то гипотеза случайности
принимается.
(
)
6.2.2. Критерий «восходящих и нисходящих» серий
Согласно этому критерию гипотеза случайности проверяется
следующим образом
1) Для исходного ряда y1 , y2 ,K , yn образуется последовательность d1 , d 2 ,K , d n−1 по следующему правилу:
+, если yi+1 − yi > 0,

d i =  0, если yi+1 − yi = 0,
 −, если y − y < 0.

i +1
i
В дальнейшем рассматриваются только плюсы и минусы, нули
не участвуют в анализе.
2) Подсчитывается ν (n) — число серий в последовательности
d i , i = 1,K , n − 1 . Под серией понимается последовательность подряд
идущих плюсов или минусов. Один отдельно стоящий плюс или минус
тоже считается серией.
3) Определяется τ max (n) — протяженность самой длинной серии.
4) В условиях случайности временного ряда число серий не
должно быть слишком маленьким, а протяженность самой длинной
6
серии — слишком большой. Если нарушается хотя бы одно из следующих двух неравенств, то гипотеза случайности отвергается для
приблизительно 5%-ного уровня значимости:

1
16n − 29 
 ν (n) >  3 (2 n − 1) − 1,96
,
90 



τ max (n) < τ 0 (n),
где
5, n ≤ 26,

τ 0 (n) = 6, 26 < n ≤ 153,
7, 153 < n ≤ 1170.

Если оба неравенства выполнены, то гипотеза случайности принимается.
§ 6.3. Оценка тренда и периодической составляющей
(аналитическое выравнивание)
Оценка тренда и периодической составляющей временного ряда
с помощью метода аналитического выравнивания состоит из следующих этапов. Вначале необходимо выбрать тип тренда ut , это можно сделать на основе графика временного ряда или с помощью содержательных соображений, связанных с характером динамики изучаемого показателя.
На практике в качестве модели тренда часто используются следующие функции:
1. Линейная — u (t ) = a + bt ;
2. Полиномиальная — u (t ) = a + b1t + b2t 2 + K + bk t k ;
3. Экспоненциальная — u (t ) = ce a +bt ;
a
4. Логистическая — u (t ) =
.
1 + be − ct
5. Кривая Гомперца ln u (t ) = a − br t , где 0 < r < 1
На рис. 6.2 приведен пример временного ряда и двух линий
тренда — линейного (сплошная линия) и полиномиального (второго
порядка, пунктирная линия).
7
110
Объем реализации
100
90
80
70
60
50
40
30
1
2
3
4
1
2
3
4
1
Квартал
2
3
4
1
2
3
4
Рис. 6.2
Для оценки параметров тренда u (t ) обычно используется метод
наименьших квадратов: значения временного ряда yt рассматриваются как зависимая переменная, а время t — как объясняющая. Таким
образом, с помощью МНК оцениваются параметры модели
yt = u (t ) + ε t ,
где возмущения ε t предполагаются удовлетворяющими всем основным предположениям регрессионного анализа (см. — § 1.5). Не смотря на то, что для временных рядов эти предпосылки (независимость,
одинаковая распределенность и нормальность возмущений) обычно
выполнены не полностью — для временных рядов характерна зависимость соседних наблюдений, использование МНК в случае, когда
выбрана достаточно адекватная модель и нет больших выбросов в
наблюдениях, представляется разумным, так как эти нарушения сказываются не на значениях оценок параметров, а на их статистических
свойствах (оценки дисперсий смещены).
Предположим, что для случая, изображенного на рис. 6.2 рассматривается аддитивная модель временного ряда, содержащая
тренд и сезонную компоненту:
yt = ut + st + ε t .
В качестве модели тренда в нашем примере рассмотрим линейный тренд. По двумерной выборке (1, y1 ),(2, y2 ),K ,(n, yn ) строится выборочная парная регрессия показателя y на t :
ut = a + bt ,
(6.3.1)
которая и будет далее рассматриваться как оценка линейного тренда.
8
Для оценки сезонной (периодической) компоненты необходимо
устранить тренд из временного ряда. Для этого от исходного временного ряда следует перейти к разностям
yt − ut , t = 1,K , n .
График этих разностей приведен на рис. 6.3.
Остатки e=y(t)-u(t)
15,0000
10,0000
5,0000
0,0000
-5,0000 0
5
10
15
20
25
-10,0000
-15,0000
t
Рис. 6.3
Если известен период сезонной компоненты, то нетрудно найти
для нее оценку. Пусть в имеющихся n наблюдениях содержится цеn
лое число периодов m = , здесь T — длина периода. Для нашего
T
примера длина периода равна T = 4 , а число периодов — m = 6 . Тогда
оценка сезонной составляющей находится по формуле:
1 m−1
St = ∑ ( yt + j⋅T − ut + j⋅T ), t = 1,2,K ,T ,
(6.3.2)
m j =0
то есть для каждого сезона находится среднее значение всех относящихся к нему разностей.
На практике иногда требуют, чтобы оценки сезонных компонент
удовлетворяли условию
T
∑S
t =1
t
= 0,
выполнение которого, при необходимости, достигают дополнительной
нормировкой значений оценок сезонной компоненты.
Эмпирическая модель рассматриваемого временного ряда представляет собой сумму оценки тренда и сезонной компоненты:
9
)
y1 = u1 + s1 ,
)
y2 = u 2 + s 2 ,
)
y3 = u3 + s3 ,
)
y4 = u 4 + s 4 ,
)
y5 = u5 + s1 ,
)
y6 = u 6 + s 2 ,
(6.3.3)
KKKKK
где значения тренда ut вычисляются по формуле (6.3.1), а сезонной
100
Объем реализации
90
80
70
60
50
40
t
0
5
10
15
20
25
Рис. 6.4
компоненты st — по формуле (6.3.2).
На рис. 6.4 приведен исходный временной ряд (сплошная линия)
и его модель (пунктирная линия), значения которой вычислены по
формуле (6.3.3).
Оценка сезонности в мультипликативной модели производится
аналогично, в этом случае оценки сезонной компоненты находят по
формуле

1 m−1  y
St = ∑  t + j⋅T ⋅100%  , t = 1, 2,K ,T .
(6.3.4)

m j =0  trt + j⋅T

§ 6.4. Сглаживание (скользящие средние)
Еще одним распространенным приемом выявления неслучайных
компонент, тенденции изменения является сглаживание временного
ряда. Суть различных приемов сглаживания сводится к замене факти10
ческих уровней временного ряда расчетными уровнями, которые
представляют собой усредненные значения и подвержены колебаниям в меньшей степени. Это способствует более четкому проявлению
тенденции развития. Использование методов сглаживания особенно
удобно для одновременного оценивания тренда и циклической компоненты, а также для рядов с сезонными колебаниями и неясным трендом, так как эти методы не предполагают никаких аналитических предположений о виде функции тренда.
Сглаживание с помощью скользящих средних основано на переходе от исходных значений ряда к средним значениям на некотором
(заранее выбранном) интервале и позволяет сгладить как случайные,
так и периодические колебания, выявить имеющуюся тенденцию развития. При этом выбранный интервал, на котором осуществляется усреднение, как бы «скользит» вдоль исходного ряда.
Алгоритм сглаживания с помощью простой скользящей средней
определяется длиной интервала сглаживания g . Если g = 2 p + 1 — нечетное число, то простая скользящая средняя определяется по формуле
t+ p
)
yt =
∑y
i =t − p
i
=
yt − p + K + yt −1 + yt + yt +1 + K + yt + p
.
(6.4.1)
2 p +1
2 p +1
В частном случае для g = 3 ( p = 1) :
) y + yt + yt +1
yt = t −1
, t = 2,K, n − 1 ,
3
для g = 5 ( p = 2) :
) y + yt −1 + yt + yt +1 + yt +2
yt = t −2
, t = 3,K, n − 2 .
5
Заметим, что при таком сглаживании теряется по p значений в
начале и в конце ряда — всего 2 p значений.
Полученный таким образом ряд скользящих средних ведет себя
более гладко за счет усреднения отклонений. Нетрудно убедиться в
том, что если случайные возмущения взаимно независимы и разброс
значений временного ряда yt вокруг среднего значения характеризуется дисперсией σ 2 , то разброс среднего значения для g членов временного ряда около того же самого среднего значения будет описываться существенно меньшей дисперсией, равной σ 2 g . Таким образом, сглаженный ряд дает более четкое представление об общей тенденции поведения ряда.
Если длина интервала сглаживания равна или кратна периоду
колебаний, то процедура сглаживания с помощью простой скользящей
средней приводит к полному устранению периодических колебаний во
временном ряду. В общем случае использование простой скользящей
11
средней позволяет сгладить случайные колебания. На рис. 6.5 приведен пример сглаживания с периодами g = 3 и g = 5 . Чем больше интервал сглаживания — тем более гладко ведет себя ряд, но, в то же
время, теряется больше значений в начале и конце ряда.
Для устранения сезонных колебаний (связанных, например, со
временем года) часто бывает необходимо использовать простую
скользящую среднюю с четной длиной интервала сглаживания g = 2 p .
Простая скользящая средняя (интервал
сглаживания g)
105
Объем реализации
95
85
75
65
55
45
g=3
g=5
35
1
2
3
4
1
2
3
4 1 2
Квартал
3
4
1
2
3
4
Рис. 6.5
В этом случае используют формулу, обеспечивающую условие
симметричности интервала относительно момента времени t :
t + p−1
)
yt =
1y +
yi + 1 yt + p
2 t − p i =∑
2
t − p +1
2p
=
(6.4.2)
1y +y
1y
t− p
t − p +1 + L + yt −1 + yt + yt +1 + L + yt + p −1 +
2
2 t+ p .
=
2p
В частном случае для g = 4 ( p = 2) :
1
1
) 2 yt −2 + yt −1 + yt + yt +1 + 2 yt +2
yt =
, t = 3,K , n − 2 ,
4
для g = 12 ( p = 6) :
12
1
1
) 2 yt −6 + yt −5 + yt −4 + L + yt −1 + yt + yt +1 + L + yt + 4 + yt +5 + 2 yt +6
yt =
.
12
t = 7,K , n − 6.
Пример сглаживания с четной длиной интервала, в случае, когда
длина интервала сглаживания равна периоду и полностью устраняются сезонные колебания, приведен на рис. 6.6.
В том случае, когда динамический ряд содержит существенно
нелинейный тренд (подтверждением этому может служить, в частности, графическое изображение ряда) сглаживание временного ряда
часто проводится с помощью взвешенной скользящей средней. Особенно удобно подобное сглаживание в том случае, когда .для анализа
желательно сохранить небольшие «изгибы» ряда. Формулы такого
сглаживания сильно зависят от длины интервала сглаживания g и
степени многочлена, по которому проводится сглаживание.
13
Скользящая средняя (g=4, p=2)
Объем реализации
120
100
80
Объем
реализации
60
Скользящая
средняя
40
20
1 2 3 4 1 2 3 4 1 2 3 4 1 2 3 4
Квартал
Рис. 6.6
Формулы взвешенного скользящего среднего в случае, когда
сглаживание производится по многочлену второй степени, имеют следующий вид:
для g = 5 :
1
)
yt = (−3 yt −2 + 12 yt −1 + 17 yt + 12 yt +1 − 3 yt + 2 ), t = 3,K , n − 2,
35
для g = 7 :
1
)
yt = (−2 yt −3 + 3 yt −2 + 6 yt −1 + 7 yt + 6 yt +1 + 3 yt + 2 − 2 yt +3 ), t = 4,K, n − 3.
21
Для сглаживания аномальных наблюдений часто используется
алгоритм сглаживания с помощью скользящей медианы, дающий хорошие результаты. Алгоритм сглаживания с помощью скользящей медианы состоит в следующем: в исходном временном ряду y1 , y2 ,K , yn
рассматриваются последовательные тройки элементов ряда. Внутри
каждой рассматриваемой тройки значения сначала переставляются в
порядке возрастания, а затем берется их медиана, т.е. значение, находящееся в середине.
Для того чтобы записать алгоритм метода, определим функцию
от трех аргументов, называемую медианой:
 x, если y ≤ x ≤ z или z ≤ x ≤ y ,

med( x, y, z ) =  y , если x ≤ y ≤ z или z ≤ y ≤ x,
 z, если x ≤ z ≤ y или y ≤ z ≤ x.

Тогда алгоритм сглаживания с помощью скользящей медианы
определяется следующим выражением:
14
)
yt = med( yt −1 , yt , yt +1 ), t = 2,3,K, n − 1 .
Еще раз отметим, что при сглаживании с помощью скользящих
средних выбор длины интервала сглаживания делается в первую очередь исходя из содержательных соображений: длина периода сглаживания обычно зависит от периода сезонности. Если временной ряд не
содержит явно выраженных сезонных колебаний, то на практике величину интервала сглаживания чаще всего выбирают равной трем, пяти
или семи. Многие авторы указывают на тот факт, что использование
скользящих средних оправдано в том случае, когда значения временного ряда устойчивы, то есть являются реализациями случайного процесса вида
yt = b + ε t ,
где b — константа, а случайные возмущения ε t имеют нулевое математическое ожидание и постоянную дисперсию. В этом случае рекомендуется выбирать достаточно большие значения периода сглаживания. Если же ряд имеет устойчивую тенденцию к возрастанию или
убыванию (например, как на рис. 6.5), то использование большого периода сглаживания может привести к подавлению наблюдаемой тенденции в изменении значений ряда, поэтому в подобных случаях
обычно рекомендуется использование небольших периодов сглаживания.
Следует заметить, что соседние члены ряда скользящих средних
сильно коррелированы, так как в их формировании участвуют одни
члены исходного ряда. Эта коррелированность может привести к появлению в ряду скользящих средних новых циклических компонент,
отсутствующих в исходном ряде.
На практике процедуры сглаживания иногда используются в качестве первого этапа выявления сезонной компоненты и удаления неслучайных компонент из временного ряда. В этом случае сначала
проводится сглаживание ряда, затем по разностям исходного и сглаженного рядов проводится оценка сезонной компоненты. После того,
как сезонная компонента удалена из временного ряда, производится
подбор и оценка тренда методом наименьших квадратов.
§ 6.5. Экспоненциальное сглаживание
Один из недостатков метода скользящих средних состоит в том,
что все данные, используемые при вычислении среднего, имеют одинаковый вес. Метод экспоненциального сглаживания позволяет устранить этот недостаток — согласно этому методу самый большой весовой коэффициент приписывается самому последнему наблюдению.
Согласно методу экпоненциального сглаживания прогнозная
)
оценка yt +1 для момента времени t + 1 вычисляется по формуле:
)
)
yt +1 = α yt + (1 − α ) yt , t = 1,2,K , n − 1 ,
(6.5.1)
где α ( 0 < α < 1 ) — константа сглаживания.
15
)
Таким образом, оценка yt +1 для момента времени t + 1 вычисля)
ется рекуррентно на основании значений предыдущей оценки yt и
значения yt уровня ряда в момент t . Вычисления в соответствии с
этой рекуррентной формулой обычно начинаются с t = 1 , при этом в
)
качестве y1 для начала вычислений можно взять усредненное значение нескольких первых значений ряда или любое другое разумное
значение.
Выбор константы сглаживания α является решающим моментом
при экспоненциальном сглаживании. Если перегруппировать слагаемые в формуле (6.5.1), то получаем формулу
)
)
)
yt +1 = yt + α ( yt − yt ) .
(6.5.2)
)
Таким образом, оценка yt +1 складывается из предыдущей оценки
)
)
yt и некоторой доли ошибки предыдущего прогноза ( yt − yt ) . Величина
Экспоненциальное сглаживание
99
97
Спрос
95
93
91
89
87
85
1979 1980 1981 1982 1983 1984 1985 1986 1987 1988 1989 1990 1991 1992 1993
Год
Спрос y
0,01
0,1
0,3
0,5
Рис. 6.7
этой ошибки, которая используется для корректировки прогноза, определяется константой сглаживания α . Чем ближе значение α к 1, тем
большая часть расхождения прогноза и реального значения считается
закономерной и используется для корректировки. Чем ближе значение
α к нулю, тем большая доля расхождения между прогнозом и реальным значением считается случайной и, соответственно, меньшая
часть используется для корректировки. Таким образом, можно сказать,
16
что экспоненциальное сглаживание является примером адаптивной
модели.
Рекуррентно подставляя в формулу (6.5.1) аналогичные выраже) )
ния оценок yt , yt −1 , … для предыдущих моментов времени нетрудно
увидеть, что
)
yt +1 = α yt + α (1 − α ) yt −1 + α (1 − α ) 2 yt −2 + α (1 − α )3 yt −3 + K + α (1 − α )t −1 y1 ,(6.5.3)
)
таким образом, значение yt +1 представляет собой взвешенную сумму
всех предыдущих значений показателя, причем коэффициенты
уменьшаются по мере удаления значения показателя от текущего момента времени. Так, например, если α = 0,1, то формула (6.5.3) имеет
вид
)
yt +1 = 0,1yt + 0,09 yt −1 + 0,081 yt −2 + 0,0729 yt −3 + K.
Следует отметить, что не существует четких формальных критериев выбора значения α . На практике чаще всего используются значения α , лежащие в пределах от 0,1 до 0,3. Можно сказать, что значение константы сглаживания отражает субъективное мнение исследователя относительно устойчивости изменения изучаемого показателя. На рис. 6.7 приведен пример экспоненциального сглаживания с
различными значениями константы сглаживания.
Заметим, что в литературе часто встречается другой вариант
формулы (6.5.1):
St = α yt + (1 − α ) St −1 ,
где yt — значение уровня ряда в момент t , а через St обозначен прогноз на следующий момент времени t + 1.
§ 6.5. Авторегрессия и автокорреляция
При анализе временных рядов достаточно широкое распространение получили регрессионные модели с лаговыми переменными, а
также авторегрессионные модели (см. § 6.1). В общем случае авторегрессионная модель p -го поряда (или модель AR( p ) ) имеет вид
yt = β0 + β1 yt −1 + β 2 yt −2 + K + β p yt − p + ε t ,
(6.5.1)
здесь β 0 , β1 , β 2 ,K, β p — константы. Таким образом, эта модель описы-
вает изучаемый показатель в момент t в зависимости от его значений
в предыдущие моменты yt −1 , yt −2 ,K, yt − p . Кроме значений показателя в
предыдущие моменты времени в качестве регрессоров могут быть и
другие факторы, оказывающие влияние на изучаемый показатель,
пример подобной смешанной модели приведен в § 6.1:
yt = β 0 + β xt + γ yt −1 + ε t
(6.5.2)
Авторегрессионная модель 1-го порядка (то есть модель AR(1) ),
имеет вид:
yt = β 0 + β1 yt −1 + ε t ,
(6.5.3)
17
эта модель представляет собой марковский случайный процесс, согласно которому значения процесса в момент t определяется его значениями только в предыдущий момент t − 1.
Параметры авторегрессионных моделей обычно оцениваются с
помощью МНК. Следует, однако, иметь в виду, что на практике возможна автокорреляция между случайными возмущениями, а также
корреляция между объясняющей переменной yt −1 и случайным членом ε t . В этом случае оценки коэффициентов, полученные при непосредственном применении МНК, являются смещенными и несостоятельными. Следует также заметить, что особенностью рассматриваемых авторегрессионных моделей является то, что в них объясняющие
переменные являются случайными величинами — таким образом, мы
имеем случай регрессии со стохастическими регрессорами.
Одним из наиболее распространенных методов оценивания авторегрессионных уравнений, позволяющих сгладить второй недостаток, является метод инструментальных переменных. Идея этого метода состоит в том, чтобы переменную yt −1 из правой части (6.5.2), коррелирующую с ε t , заменить так называемой инструментальной переменной, близкой по своим свойствам к yt −1 , но не коррелирующей
(или, по крайней мере, слабо коррелирующей) с возмущением ε t .
Подбор инструментальной переменной часто является непростой задачей и во многом зависит от практической ситуации. В частности, в качестве инструментальной переменной можно предложить
оценку yt −1 , которая получается в результате регрессии переменной y
на независимые переменные x j , входящие в первоначальную авторегрессионную модель. Такая замена, однако, может привести к появлению мультиколлинеарности.
Кроме авторегрессионных моделей при анализе временных рядов часто используются модели скользящей средней (эти модели не
следует путать с методами, используемыми при сглаживании временных рядов). Модель скользящей средней q -го порядка (или модель
MA(q ) ) имеет вид:
yt = ε t + γ 1ε t −1 + γ 2ε t −2 + K + γ qε t −q ,
(6.5.4)
таким образом, исследуемая величина представляет собой линейную
функцию от возмущений в предыдущие моменты времени.
Часто используются комбинированные модели — авторегрессионая модель скользящей средней порядков p и q соответственно
(или модель ARMA( p, q ) ) имеет вид
yt = β0 + β1 yt −1 + β 2 yt −2 + K + β p yt − p + ε t + γ 1ε t −1 + γ 2ε t −2 + K + γ qε t −q . (6.5.5)
На практике использование подобных моделей для краткосрочного прогнозирования часто дает хорошие результаты.
18
Степень тесноты связи между уровнями временного ряда, сдвинутых относительно друг друга на τ единиц (с лагом τ ) можно оценить, вычисляв коэффициент корреляции между последовательносями наблюдений y1 , y2 ,K, yn −τ и — так называемый коэффициент автокорреляции ρ (τ ) . Статической оценкой ρ (τ ) является выборочный коэффициент автокорреляции r (τ ) , определяемый по формуле
n −τ
r (τ ) =
n −τ
n−τ
t =1
t =1
(n − τ )∑ yt yt +τ − ∑ yt ∑ yt +τ
t =1
2
2
.
(6.5.6)




(n − τ )∑ yt2 −  ∑ yt  (n − τ )∑ yt2+τ −  ∑ yt +τ 
t =1
 t =1 
t =1
 t =1

График выборочной автокорреляционной функции r (τ ) называется коррелограммой. Анализ корелограммы временного ряда и/или
его остатков помогает правильно определить структуру и подобрать
модель изучаемого ряда — проверить его стационарность, выявить
наличие тренда и сезонных колебаний, определить является ли процесс авторегрессией или скользящим средним и так далее.
Наряду с выборочным коэффициентом автокорреляции часто
используются выборочные частные коэффициенты корреляции между значениями временного ряда yt и yt +τ , в которых устранено влияние промежуточных (располагающихся между yt и yt +τ ) членов ряда.
Методика вычисления частных коэффициентов корреляции подробно
описана в § 2.4 — см. формулу (2.4.7).
Как уже отмечалось в § 3.3, для временных рядов, представляющих упорядоченные во времени значения показателя, характерно
наличие автокорреляции — взаимной зависимости последовательных
возмущений. Отсутствие автокорреляции в остатках временного ряда,
полученных после удаления неслучайных компонент (тренда, сезонной компоненты и т.д.), обычно свидетельствует об адекватности построенной модели, достоверности полученных оценок параметров.
Наличие автокорреляции первого порядка можно проверить с
помощью критерия Дарбина—Уотсона. Этот критерий проверяет статистическую значимость выборочного коэффициента автокорреляции
первого порядка в ряду остатков (применение этого критерия подробно описано в § 3.3).
Напомним, что согласно этому критерию необходимо вычислить
статистику Дарбина—Уотсона по формуле
n−τ
n−τ
n−τ
n−τ
n
d=
∑ (e − e
i=2
i −1
i
n
∑e
i =1
)2
.
2
i
Далее, используя таблицу критических значений критерия Дарбина—Уотсона, можно сделать вывод о наличии или отсутствии зна19
чимой автокорреляции первого порядка. Для проверки гипотезы о независимости возмущений (отсутствии автокорреляции) используется
следующее правило:
1. Если d < dl , то гипотеза о независимости возмущений отвергается (имеет место положительная автокорреляция).
2. Если d > 4 − d l , то гипотеза о независимости возмущений отвергается (имеет место отрицательная автокорреляции).
3. При d u < d < 4 − d u , то гипотеза об отсутствии автокорреляции
не отвергается (автокорреляции нет).
4. Если d l < d < d u или 4 − d u < d < 4 − d l , то гипотеза об отсутствии
автокорреляции не может быть ни принята, ни отклонена — нет достаточных оснований для принятия решения.
Значения d l и d u определяются по таблице критических значений Дарбина-Уотсона для заданного числа наблюдений и выбранного
уровня значимости.
Одной из причин автокорреляции в регрессионных моделях является наличие неучтенных регрессоров, влияние которых проявляется через случайное возмущение. На практике при анализе временных
рядов подобными «скрытыми» регрессорами чаще всего являются лаговые переменные. На значение показателя в момент t могут оказывать влияние, как и предыдущие значения объясняемой переменной,
так и предыдущие значения случайных возмущений.
Поэтому наиболее распространенным приемом устранения автокорреляции во временных рядах является подбор подходящей модели
— авторегрессионной AR( p ) , модели скользящей средней MA(q ) или
авторегрессионной модели скользящей средней ARMA( p, q ) для случайных возмущений. При подборе модели большую помощь оказывает анализ выборочной автокорреляционной и частной автокорреляционной функций. Так, если все значения выборочной частной автокорреляционной функции порядка выше p незначимо отличаются от
нуля, то временной ряд идентифицируют с помощью модели, порядок
авторегрессии которой не выше p . Если же все значения выборочной
автокорреляционной функции порядка выше q незначимо отличаются от нуля, то временной ряд следует идентфицировать с помощью
модели скользящей средней, порядок корой не выше q . После того,
как удается построить адекватную ARMA -модель для ряда остатков,
то оценки этой модели можно получить с помощью обобщенного метода наименьших квадратов (см. § 3.1).
При анализе автокорреляционных моделей есть еще одна особенность. Как уже отмечалось, с помощью теста Дарбина-Уотсона
практически невозможно определить наличие автокорреляции в авторегрессионных моделях. Этот тест также неприменим для моделей со
стохастическими регрессорами, то есть в тех случаях, когда имеется
20
корреляция между регрессорами и возмущениями регрессии. Показано, что в этих случаях значение статистики Дарбина-Уотсона, даже
при наличии автокорреляции, будет близко к 2, то есть часто будет
попадать в область принятия гипотезы об отсутствии автокорреляции.
Поэтому для обнаружения автокорреляции в авторегрессионных
моделях используют другие методы, в частности h -тест Дарбина.
Рассмотрим применение этого теста на примере модели (6.5.2):
yt = β 0 + β xt + γ yt −1 + ε t ,
(6.5.7)
Предположим, что в ряде случайных возмущений ε t есть авторегрессия первого порядка:
ε t = ρε t −1 + ζ t .
(6.5.8)
Таким образом, с учетом зависимости (6.5.8) уравнение (6.5.7)
имеет вид:
yt = β 0 + β xt + γ yt −1 + ρε t −1 + ζ t .
Но yt −1 зависит от ε t −1 (согласно (6.5.7)), поэтому в модели имеется корреляция между одной из объясняющих переменных и случайным возмущением, то есть, не выполнена одна из предпосылок МНК.
Для обнаружения автокорреляции в такой модели вычислим h статистику Дарбина по формуле:
n
 d
h = 1 − 
(6.5.9)
) ,
2  1 − nD(γ )

где d — значение статистики Дарбина-Уотсона для уравнения (6.5.7),
)
γ — оценка параметра γ уравнения (6.5.7) по обычному методу наи)
меньших квадратов, D (γ ) — выборочная дисперсия этой оценки, n —
число наблюдений.
При справедливости гипотезы об отсутствии автокорреляции
возмущений H 0 : ρ = 0 при достаточно большом количестве наблюдений статистика h стремится к стандартизованному нормальному распределению ( h : N (0,1) ).
Поэтому по заданному уровню значимости α по таблице стандартизованного нормального распределения определяется критиче1−α
ская точка uα 2 из условия Φ (uα 2 ) =
. Тогда
2
1. Если h > uα 2 , то нулевая гипотеза об отсутствии автокорреляции должна быть отклонена в пользу альтернативной гипотезы.
2. Если h ≤ uα 2 , то нулевая гипотеза об отсутствии автокорреляции не отклоняется.
Еще раз подчеркнем, что использование этого теста оправдано
только при достаточно больших объемах выборки, так как распределение статистики h при увеличении выборки лишь стремится к стандартизованному нормальному распределению. Кроме того, вычисле21
)
ние статистики h невозможно, если nD (γ ) > 1 , однако, на практике такой случай практически не встречается.
§ 6.7. Подбор модели временного ряда. Прогнозирование
Целью прикладного анализа временных рядов является построение математической модели ряда, с помощью которой можно
объяснить поведение ряда и прогнозировать его дальнейшее поведение. Если временной ряд нестационарен, то сначала выделяют и удаляют нестационарную составляющую ряда. Методы удаления неслучайных компонент (тренда, сезонной и циклической компонент) подробно рассмотрены выше. Процесс удаления этих компонент может
проходить в несколько этапов, на каждом из которых рассматривается
ряд остатков, полученных в результате вычитания из исходного ряда
подобранной модели. После исключения неслучайных компонент
временной ряд должен стать стационарным. Предположение о том,
что после выделения неслучайных компонент ряд остатков является
стационарным рядом очень существенно для анализа временного ряда. На практике, однако, такая ситуация далеко не всегда имеет место. Подробное обсуждение нестационарных рядов выходит за рамки
нашего обсуждения.
После того, как ряд приближен к стационарному обычно подбирают модель полученного стационарного процесса. Цель этого этапа
— описание и учет в дальнейшем анализе корреляционной структуры
рассматриваемого процесса. Модель считается подобранной, если
остаточная компонента ряда является случайным процессом типа белого шума. После подбора модели обычно проводится оценка дисперсии остатков и анализ остатков с целью проверки адекватности модели. Дисперсия остатков в дальнейшем может быть использована для
построения доверительных интервалов прогноза.
Для определения адекватности выбранной модели ряда необхо)
димо исследовать остатки et = yt − yt , t = 1,K, n . Если остатки ведут себя
случайным образом, т.е. гипотеза о взаимной независимости и одинаковой распределенности остатков не отвергается, то модель временного ряда может считаться адекватной. Для проверки гипотезы случайности можно использовать критерии случайности, описанные выше.
Кроме того, обычно проверяется наличие автокорреляции остатков. Как отмечалось ранее, автокорреляция остатков приводит к получению смещенных и несостоятельных оценок. Автокорреляция может
указывать либо на неверную спецификацию модели, либо на наличие
важных неучтенных факторов. Но зачастую автокорреляция вызывается наличием регрессионной зависимости между возмущениями, т. е.
внутренними свойствами ряда. Существует несколько способов устранения данной проблемы. В частности, для авторегрессионных мо22
делей предлагается авторегрессионное преобразование, преобразование методом скользящих средних, модели ARMA .
В качестве показателей качества (адекватности) построено мо)
дели yt может использоваться среднее квадратическое отклонение
остатков (иногда его называют среднеквадратической ошибкой)
)
( yt − yt )2
,
Se =
n
а также средняя ошибка аппроксимации:
)
1 n yt − yt
⋅ 100% .
A= ∑
n t =1 yt
Одной из целей статистического анализа временных рядов прогнозирование будущих значений рассматриваемого показателя. Прогнозирование будущих значений временного ряда, по сути, осуществляется на основе выявленных закономерностей изменения самого исследуемого показателя во времени и экстраполяции его прошлого поведения на будущее, предполагая возможность распространения выявленных тенденций на будущий период.
Обычно различают долгосрочное и краткосрочное прогнозирование. В первом случае анализируется долговременная динамика
изучаемого показателя, и в этом случае главным представляется выделение общего направления его изменения — тренда. При этом
считается возможным пренебречь краткосрочными колебаниями значений исследуемого показателя относительно этого тренда. Тренд
обычно строится методами регрессионного анализа. Рассматривая
временной ряд как регрессионную модель с одной объясняющей переменой «время» следует помнить о том, что основные предпосылки
регрессионного анализа, касающиеся случайных возмущений, на
практике во многих случаях бывают нарушены. В случае если есть основания полагать, что возмущения удовлетворяют предпосылкам регрессионного анализа, можно построить не только точечный, но и интервальный прогнозы значения зависимой переменной y . Стандартные ошибки и доверительные интервалы прогнозов вычисляются в
этом случае точно так же, как и в случае парной линейной регрессии
(см. § 1.9).
Для построения краткосрочного прогноза кроме выделения долгосрочного тренда необходим учет краткосрочных колебаний (например, сезонных), на практике часто пытаются определить дополнительные факторы, вызывающие отклонения значений исследуемой
величины от тренда. Кроме этого, проводят более детальное исследование связей текущих значений исследуемых показателей с их
прошлыми значениями или с прошлыми значениями других факторов.
23
При оценке качества прогнозов на практике часто используются
достаточно простые показатели, такие как относительная ошибка
прогноза
)
yt + p − yt + p
∆t + p =
⋅ 100% ,
yt + p
здесь p — период прогноза, yt + p — истинное значение показателя в
)
момент t + p , yt + p — значение, полученное по модели. При достаточно
медленном изменении переменной y вместо абсолютных значений
показателя часто используют отношение ее приростов:
)
δ t+ p − δ t + p
∆′t + p =
⋅ 100% ,
δ t+ p
)
)
)
где δ t + p = yt + p − yt — прогнозируемый прирост, а δ t + p = yt + p − yt — реальный прирост.
В любом случае следует иметь в виду, что прогнозирование
(особенно макроэкономическое) является одной из сложнейших задач
эконометрического анализа — в любом случае подбор подходящей
модели требует индивидуального подхода. Удачное использование
какой-либо модели для прогноза на некоторый период не является гарантией аналогичного результата для другого периода.
•
•
•
•
•
Выводы
Динамические модели широко используются при анализе временных рядов — данных, упорядоченных во времени;
Специфика исходных данных, в частности невыполнение основных предпосылок регрессионного анализа, требует специальных
методов анализа;
Моделирование неслучайных компонент (тренда и сезонной
компоненты) может осуществляться как методом аналитического
выравнивания, так и с помощью алгоритмов сглаживания;
В ряде случаев авторегрессионные модели позволяют адекватно
учесть зависимость членов временного ряда;
Важным моментом, характеризующим качество подобранной
модели, является отсутствие автокорреляции. Анализ выборочной автокорреляционной функции важен для правильной идентификации модели.
Вопросы для самопроверки
1. В чем суть временных рядов и чем они отличаются от пространственных выборок?
24
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
12.
13.
14.
15.
16.
17.
18.
19.
20.
21.
22.
23.
24.
25.
26.
Каковы основные причины лагов в динамических моделях?
Каковы основные компоненты временного ряда? Кратко охарактеризуйте каждую компоненту.
Объясните различия между аддитивной и мультипликативной
моделями временного ряда.
Дайте определение стационарному временному ряду. Объясните, где используются стационарные ряды.
В чем суть критериев случайности?
Опишите алгоритм аналитического выравнивания для аддитивной модели.
Какие функции часто используются для описания тренда?
Объясните, как с помощью модели, полученной в результате
процедуры аналитического выравнивания сделать прогноз будущих значений.
В чем суть процедур сглаживания с помощью простой скользящей средней?
Какие существуют еще процедуры сглаживания, кроме простой
скользящей средней?
Опишите процедуру экспоненциального сглаживания.
Объясните смысл константы сглаживания.
Почему при экспоненциальном сглаживании значения ряда
учитываются с разными весами?
В чем суть авторегрессионных моделей?
Что представляет собой модель AR( p ) ?
Что представляет собой модель MA(q ) ?
Объясните, как вычисляется выборочный коэффициент автокорреляции?
Как вычислить выборочный частный коэффициент корреляции?
В чем суть проблемы автокорреляции?
Каким образом можно проверить наличие автокорреляции?
Каким образом можно устранить автокорреляцию?
В чем особенность проверки автокорреляции в авторегрессионных моделях?
Опишите процедуру анализа временного ряда.
Каким образом можно оценить качество модели временного
ряда?
В таблице представлены данные, отражающие динамику роста
доходов на душу населения за восьмилетний период
1
2
3
4
5
6
7
8
t
yt 1133 1222 1354 1389 1342 1377 1491 1684
a) Постройте диаграмму временного ряда;
b) Проверьте гипотезу случайности по одному из критериев;
c) Найдите уравнение линейного тренда и проверьте его значимость;
25
d) Вычислите коэффициенты автокорреляции для лагов
τ = 1;2 ;
e) Проведите сглаживание с помощью простой скользящей
средней с интервалом сглаживания g = 3;5 ;
f) Проведите экспоненциальное сглаживание со значением
константы α = 0,1;0,3 . В качестве начального значения
возьмите среднее арифметическое первых двух уровней
ряда.
[1]
[2]
[3]
[4]
[5]
[6]
[7]
[8]
[9]
Библиография
Айвазян С.А., Мхитарян В.С. Прикладная статистика и основы
эконометрики. — М.: ЮНИТИ, 1998. — 650 с.
Бородич С.А. Вводный курс эконометрики. Учеб. пособие. — Мн.:
БГУ, 2000. — 354 с.
Буре В.М.. Евсеев Е.А. Основы эконометрики: Учеб. Пособие. —
СПб.: Изд-во С.-Петерб. ун-та, 2004.— 72 с.
Валландер С.С. Заметки по эконометрике. — СПб.: Европ. ун-т,
2001. — 46 с.
Доугерти К. Введение в эконометрику: учебник. 2-е изд. М.: ИНФРА-М, 2004.— 432 с.
Кремер Н.Ш., Путко Б.А. Эконометрика: Учебник для вузов.— М.:
ЮНИТИ-ДАНА, 2004.— 311 с.
Магнус Я.Р., Катышев П.К., Пересецкий А.А. Эконометрика. Начальный курс. — М.: Дело, 2000. — 400 с.
Тюрин Ю.Н., Макаров А.А. Анализ данных на компьютере / Под
ред. В.Э.Фигурнова. — М.: ИНФРА-М, 2003. — 544 с.
Эконометрика: Учебник / Под ред. И.И.Елисеевой. — М.: Финансы и статистика, 2001. — 344 с.
26