Статистические методы временные ряды уравнения регрессии прогнозирование

Методы анализа временных рядов с периодической компонентой, множественная регрессия

Вы будете перенаправлены на Автор24

Сущность понятия «временные ряды»

Временной ряд – это статистические данные, собранные за определенный промежуток времени, с целью проведения исследования.

Каждый элемент временного ряда называется отсчетом. Так же он может называться уровнем, которого достигают данные на определенный момент времени. Стоит отметить, что во временном ряду у каждого элемента есть свой порядковый номер.

Отличительной особенностью временного ряда является установление взаимосвязей между отдельными единицами и отслеживание их изменения в течение времени.

Временные ряды составляются тогда, когда есть необходимость измерить определенный показатель, например, показатели работы технических систем. Но данный поход применим и к экономическим, социальным структурам и даже к погодным данным. Типичными примером использования временных рядов является биржевой рынок.

Временные ряды удобны для экономических исследований. Они позволяют проанализировать большой объем данных, а также сформировать представление о динамическом изменении системы. То есть, временной ряд охватывает структурированные данные, а не разрозненный массив информации. Это позволяет определить вектор положительных или отрицательных изменений.

Анализ временного ряда проводится с помощью математических и статистических методов. Первые позволяют описать и формализовать данные. Статистические методы помогают проанализировать большой объем данных, либо воспользоваться выборкой, характеризующей изменения всей системы. Временные ряды используются для прогнозирования. В этом случае применяется регрессионный анализ. Структура ряда изучается для того, чтобы создать математическую модель, которая сможет его максимально точно описать.

Методы анализа временных рядов с периодической компонентой

Прежде всего, необходимо уточнить, что временные ряды состоят из двух частей – временного периода и числовых значений. Их принято классифицировать в зависимости от формы представления уровней на абсолютные, относительные и средних величин. Классификация так же может осуществляться по количеству показателей, по характеру временного параметра, по расстоянию между датами и интервалами. Выделяют полные и неполные временные ряды, детерминированные и случайные. Они могут быть стационарными и нестационарными.

Готовые работы на аналогичную тему

Периодическая компонента – это величина временного ряда, которая описывает изменяющуюся часть всего объема данных. Ее еще называют сезонной составляющей, так как она описывает периодически повторяющиеся события. Обычно периодическая компонента существует в ряду совместно с компонентой, описывающей тренд.

Периодическая компонента широко применяется для планирования и прогнозирования. Часто она используется в организации различных типов перевозок. При этом можно отследить, что каждая компонента ряда очень похожа на соседнюю. Так же возможно отследить схожий тренд в разных годах. Периодическая зависимость определяется, как корреляционная.

Измерение этой зависимости происходит с помощью автокорреляции. То есть элементы ряда коррелируется между собой. В ряде есть временной лаг, иногда могут использоваться сдвиг и запаздывание. В случае, если ошибка при сборе информации не слишком большая, то сезонность можно определить визуально. Для этого изучается поведение членов ряда через определенные промежутки времени.

Периодическая составляющая может быть удалена из временного лага за счет разности того же порядка. То есть из каждого элемента вычитается ему предшествующий. Таким образом определяются скрытые составляющие ряда, а также удаление позволяет сделать временной ряд стационарным. Это может быть необходимо для того, чтобы применить другие методы исследования.

Методы анализа временных рядов множественной регрессией

Линейная регрессия называется множественной, если в ней более двух независимых переменных. Расчет проводится с помощью метода наименьших квадратов. Отличительной особенностью множественной регрессии является использование гиперплоскости. Ее преимущество заключается в том, что есть возможность увеличить долю выходной переменной, поэтому появляется возможность улучшить соответствие модели включенным в нее данным. Получается, что если в совокупность будут добавляться новые переменные, то коэффициент детерминации будет увеличиваться.

Однако, у множественной регрессии есть ряд недостатков:

  1. Высока вероятность появления мультиколлениарности, которая представляет собой ситуацию высокой корреляции между входными данными и множественной линейной регрессией. В этом случае модель является неустойчивой, поэтому ее коэффициенты сильно изменяются даже при незначительных изменениях. То есть отклонение модели слишком велико.
  2. Необходимость точного подбора модели, позволяющей с помощью небольшого набора данных объяснить большой разброс зависимой переменной.

С помощью модели регрессии может рассматриваться временной ряд. Это необходимо тогда, когда совокупность изменяется во времени, а также изменяются ее признаки. В результате формируются хронологические ряды. На их основе создаются регрессии. На практике это выглядит как установление зависимости месячных производственных расходов от объема производства в течение определенного периода времени для одного и того же предприятия.

Регрессия позволяет выявить поведение зависимой переменной. Построение уравнения регрессии осуществляется с помощью метода наименьших квадратов. При этом необходимо учесть следующие особенности:

  1. Несовпадение по времени причины и следствия.
  2. Необходимость учета лаговых значений объясняющих переменных.
  3. Сложность с прогнозирование сдвига статистических рядов.
  4. Большой объем наблюдений.

При анализе есть вероятность столкнуться с ложной регрессией. Здесь важно понимать, что это — результат простого сопутствия в развитии ряда либо ложная регрессия.

Методы прогнозирования в регрессионных и адаптивных моделях при анализе динамических рядов Текст научной статьи по специальности « Математика»

Похожие темы научных работ по математике , автор научной работы — И.П. Геращенко

Theoretical foundations of forecasting in adaptive and regression models and applications of these models in dynamic sequences analysis are regarded in the article. The statistical conditions of adequacy of the chosen model to the investigated process are discussed. The efficiency of the adaptive and regression models using for demographic processes forecasting is shown. A level of birth rate in Omsk region is analyzed with the help of considered models. The conclusion is made about the greatest conformity of the investigated process to the adaptive model with the factor of smoothing 0.6 and to the regression polynomial model with k = 3. It is emphasized that it is better to use the adaptive model to forecast demographic parameters when a non-stable socio economic situation holds. Regression models should be applied to the analysis of the phenomena having stable general laws of development during the period of the forecast/

Текст научной работы на тему «Методы прогнозирования в регрессионных и адаптивных моделях при анализе динамических рядов»

МЕТОДЫ ПРОГНОЗИРОВАНИЯ В РЕГРЕССИОННЫХ И АДАПТИВНЫХ МОДЕЛЯХ ПРИ АНАЛИЗЕ ДИНАМИЧЕСКИХ РЯДОВ

Theoretical foundations of forecasting in adaptive and regression models and applications of these models in dynamic sequences analysis are regarded in the article. The statistical conditions of adequacy of the chosen model to the investigated process are discussed. The efficiency of the adaptive and regression models using for demographic processes forecasting is shown. A level of birth rate in Omsk region is analyzed with the help of considered models. The conclusion is made about the greatest conformity of the investigated process to the adaptive model with the factor of smoothing 0.6 and to the regression polynomial model with k = 3. It is emphasized that it is better to use the adaptive model to forecast demographic parameters when a non-stable socio economic situation holds. Regression models should be applied to the analysis of the phenomena having stable general laws of development during the period of the forecast

Информационной базой для анализа социально-экономических процессов являются динамические ряды. Динамические ряды качественно отличаются от простых статистических выборок. Эти отличия заключаются в следующем:

— последовательные во времени уровни временных рядов являются взаимозависимыми, особенно это относится к близко расположенным наблюдениям;

— в зависимости от момента наблюдения уровни во временных рядах обладают разной информативностью: информационная ценность наблюдений убывает по мере их удаления от текущего момента времени;

— с увеличением количества уровней временного ряда точность статистических характеристик не будет увеличиваться пропорционально числу наблюдений, а при появлении новых закономерностей развития она может даже уменьшиться.

При исследовании динамических рядов обычно выделяют четыре основных составляющих [1, 2]: долговременную эволюторно изменяющую составляющую

0 2000 И.П. Геращенко

Омский государственный педагогический университет

(Г), долговременные циклические колебания (АД, кратковременные циклические колебания (S’) (сезонную компоненту) и случайную составляющую (Е):

Три первые составляющие, в принципе, представляют собой тренд, т.е. детерминированную составляющую. Случайная составляющая образована в результате суперпозиции большого числа внешних факторов, которые не участвуют в формировании детерминированной составляющей и оказывают, каждый отдельно, незначительное влияние на изменение показателя. В целом влияние этих факторов на изучаемый показатель проявляется в изменении во времени его значений. В зависимости от взаимосвязи факторов может быть построена аддитивная или мультипликативная модель ряда динамики. Аддитивная модель ряда динамики (Y = Т + К + S + Е) характеризуется главным образом тем, что характер циклических и сезонных флуктуаций остается постоянным. В мультипликативной модели ряда динамики (Y = TKSE) характер циклических и сезонных флуктуаций остается постоянным только по отношению к тренду.

Основная задача анализа динамических рядов состоит в выделении на основе знания отрезка ряда детерминированной и случайной составляющих, а также в оценке их характеристик. Получив оценки детерминированной и случайной составляющих, можно решать задачи прогноза будущих значений как самого динамического ряда, так и его составляющих.

В случае аддитивной модели динамический ряд может быть представлен следующим образом:

где yt — значения динамического ряда; f(t, xt) — детерминированная составляющая; xt — значения детерминированных признаков, влияющих на детерминированную составляющую в момент времени t; et — случайная составляющая; Т -длина ряда.

Ряды динамики, у которых в качестве признака упорядочения используется время, называются временными (трендовая модель):

Они состоят из последовательных значений (уровней) показателя, характеризующего состояние процесса в определенные, как правило, равноотстоящие друг от друга моменты времени, причем каждый показатель представлен в большинстве случаев лишь одним временным рядом.

Для аппроксимации тенденции изменения исследуемого показателя применяют аналитическое выравнивание, используя при этом разнообразные математические функции, в которых задействован только один фактор — время. В общем случае соотношение (2) принимает следующую форму [3]:

Vt = + et, t = 1,2. ,T,

где — известные функции времени. Например, в случае полиномиальной

зависимости Pi(t) = t\ при экспоненциальной зависимости формула (3) преобразуется в соотношение

а в простейшем случае линейного тренда — в

Vt = a о + apt + et.

Априорные предположения о форме тренда могут быть сформулированы в виде рабочей гипотезы. На практике прибегают к анализу графического изображения уровней динамического ряда. Целесообразно использовать для этих целей графическое изображение сглаженных уровней, в которых случайные и волнообразные колебания в некоторой степени погашены. При выборе вида зависимости /(t, xt) часто используют метод конечных разностей, который основан на свойствах различных кривых, применяемых при выравнивании динамических рядов. Например, в случае рабочей гипотезы о постоянстве абсолютных приростов (первая разность): fit + 1) — fit) = Ai = const, и нулевом значении абсолютных приростов Д2 = Ai (t + 1) — ДЦЦ = 0 приходим к линейному тренду. По Б. С. Ястремскому [4] для аналитического выравнивания динамического ряда применима линейна функция, если любые три равностоящих уровня имеют нулевую вторую разность. Порядок разностей, остающихся примерно равными друг другу, принимается за степень полинома, т.е., если примерно одну и ту же величину имеют вторые разности, то для выравнивания используется парабола второго порядка. Если же имеет место гипотеза постоянства темпов роста

то получаем экспоненциальный тренд (4), который в логарифмах приводится к линейному.

Если тренд линеен относительно своих параметров или может быть сведен к линейному посредством преобразований, а случайная составляющая имеет известную матрицу ковариаций, то задача сводится к задаче множественной регрессии. Обозначив pft) через жщ уравнение (3) можно переписать в матричной форме:

где Y — вектор-столбец значений уровня ряда; a — вектор-столбец коэффициентов уравнения регрессии; е — вектор-столбец отклонений фактических от выравненных значений; X — матрица значений (дЦЦ, включая единичный столбец, отвечающий свободному члену.

Параметры тренда оцениваются по методу наименьших квадратов [5], т.е. подбираются таким образом, чтобы график функции роста располагался на минимальном удалении от точек исходных данных. Математически критерий оценки параметров регрессионной модели записывается следующим образом:

где yi определяется по формуле (3). Оценки коэффициентов тренда получают из соотношений:

1XY, М(а) = а, S2a = Не можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Оператор сглаживания линеен, поэтому, применяя его к отдельным составным частям теоретико-вероятностной схемы (13), можно в результате сложения получить результат сглаживания всего ряда.

Оператор сглаживания можно вновь применить к уже сглаженным значениям; в результате получим оператор сглаживания второго порядка. Применяя несколько раз оператор сглаживания, а также, подбирая соответствующим образом константу сглаживания, можно практически исключить случайную составляющую, в результате останется только преобразованная детерминированная составляющая.

Одним из главных преимуществ экспоненциального сглаживания в отличие, например, от метода скользящей средней, является то, что существует возможность построения аналитического выражения для прогнозных оценок уровней динамического ряда. Теорема Брауна, являющаяся фундаментальной в методе экспоненциального сглаживания, утверждает, что коэффициенты полиномов, по которым производится прогнозирование, определяются с помощью дисконтированного метода наименьших квадратов и аналитически выражаются через сглаженные значения ряда. Тогда для прогнозирующего полинома степени N имеем:

По этому полиному можно получать прогноз в точках (Т + г). Коэффициенты полинома определяются из условия:

При N = 1 имеем: и для коэффициентов

oo T = 1 / w AO -аУ [у*-*

(t) , (t) yt+T = ay + a\ V,

Рассчетное значение в момент времени t получаем по формуле (16):

yt = а^_1) + af_1V, где г = 1. (18)

Для прогнозирования наиболее часто используют квадратичный полином, т.е. N = 2. В этом случае формулы (16), (17) примут вид:

и для коэффициентов:

[(6 — 5a)Sl(y) — 2(5 — 4a)Sf(y) + (4 — 3a)Sf(y)] , [Sl(y) — 2SUy) + SUy)> ■

Рассветное значение в момент времени t получаем по формуле

(t-l) . (t-l) . 1 (t-l) 2 1 /01\

yt = % ; + а) r+2a2 т’ где т = 1. (21)

Для рассчетов удобнее использовать рекуррентные формулы [3, 5], эквивалентные (17), (20), где для корректировки параметров используется ошибка прогноза:

где yt определяется по формулам (18) и (21).

af* = af ^ + a2e(t). (23)

1^ + — -a2(2 — ск)ф), (24)

Из этих формул видно, что при появлении нового наблюдения необязательно хранить весь предыдущий отрезок временного ряда, надо лишь знать коэффициенты прогнозирующего полинома, найденные по этому отрезку.

Для прогнозирования на глубину г за пределы известного отрезка используют прогнозирующий полином (15). Но если в окрестности точки Т детерминированная составляющая близка к постоянной, применяют аппарат однократного экспоненциального сглаживания, и прогноз определяют по формуле

а доверительный интервал прогноза равен:

Если в окрестности точки Т детерминированная составляющая линейна, то применяют двойное экспоненциальное сглаживание, и точечный прогноз осуществляют по формуле (18) при t = Г, а доверительный интервал прогноза определяют по формуле (10) или из следующего соотношения:

a[l + 4(l — a)+ 5(1 — а)2

+ 2(4 — Зсф + 2ск2т2]

Если детерминированная составляющая нелинейна в окрестности Г, то применяют тройное экспоненциальное сглаживание и точечный прогноз определяется формулой (19) при t = Т.

Экспоненциальное сглаживание как метод выравнивания лежит в основе более сложных методов адаптивного моделирования. Например, Уинстером [4, 5] была предложена модель, учитывающая сезонную составляющую динамического ряда.

Анализ применимости той или иной модели для экстраполяции уровней динамики должен основываться на ее адекватности исследуемому процессу [8, 9]. Модель является адекватной, если математическое ожидание остаточного ряда близко или равно нулю и значения остаточного ряда случайны, независимы и подчинены нормальному закону распределения.

Проверка равенства математического ожидания уровней ряда остатков нулю осуществляется с использованием t-критерия Стьюдента:

где eit) — среднее значение уровней остаточного ряда; Se — среднее квадратическое отклонение уровней остаточного ряда. Гипотеза отклоняется, если t > tKp, определенного по таблице Стьюдента с заданным уровнем значимости.

Проверку случайности уровней остатков можно провести методом пиков. В соответствии с ним каждый уровень ряда сравнивается с двумя рядом стоящими. Если он больше или меньше их, то эта точка считается поворотной и

pt = 1, в противном случае pt = 0. Далее подсчитывается сумма поворотных т

точек р = YlPt- В случайном ряду чисел должно выполняться строгое неравен-

2(Т — 2) о /16Т — 29 3 V 90

Квадратные скобки обозначают целую часть числа.

При проверке независимости (отсутствия автокорреляции) определяется отсутствие в ряду остатков систематической составляющей. Это можно проверить на основе й-критерия Дарбина-Уотсона, основанного на автокорреляции первого порядка (et = pet-\ + щ):

Вычисленная величина этого критерия сравнивается с двумя табличными уровнями: di — нижний и du — верхний уровни, которые определяются в зависимости от числа наблюдений Т и количества регрессоров к. Если d находится в интервале от 0 до ф, то уровни остатков сильно коррелированы р ф- 0,

корреляция между уровнями положительная, а модель не адекватна. Если его значение попадает в интервал от du до 2, то уровни ряда являются независимыми р = 0. Если d превышает 2, то это свидетельствует об отрицательной корреляции и перед анализом его величину надо преобразовать: d* = 4 — d. В случае di Не можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Соответствие ряда остатков нормальному закону распределения определяют различными методами, например, с помощью ДД-критерия:

где етах, ет;п — максимальный и минимальный уровень остатков. Если значение критерия попадает между табулированными, то гипотеза о нормальном распределении ряда принимается.

Для характеристики точности модели можно воспользоваться коэффициентом детерминации i?2, определяющим долю дисперсии y(t), объясненную регрессией г/t, или средней относительной ошибкой:

Если величина относительной ошибки менее 5% , модель достаточно точно описывает исследуемый процесс, ошибка 15% считается приемлемой.

Если построенная модель адекватна, т.е. выполняются все вышеперечисленные требования, то с выбранной доверительной вероятностью можно утверждать, что при сохранении сложившихся закономерностей развития социальноэкономического явления прогнозируемая величина попадет в доверительный интервал, предсказанный на основе выбранной модели.

Покажем эффективность использования регрессионных и адаптивных моделей для прогнозирования демографических процессов. Демографические прогнозы представляют существенную часть социальных и естественно-научных прогнозов и служат мощным аналитическим средством познания и управления развития обществом. Они дают возможность вовремя заметить нежелательные отклонения в демографическом развитии страны или региона и принять соответствующие меры по их устранению. Демографические прогнозы являются основной и исходной базой для подготовки прогнозов в области трудовых ресурсов. Они необходимы также для того, чтобы заранее предусмотреть возникновение возможных диспропорций между будущей возрастной структурой населения и будущими объемами социальных требований. Так, изменение численности детей того или иного возраста необходимо учитывать при планировании развития здравоохранения, просвещения, а также многих отраслей промышленности. На базе перспективной численности определяются как будущие ресурсы общества, так и потребность общества в тех или иных благах. Поэтому для социально-экономического планирования развития страны или региона важно, чтобы эти прогнозы были как можно более достоверны.

Проанализируем на основе вышеприведенных моделей рождаемость в Омской области в 90-е годы. В таблице 1 приведены данные по анализу адекватности адаптивной модели при различных коэффициентах сглаживания и регрессионной модели при различных значениях регрессора k = 1, 2, 3. Адекватность модели оценивали при доверительной вероятности 90% и Г = 11, анализ статистики Дарбина — Уотсона и ДД-критерия проводили при уровне значимости 5%.

Адаптивная модель Регрессионная модель

Коэффициент сглаживания Степень полинома

0,1 0,4 0,6 0,7 0,8 0,9 к = 1 к = 2 к = 3

% 3864,6 1511,7 1234,0 1213,2 1228,8 1269,7 1490,7 831,9 736,8

К1 0,960 0,982 0,988

t 3,10 2,24 1,09 0,73 0,47 0,28 0,12 0,22 0,25

р 4 5 5 6 4 4 4 4 5

d 0,1 0,77 1,47 1,74 1,96 1,86 0,56 1,47 1,71

г(1) 0,83 0,61 0,21 0,05 -0,07 -0,18 0,599 0,133 0,063

RS 1,85 2,20 3,01 3,34 3,54 3,65 3,301 2,88 3,46

^отн 13,5% 5,2% 4,4% 4,3% 4,1% 4,1% 4,71% 2,88% 2,44%

На основании приведенных данных можно сделать вывод, что наибольшее соответствие исследуемому процессу достигается в адаптивных моделях с коэффициентом сглаживания 0,6-0,9 и в регрессионных моделях с к = 2, 3. В линейной регрессионной модели в остаточном ряду присутствует существенная положительная автокорреляция.

В таблице 2 представлены точечные оценки прогноза уровней динамического ряда до 2004 года. Прогнозы по линейной регрессионной зависимости построены с учетом авторегрессионного процесса первого порядка. Анализ точечных прогнозов показывает, что в случае адаптивной модели оценки значений уровня ряда убывают с увеличением коэффициента сглаживания, но

в целом наблюдается значительное уменьшение уровней до 75% от уровня 1999 года. В регрессионных моделях прогнозируется также уменьшение рождаемости. Линейная регрессия дает уменьшение уровней в 2 раза по сравнению с 1999 годом. В случае же параболической зависимости, начиная с 2001 года, прогнозируется рост рождаемости, что не является следствием сложившейся демографической ситуации в области. Прогноз по полиномиальной зависимости с к = 3 показывает уменьшение уровня, аналогичное адаптивной модели.

Год Фактические данные Адаптивная модель Регрессионная модель

a = 0, 6 Р II О ОС o’ II Р к = 1 к = 2 СО II

1993 23300 23820 23690 23520 26200 24850 24560

1996 21500 20590 21080 21440 21560 20660 20950

1998 19800 18740 18740 18630 18470 19360 19440

1999 18500 18790 19000 19190 16922 19160 18790

2000 — 17600 17598 17530 15380 19260 18128

2001 — 16660 16650 16525 13830 19660 17390

2002 — 15720 15700 15520 12280 20360 16510

2003 — 14780 14760 14520 10737 21350 15430

2004 — 13840 13800 13520 9190 22650 14090

Любой прогноз должен основываться на знании природы прогнозируемого явления. В случае демографических прогнозов следует помнить, что население воспроизводится под непосредственным влиянием социально-экономических условий, поэтому необходима тесная взаимосвязь демографических прогнозов и перспектив социально-экономического развития региона. Так, кризис 17 августа 1998 года и последовавшие за ним негативные перемены в экономической ситуации изменили складывавшиеся ранее тенденции стабилизации рождаемости в регионе, и, как следствие, повлияли на прогнозируемые оценки. В условиях нестабильности экономики, и тем более кризисных явлений в ней, происходящих в последние годы в России, обоснование ожидаемых изменений уровня рождаемости представляет достаточно сложную задачу. Если в ближайшие годы удастся преодолеть кризисные явления в экономике, приостановить падение промышленного производства и восстановить нормальное развитие рынка, то можно ожидать постепенную стабилизацию уровня рождаемости. Если достичь успеха в этом не удастся, то снижение уровня рождаемости продолжится, и стабилизация будет возможна на более низком уровне к концу периода прогноза.

С точки зрения социально-экономического характера исследуемого явления, при сохранении сложившихся закономерностей развития наибольшее предпочтение можно отдать адаптивной модели с коэффициентом сглаживания 0,6 и полиномиальной модели с к = 3. Хотя использование полиномиальной модели для долгосрочных прогнозов динамики рождаемости не оправдано, т. к. уже к 2010 году точечный прогноз по этой модели представлен отрицательным числом, в случае же адаптивной модели уровень рождаемости 2010 года

составляет только 50% от уровня 1999 года. В таблице 3 показаны доверительные интервалы прогнозов для этих моделей до 2004 года, рассчитанные с доверительной вероятностью 80%.

Год Адаптивная модель а = 0, 6 Полиномиальная модель к = 3

Нижняя граница Верхняя граница Нижняя граница Верхняя граница

2000 16680 18530 17200 19050

2001 15700 17620 16430 18350

2002 14720 16720 15510 17510

2003 13740 15830 14390 16480

2004 12740 14930 13000 15180

В целом можно отметить, что рассмотренные модели прогнозирования дают достаточно достоверные прогнозные оценки уровней динамики рождаемости. Сравнение наших данных с результатами прогнозов Госкомстата РФ [10, 11], показывает, что прогнозируемый Госкомстатом уровень рождаемости в общем попадает в доверительные пределы наших прогнозов. Отсутствие тенденции к стабилизации уровня в наших рассчетах, в отличие от прогнозов Госкомстата, связано с учетом падения уровня рождаемости в 1999 году.

Следует подчеркнуть, что адаптивная модель более приемлема для краткосрочных прогнозов и быстрее адаптируется к последним событиям. Поэтому для прогнозирования демографических показателей в условиях нестабильной социально-экономической ситуации лучше использовать эту модель. При анализе явлений, общие закономерности развития которых не меняются в течение периода прогноза, регрессионные модели являются достаточно адекватными исследуемому явлению и позволяют делать более длительные прогнозные оценки.

1. Андерсен Т. Статистический анализ временных рядов. М.: Мир, 1976. 155 с.

2. Теория статистики / Под ред. Р. А. Шмойловой. М.: Финансы и статистика,

3. Колемаев В.А., Староверов О.В., Турундаевский В.Б. Теория вероятностей и математическая статистика. М.: Высшая школа, 1991. 400 с.

4. Ефимова М.Р., Петрова Е.В., Румянцев В.Н. Общая теория статистики. М.: ИНФРА-М, 1997. 416 с.

5. Четыркин Е.М. Статистические методы прогнозирования. М.: Статистика, 1975. 183 с.

6. Боли Б., Хуань К.Дж. Многомерные статистические методы для экономики. М.: Статистика, 1979. 317 с.

7. Ковалева Л.Н. Многофакторное прогнозирование на основе рядов динамики. М.: Статистика, 1980. 103 с.

8. Магнус Я.Р., Катышев П.К., Пересецкий А.А. Эконометрика. Начальный курс. М.: Дело, 1977. 248 с.

9. Доугерти К. Введение в эконометрику. М.: ИНФРА-М, 1997. 402 с.

10. Предположительная численность населения Российской Федерации до 2015 года // Статистический бюллетень. М.: Госкомстат России, 1998.

11. Волков А.Г. Население и рабочая сила в Российской Федерации. Тенденции и перспективы // Вопросы статистики. 1999. N 10. С.39-45.

Обзор моделей прогнозирования временных рядов: проба пера

В рамках своей диссертации «Модель прогнозирования по выборке максимального подобия» мне нужно было делать обзор моделей прогнозирования. Кроме обзора, я сделала вариант классификации, который мне тогда не очень удался. Классификацию уже немного поправила, теперь хочется разобраться в существующих моделях прогнозирования временных рядов. Такие модели называют стохастическими моделями (stochastic models).

По оценке некто Тихонова в его «Прогнозировании в условиях рынка» на сегодняшний день (2006 год) существует около 100 методов и моделей прогнозирования. Эта оценка звучит бредово, я полно разбирала ее! Давайте теперь вместе разберемся, какие же модели прогнозирования временных рядов существуют на сегодняшний день.

  1. Регрессионные модели прогнозирования
  2. Авторегрессионные модели прогнозирования (ARIMAX, GARCH, ARDLM)
  3. Модели экспоненциального сглаживания (ES)
  4. Модель по выборке максимального подобия (MMSP)
  5. Модель на нейронных сетях (ANN)
  6. Модель на цепях Маркова (Markov chains)
  7. Модель на классификационно-регрессионных деревьях (CART)
  8. Модель на основе генетического алгоритма (GA)
  9. Модель на опорных векторах (SVM)
  10. Модель на основе передаточных функций (TF)
  11. Модель на нечеткой логике (FL)
  12. Что еще.

Регрессионные модели прогнозирования

Регрессионные модели прогнозирования одни из старейших, однако нельзя сказать, что она нынче очень популярны. Регрессионными моделями являются:

  • Простая линейная регрессия (linear regression)
  • Множественная регрессия (multilple regression)
  • Нелинейная регрессия (nonlinear regression)

Лучшая книга по регрессии — архигениальная книга — Draper N., Smith H. Applied regression analysis. Ее можно скачать в сети в djvu. Лучше читать в английском варианте, написано в высшей степени для людей.

Авторегрессионные модели прогнозирования

Это широчайший и один из двух наиболее широко применимых классов моделей! Книг по этим моделям много, примеров применения много.

  • ARIMAX (autoregression integrated moving average extended), об этом написано чрезвычайно много. Основой основ является книга Box, George and Jenkins, Gwilym (1970) Time series analysis: Forecasting and control. Лучше читать на английском!
  • GARCH (generalized autoregressive conditional heteroskedasticity), здесь множество модификаций FIGARCH, NGARCH, IGARCH, EGARCH, GARCH-M.
  • ARDLM (autoregression distributed lag model), об этом только в учебниках по эконометрике.

Вопрос к аудитории: посоветуйте хорошую и понятную (!) книгу/статью по GARCH и MLE.

Модели экспоненциального сглаживания

  • Экспоненциальное сглаживание (exponential smoothing)
  • Модель Хольта или двойное экспоненциальное сглаживание (double exponential smoothing)
  • Модель Хольта-Винтерса или тройное экспоненциальное сглаживание (triple exponential smoothing)

По всем трем моделям лучшая из мною читанного статья Prajakta S.K. Time series Forecasting using Holt-Winters Exponential Smoothing.

Модель по выборке максимального подобия

Это моя модель (model on the most similar pattern), на ряде задач показывает высокую эффективность. К рядам FOREX и бирж применять не стоит, проверяли, работает неважно. Ее описание можно найти в диссертации по ссылке выше, кроме того, можно скачать пример реализации в MATLAB.

Модель на нейронных сетях

Вторая из двух наиболее популярных моделей прогнозирования временных рядов. Лучшая книга с примерами, на мой вкус, Хайкин С. Нейронные сети: полный курс. Книгу с примерами в MATLAB можно скачать по ссылке.

Модель на цепях Маркова

Модель на цепях Маркова фигурирует в множестве обзоров, однако мне не удалось найти ни хорошей книги, ни хорошей статьи о ее конкретном применении для прогнозирования временных рядов. Сама эту модель разбирала в курсе теории надежности (учебник Гнеденко), принцип ее расчета хорошо понимаю, кроме того, читала, что ее часто применяют для моделирования финансовых временных рядов.

Вопрос к аудитории: посоветуйте хорошую и понятную (!) книгу/статью по применению цепей Маркова для прогнозирования временных рядов.

Модель на классификационно-регрессионных деревьях

Вот тут материалов немного, но они есть. В частности, неплохая статья по применению этой модели для прогнозирования Hannes Y.Y., Webb P. Classification and regression trees: A User Manual for IdentifyingIndicators of Vulnerability to Famine and Chronic Food Insecurity.

Модель на основе генетического алгоритма

Это странный зверь, такого рода решения я называю «иезуитскими», потому что кажется, что они рождены только для обоснования научной новизны, однако эффективность их невысока. Например, генетический алгоритм применяется для решения задач оптимизации (поиска экстремума), однако некоторые приплели его к прогнозированию временных рядов. Найти внятного материала по этой теме мне не удалось.

Вопрос к аудитории: посоветуйте хорошую и понятную (!) книгу/статью по применению генетического алгоритма для прогнозирования временных рядов.

Модель на опорных векторах

Модель на основе передаточных функций

Модель на нечеткой логике

Все эти модели принадлежат, на мой вкус, классу иезуитских. Например, опорные векторы (SVM) применяется в основном для задач классификации. Нечеткая логика где только не применяется, однако найти ее понятно описанное применение для прогнозирования временных рядов мне не удалось. Хотя в обзорах специалисты почти всегда ее указывают.

Итого

Моделей мы наберем с десяток, со всеми модификациями — два десятка. Хотелось бы, чтобы в комментариях вы не только высказывали мнение, а по возможности делали полезные ссылки на понятные материалы. Лучше на английском!

PS. Всех любителей FOREX и всякого рода бирж большая просьба не долбится ко мне в личку! Вы мне ужасно надоели!


источники:

http://cyberleninka.ru/article/n/metody-prognozirovaniya-v-regressionnyh-i-adaptivnyh-modelyah-pri-analize-dinamicheskih-ryadov

http://habr.com/ru/post/180409/