Статистическая оценка на основе системы регрессионных уравнений

Гл. 9. Системы регрессионных уравнений [c.222]

По мере приближения относительного показателя к пределу одно и то же абсолютное изменение в пунктах приобретает иное качественное содержание. Например, если показатель тесноты связи -коэффициент детерминации — возрос с 40 до 65% (на 25 пунктов), то система факторов в регрессионном уравнении как была, так и осталась неполной, хорошей модели не получено. Но если после изменения состава факторов коэффициент детерминации возрос с 65 до 90% — на те же 25 пунктов, это изменение имеет другое качественное содержание получена хорошая регрессионная модель, в основном объясняющая вариацию результативного признака с достаточно полной системой факторов. [c.313]

При функциональной форме мультиколлинеарности по крайней мере одна из парных связей между объясняющими переменными является линейной функциональной зависимостью. В этом случае матрица Х Х особенная, так как содержит линейно зависимые векторы-столбцы и ее определитель равен нулю, т. е. нарушается предпосылка 6 регрессионного анализа. Это приводит к невозможности решения соответствующей системы нормальных уравнений и получения оценок параметров регрессионной модели. [c.108]

Одной из причин коррелированное регрессоров со случайными членами могут служить факторы, действующие одновременно и на сами регрессоры, и на объясняемые переменные при фиксированных значениях регрессоров. Иными словами, в рассматриваемой экономической ситуации значения объясняемых переменных и регрессоров формируются одновременно под воздействием некоторых внешних факторов. Это означает, что рассматриваемая модель не полна ее следует дополнить уравнениями, в которых объясняемыми переменными выступали бы сами регрессоры. Таким образом, мы приходим к необходимости рассматривать системы одновременных или регрессионных уравнений. [c.224]

Применить к уравнениям системы обычный и косвенный методы наименьших квадратов. Сравнить полученные оценки. Сравнить полученные регрессионные уравнения с модельными (12.1)— (12.2). Повторить эксперимент несколько раз. [c.288]

Наряду с предпосылками МНК как метода оценивания параметров регрессии при построении регрессионных моделей должны соблюдаться определенные требования относительно переменных, включаемых в модель. Они были рассмотрены ранее при решении проблемы отбора факторов. Это прежде всего требование относительно числа факторов модели по заданному объему наблюдений (отношение 1 к 6—7). Иначе параметры регрессии оказываются статистически незначимыми. В общем виде применение МНК возможно, если число наблюдений я превышает число оцениваемых параметров т, т. е. система нормальных уравнений имеет решение только тогда, когда п > т. [c.169]

Построение системы структурных уравнений позволяет глубже изучить причины связи, лежащие в основе вариации результирующих переменных. При этом происходят выделение и оценка косвенных (опосредованных) и непосредственных (прямых) влияний признаков. Именно поэтому системы структурных уравнений часто интерпретируются как статистические описания причинно-следственных связей, как причинные модели, объясняющие механизм формирования вариации выходных характеристик системы (результативных признаков). В случае использования аппарата корреляционно-регрессионного анализа структурное моделирование представляет собой попытку преодолеть косвенный характер изучения связей этим методом, подойти к выделению и измерению причинных связей переменных. [c.213]

Уравнения теории катастроф. Связь между переменными в определенной окрестности начала координат переменных, характеризующих системы, при катастрофе может быть неоднозначна. Если удается установить, что между переменными, характеризующими поведение системы, связь лучше описывается регрессионными уравнениями, которые могут иметь неоднозначное решение в области возможных значений переменных по сравнению с уравнениями, имеющими однозначное решение, то можно утверждать, что в системе возможна катастрофа. Тогда необходимо продолжить изучение системы и выявить условия или возможные сроки наступления катастрофы, оценить ее вероятные последствия. [c.212]

Поэтому регрессионный анализ начинают с построения графика зависимости, на его основе подбирают подходящее математическое уравнение, а затем находят параметры этого уравнения путем решения системы нормальных уравнений. [c.78]

Сравнивая два способа решения систем (8.60) (непосредственно с матрицей X и с переходом к системе нормальных уравнений), можно сделать вывод, что несогласованные системы (8.60), как правило, лучше решать, используя переход к нормальной системе уравнений. В статистической практике несогласованные системы возникают, когда матрица данных X переопределена, т. е. число объектов (столбцов) в ней больше числа переменных (строк), и при этом линейные уравнения, входящие в систему (8.60), не могут выполняться точно. Но превышение числа объектов над числом переменных — типичная ситуация в регрессионном анализе. Второе условие несогласованности также часто выполняется, так как обычно системы линейных уравнений используются для оценки параметров линейных моделей типа (8.1), являющихся лишь приближением действительных соотношений между переменными (мерой этого приближения как раз и является дисперсия случайной компоненты е). Для обоснования перехода к нормальной системе уравнений существенно и то, что матрица Х Х тесно связана с ковариационной матрицей, которая является исходным объектом для различных видов многомерного анализа (главных компонент, факторного анализа и т. д.). [c.275]

Проблема оценивания здесь также имеет свои особенности. Основная трудность состоит в том, что в эконометрических моделях переменная, играющая роль независимой (объясняющей) переменной в одном соотношении, может быть зависимой в другом. Это приводит к тому, что в регрессионных уравнениях системы объясняющие переменные и случайные возмущения оказываются, вообще говоря, коррелированными. Наконец, в современной практике встречаются модели, имеющие десятки и даже сотни уравнений (в том числе и нелинейных), в связи с чем возникают и вычислительные трудности. [c.402]

Одновременные уравнения возникают при изучении сложных систем, поведение которых описывается совокупностью законов, связывающих характеристики системы. Статистическое моделирование таких систем осуществляется при помощи регрессионных уравнений. При этом переменные, являющиеся объясняемыми в одном уравнении, в других уравнениях могут играть роль объясняющих. [c.424]

Эконометрические модели представляют собой системы регрессионных многофакторных зависимостей и балансовых уравнений (тождеств). Их параметры устанавливаются статистически на основе временных рядов или выборочных данных. Введение переменных с временным запаздыванием или параметра времени придает эконометрической модели динамический характер. [c.407]

Учебник содержит систематическое изложение основ эконометрики и написан на основе лекций, которые авторы в течение ряда лет читали в Российской экономической школе и Высшей школе экономики. Подробно изучаются линейные регрессионные модели (метод наименьших квадратов, проверка гипотез, гетероскедастичность, автокорреляция ошибок, спецификация модели). Отдельные главы посвящены системам одновременных уравнении, методу максимального правдоподобия в моделях регрессии, моделям с дискретными и ограниченными зависимыми переменными. [c.2]

При решении каждой из названных задач нужно учитывать особенности и ограничения корреляционно-регрессионного метода. Всякий раз необходимо специально обосновать возможность причинной интерпретации уравнения как объясняющего связь между вариацией фактора и результата. Трудно обеспечить раздельную оценку влияния каждого из факторов. В этом отношении корреляционные методы глубоко противоречивы. С одной стороны, их идеал — измерение чистого влияния каждого фактора. С другой стороны, такое измерение возможно при отсутствии связи между факторами и случайной вариации признаков. А тогда связь является функциональной, и корреляционные методы анализа излишни. В реальных системах связь всегда имеет статистический характер, и тогда идеал методов корреляции становится недостижимым. Но это не значит, что эти методы не нужны. [c.237]

Корреляционно-регрессионной моделью системы взаимосвязанных признаков является такое уравнение регрессии, которое включает основные факторы, влияющие на вариацию результативного признака, обладает высоким (не ниже 0,5) коэффициентом детерминации и коэффициентами регрессии, интерпретируемыми в соответствии с теоретическим знанием о природе связей в изучаемой системе. [c.285]

До сих пор мы рассматривали эконометрические модели, задаваемые уравнениями, выражающими зависимую (объясняемую) переменную через объясняющие переменные. Однако реальные экономические объекты, исследуемые с помощью эко-нометрических методов, приводят к расширению понятия эко-нометрической модели, описываемой системой регрессионных уравнений и тождеств1. [c.19]

РЕГРЕССИОННАЯ МОДЕЛЬ [regression model] — экономико-статистическая модель, основанная на уравнении регрессии, или системе регрессионных уравнений, связывающих величины экзогенных (входных, «объясняющих») и эндогенных (выходных) переменных. Примеры см. в ст. «Линейная модель», «Регрессионный анализ». [c.304]

ЭКОНОМЕТРИЧЕСКАЯ МОДЕЛЬ [e onometri model] — основное понятие эконометрии, экономико-математическая модель, параметры которой оцениваются с помощью методов математической статистики. Она выступает в качестве средства анализа и прогнозирования конкретных экономических процессов как на макро-, так и на микроэкономическом уровне на основе реальной статистической информации. Наиболее распространены Э.м., представляющие собой системы регрессионных уравнений, в которых отражается зависимость эндогенных величин (искомых) от внешних воздействий (текущих экзогенных величин) в условиях, описываемых параметрами модели, а также лаговыми переменными (см. Лаг). Кроме регрессионных (как линейных, так и нелинейных) уравнений, применяются и другие матема-тико-статистические модели. [c.400]

Эконометрические методы. Как подчеркивается в ряде работ [65, 18], в силу высокой взаимозависимости между народнохозяйственными показателями и определяемыми ими характеристиками энергопотребления целесообразно для изучения этой взаимозависимости рассматривать не отдельно регрессионную зависимость выходного параметра от входных, а систему регрессионных уравнений, связывающих народнохозяйственные показатели с показателями энергопотребления. Тем не менее остается необходимость построения регрессионных уравнений, и здесь встают обычные в этом случае проблемы выявления как состава показателей, формирующих динамику энергопотребления, так и формы уравнений связи между входными и выходными показателями. Необходимо также решение вопроса о степени адекватности получаемого прогноза ожидаемым структурным характеристикам народного хозяйства. Существует определенный опыт в построении регрессионных уравнений для определения потребности в электроэнергии. Этот опыт [16 и др.] для каждого уровня прогноза (все народное хозяйство, промышленность, транспорт и т. п.) позволяет установить свой круг исследуемых параметров (национальный доход или валовая продукция или грузооборот, численность работающих в соответствующем объекте и т. д.). Важный аспект использования эконометрических методов связан с анализом прогнозов, получаемых на основе эконометрических моделей. Здесь, на наш взгляд, интересен подход, связанный с определением так называемых поворотных точек в развитии экономических процессов путем математического анализа системы регрессионных уравнений в сочета- [c.122]

Некоторые вычисления, связанные с системами регрессионных уравнений, значительно сокращаются, если использовать понятие произведения Кронекера. [c.504]

Метод реализует задачи синтеза оптимальных моделей высокой сложности, адекватной сложности исследуемого объекта (здесь под моделями понимается система регрессионных уравнений). Так, алгоритмы МГУА, построенные по схеме массовой селекции, осуще- [c.55]

Эконометри- Статистическая оценка на основе ческие модели системы регрессионных уравнений, используемая с целью расчета состояния экономики и основных экономических тенденций [c.174]

Процедура одновременного оценивания регрессионных уравнений системы как внешне не связанных реализована в стандартных компьютерных пакетах. В западных эконометрических пакетах соответствующий метод оценивания называется Seemingly Unreleased Regression (SUR) (внешне не связанные уравнения). [c.237]

Первая точка зрения исходит из того, что модель регрессии (8.1) является истинной, и несмещенная оценка коэффициентов регрессии получается мнк путем решения системы уравнений (8.3) (в условиях мультиколлинеарности эта оценка может быть неудовлетворительной, но тем не менее несмещенной). Тогда принудительное приравнивание части коэффициентов регрессионного уравнения к 0, что и происходит при отборе переменных, естественно, приводит, если матрица S недиаго-йальна, к смещенным оценкам коэффициентов при оставшихся переменных, т. е. мы приходим к классу смещенных оценок, рассмотренных в 8.3. [c.281]

При статистическом моделировании экономических ситуаций часто необходимо построение систем уравнений, когда одни и те же переменные в различных регрессионных уравнениях могут одновременно выступать, с одной стороны, в роли результирующих, объясняемых переменных, а с другой стороны — в роли объясняющих переменных. Такие системы уравнений принято называть системами одновременных уравнений. При этом в соотношения могут входить переменные, относящиеся не только к текущему периоду t, но и к предшествующим периодам. Такие переменные называются лаго-выми. Переменные за предшествующие годы обычно выступают в качестве объясняющих переменных. [c.356]

Эти модели описываются системами уравнений. Системы могут состоять из тождеств и регрессионных уравнений, каждое из которых может, кроме объясняющих переменных, включать в себя также объясняемые переменные из других уравнений системы. Таким образом, мы имеем здесь набор объясняемых переменных, связанных через уравнения системы. Примером может служить модель спроса и предложения, приведенная ниже. Системы одновременных уравнений требуют относительно более сложный математический аппарат. Они могут использоваться для моделей стра-новой экономики и др. [c.30]

R — значит регрессия

Статистика в последнее время получила мощную PR поддержку со стороны более новых и шумных дисциплин — Машинного Обучения и Больших Данных. Тем, кто стремится оседлать эту волну необходимо подружится с уравнениями регрессии. Желательно при этом не только усвоить 2-3 приемчика и сдать экзамен, а уметь решать проблемы из повседневной жизни: найти зависимость между переменными, а в идеале — уметь отличить сигнал от шума.

Для этой цели мы будем использовать язык программирования и среду разработки R, который как нельзя лучше приспособлен к таким задачам. Заодно, проверим от чего зависят рейтинг Хабрапоста на статистике собственных статей.

Введение в регрессионный анализ

Если имеется корреляционная зависимость между переменными y и x , возникает необходимость определить функциональную связь между двумя величинами. Зависимость среднего значения называется регрессией y по x .

Основу регрессионного анализа составляет метод наименьших квадратов (МНК), в соответствии с которым в качестве уравнения регресии берется функция такая, что сумма квадратов разностей минимальна.

Карл Гаусс открыл, или точнее воссоздал, МНК в возрасте 18 лет, однако впервые результаты были опубликованы Лежандром в 1805 г. По непроверенным данным метод был известен еще в древнем Китае, откуда он перекочевал в Японию и только затем попал в Европу. Европейцы не стали делать из этого секрета и успешно запустили в производство, обнаружив с его помощью траекторию карликовой планеты Церес в 1801 г.

Вид функции , как правило, определен заранее, а с помощью МНК подбираются оптимальные значения неизвестных параметров. Метрикой рассеяния значений вокруг регрессии является дисперсия.

k — число коэффициентов в системе уравнений регрессии.

Чаще всего используется модель линейной регрессии, а все нелинейные зависимости приводят к линейному виду с помощью алгебраических ухищрений, различных преобразования переменных y и x .

Линейная регрессия

Уравнения линейной регрессии можно записать в виде

В матричном виде это выгладит

y — зависимая переменная;
x — независимая переменная;
β — коэффициенты, которые необходимо найти с помощью МНК;
ε — погрешность, необъяснимая ошибка и отклонение от линейной зависимости;

Случайная величина может быть интерпретирована как сумма из двух слагаемых:

— полная дисперсия (TSS).
— объясненная часть дисперсии (ESS).
— остаточная часть дисперсии (RSS).

Еще одно ключевое понятие — коэффициент корреляции R 2 .

Ограничения линейной регрессии

Для того, чтобы использовать модель линейной регрессии необходимы некоторые допущения относительно распределения и свойств переменных.

Линейность, собственно. Увеличение, или уменьшение вектора независимых переменных в k раз, приводит к изменению зависимой переменной также в k раз.
Матрица коэффициентов обладает полным рангом, то есть векторы независимых переменных линейно независимы.
Экзогенность независимых переменных — . Это требование означает, что математическое ожидание погрешности никоим образом нельзя объяснить с помощью независимых переменных.
Однородность дисперсии и отсутствие автокорреляции. Каждая ε_i обладает одинаковой и конечной дисперсией σ 2 и не коррелирует с другой ε_i. Это ощутимо ограничивает применимость модели линейной регрессии, необходимо удостовериться в том, что условия соблюдены, иначе обнаруженная взаимосвязь переменных будет неверно интерпретирована.

Как обнаружить, что перечисленные выше условия не соблюдены? Ну, во первых довольно часто это видно невооруженным глазом на графике.

Неоднородность дисперсии

При возрастании дисперсии с ростом независимой переменной имеем график в форме воронки.

Нелинейную регрессии в некоторых случая также модно увидеть на графике довольно наглядно.

Тем не менее есть и вполне строгие формальные способы определить соблюдены ли условия линейной регрессии, или нарушены.

Автокорреляция проверяется статистикой Дарбина-Уотсона (0 ≤ d ≤ 4). Если автокорреляции нет, то значения критерия d≈2, при позитивной автокорреляции d≈0, при отрицательной — d≈4.
Неоднородность дисперсии — Тест Уайта, , при \chi<^2>_<\alpha;m-1>$» data-tex=»inline»/> нулевая гипотеза отвергается и констатируется наличие неоднородной дисперсии. Используя ту же можно еще применить тест Бройша-Пагана.
Мультиколлинеарность — нарушения условия об отсутствии взаимной линейной зависимости между независимыми переменными. Для проверки часто используют VIF-ы (Variance Inflation Factor).

В этой формуле — коэффициент взаимной детерминации между и остальными факторами. Если хотя бы один из VIF-ов > 10, вполне резонно предположить наличие мультиколлинеарности.

Почему нам так важно соблюдение всех выше перечисленных условий? Все дело в Теореме Гаусса-Маркова, согласно которой оценка МНК является точной и эффективной лишь при соблюдении этих ограничений.

Как преодолеть эти ограничения

Нарушения одной или нескольких ограничений еще не приговор.

Нелинейность регрессии может быть преодолена преобразованием переменных, например через функцию натурального логарифма ln .
Таким же способом возможно решить проблему неоднородной дисперсии, с помощью ln , или sqrt преобразований зависимой переменной, либо же используя взвешенный МНК.
Для устранения проблемы мультиколлинеарности применяется метод исключения переменных. Суть его в том, что высоко коррелированные объясняющие переменные устраняются из регрессии, и она заново оценивается. Критерием отбора переменных, подлежащих исключению, является коэффициент корреляции. Есть еще один способ решения данной проблемы, который заключается в замене переменных, которым присуща мультиколлинеарность, их линейной комбинацией. Этим весь список не исчерпывается, есть еще пошаговая регрессия и другие методы.

К сожалению, не все нарушения условий и дефекты линейной регрессии можно устранить с помощью натурального логарифма. Если имеет место автокорреляция возмущений к примеру, то лучше отступить на шаг назад и построить новую и лучшую модель.

Линейная регрессия плюсов на Хабре

Итак, довольно теоретического багажа и можно строить саму модель.
Мне давно было любопытно от чего зависит та самая зелененькая цифра, что указывает на рейтинг поста на Хабре. Собрав всю доступную статистику собственных постов, я решил прогнать ее через модель линейно регрессии.

Загружает данные из tsv файла.

points — Рейтинг статьи
reads — Число просмотров.
comm — Число комментариев.
faves — Добавлено в закладки.
fb — Поделились в социальных сетях (fb + vk).
bytes — Длина в байтах.

Вопреки моим ожиданиям наибольшая отдача не от количества просмотров статьи, а от комментариев и публикаций в социальных сетях. Я также полагал, что число просмотров и комментариев будет иметь более сильную корреляцию, однако зависимость вполне умеренная — нет надобности исключать ни одну из независимых переменных.

Теперь собственно сама модель, используем функцию lm .

В первой строке мы задаем параметры линейной регрессии. Строка points

. определяет зависимую переменную points и все остальные переменные в качестве регрессоров. Можно определить одну единственную независимую переменную через points

reads , набор переменных — points

Перейдем теперь к расшифровке полученных результатов.

Intercept — Если у нас модель представлена в виде , то тогда — точка пересечения прямой с осью координат, или intercept .
R-squared — Коэффициент детерминации указывает насколько тесной является связь между факторами регрессии и зависимой переменной, это соотношение объясненных сумм квадратов возмущений, к необъясненным. Чем ближе к 1, тем ярче выражена зависимость.
Adjusted R-squared — Проблема с в том, что он по любому растет с числом факторов, поэтому высокое значение данного коэффициента может быть обманчивым, когда в модели присутствует множество факторов. Для того, чтобы изъять из коэффициента корреляции данное свойство был придуман скорректированный коэффициент детерминации .
F-statistic — Используется для оценки значимости модели регрессии в целом, является соотношением объяснимой дисперсии, к необъяснимой. Если модель линейной регрессии построена удачно, то она объясняет значительную часть дисперсии, оставляя в знаменателе малую часть. Чем больше значение параметра — тем лучше.
t value — Критерий, основанный на t распределении Стьюдента . Значение параметра в линейной регрессии указывает на значимость фактора, принято считать, что при t > 2 фактор является значимым для модели.
p value — Это вероятность истинности нуль гипотезы, которая гласит, что независимые переменные не объясняют динамику зависимой переменной. Если значение p value ниже порогового уровня (.05 или .01 для самых взыскательных), то нуль гипотеза ложная. Чем ниже — тем лучше.

Можно попытаться несколько улучшить модель, сглаживая нелинейные факторы: комментарии и посты в социальных сетях. Заменим значения переменных fb и comm их степенями.

Проверим значения параметров линейной регрессии.

Как видим в целом отзывчивость модели возросла, параметры подтянулись и стали более шелковистыми , F-статистика выросла, так же как и скорректированный коэффициент детерминации .

Проверим, соблюдены ли условия применимости модели линейной регрессии? Тест Дарбина-Уотсона проверяет наличие автокорреляции возмущений.

И напоследок проверка неоднородности дисперсии с помощью теста Бройша-Пагана.

В заключение

Конечно наша модель линейной регрессии рейтинга Хабра-топиков получилось не самой удачной. Нам удалось объяснить не более, чем половину вариативности данных. Факторы надо чинить, чтобы избавляться от неоднородной дисперсии, с автокорреляцией тоже непонятно. Вообще данных маловато для сколь-нибудь серьезной оценки.

Но с другой стороны, это и хорошо. Иначе любой наспех написанный тролль-пост на Хабре автоматически набирал бы высокий рейтинг, а это к счастью не так.

Системы эконометрических уравнений

7. Системы эконометрических уравнений

7.1. Виды систем регрессионных уравнений

Любая экономическая система – это сложная система с множеством входов, выходов и сложной структурой взаимосвязей показателей, характеризующих деятельность этой системы. Поэтому для описания механизма функционирования таких систем обычно изолированных уравнений регрессии недостаточно.

Практически изменение какого-либо показателя в экономической системе, как правило, вызывает изменение целого ряда других. Так изменение производительности труда влияет на затраты труда, а, следовательно на себестоимость, прибыль, рентабельность производства и пр.

Все это вызывает потребность использования при описании сложных экономических явлений и процессов систем взаимосвязанных регрессионных уравнений и тождеств. Особенно актуальна необходимость в применении таких систем при моделировании на макроуровне, так как макроэкономические показатели, являясь обобщающими показателями состояния экономики, чаще всего взаимозависимы. Например, при построении модели национальной экономики необходимо рассмотреть уравнения, описывающие потребление, инвестиции, прирост капиталовложений, воспроизводство трудовых ресурсов, производство продукта и пр.

Переменные, входящие в систему уравнений подразделяют на экзогенные, эндогенные и лаговые (эндогенные переменные, влияние которых характеризуется некоторым запаздыванием, временным лагом ).

Экзогенные и лаговые переменные называют предопределенными, т. е. определенными заранее.

Классификация переменных на эндогенные и экзогенные зависит от принятой теоретической концепции модели. Экономические показатели могут выступать в одних моделях как эндогенные, а в других как экзогенные переменные. Внеэкономические переменные (например, климатические условия, социальное положение, пол, возраст) входят в систему только как экзогенные переменные. В качестве экзогенных переменных могут рассматриваться значения эндогенных переменных за предшествующий период времени (лаговые переменные).

Рассмотрим типы систем эконометрических уравнений.

1. Система независимых регрессионных уравнений (внешне не связанных)

В данном случае каждая зависимая переменная рассматривается как функция некоторого е набора факторов.

. (7.1)

Набор факторов в уравнениях (1) может варьировать. Каждое уравнение системы независимых уравнений может рассматриваться самостоятельно, а его параметры могут быть найдены на основе традиционного метода наименьших квадратов (МНК).

2. Система рекурсивных уравнений

В таких системах в одном из уравнений содержится единственная зависимая переменная , которая в следующем уравнении присутствует в качестве факторной переменной. В третье уравнение эти эндогенные переменные из предыдущих уравнений могут быть включены как факторные и т. д.

(7.2)

В данной системе каждое последующее уравнение наряду с факторными переменными включает в качестве факторов все зависимые переменные предшествующих уравнений. Каждое уравнение этой системы может рассматриваться самостоятельно, и его параметры определяются методом наименьших квадратов (МНК).

3. Система взаимозависимых (одновременных) уравнений

Наибольшее распространение в эконометрических исследованиях получила система взаимозависимых уравнений. В ней одни и те же зависимые (эндогенные) переменные в одних уравнениях входят в левую часть (т. е. выступают в роли результативных признаков), а в других уравнениях – в правую часть системы (т. е. выступают в качестве факторных переменных). Система взаимозависимых уравнений получила название системы совместных, одновременных уравнений. Тем самым подчеркивается, что в системе одни и те же переменные одновременно рассматриваются как зависимые в одних уравнениях и как независимые в других. В эконометрике эта система уравнений также называется структурной формой модели (СФМ).

Система одновременных уравнений в структурной форме и при отсутствии лаговых переменных может быть записана:

(7.3)

Кроме регрессионных уравнений (они называются также поведенческими уравнениями) модель может содержать тождества, которые представляют собой алгебраические соотношения между эндогенными переменными. Тождества позволяют исключать некоторые эндогенные переменные и рассматривать систему регрессионных уравнений меньшей размерности Параметры модели в структурной форме называют ее структурными коэффициентами

Система одновременных уравнений в структурной форме позволяет увидеть влияние изменений любой экзогенной переменной на значения эндогенной переменной. Целесообразно в качестве экзогенных переменных выбирать такие переменные, которые могут быть объектом регулирования. Меняя их и управляя ими, можно заранее иметь целевые значения эндогенных переменных.

В отличие от предыдущих систем каждое уравнение системы одновременных уравнений не может рассматриваться самостоятельно, и для нахождения его параметров традиционный МНК неприменим, т. к. нарушаются предпосылки, лежащие в основе МНК (например, предпосылка о некоррелированности факторных переменных с остатками). Эндогенные переменные являются случайными величинами, зависящими от . В том случае, когда эндогенная переменная входит в некоторое уравнение как факторная происходит нарушение названной предпосылки МНК. Таким образом, для нахождения структурных коэффициентов традиционный МНК неприменим. С этой целью используются специальные приемы оценивания.

7.2. Приведенная форма модели

Для определения структурных коэффициентов на основе структурной модели формируют приведенную форму модели.

Приведенная форма модели представляет собой систему линейных функций эндогенных переменных от экзогенных:

(7.4)

где – коэффициенты приведенной формы модели, – случайные остатки для приведенной формы.

По своему виду приведенная форма модели ничем не отличается от системы независимых уравнений, параметры которой оцениваются традиционным МНК. Применяя МНК, можно оценить , а затем оценить значения эндогенных переменных через экзогенные.

Можно показать, что коэффициенты приведенной формы модели представляют собой нелинейные функции коэффициентов структурной формы модели. Рассмотрим структурную модель с двумя эндогенными переменными.

. (7.5)

Запишем соответствующую приведенную форму модели:

. (7.6)

Выразим коэффициенты приведенной формы модели через коэффициенты структурной модели.

Из первого уравнения (7.5) можно выразить (ради упрощения опускаем случайную величину): .

Подставим во второе уравнение (7.5):

(7.7)

Выразим из (7.7) : .

Поступая аналогично со вторым уравнением системы (7.5), получим

, т. е. система (7.5) принимает вид:

Таким образом, коэффициенты приведенной формы модели выражаются через коэффициенты структурной формы следующим образом:

Следует заметить, что приведенная форма модели хотя и позволяет получить значения эндогенных переменных через значения экзогенных, но аналитически она уступает структурной форме модели, так как в ней отсутствуют взаимосвязи между эндогенными переменными.

7.3. Проблема идентификации

При правильной спецификации модели задача идентификация системы уравнений сводится к корректной и однозначной оценке ее коэффициентов. Непосредственная оценка коэффициентов уравнения возможна лишь в системах внешне не связанных уравнений, для которых выполняются основные предпосылки построения регрессионной модели, в частности, условие некоррелированности факторных переменных с остатками.

В рекурсивных системах всегда возможно избавление от проблемы коррелированности остатков с факторными переменными путем подстановки в качестве значений факторных переменных не фактических, а модельных значений эндогенных переменных, выступающих в качестве факторных переменных. Процесс идентификации осуществляется следующим образом:

1. Идентифицируется уравнение, в котором в качестве факторных не содержатся эндогенные переменные. Находится расчетное значение эндогенной переменной этого уравнения.

2. Рассматривается следующее уравнение, в котором в качестве факторной включена эндогенная переменная, найденная на предыдущем шаге. Модельные (расчетные) значения этой эндогенной переменной обеспечивают возможность идентификации этого уравнения и т. д.

В системе уравнений в приведенной форме проблема коррелированности факторных переменных с отклонениями не возникает, так как в каждом уравнении в качестве факторных переменных используются лишь предопределенные переменные. Таким образом, при выполнении других предпосылок рекурсивная система всегда идентифицируема.

При рассмотрении системы одновременных уравнений возникает проблема идентификации.

Идентификация в данном случае означает определение возможности однозначного пересчета коэффициентов системы в приведенной форме в структурные коэффициенты.

Структурная модель (7.3) в полном виде содержит параметров, которые необходимо определить. Приведенная форма модели в полном виде содержит параметров. Следовательно, для определения неизвестных параметров структурной модели можно составить уравнений. Такие системы являются неопределенными и параметры структурной модели в общем случае не могут быть однозначно определены.

Чтобы получить единственно возможное решение необходимо предположить, что некоторые из структурных коэффициентов модели ввиду слабой их взаимосвязи с эндогенной переменной из левой части системы равны нулю. Тем самым уменьшится число структурных коэффициентов модели. Уменьшение числа структурных коэффициентов модели возможно и другими путями: например, путем приравнивания некоторых коэффициентов друг к другу, т. е. путем предположений, что их воздействие на формируемую эндогенную переменную одинаково и пр.

С позиции идентифицируемости структурные модели можно подразделить на три вида:

Модель идентифицируема, если все структурные ее коэффициенты определяются однозначно, единственным образом по коэффициентам приведенной формы модели, т. е. если число параметров структурной модели равно числу параметров приведенной формы модели.

Модель неидентифицируема, если число коэффициентов приведенной модели меньше числа структурных коэффициентов, и в результате структурные коэффициенты не могут быть оценены через коэффициенты приведенной формы модели.

Модель сверхидентифицируема, если число коэффициентов приведенной модели больше числа структурных коэффициентов. В этом случае на основе коэффициентов приведенной формы можно получить два или более значений одного структурного коэффициента. Сверхидентифицируемая модель в отличие от неидентифицируемой модели практически решаема, но требует для этого специальных методов нахождения параметров.

Чтобы определить тип структурной модели необходимо каждое ее уравнение проверить на идентифицируемость.

Модель считается идентифицируемой, если каждое уравнение системы идентифицируемо. Если хотя бы одно из уравнений системы неидентифицируемо, то и вся модель считается неидентифицируемой. Сверхидентифицируемая модель кроме идентифицируемых содержит хотя бы одно сверхидентифицируемое уравнение.

7.4. Условия идентифицируемости уравнений структурной модели

1. Необходимое условие идентифицируемости

Чтобы уравнение было идентифицируемо, необходимо, чтобы число предопределенных переменных, отсутствующих в данном уравнении, но присутствующих в системе, было равно числу эндогенных переменных в данном уравнении без одного.

Введем следующие обозначения:

М – число предопределенных переменных в модели;

m— число предопределенных переменных в данном уравнении;

— число эндогенных переменных в модели;

— число эндогенных переменных в данном уравнении;

Обозначим число экзогенных (предопределенных) переменных, которые содержатся в системе, но не входят в данное уравнение через , .

Тогда условие идентифицируемости каждого уравнения модели может быть записано в виде следующего счетного правила:

Для оценки параметров структурной модели система должна быть идентифицируема или сверхидентифицируема.

Рассмотренное счетное правило отражает необходимое, но недостаточное условие идентификации.

Достаточное условие идентификации

Уравнение идентифицируемо, если по отсутствующим в нем переменным (эндогенным и экзогенным) можно из коэффициентов при них в других уравнениях системы получить матрицу, определитель которой не равен нулю, а ранг матрицы не меньше, чем число эндогенных переменных в системе без одного.

Целесообразность проверки условия идентификации модели через определитель матрицы коэффициентов, отсутствующих в данном уравнении, но присутствующих в других, объясняется тем, что возможна ситуация, когда для каждого уравнения системы выполнено счетное правило, а определитель матрицы названных коэффициентов равен нулю. В этом случае соблюдается лишь необходимое, но не достаточное условие идентификации.

В эконометрических моделях часто наряду с уравнениями, параметры которых должны быть статистически оценены, используются балансовые тождества переменных, коэффициенты при которых равны . В этом случае, хотя само тождество и не требует проверки на идентификацию, ибо коэффициенты при переменных в тождестве известны, в проверке на идентификацию структурных уравнений системы тождества участвуют..

Изучается модель (одна из версий модели Кейнса):

(7.8)

где – потребление в период ; – ВВП в период ; — ВВП в период (); – валовые инвестиции в период ; – государственные расходы в период .

Первое уравнение – функция потребления, второе уравнение – функция инвестиций, третье уравнение –тождество ВВП. Модель представляет собой систему одновременных уравнений. Проверим каждое ее уравнение на идентификацию.

Модель включает три эндогенные переменные и две предопределенные переменные (одна экзогенная переменная – и одна лаговая переменная –).

Проверим необходимое условие идентификации для каждого из уравнений модели.

тождество, не подлежит проверке

Например, первое уравнение содержит две эндогенные переменные и и одну предопределенную переменную .

Таким образом, ; D=2-1=1. Условие условие выполняется, т. е. уравнение идентифицируемо.

Проверим для каждого уравнения достаточное условие идентификации. Для этого составим матрицу коэффициентов при переменных модели.

В соответствии с достаточным условием идентификации ранг матрицы коэффициентов при переменных, не входящих в исследуемое уравнение, должен быть равен числу эндогенных переменных модели без одного.

Первое уравнение: матрица коэффициентов при переменных, не входящих в уравнение, имеет вид:. Ее определитель не равен нулю, поэтому ранг матрицы равен 2, т. е равняется числу эндогенных переменных без одного. Достаточное условие идентификации выполняется.

Второе уравнение: матрица коэффициентов при переменных, не входящих в уравнение, имеет вид: . Ранг данной матрицы равен 2, так как существут определитель второго порядка не равный нулю:. Следовательно, достаточное условие идентификации для данного уравнения также выполняется Но в соответствии с необходимым условием считаем это уравнение сверхидентифицируемым.

Таким образом, эта система уравнений является сверхидентифицируемой.

7.5. Методы оценки параметров структурной формы модели

Коэффициенты структурной модели могут быть оценены разными способами в зависимости от вида системы одновременных уравнений. Наибольшее распространение в литературе получили следующие методы оценивания коэффициентов структурной модели:

1) косвенный метод наименьших квадратов;

2) двухшаговый метод наименьших квадратов;

3) трехшаговый метод наименьших квадратов;

4) метод максимального правдоподобия с полной информацией;

5) метод максимального правдоподобия при ограниченной информации.

Рассмотрим сущность некоторых из этих методов.

Косвенный метод наименьших квадратов (КМНК) применяется в случае точно идентифицируемой структурной модели. Процедура применения КМНК предполагает выполнение следующих этапов:

1. Для структурной модели строится приведенная форма модели.

2. Для каждого уравнения приведенной формы традиционным МНК оцениваются приведенные коэффициенты .

3. На основе коэффициентов приведенной формы находятся путем алгебраических преобразований параметры структурной модели.

Двухшаговый метод наименьших квадратов (ДМНК)

Если система сверхидентифицируема, то КМНК не используется, ибо он не дает однозначных оценок для параметров структурной модели. В этом случае могут использоваться разные методы оценивания, среди которых наиболее распространенным и простым является двухшаговый метод (ДМНК).

Основная идея ДМНК состоит в следующем:

· на основе приведенной формы модели получить для сверхидентифицируемого уравнения расчетные значения эндогенных переменных, содержащихся в правой части этого уравнения;

· подставляя найденные расчетные значения эндогенных переменных вместо фактических значений, можно применить обычный МНК к структурной форме сверхидентифицируемого уравнения.

Метод получил название двухшагового МНК, ибо дважды используется МНК:

· на первом шаге при определении параметров приведенной формы модели и нахождении на их основе оценок расчетных значений эндогенных переменных ; ;

· на втором шаге применительно к структурному сверхидентифицируемому уравнению, когда вместо фактических значений эндогенных переменных рассматриваются их расчетные значения, найденные на предыдущем шаге.

Сверхидентифицируемая структурная модель может быть двух типов:

· все уравнения системы сверхидентифицируемы;

· система содержит наряду со сверхидентифицируемыми точно идентифицируемые уравнения.

Если все уравнения системы сверхидентифицируемые, то для оценки структурных коэффициентов каждого уравнения используется ДМНК. Если в системе есть точно идентифицируемые уравнения, то структурные коэффициенты по ним можно найти на основе косвенного МНК. Двухшаговый метод, примененный к точно идентифицированным уравнениям дает такой же результат, что и косвенный МНК.

Продолжение примера 15.

Продолжим рассмотрение примера 15.

Система является сверхидентифицируемой: первое уравнение идентифицируемо, а второе уравнение сверхидентифицируемо. Поэтому для определения коэффициентов первого уравнения можно применить косвенный МНК, а для второго уравнении двухшаговый МНК.

Построим приведенную форму модели:

(7.9)

Исходные данные задачи (в млрд. руб.)

Предсказанное

Найдем параметры модели (7.9), применяя МНК к каждому уравнению,

используем « Пакет анализа» EXCEL):

(7.10)

Каждое уравнение статистически значимо (– статистики: =1302,55;

=281,956; =847,65). Коэффициенты детерминации свидетельствуют о хорошей связи между эндогенными и предопределенными переменными:=0,9977; =0,989; =0,996.

На основе уравнений модели (7.10) найдем структурные коэффициенты первого уравнения.

Выразим из третьего уравнения (7.10) переменную и подставим в первое уравнение. Получим первое структурное уравнение:

Так как второе уравнение сверхидентифицировано, то применим двухшаговый МНК. Найдем на основе третьего уравнения (7.10) расчетные значения переменной ( столбец «предсказанное » табл.23) и используем их для нахождения параметров второго структурного уравнения.

Получим: 4; .

В результате получим следующую систему структурных уравнений:

Трехшаговый метод наименьших квадратов (ТМНК)

Трехшаговый метод наименьших квадратов применяется для оценки параметров системы одновременных уравнений в целом. Сначала к каждому уравнению применяется двухшаговый метод с целью оценить коэффициенты и случайные остатки каждого уравнения. Затем строится ковариационная матрица остатков и проводится ее оценка. После этого для оценивания коэффициентов всей системы применяется обобщенный метод наименьших квадратов. ТМНК является достаточно эффективным, но требует существенно больших вычислительных затрат. Более подробное описание можно найти в работе[1][1]

7.6. Инструментальные переменные

Метод инструментальных переменных (МИП) применяется для оценивания уравнений, в которых регрессоры (факторы) коррелируют со свободными членами. Коррелированность между факторными переменными и случайными ошибками может быть вызвана разными причинами:

· пропущенными переменными, которые находятся в корреляционной связи с факторными переменными;

· ошибками измерений факторных переменных;

· включением лагированной зависимой переменной при наличии автокоррелированности ошибок. В этом случае лаговые переменные скорее всего будут коррелировать с ошибками;

· одновременные взаимосвязи между переменными (эндогенность переменных, включенных в правые части регрессионных уравнений).

Именно это явление оказывается характерным для систем одновременных уравнений;

Если между факторными переменными и случайными остатками имеется корреляционная зависимость (,), то нарушаются условия классической модели и оценки параметров, найденные по МНК будут смещенными и не состоятельными.

Идея МИП заключается в том, чтобы подобрать новые переменные , которые бы тесно коррелировали с и не коррелировали со случайными остатками . Такие переменные называют инструментальными или просто инструментами). Включение их в модель обеспечивает состоятельность оценок МНК.

Набор переменных может включать факторные переменные, которые не коррелируют с остатками, а также другие внешние величины, не входящие в состав факторных переменных модели. Важно, чтобы число инструментов было не меньше, чем число независимых переменных.

Рассмотрим случай парной регрессии: . Предположим, что между факторными переменными и остатками имеется корреляционная зависимость, т. е. . Рассмотрим систему нормальных уравнений для линейной парной регрессии:

, (7.11)

тогда . (7.12)

Можно показать, что . Так как , оценка параметра будет смещенной и не состоятельной.

Предположим, что можно найти такую переменную , которая была бы коррелированна с ( ), но не коррелированна с ( ). Выберем эту переменную в качестве иструментальной переменной.

Заменим второе уравнение системы (7.11) на следующее: и рассмотрим систему:

. (7.13)

Решение системы (7.13) будет, очевидно, отличается от решения предыдущей системы. Обозначим новые оценки соответственно.

В этом случае оценка . (7.14)

Покажем, что она является несмещенной и состоятельной при условии, что при увеличивающемся числе наблюдений стремится к конечному, отличному от нуля пределу, который мы обозначим, как .

, здесь , так как – постоянная величина.

Тогда . (7.15)

Так как , а , то в больших выборках стремится к истинному значению .

Сравним (формула (7.14) с оценкой МНК (формула 7.12). Очевидно, что оценку , можно получить путем подстановки инструментальной переменной вместо в числителе и вместо одного (но не обоих) в знаменателе в формуле (7.12) для оценки .

Чем теснее корреляция между и Z, тем меньше будет их дисперсия и, следовательно, тем меньше будет дисперсия . Следовательно, если мы стоим перед выбором между несколькими возможными инструментальными переменными, то следует выбрать наиболее тесно коррелированную с , потому что при прочих равных условиях она даст наиболее эффективные оценки. Вместе с тем не рекомендуется использовать инструментальную переменную, имеющую функциональную зависимость с , даже если бы ее удалось найти, потому что тогда она автоматически оказалась бы коррелированной с остатками и оценки по-прежнему были бы не состоятельны.

Нетрудно понять, что метод оценивания с помощью инструментальных переменных является обобщением обычного метода наименьших квадратов.

Пусть — матрица значений инструментальных переменных размерности (), а — матрица значений факторных переменных размерности (),. Здесь— матрица факторных переменных, которые включены в состав инструментов, — инструменты, которые не входят в число факторных переменных. В этом случае матрица оценок параметров находится следующим образом:

, где , (7.16)

здесь , а метод ИП называют обобщенным методом инструментальных переменны (ОМИП).

Если число инструментальных переменных равняется числу факторных переменных (), то матрица ) будет квадратной размерности (). Метод ИП в этом случае называется простым, а оценки вычисляются следующим образом:

=[2] . (7.17)

Самая трудная проблема метода ИП – это поиск подходящих инструментов. Требуется, чтобы инструменты были тесно связаны с факторными переменными, но сами не были бы эндогенными переменными.

Решение этой проблемы зависит от конкретной ситуации. Например, это могут быть: лаговые значения факторных переменных; показатели, близкие по экономическому смыслу и приближенно отражающие рассматриваемую факторную переменную и пр.

Метод инструментальных переменных используется при оценке СОУ при использовании двухшагового МНК. В качестве инструментов здесь рассматриваются расчетные значения эндогенных переменных, найденные на первом шаге с использованием обычного МНК для приведенной системы уравнений.

Рассмотрим упрощенную кейнсианскую модель формирования доходов в закрытой экономике без государственного вмешательства:

(7.18)

где — представляют совокупный выпуск, объем потребления и объем инвестиций соответственно, . Здесь мы имеем случай одновременных взаимосвязей между переменными: в качестве одной из составляющих содержит ошибку модели, а так как зависит от , то также корреллирует с ошибками модели.

Первое уравнение идентифицируемо ( и матрица коэффициентов при переменных, не входящих в уравнение состоит из одного элемента 1, т. е. ее ранг равен 1, что равняется числу эндогенных переменных без одного). Следовательно выполняютя необходимое и достаточное условие идентифицируемости. Второе уравнение тождество, не подлежит проверке на идентификацию.

Рассмотрим следующие статистические данные:

источники:

http://habr.com/ru/post/350668/

http://pandia.ru/text/77/213/97434.php