Виды регрессионных уравнений используются когда

Please wait.

We are checking your browser. medium.com

Why do I have to complete a CAPTCHA?

Completing the CAPTCHA proves you are a human and gives you temporary access to the web property.

What can I do to prevent this in the future?

If you are on a personal connection, like at home, you can run an anti-virus scan on your device to make sure it is not infected with malware.

If you are at an office or shared network, you can ask the network administrator to run a scan across the network looking for misconfigured or infected devices.

Another way to prevent getting this page in the future is to use Privacy Pass. You may need to download version 2.0 now from the Chrome Web Store.

Cloudflare Ray ID: 6e159faa2f130022 • Your IP : 85.95.188.35 • Performance & security by Cloudflare

R — значит регрессия

Статистика в последнее время получила мощную PR поддержку со стороны более новых и шумных дисциплин — Машинного Обучения и Больших Данных. Тем, кто стремится оседлать эту волну необходимо подружится с уравнениями регрессии. Желательно при этом не только усвоить 2-3 приемчика и сдать экзамен, а уметь решать проблемы из повседневной жизни: найти зависимость между переменными, а в идеале — уметь отличить сигнал от шума.

Для этой цели мы будем использовать язык программирования и среду разработки R, который как нельзя лучше приспособлен к таким задачам. Заодно, проверим от чего зависят рейтинг Хабрапоста на статистике собственных статей.

Введение в регрессионный анализ

Если имеется корреляционная зависимость между переменными y и x , возникает необходимость определить функциональную связь между двумя величинами. Зависимость среднего значения называется регрессией y по x .

Основу регрессионного анализа составляет метод наименьших квадратов (МНК), в соответствии с которым в качестве уравнения регресии берется функция такая, что сумма квадратов разностей минимальна.

Карл Гаусс открыл, или точнее воссоздал, МНК в возрасте 18 лет, однако впервые результаты были опубликованы Лежандром в 1805 г. По непроверенным данным метод был известен еще в древнем Китае, откуда он перекочевал в Японию и только затем попал в Европу. Европейцы не стали делать из этого секрета и успешно запустили в производство, обнаружив с его помощью траекторию карликовой планеты Церес в 1801 г.

Вид функции , как правило, определен заранее, а с помощью МНК подбираются оптимальные значения неизвестных параметров. Метрикой рассеяния значений вокруг регрессии является дисперсия.

  • k — число коэффициентов в системе уравнений регрессии.

Чаще всего используется модель линейной регрессии, а все нелинейные зависимости приводят к линейному виду с помощью алгебраических ухищрений, различных преобразования переменных y и x .

Линейная регрессия

Уравнения линейной регрессии можно записать в виде

В матричном виде это выгладит

  • y — зависимая переменная;
  • x — независимая переменная;
  • β — коэффициенты, которые необходимо найти с помощью МНК;
  • ε — погрешность, необъяснимая ошибка и отклонение от линейной зависимости;

Случайная величина может быть интерпретирована как сумма из двух слагаемых:

  • полная дисперсия (TSS).
  • объясненная часть дисперсии (ESS).
  • остаточная часть дисперсии (RSS).

Еще одно ключевое понятие — коэффициент корреляции R 2 .

Ограничения линейной регрессии

Для того, чтобы использовать модель линейной регрессии необходимы некоторые допущения относительно распределения и свойств переменных.

  1. Линейность, собственно. Увеличение, или уменьшение вектора независимых переменных в k раз, приводит к изменению зависимой переменной также в k раз.
  2. Матрица коэффициентов обладает полным рангом, то есть векторы независимых переменных линейно независимы.
  3. Экзогенность независимых переменных. Это требование означает, что математическое ожидание погрешности никоим образом нельзя объяснить с помощью независимых переменных.
  4. Однородность дисперсии и отсутствие автокорреляции. Каждая εi обладает одинаковой и конечной дисперсией σ 2 и не коррелирует с другой εi. Это ощутимо ограничивает применимость модели линейной регрессии, необходимо удостовериться в том, что условия соблюдены, иначе обнаруженная взаимосвязь переменных будет неверно интерпретирована.

Как обнаружить, что перечисленные выше условия не соблюдены? Ну, во первых довольно часто это видно невооруженным глазом на графике.

Неоднородность дисперсии

При возрастании дисперсии с ростом независимой переменной имеем график в форме воронки.

Нелинейную регрессии в некоторых случая также модно увидеть на графике довольно наглядно.

Тем не менее есть и вполне строгие формальные способы определить соблюдены ли условия линейной регрессии, или нарушены.

  • Автокорреляция проверяется статистикой Дарбина-Уотсона (0 ≤ d ≤ 4). Если автокорреляции нет, то значения критерия d≈2, при позитивной автокорреляции d≈0, при отрицательной — d≈4.
  • Неоднородность дисперсии — Тест Уайта, , при \chi<^2>_<\alpha;m-1>$» data-tex=»inline»/> нулевая гипотеза отвергается и констатируется наличие неоднородной дисперсии. Используя ту же можно еще применить тест Бройша-Пагана.
  • Мультиколлинеарность — нарушения условия об отсутствии взаимной линейной зависимости между независимыми переменными. Для проверки часто используют VIF-ы (Variance Inflation Factor).

В этой формуле — коэффициент взаимной детерминации между и остальными факторами. Если хотя бы один из VIF-ов > 10, вполне резонно предположить наличие мультиколлинеарности.

Почему нам так важно соблюдение всех выше перечисленных условий? Все дело в Теореме Гаусса-Маркова, согласно которой оценка МНК является точной и эффективной лишь при соблюдении этих ограничений.

Как преодолеть эти ограничения

Нарушения одной или нескольких ограничений еще не приговор.

  1. Нелинейность регрессии может быть преодолена преобразованием переменных, например через функцию натурального логарифма ln .
  2. Таким же способом возможно решить проблему неоднородной дисперсии, с помощью ln , или sqrt преобразований зависимой переменной, либо же используя взвешенный МНК.
  3. Для устранения проблемы мультиколлинеарности применяется метод исключения переменных. Суть его в том, что высоко коррелированные объясняющие переменные устраняются из регрессии, и она заново оценивается. Критерием отбора переменных, подлежащих исключению, является коэффициент корреляции. Есть еще один способ решения данной проблемы, который заключается в замене переменных, которым присуща мультиколлинеарность, их линейной комбинацией. Этим весь список не исчерпывается, есть еще пошаговая регрессия и другие методы.

К сожалению, не все нарушения условий и дефекты линейной регрессии можно устранить с помощью натурального логарифма. Если имеет место автокорреляция возмущений к примеру, то лучше отступить на шаг назад и построить новую и лучшую модель.

Линейная регрессия плюсов на Хабре

Итак, довольно теоретического багажа и можно строить саму модель.
Мне давно было любопытно от чего зависит та самая зелененькая цифра, что указывает на рейтинг поста на Хабре. Собрав всю доступную статистику собственных постов, я решил прогнать ее через модель линейно регрессии.

Загружает данные из tsv файла.

  • points — Рейтинг статьи
  • reads — Число просмотров.
  • comm — Число комментариев.
  • faves — Добавлено в закладки.
  • fb — Поделились в социальных сетях (fb + vk).
  • bytes — Длина в байтах.

Вопреки моим ожиданиям наибольшая отдача не от количества просмотров статьи, а от комментариев и публикаций в социальных сетях. Я также полагал, что число просмотров и комментариев будет иметь более сильную корреляцию, однако зависимость вполне умеренная — нет надобности исключать ни одну из независимых переменных.

Теперь собственно сама модель, используем функцию lm .

В первой строке мы задаем параметры линейной регрессии. Строка points

. определяет зависимую переменную points и все остальные переменные в качестве регрессоров. Можно определить одну единственную независимую переменную через points

reads , набор переменных — points

Перейдем теперь к расшифровке полученных результатов.

  • Intercept — Если у нас модель представлена в виде , то тогда — точка пересечения прямой с осью координат, или intercept .
  • R-squared — Коэффициент детерминации указывает насколько тесной является связь между факторами регрессии и зависимой переменной, это соотношение объясненных сумм квадратов возмущений, к необъясненным. Чем ближе к 1, тем ярче выражена зависимость.
  • Adjusted R-squared — Проблема с в том, что он по любому растет с числом факторов, поэтому высокое значение данного коэффициента может быть обманчивым, когда в модели присутствует множество факторов. Для того, чтобы изъять из коэффициента корреляции данное свойство был придуман скорректированный коэффициент детерминации .
  • F-statistic — Используется для оценки значимости модели регрессии в целом, является соотношением объяснимой дисперсии, к необъяснимой. Если модель линейной регрессии построена удачно, то она объясняет значительную часть дисперсии, оставляя в знаменателе малую часть. Чем больше значение параметра — тем лучше.
  • t value — Критерий, основанный на t распределении Стьюдента . Значение параметра в линейной регрессии указывает на значимость фактора, принято считать, что при t > 2 фактор является значимым для модели.
  • p value — Это вероятность истинности нуль гипотезы, которая гласит, что независимые переменные не объясняют динамику зависимой переменной. Если значение p value ниже порогового уровня (.05 или .01 для самых взыскательных), то нуль гипотеза ложная. Чем ниже — тем лучше.

Можно попытаться несколько улучшить модель, сглаживая нелинейные факторы: комментарии и посты в социальных сетях. Заменим значения переменных fb и comm их степенями.

Проверим значения параметров линейной регрессии.

Как видим в целом отзывчивость модели возросла, параметры подтянулись и стали более шелковистыми , F-статистика выросла, так же как и скорректированный коэффициент детерминации .

Проверим, соблюдены ли условия применимости модели линейной регрессии? Тест Дарбина-Уотсона проверяет наличие автокорреляции возмущений.

И напоследок проверка неоднородности дисперсии с помощью теста Бройша-Пагана.

В заключение

Конечно наша модель линейной регрессии рейтинга Хабра-топиков получилось не самой удачной. Нам удалось объяснить не более, чем половину вариативности данных. Факторы надо чинить, чтобы избавляться от неоднородной дисперсии, с автокорреляцией тоже непонятно. Вообще данных маловато для сколь-нибудь серьезной оценки.

Но с другой стороны, это и хорошо. Иначе любой наспех написанный тролль-пост на Хабре автоматически набирал бы высокий рейтинг, а это к счастью не так.

Системы эконометрических уравнений

7. Системы эконометрических уравнений

7.1. Виды систем регрессионных уравнений

Любая экономическая система – это сложная система с множеством входов, выходов и сложной структурой взаимосвязей показателей, характеризующих деятельность этой системы. Поэтому для описания механизма функционирования таких систем обычно изолированных уравнений регрессии недостаточно.

Практически изменение какого-либо показателя в экономической системе, как правило, вызывает изменение целого ряда других. Так изменение производительности труда влияет на затраты труда, а, следовательно на себестоимость, прибыль, рентабельность производства и пр.

Все это вызывает потребность использования при описании сложных экономических явлений и процессов систем взаимосвязанных регрессионных уравнений и тождеств. Особенно актуальна необходимость в применении таких систем при моделировании на макроуровне, так как макроэкономические показатели, являясь обобщающими показателями состояния экономики, чаще всего взаимозависимы. Например, при построении модели национальной экономики необходимо рассмотреть уравнения, описывающие потребление, инвестиции, прирост капиталовложений, воспроизводство трудовых ресурсов, производство продукта и пр.

Переменные, входящие в систему уравнений подразделяют на экзогенные, эндогенные и лаговые (эндогенные переменные, влияние которых характеризуется некоторым запаздыванием, временным лагом ).

Экзогенные и лаговые переменные называют предопределенными, т. е. определенными заранее.

Классификация переменных на эндогенные и экзогенные зависит от принятой теоретической концепции модели. Экономические показатели могут выступать в одних моделях как эндогенные, а в других как экзогенные переменные. Внеэкономические переменные (например, климатические условия, социальное положение, пол, возраст) входят в систему только как экзогенные переменные. В качестве экзогенных переменных могут рассматриваться значения эндогенных переменных за предшествующий период времени (лаговые переменные).

Рассмотрим типы систем эконометрических уравнений.

1. Система независимых регрессионных уравнений (внешне не связанных)

В данном случае каждая зависимая переменная рассматривается как функция некоторого е набора факторов.

. (7.1)

Набор факторов в уравнениях (1) может варьировать. Каждое уравнение системы независимых уравнений может рассматриваться самостоятельно, а его параметры могут быть найдены на основе традиционного метода наименьших квадратов (МНК).

2. Система рекурсивных уравнений

В таких системах в одном из уравнений содержится единственная зависимая переменная , которая в следующем уравнении присутствует в качестве факторной переменной. В третье уравнение эти эндогенные переменные из предыдущих уравнений могут быть включены как факторные и т. д.

(7.2)

В данной системе каждое последующее уравнение наряду с факторными переменными включает в качестве факторов все зависимые переменные предшествующих уравнений. Каждое уравнение этой системы может рассматриваться самостоятельно, и его параметры определяются методом наименьших квадратов (МНК).

3. Система взаимозависимых (одновременных) уравнений

Наибольшее распространение в эконометрических исследованиях получила система взаимозависимых уравнений. В ней одни и те же зависимые (эндогенные) переменные в одних уравнениях входят в левую часть (т. е. выступают в роли результативных признаков), а в других уравнениях – в правую часть системы (т. е. выступают в качестве факторных переменных). Система взаимозависимых уравнений получила название системы совместных, одновременных уравнений. Тем самым подчеркивается, что в системе одни и те же переменные одновременно рассматриваются как зависимые в одних уравнениях и как независимые в других. В эконометрике эта система уравнений также называется структурной формой модели (СФМ).

Система одновременных уравнений в структурной форме и при отсутствии лаговых переменных может быть записана:

(7.3)

Кроме регрессионных уравнений (они называются также поведенческими уравнениями) модель может содержать тождества, которые представляют собой алгебраические соотношения между эндогенными переменными. Тождества позволяют исключать некоторые эндогенные переменные и рассматривать систему регрессионных уравнений меньшей размерности Параметры модели в структурной форме называют ее структурными коэффициентами

Система одновременных уравнений в структурной форме позволяет увидеть влияние изменений любой экзогенной переменной на значения эндогенной переменной. Целесообразно в качестве экзогенных переменных выбирать такие переменные, которые могут быть объектом регулирования. Меняя их и управляя ими, можно заранее иметь целевые значения эндогенных переменных.

В отличие от предыдущих систем каждое уравнение системы одновременных уравнений не может рассматриваться самостоятельно, и для нахождения его параметров традиционный МНК неприменим, т. к. нарушаются предпосылки, лежащие в основе МНК (например, предпосылка о некоррелированности факторных переменных с остатками). Эндогенные переменные являются случайными величинами, зависящими от . В том случае, когда эндогенная переменная входит в некоторое уравнение как факторная происходит нарушение названной предпосылки МНК. Таким образом, для нахождения структурных коэффициентов традиционный МНК неприменим. С этой целью используются специальные приемы оценивания.

7.2. Приведенная форма модели

Для определения структурных коэффициентов на основе структурной модели формируют приведенную форму модели.

Приведенная форма модели представляет собой систему линейных функций эндогенных переменных от экзогенных:

(7.4)

где – коэффициенты приведенной формы модели, – случайные остатки для приведенной формы.

По своему виду приведенная форма модели ничем не отличается от системы независимых уравнений, параметры которой оцениваются традиционным МНК. Применяя МНК, можно оценить , а затем оценить значения эндогенных переменных через экзогенные.

Можно показать, что коэффициенты приведенной формы модели представляют собой нелинейные функции коэффициентов структурной формы модели. Рассмотрим структурную модель с двумя эндогенными переменными.

. (7.5)

Запишем соответствующую приведенную форму модели:

. (7.6)

Выразим коэффициенты приведенной формы модели через коэффициенты структурной модели.

Из первого уравнения (7.5) можно выразить (ради упрощения опускаем случайную величину): .

Подставим во второе уравнение (7.5):

(7.7)

Выразим из (7.7) : .

Поступая аналогично со вторым уравнением системы (7.5), получим

, т. е. система (7.5) принимает вид:

Таким образом, коэффициенты приведенной формы модели выражаются через коэффициенты структурной формы следующим образом:

Следует заметить, что приведенная форма модели хотя и позволяет получить значения эндогенных переменных через значения экзогенных, но аналитически она уступает структурной форме модели, так как в ней отсутствуют взаимосвязи между эндогенными переменными.

7.3. Проблема идентификации

При правильной спецификации модели задача идентификация системы уравнений сводится к корректной и однозначной оценке ее коэффициентов. Непосредственная оценка коэффициентов уравнения возможна лишь в системах внешне не связанных уравнений, для которых выполняются основные предпосылки построения регрессионной модели, в частности, условие некоррелированности факторных переменных с остатками.

В рекурсивных системах всегда возможно избавление от проблемы коррелированности остатков с факторными переменными путем подстановки в качестве значений факторных переменных не фактических, а модельных значений эндогенных переменных, выступающих в качестве факторных переменных. Процесс идентификации осуществляется следующим образом:

1. Идентифицируется уравнение, в котором в качестве факторных не содержатся эндогенные переменные. Находится расчетное значение эндогенной переменной этого уравнения.

2. Рассматривается следующее уравнение, в котором в качестве факторной включена эндогенная переменная, найденная на предыдущем шаге. Модельные (расчетные) значения этой эндогенной переменной обеспечивают возможность идентификации этого уравнения и т. д.

В системе уравнений в приведенной форме проблема коррелированности факторных переменных с отклонениями не возникает, так как в каждом уравнении в качестве факторных переменных используются лишь предопределенные переменные. Таким образом, при выполнении других предпосылок рекурсивная система всегда идентифицируема.

При рассмотрении системы одновременных уравнений возникает проблема идентификации.

Идентификация в данном случае означает определение возможности однозначного пересчета коэффициентов системы в приведенной форме в структурные коэффициенты.

Структурная модель (7.3) в полном виде содержит параметров, которые необходимо определить. Приведенная форма модели в полном виде содержит параметров. Следовательно, для определения неизвестных параметров структурной модели можно составить уравнений. Такие системы являются неопределенными и параметры структурной модели в общем случае не могут быть однозначно определены.

Чтобы получить единственно возможное решение необходимо предположить, что некоторые из структурных коэффициентов модели ввиду слабой их взаимосвязи с эндогенной переменной из левой части системы равны нулю. Тем самым уменьшится число структурных коэффициентов модели. Уменьшение числа структурных коэффициентов модели возможно и другими путями: например, путем приравнивания некоторых коэффициентов друг к другу, т. е. путем предположений, что их воздействие на формируемую эндогенную переменную одинаково и пр.

С позиции идентифицируемости структурные модели можно подразделить на три вида:

Модель идентифицируема, если все структурные ее коэффициенты определяются однозначно, единственным образом по коэффициентам приведенной формы модели, т. е. если число параметров структурной модели равно числу параметров приведенной формы модели.

Модель неидентифицируема, если число коэффициентов приведенной модели меньше числа структурных коэффициентов, и в результате структурные коэффициенты не могут быть оценены через коэффициенты приведенной формы модели.

Модель сверхидентифицируема, если число коэффициентов приведенной модели больше числа структурных коэффициентов. В этом случае на основе коэффициентов приведенной формы можно получить два или более значений одного структурного коэффициента. Сверхидентифицируемая модель в отличие от неидентифицируемой модели практически решаема, но требует для этого специальных методов нахождения параметров.

Чтобы определить тип структурной модели необходимо каждое ее уравнение проверить на идентифицируемость.

Модель считается идентифицируемой, если каждое уравнение системы идентифицируемо. Если хотя бы одно из уравнений системы неидентифицируемо, то и вся модель считается неидентифицируемой. Сверхидентифицируемая модель кроме идентифицируемых содержит хотя бы одно сверхидентифицируемое уравнение.

7.4. Условия идентифицируемости уравнений структурной модели

1. Необходимое условие идентифицируемости

Чтобы уравнение было идентифицируемо, необходимо, чтобы число предопределенных переменных, отсутствующих в данном уравнении, но присутствующих в системе, было равно числу эндогенных переменных в данном уравнении без одного.

Введем следующие обозначения:

М – число предопределенных переменных в модели;

m— число предопределенных переменных в данном уравнении;

— число эндогенных переменных в модели;

— число эндогенных переменных в данном уравнении;

Обозначим число экзогенных (предопределенных) переменных, которые содержатся в системе, но не входят в данное уравнение через , .

Тогда условие идентифицируемости каждого уравнения модели может быть записано в виде следующего счетного правила:

Для оценки параметров структурной модели система должна быть идентифицируема или сверхидентифицируема.

Рассмотренное счетное правило отражает необходимое, но недостаточное условие идентификации.

Достаточное условие идентификации

Уравнение идентифицируемо, если по отсутствующим в нем переменным (эндогенным и экзогенным) можно из коэффициентов при них в других уравнениях системы получить матрицу, определитель которой не равен нулю, а ранг матрицы не меньше, чем число эндогенных переменных в системе без одного.

Целесообразность проверки условия идентификации модели через определитель матрицы коэффициентов, отсутствующих в данном уравнении, но присутствующих в других, объясняется тем, что возможна ситуация, когда для каждого уравнения системы выполнено счетное правило, а определитель матрицы названных коэффициентов равен нулю. В этом случае соблюдается лишь необходимое, но не достаточное условие идентификации.

В эконометрических моделях часто наряду с уравнениями, параметры которых должны быть статистически оценены, используются балансовые тождества переменных, коэффициенты при которых равны . В этом случае, хотя само тождество и не требует проверки на идентификацию, ибо коэффициенты при переменных в тождестве известны, в проверке на идентификацию структурных уравнений системы тождества участвуют..

Изучается модель (одна из версий модели Кейнса):

(7.8)

где – потребление в период ; – ВВП в период ; — ВВП в период (); – валовые инвестиции в период ; – государственные расходы в период .

Первое уравнение – функция потребления, второе уравнение – функция инвестиций, третье уравнение –тождество ВВП. Модель представляет собой систему одновременных уравнений. Проверим каждое ее уравнение на идентификацию.

Модель включает три эндогенные переменные и две предопределенные переменные (одна экзогенная переменная – и одна лаговая переменная –).

Проверим необходимое условие идентификации для каждого из уравнений модели.

тождество, не подлежит проверке

Например, первое уравнение содержит две эндогенные переменные и и одну предопределенную переменную .

Таким образом, ; D=2-1=1. Условие условие выполняется, т. е. уравнение идентифицируемо.

Проверим для каждого уравнения достаточное условие идентификации. Для этого составим матрицу коэффициентов при переменных модели.

В соответствии с достаточным условием идентификации ранг матрицы коэффициентов при переменных, не входящих в исследуемое уравнение, должен быть равен числу эндогенных переменных модели без одного.

Первое уравнение: матрица коэффициентов при переменных, не входящих в уравнение, имеет вид:. Ее определитель не равен нулю, поэтому ранг матрицы равен 2, т. е равняется числу эндогенных переменных без одного. Достаточное условие идентификации выполняется.

Второе уравнение: матрица коэффициентов при переменных, не входящих в уравнение, имеет вид: . Ранг данной матрицы равен 2, так как существут определитель второго порядка не равный нулю:. Следовательно, достаточное условие идентификации для данного уравнения также выполняется Но в соответствии с необходимым условием считаем это уравнение сверхидентифицируемым.

Таким образом, эта система уравнений является сверхидентифицируемой.

7.5. Методы оценки параметров структурной формы модели

Коэффициенты структурной модели могут быть оценены разными способами в зависимости от вида системы одновременных уравнений. Наибольшее распространение в литературе получили следующие методы оценивания коэффициентов структурной модели:

1) косвенный метод наименьших квадратов;

2) двухшаговый метод наименьших квадратов;

3) трехшаговый метод наименьших квадратов;

4) метод максимального правдоподобия с полной информацией;

5) метод максимального правдоподобия при ограниченной информации.

Рассмотрим сущность некоторых из этих методов.

Косвенный метод наименьших квадратов (КМНК) применяется в случае точно идентифицируемой структурной модели. Процедура применения КМНК предполагает выполнение следующих этапов:

1. Для структурной модели строится приведенная форма модели.

2. Для каждого уравнения приведенной формы традиционным МНК оцениваются приведенные коэффициенты .

3. На основе коэффициентов приведенной формы находятся путем алгебраических преобразований параметры структурной модели.

Двухшаговый метод наименьших квадратов (ДМНК)

Если система сверхидентифицируема, то КМНК не используется, ибо он не дает однозначных оценок для параметров структурной модели. В этом случае могут использоваться разные методы оценивания, среди которых наиболее распространенным и простым является двухшаговый метод (ДМНК).

Основная идея ДМНК состоит в следующем:

· на основе приведенной формы модели получить для сверхидентифицируемого уравнения расчетные значения эндогенных переменных, содержащихся в правой части этого уравнения;

· подставляя найденные расчетные значения эндогенных переменных вместо фактических значений, можно применить обычный МНК к структурной форме сверхидентифицируемого уравнения.

Метод получил название двухшагового МНК, ибо дважды используется МНК:

· на первом шаге при определении параметров приведенной формы модели и нахождении на их основе оценок расчетных значений эндогенных переменных ; ;

· на втором шаге применительно к структурному сверхидентифицируемому уравнению, когда вместо фактических значений эндогенных переменных рассматриваются их расчетные значения, найденные на предыдущем шаге.

Сверхидентифицируемая структурная модель может быть двух типов:

· все уравнения системы сверхидентифицируемы;

· система содержит наряду со сверхидентифицируемыми точно идентифицируемые уравнения.

Если все уравнения системы сверхидентифицируемые, то для оценки структурных коэффициентов каждого уравнения используется ДМНК. Если в системе есть точно идентифицируемые уравнения, то структурные коэффициенты по ним можно найти на основе косвенного МНК. Двухшаговый метод, примененный к точно идентифицированным уравнениям дает такой же результат, что и косвенный МНК.

Продолжение примера 15.

Продолжим рассмотрение примера 15.

Система является сверхидентифицируемой: первое уравнение идентифицируемо, а второе уравнение сверхидентифицируемо. Поэтому для определения коэффициентов первого уравнения можно применить косвенный МНК, а для второго уравнении двухшаговый МНК.

Построим приведенную форму модели:

(7.9)

Исходные данные задачи (в млрд. руб.)

Предсказанное

Найдем параметры модели (7.9), применяя МНК к каждому уравнению,

используем « Пакет анализа» EXCEL):

(7.10)

Каждое уравнение статистически значимо (– статистики: =1302,55;

=281,956; =847,65). Коэффициенты детерминации свидетельствуют о хорошей связи между эндогенными и предопределенными переменными:=0,9977; =0,989; =0,996.

На основе уравнений модели (7.10) найдем структурные коэффициенты первого уравнения.

Выразим из третьего уравнения (7.10) переменную и подставим в первое уравнение. Получим первое структурное уравнение:

Так как второе уравнение сверхидентифицировано, то применим двухшаговый МНК. Найдем на основе третьего уравнения (7.10) расчетные значения переменной ( столбец «предсказанное » табл.23) и используем их для нахождения параметров второго структурного уравнения.

Получим: 4; .

В результате получим следующую систему структурных уравнений:

Трехшаговый метод наименьших квадратов (ТМНК)

Трехшаговый метод наименьших квадратов применяется для оценки параметров системы одновременных уравнений в целом. Сначала к каждому уравнению применяется двухшаговый метод с целью оценить коэффициенты и случайные остатки каждого уравнения. Затем строится ковариационная матрица остатков и проводится ее оценка. После этого для оценивания коэффициентов всей системы применяется обобщенный метод наименьших квадратов. ТМНК является достаточно эффективным, но требует существенно больших вычислительных затрат. Более подробное описание можно найти в работе[1][1]

7.6. Инструментальные переменные

Метод инструментальных переменных (МИП) применяется для оценивания уравнений, в которых регрессоры (факторы) коррелируют со свободными членами. Коррелированность между факторными переменными и случайными ошибками может быть вызвана разными причинами:

· пропущенными переменными, которые находятся в корреляционной связи с факторными переменными;

· ошибками измерений факторных переменных;

· включением лагированной зависимой переменной при наличии автокоррелированности ошибок. В этом случае лаговые переменные скорее всего будут коррелировать с ошибками;

· одновременные взаимосвязи между переменными (эндогенность переменных, включенных в правые части регрессионных уравнений).

Именно это явление оказывается характерным для систем одновременных уравнений;

Если между факторными переменными и случайными остатками имеется корреляционная зависимость (,), то нарушаются условия классической модели и оценки параметров, найденные по МНК будут смещенными и не состоятельными.

Идея МИП заключается в том, чтобы подобрать новые переменные , которые бы тесно коррелировали с и не коррелировали со случайными остатками . Такие переменные называют инструментальными или просто инструментами). Включение их в модель обеспечивает состоятельность оценок МНК.

Набор переменных может включать факторные переменные, которые не коррелируют с остатками, а также другие внешние величины, не входящие в состав факторных переменных модели. Важно, чтобы число инструментов было не меньше, чем число независимых переменных.

Рассмотрим случай парной регрессии: . Предположим, что между факторными переменными и остатками имеется корреляционная зависимость, т. е. . Рассмотрим систему нормальных уравнений для линейной парной регрессии:

, (7.11)

тогда . (7.12)

Можно показать, что . Так как , оценка параметра будет смещенной и не состоятельной.

Предположим, что можно найти такую переменную , которая была бы коррелированна с ( ), но не коррелированна с ( ). Выберем эту переменную в качестве иструментальной переменной.

Заменим второе уравнение системы (7.11) на следующее: и рассмотрим систему:

. (7.13)

Решение системы (7.13) будет, очевидно, отличается от решения предыдущей системы. Обозначим новые оценки соответственно.

В этом случае оценка . (7.14)

Покажем, что она является несмещенной и состоятельной при условии, что при увеличивающемся числе наблюдений стремится к конечному, отличному от нуля пределу, который мы обозначим, как .

, здесь , так как – постоянная величина.

Тогда . (7.15)

Так как , а , то в больших выборках стремится к истинному значению .

Сравним (формула (7.14) с оценкой МНК (формула 7.12). Очевидно, что оценку , можно получить путем подстановки инструментальной переменной вместо в числителе и вместо одного (но не обоих) в знаменателе в формуле (7.12) для оценки .

Чем теснее корреляция между и Z, тем меньше будет их дисперсия и, следовательно, тем меньше будет дисперсия . Следовательно, если мы стоим перед выбором между несколькими возможными инструментальными переменными, то следует выбрать наиболее тесно коррелированную с , потому что при прочих равных условиях она даст наиболее эффективные оценки. Вместе с тем не рекомендуется использовать инструментальную переменную, имеющую функциональную зависимость с , даже если бы ее удалось найти, потому что тогда она автоматически оказалась бы коррелированной с остатками и оценки по-прежнему были бы не состоятельны.

Нетрудно понять, что метод оценивания с помощью инструментальных переменных является обобщением обычного метода наименьших квадратов.

Пусть — матрица значений инструментальных переменных размерности (), а — матрица значений факторных переменных размерности (),. Здесь— матрица факторных переменных, которые включены в состав инструментов, — инструменты, которые не входят в число факторных переменных. В этом случае матрица оценок параметров находится следующим образом:

, где , (7.16)

здесь , а метод ИП называют обобщенным методом инструментальных переменны (ОМИП).

Если число инструментальных переменных равняется числу факторных переменных (), то матрица ) будет квадратной размерности (). Метод ИП в этом случае называется простым, а оценки вычисляются следующим образом:

=

=[2] . (7.17)

Самая трудная проблема метода ИП – это поиск подходящих инструментов. Требуется, чтобы инструменты были тесно связаны с факторными переменными, но сами не были бы эндогенными переменными.

Решение этой проблемы зависит от конкретной ситуации. Например, это могут быть: лаговые значения факторных переменных; показатели, близкие по экономическому смыслу и приближенно отражающие рассматриваемую факторную переменную и пр.

Метод инструментальных переменных используется при оценке СОУ при использовании двухшагового МНК. В качестве инструментов здесь рассматриваются расчетные значения эндогенных переменных, найденные на первом шаге с использованием обычного МНК для приведенной системы уравнений.

Рассмотрим упрощенную кейнсианскую модель формирования доходов в закрытой экономике без государственного вмешательства:

(7.18)

где — представляют совокупный выпуск, объем потребления и объем инвестиций соответственно, . Здесь мы имеем случай одновременных взаимосвязей между переменными: в качестве одной из составляющих содержит ошибку модели, а так как зависит от , то также корреллирует с ошибками модели.

Первое уравнение идентифицируемо ( и матрица коэффициентов при переменных, не входящих в уравнение состоит из одного элемента 1, т. е. ее ранг равен 1, что равняется числу эндогенных переменных без одного). Следовательно выполняютя необходимое и достаточное условие идентифицируемости. Второе уравнение тождество, не подлежит проверке на идентификацию.

Рассмотрим следующие статистические данные:


источники:

http://habr.com/ru/post/350668/

http://pandia.ru/text/77/213/97434.php