При отборе факторов в уравнение множественной регрессии используют

06. Спецификация модели. Отбор факторов при построении уравнения множественной регрессии

Построение уравнения множественной регрессии начинается с решения вопроса о спецификации модели. Он включает в себя два круга вопросов: отбор факторов и выбор вида уравнения регрессии.

Включение в уравнение множественной регрессии того или иного набора факторов связано, прежде всего, с представлением исследователя о природе взаимосвязи моделируемого показателя с другими экономическими явлениями. Факторы, включаемые во множественную регрессию, должны отвечать следующим требованиям.

1. Они должны быть количественно измеримы. Если необходимо включить в модель качественный фактор, не имеющий количественного измерения, то ему нужно придать количественную определенность.

2. Факторы не должны быть интеркоррелированы и тем более находиться в точной функциональной связи.

Включение в модель факторов с высокой интеркорреляцией, может привести к нежелательным последствиям – система нормальных уравнений может повлечь за собой неустойчивость и ненадежность оценок коэффициентов регрессии.

Если между факторами существует высокая корреляция (взаимосвязь), то нельзя определить их изолированное влияние на результативный показатель и параметры уравнения регрессии оказываются неинтерпретируемыми.

Включаемые во множественную регрессию факторы должны объяснить вариацию независимой переменной. Если строится модель с набором M факторов, то для нее рассчитывается показатель детерминации , который фиксирует долю объясненной вариации результирующего показателя за счет рассматриваемых в регрессии M факторов. Влияние других, не учтенных в модели факторов, оценивается как с соответствующей остаточной дисперсией .

При дополнительном включении в регрессию фактора коэффициент детерминации должен возрастать, а остаточная дисперсия уменьшаться:

и .

Если же этого не происходит и данные показатели практически не отличаются друг от друга, то включаемый в анализ фактор не улучшает модель и практически является лишним фактором.

Таким образом, хотя теоретически регрессионная модель позволяет учесть любое число факторов, практически в этом нет необходимости. Отбор факторов производится на основе качественного теоретико-экономического анализа. Однако теоретический анализ часто не позволяет однозначно ответить на вопрос о количественной взаимосвязи рассматриваемых признаков и целесообразности включения фактора в модель. Поэтому отбор факторов обычно осуществляется в две стадии: на первой подбираются факторы исходя из сущности проблемы; на второй – на основе матрицы показателей корреляции определяют статистики для параметров регрессии.

Коэффициенты интеркорреляции (т. е. коэффициенты корреляции между объясняющими переменными) позволяют исключать из модели дублирующие факторы. Считается, что две переменные явно коллинеарны, т. е. находятся между собой в линейной зависимости, если . Если факторы явно коллинеарны, то они дублируют друг друга и один из них рекомендуется исключить из регрессии. Предпочтение при этом отдается не фактору, более тесно связанному с результатом, а тому фактору, который при достаточно тесной связи с результатом имеет наименьшую тесноту связи с другими факторами. В этом требовании проявляется специфика множественной регрессии как метода исследования комплексного воздействия факторов в условиях их независимости друг от друга.

Пусть, например, при изучении зависимости матрица парных коэффициентов корреляции оказалась следующей:

Множественный регрессионый анализ

Мультиколлинеарность имеет место, если определитель матрицы межфакторной корреляции близок к нулю:

.
Если же определитель матрицы межфакторной корреляции близок к единице, то мультиколлинеарности нет.Существуют различные подходы преодоления сильной межфакторной корреляции. Простейший из них – исключение из модели фактора (или факторов), в наибольшей степени ответственных за мультиколлинеарность при условии, что качество модели при этом пострадает несущественно (а именно, теоретический коэффициент детерминации —R 2 y(x1. xm) снизится несущественно).

Определение факторов, ответственных за мультиколлинеарность, может быть основано на анализе матрицы межфакторной корреляции. При этом определяют пару признаков-факторов, которые сильнее всего связаны между собой (коэффициент линейной парной корреляции максимален по модулю). Из этой пары в наибольшей степени ответственным за мультиколлинеарность будет тот признак, который теснее связан с другими факторами модели (имеет более высокие по модулю значения коэффициентов парной линейной корреляции).

Еще один способ определения факторов, ответственных за мультиколлинеарность основан на вычислении коэффициентов множественной детерминации (R 2 xj(x1. xj-1,xj+1. xm)), показывающего зависимость фактора xj от других факторов модели x1. xj-1, xj+1. xm. Чем ближе значение коэффициента множественной детерминации к единице, тем больше ответственность за мультиколлинеарность фактора, выступающего в роли зависимой переменной. Сравнивая между собой коэффициенты множественной детерминации для различных факторов можно проранжировать переменные по степени ответственности за мультиколлинеарность.
При выборе формы уравнения множественной регрессии предпочтение отдается линейной функции:
yi =a+b1·x1i+ b2·x2i+. + bm·xmi+ui
в виду четкой интерпретации параметров.
Данное уравнение регрессии называют уравнением регрессии в естественном (натуральном) масштабе. Коэффициент регрессии bjпри факторе хjназывают условно-чистым коэффициентом регрессии. Он измеряет среднее по совокупности отклонение признака-результата от его средней величины при отклонении признака-фактора хj на единицу, при условии, что все прочие факторы модели не изменяются (зафиксированы на своих средних уровнях).
Если не делать предположения о значениях прочих факторов, входящих в модель, то это означало бы, что каждый из них при изменении хj также изменялся бы (так как факторы связаны между собой), и своими изменениями оказывали бы влияние на признак-результат.

Отбор факторов при построении множественной регрессии. Процедура пошагового отбора переменных

Наиболее часто применяются два метод отбора факторов:

1. Метод исключения предполагает построение модели, включающей всю совокупность факторов, с последующим сокращением их числа до тех пор, пока все коэффициенты при факторах не будут иметь t-статистики, превышающие по модулю единицу. На каждом шаге исключается тот фактор, коэффициент при котором незначим и имеет наименьшую t-статистику.

2. Метод включения состоит в последовательном добавлении в модель факторов до тех пор, пока скорректированный коэффициент детерминации не перестанет увеличиваться. Первыми в модель включаются факторы, имеющие больший парный коэффициент корреляции с результатом Y.


источники:

http://math.semestr.ru/regress/mregres.php

http://einsteins.ru/subjects/ekonometrika/teoriya-ekonometrika/otbor-faktorov-pri-postroenii-mnozhestvennoj-regressii-procedura-poshagovogo-otbora-peremennyx