Отбор факторов в уравнение множественной регрессии

06. Спецификация модели. Отбор факторов при построении уравнения множественной регрессии

Построение уравнения множественной регрессии начинается с решения вопроса о спецификации модели. Он включает в себя два круга вопросов: отбор факторов и выбор вида уравнения регрессии.

Включение в уравнение множественной регрессии того или иного набора факторов связано, прежде всего, с представлением исследователя о природе взаимосвязи моделируемого показателя с другими экономическими явлениями. Факторы, включаемые во множественную регрессию, должны отвечать следующим требованиям.

1. Они должны быть количественно измеримы. Если необходимо включить в модель качественный фактор, не имеющий количественного измерения, то ему нужно придать количественную определенность.

2. Факторы не должны быть интеркоррелированы и тем более находиться в точной функциональной связи.

Включение в модель факторов с высокой интеркорреляцией, может привести к нежелательным последствиям – система нормальных уравнений может повлечь за собой неустойчивость и ненадежность оценок коэффициентов регрессии.

Если между факторами существует высокая корреляция (взаимосвязь), то нельзя определить их изолированное влияние на результативный показатель и параметры уравнения регрессии оказываются неинтерпретируемыми.

Включаемые во множественную регрессию факторы должны объяснить вариацию независимой переменной. Если строится модель с набором M факторов, то для нее рассчитывается показатель детерминации , который фиксирует долю объясненной вариации результирующего показателя за счет рассматриваемых в регрессии M факторов. Влияние других, не учтенных в модели факторов, оценивается как с соответствующей остаточной дисперсией .

При дополнительном включении в регрессию фактора коэффициент детерминации должен возрастать, а остаточная дисперсия уменьшаться:

и .

Если же этого не происходит и данные показатели практически не отличаются друг от друга, то включаемый в анализ фактор не улучшает модель и практически является лишним фактором.

Таким образом, хотя теоретически регрессионная модель позволяет учесть любое число факторов, практически в этом нет необходимости. Отбор факторов производится на основе качественного теоретико-экономического анализа. Однако теоретический анализ часто не позволяет однозначно ответить на вопрос о количественной взаимосвязи рассматриваемых признаков и целесообразности включения фактора в модель. Поэтому отбор факторов обычно осуществляется в две стадии: на первой подбираются факторы исходя из сущности проблемы; на второй – на основе матрицы показателей корреляции определяют статистики для параметров регрессии.

Коэффициенты интеркорреляции (т. е. коэффициенты корреляции между объясняющими переменными) позволяют исключать из модели дублирующие факторы. Считается, что две переменные явно коллинеарны, т. е. находятся между собой в линейной зависимости, если . Если факторы явно коллинеарны, то они дублируют друг друга и один из них рекомендуется исключить из регрессии. Предпочтение при этом отдается не фактору, более тесно связанному с результатом, а тому фактору, который при достаточно тесной связи с результатом имеет наименьшую тесноту связи с другими факторами. В этом требовании проявляется специфика множественной регрессии как метода исследования комплексного воздействия факторов в условиях их независимости друг от друга.

Пусть, например, при изучении зависимости матрица парных коэффициентов корреляции оказалась следующей:

Множественный регрессионый анализ

Мультиколлинеарность имеет место, если определитель матрицы межфакторной корреляции близок к нулю:

.
Если же определитель матрицы межфакторной корреляции близок к единице, то мультиколлинеарности нет.Существуют различные подходы преодоления сильной межфакторной корреляции. Простейший из них – исключение из модели фактора (или факторов), в наибольшей степени ответственных за мультиколлинеарность при условии, что качество модели при этом пострадает несущественно (а именно, теоретический коэффициент детерминации —R 2 y(x1. xm) снизится несущественно).

Определение факторов, ответственных за мультиколлинеарность, может быть основано на анализе матрицы межфакторной корреляции. При этом определяют пару признаков-факторов, которые сильнее всего связаны между собой (коэффициент линейной парной корреляции максимален по модулю). Из этой пары в наибольшей степени ответственным за мультиколлинеарность будет тот признак, который теснее связан с другими факторами модели (имеет более высокие по модулю значения коэффициентов парной линейной корреляции).

Еще один способ определения факторов, ответственных за мультиколлинеарность основан на вычислении коэффициентов множественной детерминации (R 2 xj(x1. xj-1,xj+1. xm)), показывающего зависимость фактора xj от других факторов модели x1. xj-1, xj+1. xm. Чем ближе значение коэффициента множественной детерминации к единице, тем больше ответственность за мультиколлинеарность фактора, выступающего в роли зависимой переменной. Сравнивая между собой коэффициенты множественной детерминации для различных факторов можно проранжировать переменные по степени ответственности за мультиколлинеарность.
При выборе формы уравнения множественной регрессии предпочтение отдается линейной функции:
yi =a+b1·x1i+ b2·x2i+. + bm·xmi+ui
в виду четкой интерпретации параметров.
Данное уравнение регрессии называют уравнением регрессии в естественном (натуральном) масштабе. Коэффициент регрессии bjпри факторе хjназывают условно-чистым коэффициентом регрессии. Он измеряет среднее по совокупности отклонение признака-результата от его средней величины при отклонении признака-фактора хj на единицу, при условии, что все прочие факторы модели не изменяются (зафиксированы на своих средних уровнях).
Если не делать предположения о значениях прочих факторов, входящих в модель, то это означало бы, что каждый из них при изменении хj также изменялся бы (так как факторы связаны между собой), и своими изменениями оказывали бы влияние на признак-результат.

Отбор важнейших факторов многофакторных регрессионных моделей

Отбор важнейших факторов многофакторных регрессионных моделей

Проблема выбора существенных переменных (факторов) для включения их в модель тесно связана с исходными предпосылками регрессионного анализа. При построении модели два момента вступают в противоречие. В модель должны войти все переменные, которые с экономической точки зрения оказывают влияние на зависимую переменную. Но большое количество переменных, включенных в модель, требует большого числа наблюдений. Невыполнение первого требования может привести к неадекватности модели из-за того, что не учтены некоторые существенные факторы, а также к нарушению нормальности распределения случайной компоненты £ из-за того, что ее вариация будет обусловлена не только случайными факторами, но и систематически действующими, т.е. к нарушению гомоскедастичности. Дж. У. Юл и М. Дж. Кендалл считают, что максимальное число переменных, включенных в модель, не должно превышать десяти.

Сокращение числа переменных, входящих в модель, можно производить путем отсеивания менее существенных факторов в процессе построения регрессионной модели или путем замены исходного набора переменных меньшим числом эквивалентных переменных, полученных в результате преобразований исходного набора.

Процедура отсева несущественных факторов в процессе построения регрессионной модели называется многошаговым регрессионным анализом. Этот метод основан на построении нескольких промежуточных уравнений регрессии, в результате анализа которых получается конечная модель, включающая только факторы, оказывающие существенное влияние на исследуемый показатель. При этом выделяется три подхода.

  1. Строится уравнение регрессии по максимально возможному количеству факторов, предположительно оказавших влияние на исследуемый показатель. Затем с помощью — критерия исключаются несущественные факторы.
  2. Строится парная регрессия по одному значимому фактору, а затем в уравнение регрессии последовательно вводятся по одному все значимые факторы. Этот метод называет методом пошаговой регрессии.
  3. Строится несколько уравнений регрессии, затем с помощью определенного критерия выбирается наилучшее.

Кратко охарактеризуем эти методы построения регрессионных моделей.

Применение -критерия для отбора существенных факторов основано на предположении о нормальном распределении остатков . Если это условие выполняется, то величина распределена по закону Стьюдента с степенями свободы. Задавая уровень значимости по числу степеней свободы , находят квантиль -распределения, с которым сравнивают . При коэффициент регрессии признается статистически значимым с вероятностью . Если все коэффициенты регрессии признаны значимыми, то уравнение регрессии считается окончательным и при общей проверке его адекватности по -критерию принимается в качестве модели исследуемого экономического процесса. Если же среди коэффициентов регрессии имеются незначимые, то соответствующие факторы следует исключить из уравнения регрессии, предварительно проранжировав коэффициенты регрессии по значению . В первую очередь исключается фактор, для которого значение наименьшее. Исключив один фактор с наименьшим значением , строят уравнение регрессии без исключенного фактора и снова производят оценку коэффициентов регрессии по -критерию. Изложенную процедуру повторяют до тех пор, пока все коэффициенты регрессии в уравнении не окажутся значимыми. При этом на каждом шаге, кроме формальной статистической проверки значимости коэффициентов регрессии, проводят экономический анализ несущественных факторов и устанавливают порядок их исключения. В некоторых случаях, исходя из профессиональных соображений, оставляют фактор, для которого , незначительно меньше .

Отметим, что не существенность коэффициента регрессии по -критерию не всегда является основанием для исключения фактора из дальнейшего анализа. Т. Андерсон рекомендовал исключать переменную из уравнения регрессии лишь в том случае, когда средняя квадратичная ошибка коэффициента регрессии превышает абсолютную величину вычисленного коэффициента, т.е. в случае, если значение -критерия меньше единицы. При этом предполагается, что нет веских оснований для того, чтобы оставить переменную в модели. При пошаговом построении уравнения регрессии выбирают фактор имеющий наибольший коэффициент парной корреляции с , и строят уравнение парной регрессии. Затем находят частные коэффициенты корреляции между и остальными переменными при исключении выбранной переменной . Переменную с максимальным значением частного коэффициента корреляции включают в уравнение регрессии и вычисляют и частный -критерий, который показывает, существенный ли вклад вносит в уравнение эта переменная по сравнению с уже введенными. Указанная процедура проводится до тех пор, пока расчетное значение -критерия становится меньше табличного. Подчеркнем, что на каждом шаге с добавлением новой переменной определяется значимость не только новой переменной, но и переменных, уже включенных в модель. И если какие-то из них окажутся незначимыми, они исключаются из уравнения. Значимость определяется значением частного -критерия для всех переменных модели.

В многошаговом регрессионном анализе, основанном на методе случайного поиска с адаптацией, разработанным Г.С. Лбовым, применяют «поощрение» или «наказание» отдельных переменных исходя из их «ценности». В качестве критерию «ценности» используют коэффициент множественной корреляции .

В начале поиска задают равные вероятности для каждого из факторов. Затем случайным образом выбирают групп по факторов и в этой системе определяют и . Векторы факторов в первой системе и запоминают. Вероятность попадания в систему увеличивается, а в уменьшается на ( — произвольное число). Так образовывают систем по групп в каждой. За эффективную принимают ту группу, при которой

При переборе ряда групп вероятность выбора факторов, часто встречающихся в удачных сочетаниях, становится большей, и именно этот набор факторов повторяется гораздо чаще остальных. Число выбирают так, чтобы между значениями и данной системы была заключена основная часть сочетаний, а величину шага — такой, чтобы вероятность выбора фактора, если он будет встречаться на каждом этапе, оставалась большей или равной установленной вероятности . При увеличении шага растет и доля случаев, когда эффективное сочетание факторов не будет найдено. При эффективный поиск сводится к методу Монте-Карло. В этом методе отсутствует статистическая проверка значимости коэффициентов регрессии.

Из предложенных подходов построения регрессионной модели выделяют первый, основанный на оценке значимости коэффициентов регрессии по критерию Стьюдента.

Эта лекция взята со страницы предмета «Эконометрика»

Эти страницы возможно вам будут полезны:

Образовательный сайт для студентов и школьников

Копирование материалов сайта возможно только с указанием активной ссылки «www.lfirmal.com» в качестве источника.

© Фирмаль Людмила Анатольевна — официальный сайт преподавателя математического факультета Дальневосточного государственного физико-технического института


источники:

http://math.semestr.ru/regress/mregres.php

http://lfirmal.com/otbor-vazhnejshih-faktorov-mnogofaktornyih-regressionnyih-modelej/