Проверка уравнения регрессии на мультиколлинеарность

Мультиколлинеарность

Коэффициенты интеркорреляции (т. е. сила связи между объясняющими переменными) позволяют исключить из модели регрессии дублирующие факторы. Две переменных явно коллинеарны, когда они находятся между собой в линейной зависимости, если коэффициент корреляции > 0,7.

Поскольку одним из условий нахождения уравнения множественной регрессии является независимость действия факторов, коллинеарность факторов нарушает это условие. Если факторы модели коллинеарны, то они дублируют друг друга и один из них рекомендуется исключить из регрессии.

Предпочтение в эконометрике отдается не фактору, более сильно связанному с результатом, а фактору, который при сильной связи с результатом имеет наименьшую тесноту связи с другими факторами. Т.е. коэффициент корреляции между факторами меньше 0,3 или, в идеале, близок к нулю. В этом условии проявляется специфика множественной регрессии как метода исследования комплексного влияния факторов на результат в условиях их независимости друг от друга.

Матрица парных коэффициентов корреляции

Пусть, например, при изучении зависимости у = f(x, z, v) матрица парных коэффициентов корреляции оказалась следующей:

Факторы х и z дублируют друг друга, т.к. связь между ними сильная (больше 0,7). В анализ нужно включить фактор z, а не х, так как корреляция z с результатом у слабее, чем корреляция фактора х с у, но значительно слабее межфакторная связь Rzv

Мультиколлинеарность

Последствия и признаки мультиколлинеарности

Если факторные переменные связаны строгой функциональной зависимостью, то говорят о полной мультиколлинеарности. В этом случае среди столбцов матрицы факторных переменных Х имеются линейно зависимые столбцы, и, по свойству определителей матрицы, det(X T X) = 0 , т. е. матрица (X T X) вырождена, а значит, не существует обратной матрицы. Матрица (X T X) -1 используется в построении МНК-оценок. Таким образом, полная мультиколлинеарность не позволяет однозначно оценить параметры исходной модели регрессии.

Признаки мультиколлинеарности

  • Регрессионные коэффициенты значительно изменяются по мере удаления или добавления новых предикторов;
  • Регрессионный коэффициент отрицательный, хотя, исходя из теории, значения зависимой переменной должны расти пропорционально изменению предиктора(или наоборот);
  • Ни один из коэффициентов не обладает статистической значимостью, однако F-статистика показывает значимость коэффициента детерминации.
  • Регрессионный коэффициент не является значимым, хотя теоретически связь между ним и зависимой переменной должна быть существенной.
  • При изменении данных (увеличении или уменьшении выборки) оценки коэффициентов значительно изменяются

К каким трудностям приводит мультиколлинеарность факторов, включенных в модель, и как они могут быть разрешены?

Мультиколлинеарность может привести к нежелательным последствиям:

  1. оценки параметров становятся ненадежными. Они обнаруживают большие стандартные ошибки. С изменением объема наблюдений оценки меняются (не только по величине, но и по знаку), что делает модель непригодной для анализа и прогнозирования.
  2. затрудняется интерпретация параметров множественной регрессии как характеристик действия факторов в «чистом» виде, ибо факторы коррелированны; параметры линейной регрессии теряют экономический смысл;
  3. становится невозможным определить изолированное влияние факторов на результативный показатель.

Мультиколлинеарность повышает стандартную ошибку коэффициентов, тем самым искусственно снижая значимость.

Вид мультиколлинеарности, при котором факторные переменные связаны некоторой стохастической зависимостью, называется частичной. Если между факторными переменными имеется высокая степень корреляции, то матрица (X T X) близка к вырожденной, т. е. det(X T X) ≈ 0.
Матрица (X T X) -1 будет плохо обусловленной, что приводит к неустойчивости МНК-оценок. Частичная мультиколлинеарность приводит к следующим последствиям:

  • увеличение дисперсий оценок параметров расширяет интервальные оценки и ухудшает их точность;
  • уменьшение t-статистик коэффициентов приводит к неверным выводам о значимости факторов;
  • неустойчивость МНК-оценок и их дисперсий.

Точных количественных критериев для обнаружения частичной мультиколлинеарности не существует. О наличии мультиколлинеарности может свидетельствовать близость к нулю определителя матрицы (X T X). Также исследуют значения парных коэффициентов корреляции. Если же определитель матрицы межфакторной корреляции близок к единице, то мультколлинеарности нет.

Существуют различные подходы преодоления сильной межфакторной корреляции. Простейший из них – исключение из модели фактора (или факторов), в наибольшей степени ответственных за мультиколлинеарность при условии, что качество модели при этом пострадает несущественно (а именно, теоретический коэффициент детерминации -R 2 y(x1. xm) снизится несущественно).

С помощью какой меры невозможно избавиться от мультиколлинеарности?
a) увеличение объема выборки;
b) исключения переменных высококоррелированных с остальными;
c) изменение спецификации модели;
d) преобразование случайной составляющей.

Парные (линейные) и частные коэффициенты корреляции

Парный коэффициент корреляции изменяется в пределах от –1 до +1. Чем ближе он по абсолютной величине к единице, тем ближе статистическая зависимость между x и y к линейной функциональной. Положительное значение коэффициента свидетельствует о том, что связь между признаками прямая (с ростом x увеличивается значение y ), отрицательное значение – связь обратная (с ростом x значение y уменьшается).
Можно дать следующую качественную интерпретацию возможных значений коэффициента корреляции: если |r| 0.7, то в данной модели множественной регрессии существует мультиколлинеарность.
Поскольку исходные данные, по которым устанавливается взаимосвязь признаков, являются выборкой из некой генеральной совокупности, вычисленные по этим данным коэффициенты корреляции будут выборочными, т. е. они лишь оценивают связь. Необходима проверка значимости, которая отвечает на вопрос: случайны или нет полученные результаты расчетов.
Значимость парных коэффициентов корреляции проверяют по t-критерию Стьюдента. Выдвигается гипотеза о равенстве нулю генерального коэффициента корреляции: H0: ρ = 0. Затем задаются параметры: уровень значимости α и число степеней свободы v = n-2. Используя эти параметры, по таблице критических точек распределения Стьюдента находят tкр, а по имеющимся данным вычисляют наблюдаемое значение критерия:
, (2)
где r – парный коэффициент корреляции, рассчитанный по отобранным для исследования данным. Парный коэффициент корреляции считается значимым (гипотеза о равенстве коэффициента нулю отвергается) с доверительной вероятностью γ = 1- α, если tНабл по модулю будет больше, чем tкрит.
Если переменные коррелируют друг с другом, то на значении коэффициента корреляции частично сказывается влияние других переменных.

Частный коэффициент корреляции характеризует тесноту линейной зависимости между результатом и соответствующим фактором при устранении влияния других факторов. Частный коэффициент корреляции оценивает тесноту связи между двумя переменными при фиксированном значении остальных факторов. Если вычисляется, например, ryx1|x2 (частный коэффициент корреляции между y и x1 при фиксированном влиянии x2), это означает, что определяется количественная мера линейной зависимости между y и x1, которая будет иметь место, если устранить влияние x2 на эти признаки. Если исключают влияние только одного фактора, получают частный коэффициент корреляции первого порядка.
Сравнение значений парного и частного коэффициентов корреляции показывает направление воздействия фиксируемого фактора. Если частный коэффициент корреляции ryx1|x2 получится меньше, чем соответствующий парный коэффициент ryx1, значит, взаимосвязь признаков y и x1 в некоторой степени обусловлена воздействием на них фиксируемой переменной x2. И наоборот, большее значение частного коэффициента по сравнению с парным свидетельствует о том, что фиксируемая переменная x2 ослабляет своим воздействием связь y и x1.
Частный коэффициент корреляции между двумя переменными (y и x2) при исключении влияния одного фактора (x1) можно вычислить по следующей формуле:
. (3)
Для других переменных формулы строятся аналогичным образом. При фиксированном x2
;
при фиксированном x3
.
Значимость частных коэффициентов корреляции проверяется аналогично случаю парных коэффициентов корреляции. Единственным отличием является число степеней свободы, которое следует брать равным v = n – l -2, где l – число фиксируемых факторов.
На основании частных коэффициентов можно сделать вывод об обоснованности включения переменных в регрессионную модель. Если значение коэффициента мало или он незначим, то это означает, что связь между данным фактором и результативной переменной либо очень слаба, либо вовсе отсутствует, поэтому фактор можно исключить из модели.

Пошаговая регрессия

На втором шаге строится уравнение регрессии с одной переменной, имеющей максимальный по абсолютной величине парный коэффициент корреляции с результативным признаком.

На третьем шаге в модель вводится новая переменная, имеющая наибольшее по абсолютной величине значение частного коэффициента корреляции с зависимой переменной при фиксированном влиянии ранее введенной переменной.
При введении в модель дополнительного фактора коэффициент детерминации должен возрастать, а остаточная дисперсия уменьшаться. Если этого не происходит, т. е. коэффициент множественной детерминации увеличивается незначительно, то ввод нового фактора признается нецелесообразным.

Пример №1 . По 20 предприятиям региона изучается зависимость выработки продукции на одного работника y (тыс. руб.) от удельного веса рабочих высокой квалификации в общей численности рабочих x1 (% от стоимости фондов на конец года) и от ввода в действие новых основных фондов x2 (%).

YX1X2
6103,5
6123,6
7153,9
7174,1
7184,2
8194,5
8195,3
9205,3
9205,6
10216
10216,3
11226,4
11237
12257,5
12287,9
13308,2
13318,4
14318,6
14359,5
153610

Требуется:

  1. Построить корреляционное поле между выработкой продукции на одного работника и удельным весом рабочих высокой квалификации. Выдвинуть гипотезу о тесноте и виде зависимости между показателями X1 и Y .
  2. Оценить тесноту линейной связи между выработкой продукции на одного работника и удельным весом рабочих высокой квалификации с надежностью 0,9.
  3. Рассчитать коэффициенты линейного уравнения регрессии для зависимости выработки продукции на одного работника от удельного веса рабочих высокой квалификации.
  4. Проверить статистическую значимость параметров уравнения регрессии с надежностью 0,9 и построить для них доверительные интервалы.
  5. Рассчитать коэффициент детерминации. С помощью F -критерия Фишера оценить статистическую значимость уравнения регрессии с надежностью 0,9.
  6. Дать точечный и интервальный прогноз с надежностью 0,9 выработки продукции на одного работника для предприятия, на котором высокую квалификацию имеют 24% рабочих.
  7. Рассчитать коэффициенты линейного уравнения множественной регрессии и пояснить экономический смысл его параметров.
  8. Проанализировать статистическую значимость коэффициентов множественного уравнения с надежностью 0,9 и построить для них доверительные интервалы.
  9. Найти коэффициенты парной и частной корреляции. Проанализировать их.
  10. Найти скорректированный коэффициент множественной детерминации. Сравнить его с нескорректированным (общим) коэффициентом детерминации.
  11. С помощью F -критерия Фишера оценить адекватность уравнения регрессии с надежностью 0,9.
  12. Дать точечный и интервальный прогноз с надежностью 0,9 выработки продукции на одного работника для предприятия, на котором высокую квалификацию имеют 24% рабочих, а ввод в действие новых основных фондов составляет 5%.
  13. Проверить построенное уравнение на наличие мультиколлинеарности по: критерию Стьюдента; критерию χ2. Сравнить полученные результаты.

Решение проводим с помощью калькулятора. Далее приводится ход решения п.13.
Матрица парных коэффициентов корреляции R:

yx1x2
y10.970.991
x10.9710.977
x20.9910.9771

При наличии мультиколлинеарности определитель корреляционной матрицы близок к нулю. Для нашего примера: det = 0.00081158 , что свидетельствует о наличии сильной мультиколлинеарности.
Для отбора наиболее значимых факторов xi учитываются следующие условия:
— связь между результативным признаком и факторным должна быть выше межфакторной связи;
— связь между факторами должна быть не более 0.7. Если в матрице есть межфакторный коэффициент корреляции rxjxi > 0.7, то в данной модели множественной регрессии существует мультиколлинеарность.;
— при высокой межфакторной связи признака отбираются факторы с меньшим коэффициентом корреляции между ними.
В нашем случае rx1 x2 имеют |r|>0.7, что говорит о мультиколлинеарности факторов и о необходимости исключения одного из них из дальнейшего анализа.
Анализ первой строки этой матрицы позволяет произвести отбор факторных признаков, которые могут быть включены в модель множественной корреляционной зависимости. Факторные признаки, у которых |ryxi| 0.3 – связь практически отсутствует; 0.3 ≤ |r| ≤ 0.7 — связь средняя; 0.7 ≤ |r| ≤ 0.9 – связь сильная; |r| > 0.9 – связь весьма сильная.
Проверим значимость полученных парных коэффициентов корреляции с помощью t-критерия Стьюдента. Коэффициенты, для которых значения t-статистики по модулю больше найденного критического значения, считаются значимыми.
Рассчитаем наблюдаемые значения t-статистики для ryx1 по формуле:

где m = 1 — количество факторов в уравнении регрессии.

По таблице Стьюдента находим Tтабл
tкрит(n-m-1;α/2) = (18;0.025) = 2.101
Поскольку tнабл > tкрит, то отклоняем гипотезу о равенстве 0 коэффициента корреляции. Другими словами, коэффициент корреляции статистически — значим
Рассчитаем наблюдаемые значения t-статистики для ryx2 по формуле:

Поскольку tнабл > tкрит, то отклоняем гипотезу о равенстве 0 коэффициента корреляции. Другими словами, коэффициент корреляции статистически — значимю
Таким образом, связь между (y и xx1 ), (y и xx2 ) является существенной.
Наибольшее влияние на результативный признак оказывает фактор x2 (r = 0.99), значит, при построении модели он войдет в регрессионное уравнение первым.
Тестирование и устранение мультиколлинеарности.
Наиболее полным алгоритмом исследования мультиколлинеарности является алгоритм Фаррара-Глобера. С его помощью тестируют три вида мультиколлинеарности:
1. Всех факторов (χ 2 — хи-квадрат).
2. Каждого фактора с остальными (критерий Фишера).
3. Каждой пары факторов (критерий Стьюдента).
Проверим переменные на мультиколлинеарность методом Фаррара-Глоубера по первому виду статистических критериев (критерий «хи-квадрат»).
Формула для расчета значения статистики Фаррара-Глоубера:
χ 2 = -[n-1-(2m+5)/6]ln(det[R])
где m = 2 — количество факторов, n = 20 — количество наблюдений, det[R] — определитель матрицы парных коэффициентов корреляции R.
Сравниваем его с табличным значением при v = m/2(m-1) = 1 степенях свободы и уровне значимости α. Если χ 2 > χтабл 2 , то в векторе факторов есть присутствует мультиколлинеарность.
χтабл 2 (1;0.05) = 3.84146
Проверим переменные на мультиколлинеарность по второму виду статистических критериев (критерий Фишера).
Определяем обратную матрицу D = R -1 :

D =
55,365-2,256-52,656
-2,25622,386-19,642
-52,656-19,64272,373

Вычисляем F-критерии Фишера:

где dkk — диагональные элементы матрицы.
Рассчитанные значения критериев сравниваются с табличными при v1=n-m и v2=m-1 степенях свободы и уровне значимости α. Если Fk > FТабл, то k-я переменная мультиколлинеарна с другими.
v1=20-2 = 18; v2=2-1 = 1. FТабл(18;1) = 248

Поскольку F1 > Fтабл, то переменная y мультиколлинеарна с другими.

Поскольку F2 > Fтабл, то переменная x1 мультиколлинеарна с другими.

Поскольку F3 > Fтабл, то переменная x2 мультиколлинеарна с другими.

Проверим переменные на мультиколлинеарность по третьему виду статистических критериев (критерий Стьюдента). Для этого найдем частные коэффициенты корреляции.
Частные коэффициенты корреляции.
Коэффициент частной корреляции отличается от простого коэффициента линейной парной корреляции тем, что он измеряет парную корреляцию соответствующих признаков (y и xi) при условии, что влияние на них остальных факторов (xj) устранено.
На основании частных коэффициентов можно сделать вывод об обоснованности включения переменных в регрессионную модель. Если значение коэффициента мало или он незначим, то это означает, что связь между данным фактором и результативной переменной либо очень слаба, либо вовсе отсутствует, поэтому фактор можно исключить из модели.


Теснота связи низкая.
Определим значимость коэффициента корреляции ryx1 /x2 .
Для этого рассчитаем наблюдаемые значения t-статистики по формуле:

где k = 1 — число фиксируемых факторов.

По таблице Стьюдента находим Tтабл
tкрит(n-k-2;α/2) = (17;0.025) = 2.11
Поскольку tнабл tкрит, то отклоняем гипотезу о равенстве 0 коэффициента корреляции. Другими словами, коэффициент корреляции статистически — значим
Как видим, связь y и x2 при условии, что x1 войдет в модель, снизилась. Отсюда можно сделать вывод, что ввод в регрессионное уравнение x2 остается нецелесообразным.
Можно сделать вывод, что при построении регрессионного уравнения следует отобрать факторы x1 , x2.

Лабораторная работа №5 по курсу «Основы математической статистики и . планирование эксперимента» Множественная линейная регрессия. Мультиколлинеарность

МИНИСТЕРСТВО ОБРАЗОВАНИЯ И НАУКИ РОССИЙСКОЙ ФЕДЕРАЦИИ
федеральное государственное АВТОНОМНОЕ образовательное учреждение высшего профессионального образования
«Национальный исследовательский ядерный университет «МИФИ»

Димитровградский инженерно-технологический институт –
филиал федерального государственного автономного образовательного учреждения высшего
профессионального образования «Национальный исследовательский ядерный университет «МИФИ»
(ДИТИ НИЯУ МИФИ)

Лабораторная работа №5
по курсу «Основы математической статистики и
планирование эксперимента»

Множественная линейная регрессия. Мультиколлинеарность

Составил: доцент кафедры
высшей математики
канд. экон. наук

Теоретическая часть 4

Модели множественной регрессии 4

Идентификация моделей множественной линейной регрессии (МНК) 5

Мультиколлинеарность. Корреляционная матрица 7

Проверка качества уравнения множественной регрессии. Отбор факторов 9

Оформление отчета 15

Контрольные вопросы 15

Цель работы

Научиться осуществлять отбор факторов и оценивать значения параметров множественной линейной регрессии; выявлять мультиколлинеарность факторов; оценивать качество модели множественной регрессии.

Задание

Имеются выборки равного объема для показателей Y и X1, X2, X3, X4. Предполагается наличие линейной зависимости уровней Y от X1, X2, X3, X4. Необходимо выполнить следующее.

Построить корреляционную матрицу, проанализировать ее и отобрать неколлинеарные факторы.

Осуществить идентификацию модели со всеми включенными факторами, и модели с выбранными факторами. Проверка качества полученной модели – расчет классического и скорректированного коэффициента детерминации Расчет коэффициентов эластичности.

Рассчитать средние коэффициенты эластичности для каждого фактора, включенного в модель, пояснить их смысл.

Теоретическая часть

Модели множественной регрессии

Уравнение множественной регрессии описывает зависимость результативного признака от нескольких факторов .

Уравнение множественной линейной регрессии имеет вид:

.

Как и в случае парной регрессии, для построения модели необходимо решить задачи ее спецификации, идентификации и верификации.

В общем случае спецификация модели множественной регрессии включает:

    отбор факторов модели; выбор функционального вида модели.

Модель множественной регрессии может быть и нелинейной, как по переменным, так и по параметрам, например:

    логарифмическая степенная , экспоненциальная , гиперболические или , смешанные и др.

В данной лабораторной работе рассматривается только линейная модель.

Что касается нелинейных, то для них справедливо все то же, что и в случае парной регрессии – нелинейные по параметрам модели необходимо линеаризовать, учитывая вхождение стохастической компоненты.

Широко используется модель множественной регрессии в стандартизованном масштабе:

,

, – нормированные и центрированные величины: , , , .

Уравнение регрессии в стандартизованном масштабе не содержит свободного члена, а переменные , выражаются в долях от своих СКО.

Параметры (или их оценки) стандартизованного уравнения регрессии связаны с параметрами в естественном масштабе следующими соотношениями:

Значения параметров сравнимы между собой, а параметров – нет. Но имеют качественную интерпретацию: каждый коэффициент линейной регрессии показывает, на сколько изменится зависимая переменная при увеличении соответствующей независимой переменной на 1 (и неизменности других переменных).

Идентификация моделей множественной линейной регрессии (МНК)

Идентификация модели множественной линейной регрессии осуществляется с помощью МНК.

.

Идентификацию можно выполнить несколькими способами, через уравнение регрессии в естественном масштабе или в стандартизованном масштабе.

Решение СЛАУ, являющейся реализацией МНК:

В матричном виде уравнение множественной регрессии имеет вид:

.

Тогда МНК записывается в виде:

.

Замечание: под МНК нередко понимают именно эту формулу.

Уравнению регрессии в стандартизованном масштабе соответствует следующая система:

Каждая сумма в данной системе преобразуется к соответствующему коэффициенту корреляции, например:

.

Например, для

.

При любом способе решения, для множественной линейной регрессии справедлива теорема Гаусса-Маркова. Однако к пяти условиям Гаусса-Маркова, накладываемым на уравнение парной регрессии, добавляется еще одно:

6. Отсутствие мультиколлинеарности, т. е. линейной зависимости между объясняющими переменными:

.

При нарушении этого условия оценки параметров перестают быть эффективными, а решение системы уравнений в целом становится неустойчивым.

Можно сказать, что наличие линейной зависимости между факторами не позволяет «разделить» их влияние на эндогенную переменную и правильно рассчитать стоящие при них коэффициенты.

При совершенной (строгой) мультиколлинеарности между факторами существует явная функциональная зависимость:

.

На практике наиболее распространена несовершенная мультиколлинеарность, т. е. корреляционная зависимость между факторами:

.

Для устранения мультиколлинеарности используются следующие приемы:

Исключение факторов из модели. Если между двумя факторами существует мультиколлинеарность, один из них, менее информативный, следует исключить. Замена переменных – переход от исходных данных к их разностям, темпам роста и т. п. Изменение формы модели – переход от линейной зависимости к нелинейной. Это возможно, только если для нелинейной модели сохраняется зависимость между факторами и регрессором. Получение новой выборки. На практике это не всегда возможно, но на другой выборке показатели могут оказаться некоррелированными.

Мультиколлинеарность. Корреляционная матрица

Проверка наличия мультиколлинеарности осуществляется путем анализа матрицы парных коэффициентов корреляции:

.

При отсутствии мультиколлинеарности корреляционная матрица должна иметь вид:

.

При совершенной мультиколлинеарности:

.

Таким образом, чем ближе определитель матрицы R к 0, тем выше мультиколлинеарность. Если близок к 1, то мультиколлинеарность отсутствует.

Более строго проверку можно выполнить с помощью критерия .

– отсутствие мультиколлинеарности;

– наличие мультиколлинеарности.

Рассчитывается критерий, имеющий распределение с степенями свободы:

.

Если , то гипотеза отклоняется, и в модели присутствуют коррелирующие факторы.

Факторы, оказывающие наибольшее влияние друг на друга, и наименьшее на результативный признак, необходимо исключить из модели. Можно по одному исключать «наихудшие» факторы до тех пор, пока мультиколлинеарность не исчезнет.

Недостаток парных коэффициентов корреляции заключается в том, что они не учитывают косвенное влияние факторов друг на друга.

Необходимо рассчитывать частные коэффициенты корреляции, которые очищены от влияния других факторов.

Частный коэффициент корреляции, очищенный от влияния одного фактора xk рассчитывается по формуле:

Частные коэффициенты корреляции, очищенные от влияния всех факторов рассчитываются через обратную матрицу :

.

Таким образом, получают матрицу частных коэффициентов корреляции:

.

Можно вычислить и частные коэффициенты корреляции между результативным признаком и факторами, например:

Частные коэффициенты корреляции, очищенные ото всех факторов, можно получить также можно получить через обратную матрицу C, но тогда в корреляционную матрицу нужно добавить строку и столбец для Y:

.

Частные коэффициенты корреляции позволяют судить о взаимосвязи между двумя переменными при фиксированных значениях других переменных.

Проверка качества уравнения множественной регрессии. Отбор факторов

Качество уравнения регрессии может быть проверено с помощью тех же показателей, что и для парной регрессии – MAE, MAPE-оценки, коэффициента детерминации и др.

В данной работе используются следующие критерии.

Коэффициент множественной детерминации:

.

Скорректированный коэффициент детерминации:

.

Если , то нулевую гипотезу следует отклонить, и принять модель и статистически значимыми и надежными.

,

Если , то соответствующий параметр можно считать статистически значимыми и надежными.

Отбор факторов, включаемых в уравнение регрессии, можно выполнить двумя путями:

последовательным включением факторов в модель (пошаговый отбор факторов) – сначала в модель включается один наиболее значимый фактор, затем второй и т. д., пока добавление новых факторов в модель повышает ее качество (скорректированный R2). последовательным исключением факторов – сначала в модель включаются все факторы, затем наименее информативные по одному исключаются из модели, пока не начнет уменьшаться ее качество.

Какой путь выбрать – зависит от конкретной задачи. Если большинство из рассматриваемых факторов достаточно сильно коррелированны с регрессором, то проще идти методом исключения. Если факторов с достаточно сильной корреляцией немного, то удобнее применить пошаговый отбор.

В целом, при выборе факторов, которые могут быть потенциально включены в модель, необходимо, чтобы они обладали двумя свойствами: 1) были количественно измеримы и 2) не были коррелированны между собой.

Пример выполнения работы

Задание

Исследуется взаимосвязь показателей качества жизни населения по выборке для 25 регионов:

Средняя ожидаемая продолжительность жизни при рождении, лет

Уровень рождаемости, чел. на 1000 чел. населения

Доля населения с денежными доходами ниже величины прожиточного минимума, % от всего населения


источники:

http://math.semestr.ru/regress/multicollinearity.php

http://pandia.ru/text/81/304/88778.php