Оценка значимости уравнения множественной регрессии

Множественный регрессионый анализ

Мультиколлинеарность имеет место, если определитель матрицы межфакторной корреляции близок к нулю:

.
Если же определитель матрицы межфакторной корреляции близок к единице, то мультиколлинеарности нет.Существуют различные подходы преодоления сильной межфакторной корреляции. Простейший из них – исключение из модели фактора (или факторов), в наибольшей степени ответственных за мультиколлинеарность при условии, что качество модели при этом пострадает несущественно (а именно, теоретический коэффициент детерминации —R 2 y(x1. xm) снизится несущественно).

Определение факторов, ответственных за мультиколлинеарность, может быть основано на анализе матрицы межфакторной корреляции. При этом определяют пару признаков-факторов, которые сильнее всего связаны между собой (коэффициент линейной парной корреляции максимален по модулю). Из этой пары в наибольшей степени ответственным за мультиколлинеарность будет тот признак, который теснее связан с другими факторами модели (имеет более высокие по модулю значения коэффициентов парной линейной корреляции).

Еще один способ определения факторов, ответственных за мультиколлинеарность основан на вычислении коэффициентов множественной детерминации (R 2 xj(x1. xj-1,xj+1. xm)), показывающего зависимость фактора xj от других факторов модели x1. xj-1, xj+1. xm. Чем ближе значение коэффициента множественной детерминации к единице, тем больше ответственность за мультиколлинеарность фактора, выступающего в роли зависимой переменной. Сравнивая между собой коэффициенты множественной детерминации для различных факторов можно проранжировать переменные по степени ответственности за мультиколлинеарность.
При выборе формы уравнения множественной регрессии предпочтение отдается линейной функции:
yi =a+b1·x1i+ b2·x2i+. + bm·xmi+ui
в виду четкой интерпретации параметров.
Данное уравнение регрессии называют уравнением регрессии в естественном (натуральном) масштабе. Коэффициент регрессии bjпри факторе хjназывают условно-чистым коэффициентом регрессии. Он измеряет среднее по совокупности отклонение признака-результата от его средней величины при отклонении признака-фактора хj на единицу, при условии, что все прочие факторы модели не изменяются (зафиксированы на своих средних уровнях).
Если не делать предположения о значениях прочих факторов, входящих в модель, то это означало бы, что каждый из них при изменении хj также изменялся бы (так как факторы связаны между собой), и своими изменениями оказывали бы влияние на признак-результат.

Оценка значимости уравнения множественной регрессии

Построение эмпирического уравнения регрессии является начальным этапом эконометрического анализа. Первое же построенное по выборке уравнение регрессии очень редко является удовлетворительным по тем или иным характеристикам. Поэтому следующей важнейшей задачей эконометрического анализа является проверка качества уравнения регрессии. В эконометрике принята устоявшаяся схема такой проверки.

Итак, проверка статистического качества оцененного уравнения регрессии проводится по следующим направлениям:

· проверка значимости уравнения регрессии;

· проверка статистической значимости коэффициентов уравнения регрессии;

· проверка свойств данных, выполнимость которых предполагалась при оценивании уравнения (проверка выполнимости предпосылок МНК).

Проверка значимости уравнения множественной регрессии, так же как и парной регрессии, осуществляется с помощью критерия Фишера. В данном случае (в отличие от парной регрессии) выдвигается нулевая гипотеза Н0 о том, что все коэффициенты регрессии равны нулю (b1=0, b2=0, … , bm=0). Критерий Фишера определяется по следующей формуле:

где Dфакт — факторная дисперсия, объясненная регрессией, на одну степень свободы; Dост— остаточная дисперсия на одну степень свободы; R 2 — коэффициент множественной детерминации; т — число параметров при факторах х в уравнении регрессии (в парной линейной регрессии т = 1); п — число наблюдений.

Полученное значение F-критерия сравнивается с табличным при определенном уровне значимости. Если его фактическое значение больше табличного, тогда гипотеза Но о незначимости уравнения регрессии отвергается, и принимается альтернативная гипотеза о его статистической значимости.

С помощью критерия Фишера можно оценить значимость не только уравнения регрессии в целом, но и значимость дополнительного включения в модель каждого фактора. Такая оценка необходима для того, чтобы не загружать модель факторами, не оказывающими существенного влияния на результат. Кроме того, поскольку модель состоит из несколько факторов, то они могут вводиться в нее в различной последовательности, а так как между факторами существует корреляция, значимость включения в модель одного и того же фактора может различаться в зависимости от последовательности введения в нее факторов.

Для оценки значимости включения дополнительного фактора в модель рассчитывается частный критерий Фишера Fxi. Он построен на сравнении прироста факторной дисперсии, обусловленного включением в модель дополнительного фактора, с остаточной дисперсией на одну степень свободы по регрессии в целом. Следовательно, формула расчета частного F-критерия для фактора будет иметь следующий вид:

где R 2 yx1x2…xixp коэффициент множественной детерминации для модели с полным набором п факторов; R 2 yx1x2…x i-1 x i+1…xp — коэффициент множественной детерминации для модели, не включающей фактор xi; п — число наблюдений; т — число параметров при факторах x в уравнении регрессии.

Фактическое значение частного критерия Фишера сравнивается с табличным при уровне значимости 0,05 или 0,1 и соответствующих числах степеней свободы. Если фактическое значение Fxi превышает Fтабл , то дополнительное включение фактора xi в модель статистически оправдано, и коэффициент «чистой» регрессии bi при факторе xi статистически значим. Если же Fxi меньше Fтабл , то дополнительное включение в модель фактора существенно не увеличивает долю объясненной вариации результата у, и, следовательно, его включение в модель не имеет смысла, коэффициент регрессии при данном факторе в этом случае статистически незначим.

С помощью частного критерия Фишера можно проверить значимость всех коэффициентов регрессии в предположении, что каждый соответствующий фактор xi вводится в уравнение множественной регрессии последним, а все остальные факторы были уже включены в модель раньше.

Оценка значимости коэффициентов «чистой» регрессии bi по критерию Стьюдента t может быть проведена и без расчета частных F-критериев. В этом случае, как и при парной регрессии, для каждого фактора применяется формула

где bi — коэффициент «чистой» регрессии при факторе xi ; mbi — стандартная ошибка коэффициента регрессии bi .

Для множественной линейной регрессии стандартная ошибка коэффициента регрессии рассчитывается по следующей формуле:

где σy , σxi — среднее квадратическое отклонение соответственно для результата у и xi ; R 2 yx1x2…xixp — коэффициент множественной детерминации для множественной регрессии с набором из р факторов; R 2 xi x1x2…x i-1 x i+1…xp — коэффициент детерминации для зависимости фактора xi с остальными факторами множественной регрессии.

Полученные значения t-критериев сравниваются с табличными, и на основе этого сравнения принимается или отвергается гипотеза о значимости каждого коэффициента регрессии в отдельности.

Дата добавления: 2015-10-05 ; просмотров: 5673 ; ЗАКАЗАТЬ НАПИСАНИЕ РАБОТЫ

Оценка качества уравнения множественной регрессии

В случае множественной регрессии оценка его качества включает в себя:

— оценку значимости уравнения регрессии в целом;

— оценку значимости параметров уравнения регрессии.

Качество модели множественной регрессии в целом оценивается с помощью показателя детерминации, определяемого как квадрат показателя множественной корреляции R 2 .

Значение показателя детерминации зависит от числа факторов, включенных в уравнение регрессии. Чем больше число факторов m, тем больше значение показателя детерминации R 2 приближается к единице. Поэтому на практике, чтобы исключить возможное завышение тесноты связи при оценке качества уравнения регрессии, используют скорректированный показатель детерминации:

.

Низкое значение показателя детерминации означает, что в регрессионную модель не включены существенные факторы — с одной стороны, а с другой стороны — рассматриваемая форма связи не отражает реальные соотношения между переменными, включенными в модель. В этом случае требуются дальнейшие исследования по улучшению качества модели и увеличению ее практической важности.

Значимость уравнения множественной регрессии в целом, также как и в парной регрессии, оценивается с помощью F-критерия Фишера:

или .

Во множественной регрессии часто оценивается значимость не только уравнения в целом, но и значимость фактора, дополнительно включенного в регрессионную модель. Необходимость такой оценки связана с тем, что не каждый фактор, вошедший в модель, может существенно увеличить долю объясненной вариации результативного признака. Кроме того, при наличии в модели нескольких факторов они могут вводится в модель в разной последовательности. Ввиду корреляции между факторами значимость одного и того же фактора может быть разной в зависимости от последовательности его введения в модель. Мерой для оценки значимости включения фактора xi в регрессионную модель после того как в нее уже включены факторы x1, x2. xi-1, xi+1. xm служит частный критерий Фишера . Значение частного F-критерия определяется по формуле

,

где — показатель детерминации, определенный без включения в модель регрессии фактора xi.

Расчетные значения частных F-криетриев сравниваются с табличным значением при заданной доверительной вероятности p и числах степеней свободы k1=1 и k2=nm-1. Если расчетное значение превышает табличное, то дополнительное включение фактора xi в модель статистически оправдано и коэффициент чистой регрессии bi при факторе xi статистически значим.

Таким образом, с помощью частных F-криериев можно проверить значимость всех коэффициентов регрессии с учетом предположения, что каждый соответствующий фактор xi вводится в уравнение множественной регрессии последним.

Частные F-критерии часто используются на стадии формирования уравнения регрессии.

На основе частных F-критериев могут определены расчетные значения t-криериев Стьюдента для оценки значимости коэффициентов чистой регрессии bi:

.

Оценка значимости коэффициентов множественной регрессии по критерию Стьюдента может быть проведена и без расчета частных F-критериев. В этом случае, как и в парной регрессии, используется формула

,

где — стандартная ошибка коэффициента регрессии bi.

Для линейного уравнения множественной регрессии стандартные ошибки коэффициентов чистой регрессии определяются по формуле:

.

Расчетные значения t-критерия Стьюдента сравниваются с табличным при заданном уровне значимости a и числе степеней свободы k=nm-1. Если расчетное значение превышает табличное, то коэффициент регрессии bi является статистически значимым. т. е. существенно отличается от нуля.


источники:

http://helpiks.org/5-52721.html

http://megaobuchalka.ru/7/5033.html