Оценка статистической значимости параметров уравнения множественной регрессии

Пример нахождения статистической значимости коэффициентов регрессии

Числитель в этой формуле может быть рассчитан через коэффициент детерминации и общую дисперсию признака-результата: .
Для параметра a критерий проверки гипотезы о незначимом отличии его от нуля имеет вид:
,
где — оценка параметра регрессии, полученная по наблюдаемым данным;
μa – стандартная ошибка параметра a.
Для линейного парного уравнения регрессии:
.
Для проверки гипотезы о незначимом отличии от нуля коэффициента линейной парной корреляции в генеральной совокупности используют следующий критерий:
, где ryx — оценка коэффициента корреляции, полученная по наблюдаемым данным; mr – стандартная ошибка коэффициента корреляции ryx.
Для линейного парного уравнения регрессии:
.
В парной линейной регрессии между наблюдаемыми значениями критериев существует взаимосвязь: t ( b =0) = t (r=0).

Пример №1 . Уравнение имеет вид y=ax+b
1. Параметры уравнения регрессии.
Средние значения

Связь между признаком Y фактором X сильная и прямая
Уравнение регрессии

Коэффициент детерминации
R 2 = 0.73 2 = 0.54, т.е. в 54% случаев изменения х приводят к изменению y . Другими словами — точность подбора уравнения регрессии — средняя.

xyx 2y 2x ∙ yy(x)(y-y cp ) 2(y-y(x)) 2(x-x p ) 2
691244761153768556128.48491.3620.11367.36
8313368891768911039141.4173.3670.5626.69
9214684642131613432149.70.0313.7114.69
9715394092340914841154.3246.691.7378.03
8813877441904412144146.0166.6964.210.03
9315986492528114787150.63164.6970.1323.36
7414554762102510730133.11.36141.68200.69
7915262412310412008137.7134.03204.2184.03
105168110252822417640161.7476.6939.74283.36
9915498012371615246156.1661.364.67117.36
8512772251612910795143.25367.36263.9110.03
9415588362402514570151.5578.0311.9134.03
105817549452025833815578817541961.67906.571239.67
2. Оценка параметров уравнения регрессии
Значимость коэффициента корреляции

По таблице Стьюдента находим Tтабл
Tтабл (n-m-1;a) = (10;0.05) = 1.812
Поскольку Tнабл > Tтабл , то отклоняем гипотезу о равенстве 0 коэффициента корреляции. Другими словами, коэффициента корреляции статистически — значим.

Анализ точности определения оценок коэффициентов регрессии

S a = 0.2704
Доверительные интервалы для зависимой переменной

Рассчитаем границы интервала, в котором будет сосредоточено 95% возможных значений Y при неограниченно большом числе наблюдений и X = 88,16
(128.06;163.97)
Проверка гипотез относительно коэффициентов линейного уравнения регрессии
1) t-статистика

Статистическая значимость коэффициента регрессии a подтверждается (3.41>1.812).

Статистическая значимость коэффициента регрессии b подтверждается (2.7>1.812).
Доверительный интервал для коэффициентов уравнения регрессии
Определим доверительные интервалы коэффициентов регрессии, которые с надежность 95% будут следующими (tтабл=1.812):
(a — tтабл·S a; a + tтабл·Sa)
(0.4325;1.4126)
(b — tтабл·S b; b + tтабл·Sb)
(21.3389;108.3164)
2) F-статистики

Fkp = 4.96
Поскольку F > Fkp, то коэффициент детерминации статистически значим.

Пример №2 . По территориям региона приводятся данные за 199Х г.;

Среднедневная заработная плата, руб., у
178133
282148
387134
479154
589162
6106195
767139
888158
973152
1087162
1176159
12115173
Требуется:
1. Построить линейное уравнение парной регрессии у от х.
2. Рассчитать линейный коэффициент парной корреляции и среднюю ошибку аппроксимации.
3. Оценить статистическую значимость параметров регрессии и корреляции.
4. Выполнить прогноз заработной платы у при прогнозном значении среднедушевого прожиточного минимума х , составляющем 107% от среднего уровня.
5. Оценить точность прогноза, рассчитав ошибку прогноза и его доверительный интервал.

Решение находим с помощью калькулятора.
Использование графического метода .
Этот метод применяют для наглядного изображения формы связи между изучаемыми экономическими показателями. Для этого в прямоугольной системе координат строят график, по оси ординат откладывают индивидуальные значения результативного признака Y, а по оси абсцисс — индивидуальные значения факторного признака X.
Совокупность точек результативного и факторного признаков называется полем корреляции.
На основании поля корреляции можно выдвинуть гипотезу (для генеральной совокупности) о том, что связь между всеми возможными значениями X и Y носит линейный характер.
Линейное уравнение регрессии имеет вид y = bx + a + ε
Здесь ε — случайная ошибка (отклонение, возмущение).
Причины существования случайной ошибки:
1. Невключение в регрессионную модель значимых объясняющих переменных;
2. Агрегирование переменных. Например, функция суммарного потребления – это попытка общего выражения совокупности решений отдельных индивидов о расходах. Это лишь аппроксимация отдельных соотношений, которые имеют разные параметры.
3. Неправильное описание структуры модели;
4. Неправильная функциональная спецификация;
5. Ошибки измерения.
Так как отклонения εi для каждого конкретного наблюдения i – случайны и их значения в выборке неизвестны, то:
1) по наблюдениям xi и yi можно получить только оценки параметров α и β
2) Оценками параметров α и β регрессионной модели являются соответственно величины а и b, которые носят случайный характер, т.к. соответствуют случайной выборке;
Тогда оценочное уравнение регрессии (построенное по выборочным данным) будет иметь вид y = bx + a + ε, где ei – наблюдаемые значения (оценки) ошибок εi, а и b соответственно оценки параметров α и β регрессионной модели, которые следует найти.
Для оценки параметров α и β — используют МНК (метод наименьших квадратов).
Система нормальных уравнений.
Для наших данных система уравнений имеет вид
12a+1027b=1869
1027a+89907b=161808
Из первого уравнения выражаем а и подставим во второе уравнение. Получаем b = 0.92, a = 76.98
Уравнение регрессии: y = 0.92 x + 76.98
1. Параметры уравнения регрессии.
Выборочные средние.

Коэффициент корреляции
Рассчитываем показатель тесноты связи. Таким показателем является выборочный линейный коэффициент корреляции, который рассчитывается по формуле:

Линейный коэффициент корреляции принимает значения от –1 до +1.
Связи между признаками могут быть слабыми и сильными (тесными). Их критерии оцениваются по шкале Чеддока:
0.1 0 – прямая связь, иначе — обратная). В нашем примере связь прямая.
Коэффициент эластичности.
Коэффициенты регрессии (в примере b) нежелательно использовать для непосредственной оценки влияния факторов на результативный признак в том случае, если существует различие единиц измерения результативного показателя у и факторного признака х.
Для этих целей вычисляются коэффициенты эластичности и бета — коэффициенты. Коэффициент эластичности находится по формуле:

Он показывает, на сколько процентов в среднем изменяется результативный признак у при изменении факторного признака х на 1%. Он не учитывает степень колеблемости факторов.
Коэффициент эластичности меньше 1. Следовательно, при изменении среднедушевого прожиточного минимума в день на 1%, среднедневная заработная плата изменится менее чем на 1%. Другими словами — влияние среднедушевого прожиточного минимума Х на среднедневную заработную плату Y не существенно.
Бета – коэффициент показывает, на какую часть величины своего среднего квадратичного отклонения изменится в среднем значение результативного признака при изменении факторного признака на величину его среднеквадратического отклонения при фиксированном на постоянном уровне значении остальных независимых переменных:

Т.е. увеличение x на величину среднеквадратического отклонения этого показателя приведет к увеличению средней среднедневной заработной платы Y на 0.721 среднеквадратичного отклонения этого показателя.
1.4. Ошибка аппроксимации.
Оценим качество уравнения регрессии с помощью ошибки абсолютной аппроксимации.

Поскольку ошибка меньше 15%, то данное уравнение можно использовать в качестве регрессии.
Коэффициент детерминации.
Квадрат (множественного) коэффициента корреляции называется коэффициентом детерминации, который показывает долю вариации результативного признака, объясненную вариацией факторного признака.
Чаще всего, давая интерпретацию коэффициента детерминации, его выражают в процентах.
R 2 = 0.72 2 = 0.5199, т.е. в 51.99 % случаев изменения среднедушевого прожиточного минимума х приводят к изменению среднедневной заработной платы y. Другими словами — точность подбора уравнения регрессии — средняя. Остальные 48.01% изменения среднедневной заработной платы Y объясняются факторами, не учтенными в модели.

y 2x·yy(x)(y i — y ) 2(y-y(x)) 2(x i — x ) 2|y-y x |:y
7813360841768910374148,77517,56248,757,510,1186
8214867242190412136152,4560,0619,8212,840,0301
8713475691795611658157,05473,06531,482,010,172
7915462412371612166149,693,0618,5743,340,028
8916279212624414418158,8939,069,6411,670,0192
106195112363802520670174,541540,56418,52416,840,1049
671394489193219313138,65280,560,1258345,340,0026
8815877442496413904157,975,060,00075,840,0002
7315253292310411096144,1714,0661,34158,340,0515
8716275692624414094157,0539,0624,462,010,0305
7615957762528112084146,9310,56145,791,840,0759
115173132252992919895182,83297,5696,55865,340,0568
102718698990729437716180818693280,251574,922012,920,6902
2. Оценка параметров уравнения регрессии.
2.1. Значимость коэффициента корреляции.

По таблице Стьюдента с уровнем значимости α=0.05 и степенями свободы k=10 находим tкрит:
tкрит = (10;0.05) = 1.812
где m = 1 — количество объясняющих переменных.
Если tнабл > tкритич, то полученное значение коэффициента корреляции признается значимым (нулевая гипотеза, утверждающая равенство нулю коэффициента корреляции, отвергается).
Поскольку tнабл > tкрит, то отклоняем гипотезу о равенстве 0 коэффициента корреляции. Другими словами, коэффициент корреляции статистически — значим.
В парной линейной регрессии t 2 r = t 2 b и тогда проверка гипотез о значимости коэффициентов регрессии и корреляции равносильна проверке гипотезы о существенности линейного уравнения регрессии.

2.3. Анализ точности определения оценок коэффициентов регрессии.
Несмещенной оценкой дисперсии возмущений является величина:

S 2 y = 157.4922 — необъясненная дисперсия (мера разброса зависимой переменной вокруг линии регрессии).

12.5496 — стандартная ошибка оценки (стандартная ошибка регрессии).
S a — стандартное отклонение случайной величины a.

Sb — стандартное отклонение случайной величины b.

2.4. Доверительные интервалы для зависимой переменной.
Экономическое прогнозирование на основе построенной модели предполагает, что сохраняются ранее существовавшие взаимосвязи переменных и на период упреждения.
Для прогнозирования зависимой переменной результативного признака необходимо знать прогнозные значения всех входящих в модель факторов.
Прогнозные значения факторов подставляют в модель и получают точечные прогнозные оценки изучаемого показателя.
(a + bxp ± ε)
где
Рассчитаем границы интервала, в котором будет сосредоточено 95% возможных значений Y при неограниченно большом числе наблюдений и X p = 94

(76.98 + 0.92*94 ± 7.8288)
(155.67;171.33)
С вероятностью 95% можно гарантировать, что значения Y при неограниченно большом числе наблюдений не выйдет за пределы найденных интервалов.
2.5. Проверка гипотез относительно коэффициентов линейного уравнения регрессии.
1) t-статистика. Критерий Стьюдента.
Проверим гипотезу H0 о равенстве отдельных коэффициентов регрессии нулю (при альтернативе H1 не равно) на уровне значимости α=0.05.
tкрит = (10;0.05) = 1.812

Поскольку 3.2906 > 1.812, то статистическая значимость коэффициента регрессии b подтверждается (отвергаем гипотезу о равенстве нулю этого коэффициента).

Поскольку 3.1793 > 1.812, то статистическая значимость коэффициента регрессии a подтверждается (отвергаем гипотезу о равенстве нулю этого коэффициента).
Доверительный интервал для коэффициентов уравнения регрессии.
Определим доверительные интервалы коэффициентов регрессии, которые с надежность 95% будут следующими:
(b — tкрит Sb; b + tкрит Sb)
(0.9204 — 1.812·0.2797; 0.9204 + 1.812·0.2797)
(0.4136;1.4273)
С вероятностью 95% можно утверждать, что значение данного параметра будут лежать в найденном интервале.
(a-ta)
(76.9765 — 1.812·24.2116; 76.9765 + 1.812·24.2116)
(33.1051;120.8478)
С вероятностью 95% можно утверждать, что значение данного параметра будут лежать в найденном интервале.
2) F-статистики. Критерий Фишера.
Проверка значимости модели регрессии проводится с использованием F-критерия Фишера, расчетное значение которого находится как отношение дисперсии исходного ряда наблюдений изучаемого показателя и несмещенной оценки дисперсии остаточной последовательности для данной модели.
Если расчетное значение с k1=(m) и k2=(n-m-1) степенями свободы больше табличного при заданном уровне значимости, то модель считается значимой.

где m – число факторов в модели.
Оценка статистической значимости парной линейной регрессии производится по следующему алгоритму:
1. Выдвигается нулевая гипотеза о том, что уравнение в целом статистически незначимо: H0: R 2 =0 на уровне значимости α.
2. Далее определяют фактическое значение F-критерия:

где m=1 для парной регрессии.
3. Табличное значение определяется по таблицам распределения Фишера для заданного уровня значимости, принимая во внимание, что число степеней свободы для общей суммы квадратов (большей дисперсии) равно 1 и число степеней свободы остаточной суммы квадратов (меньшей дисперсии) при линейной регрессии равно n-2.
4. Если фактическое значение F-критерия меньше табличного, то говорят, что нет основания отклонять нулевую гипотезу.
В противном случае, нулевая гипотеза отклоняется и с вероятностью (1-α) принимается альтернативная гипотеза о статистической значимости уравнения в целом.
Табличное значение критерия со степенями свободы k1=1 и k2=10, Fkp = 4.96
Поскольку фактическое значение F > Fkp, то коэффициент детерминации статистически значим (Найденная оценка уравнения регрессии статистически надежна).

Оценка значимости уравнения множественной регрессии

Построение эмпирического уравнения регрессии является начальным этапом эконометрического анализа. Первое же построенное по выборке уравнение регрессии очень редко является удовлетворительным по тем или иным характеристикам. Поэтому следующей важнейшей задачей эконометрического анализа является проверка качества уравнения регрессии. В эконометрике принята устоявшаяся схема такой проверки.

Итак, проверка статистического качества оцененного уравнения регрессии проводится по следующим направлениям:

· проверка значимости уравнения регрессии;

· проверка статистической значимости коэффициентов уравнения регрессии;

· проверка свойств данных, выполнимость которых предполагалась при оценивании уравнения (проверка выполнимости предпосылок МНК).

Проверка значимости уравнения множественной регрессии, так же как и парной регрессии, осуществляется с помощью критерия Фишера. В данном случае (в отличие от парной регрессии) выдвигается нулевая гипотеза Н0 о том, что все коэффициенты регрессии равны нулю (b1=0, b2=0, … , bm=0). Критерий Фишера определяется по следующей формуле:

где Dфакт — факторная дисперсия, объясненная регрессией, на одну степень свободы; Dост— остаточная дисперсия на одну степень свободы; R 2 — коэффициент множественной детерминации; т — число параметров при факторах х в уравнении регрессии (в парной линейной регрессии т = 1); п — число наблюдений.

Полученное значение F-критерия сравнивается с табличным при определенном уровне значимости. Если его фактическое значение больше табличного, тогда гипотеза Но о незначимости уравнения регрессии отвергается, и принимается альтернативная гипотеза о его статистической значимости.

С помощью критерия Фишера можно оценить значимость не только уравнения регрессии в целом, но и значимость дополнительного включения в модель каждого фактора. Такая оценка необходима для того, чтобы не загружать модель факторами, не оказывающими существенного влияния на результат. Кроме того, поскольку модель состоит из несколько факторов, то они могут вводиться в нее в различной последовательности, а так как между факторами существует корреляция, значимость включения в модель одного и того же фактора может различаться в зависимости от последовательности введения в нее факторов.

Для оценки значимости включения дополнительного фактора в модель рассчитывается частный критерий Фишера Fxi. Он построен на сравнении прироста факторной дисперсии, обусловленного включением в модель дополнительного фактора, с остаточной дисперсией на одну степень свободы по регрессии в целом. Следовательно, формула расчета частного F-критерия для фактора будет иметь следующий вид:

где R 2 yx1x2…xixp коэффициент множественной детерминации для модели с полным набором п факторов; R 2 yx1x2…x i-1 x i+1…xp — коэффициент множественной детерминации для модели, не включающей фактор xi; п — число наблюдений; т — число параметров при факторах x в уравнении регрессии.

Фактическое значение частного критерия Фишера сравнивается с табличным при уровне значимости 0,05 или 0,1 и соответствующих числах степеней свободы. Если фактическое значение Fxi превышает Fтабл , то дополнительное включение фактора xi в модель статистически оправдано, и коэффициент «чистой» регрессии bi при факторе xi статистически значим. Если же Fxi меньше Fтабл , то дополнительное включение в модель фактора существенно не увеличивает долю объясненной вариации результата у, и, следовательно, его включение в модель не имеет смысла, коэффициент регрессии при данном факторе в этом случае статистически незначим.

С помощью частного критерия Фишера можно проверить значимость всех коэффициентов регрессии в предположении, что каждый соответствующий фактор xi вводится в уравнение множественной регрессии последним, а все остальные факторы были уже включены в модель раньше.

Оценка значимости коэффициентов «чистой» регрессии bi по критерию Стьюдента t может быть проведена и без расчета частных F-критериев. В этом случае, как и при парной регрессии, для каждого фактора применяется формула

где bi — коэффициент «чистой» регрессии при факторе xi ; mbi — стандартная ошибка коэффициента регрессии bi .

Для множественной линейной регрессии стандартная ошибка коэффициента регрессии рассчитывается по следующей формуле:

где σy , σxi — среднее квадратическое отклонение соответственно для результата у и xi ; R 2 yx1x2…xixp — коэффициент множественной детерминации для множественной регрессии с набором из р факторов; R 2 xi x1x2…x i-1 x i+1…xp — коэффициент детерминации для зависимости фактора xi с остальными факторами множественной регрессии.

Полученные значения t-критериев сравниваются с табличными, и на основе этого сравнения принимается или отвергается гипотеза о значимости каждого коэффициента регрессии в отдельности.

Дата добавления: 2015-10-05 ; просмотров: 5694 ; ЗАКАЗАТЬ НАПИСАНИЕ РАБОТЫ

Проверка статистической значимости коэффициентов уравнения множественной регрессии

Построение эмпирического уравнения регрессии — начальный этап эконометрического анализа. Первое же построенное по выборке уравнение регрессии очень редко является удовлетворительным по тем или иным характеристикам. Поэтому следующей важнейшей задачей эконометрики анализа будет проверка качества уравнения регрессии. Проверка качества уравнения регрессии проводится по следующим параметрам:

  • проверка статистической значимости коэффициентов регрессионного уравнения;
  • проверка качества уравнения регрессии в целом;
  • проверка свойств данных, выполнимость которых предполагалась при оценивании уравнения (проверка выполняемости предпосылок МНК).

Как и в случае парной регрессии, статистическая значимость коэффициентов множественной линейной регрессии с m объясняющими переменными проверяется на основе t-статистики:

имеющей в данной ситуации распределение Стьюдента с числом степеней свободы α = n — m — 1 (n — объем выборки, m — количество объясняющих переменных в модели). При требуемом уровне значимости наблюдаемое α значение t-статистики сравнивается с критической точкой t α/2;n-m-1 распределения Стьюдента.

Если | t | > t α/2;n-m-1, то коэффициент bj считается статистически значимым. В противном случае коэффициент bj считается статистически незначимым статистически близким к нулю. Это означает, что фактор Xj линейно не связан с зависимой переменной Y. Наличие этого фактора среди объясняющих переменных не оправдано со статистической точки зрения. Он не оказывает сколько-нибудь серьезного влияния на зависимую переменную, а лишь искажает реальную картину взаимосвязи. Если коэффициент bj статистически незначим, рекомендуется исключить из уравнения регрессии переменную Xj. Это не приведет к существенной потере качества модели, но сделает ее более конкретной.

Стандартную задачу по эконометрике на проверку значимости можете посмотреть на этой странице.


источники:

http://helpiks.org/5-52721.html

http://univer-nn.ru/ekonometrika/proverka-statisticheskoj-znachimosti-koefficientov-uravneniya-mnozhestvennoj-regressii/