Проверка гипотезы о значимости коэффициентов модели парной регрессии
Проверкой статистической гипотезы о значимости отдельных параметров модели называется проверка предположения о том, что данные параметры значимо отличаются от нуля.
Необходимость проверки гипотез о значимости параметров модели вызвана тем, что в дальнейшем построенную модель будут использовать для дальнейших экономических расчётов.
Предположим, что по данным выборочной совокупности была построена линейная модель парной регрессии. Задача состоит в проверке значимости оценок неизвестных коэффициентов модели, полученных методом наименьших квадратов.
Основная гипотеза состоит в предположении о незначимости коэффициентов регрессии, т. е.
Обратная или конкурирующая гипотеза состоит в предположении о значимости коэффициентов регрессии, т.е.
Данные гипотезы проверяются с помощью t-критерия Стьюдента.
Наблюдаемое значение t-критерия (вычисленное на основе выборочных данных) сравнивают со значением t-критерия, которое определяется по таблице распределения Стьюдента и называется критическим.
Критическое значение t-критерия зависит от уровня значимости и числа степеней свободы.
Уровнем значимостиа называется величина, которая рассчитывается по формуле:
где γ – это доверительная вероятность попадания оцениваемого параметра в доверительный интервал. Значение доверительной вероятности должно быть близким к единице, например, 0.95, 0.99. Следовательно, уровень значимости а можно определить как вероятность того, что оцениваемый параметр не попадёт в доверительный интервал.
Числом степеней свободы называется показатель, который рассчитывается как разность между объёмом выборочной совокупности n и числом оцениваемых параметров по данной выборке h. Для линейной модели парной регрессии число степеней свободы рассчитывается как (n-2), потому что по данным выборочной совокупности оцениваются только два параметра – β0 и β1.
Таким образом, критическое значение t-критерия Стьюдента определяется как tкрит(а;n-h).
При проверке основной гипотезы вида Н0:β1=0 наблюдаемое значение t-критерия Стьюдента рассчитывается по формуле:
где – оценка параметра модели регрессии β1;
ω(β1) – величина стандартной ошибки параметра модели регрессии β1.
Показатель стандартной ошибки параметра модели регрессии β1 для линейной модели парной регрессии рассчитывается по формуле:
Числитель стандартной ошибки может быть рассчитан через парный коэффициент детерминации следующим образом:
где G 2 (y) – общая дисперсия зависимой переменной;
r2yx – парный коэффициент детерминации между зависимой и независимой переменными.
При проверке основной гипотезы β0=0 наблюдаемое значение t-критерия Стьюдента рассчитывается по формуле:
где – оценка параметра модели регрессии β0;
ω(β0) – величина стандартной ошибки параметра модели регрессии β0.
Показатель стандартной ошибки параметра β0 модели регрессии для линейной модели парной регрессии рассчитывается по формуле:
При проверке основных гипотез возможны следующие ситуации:
Если наблюдаемое значение t-критерия (вычисленное по выборочным данным) по модулю больше критического значения t-критерия (определённого по таблице распределения Стьюдента), т. е. |tнабл|›tкрит, то с вероятностью (1-а) или γ основная гипотеза о незначимости параметров модели регрессии отвергается.
Если наблюдаемое значение t-критерия (вычисленное по выборочным данным) по модулю меньше или равно критического значения t-критерия (определённого по таблице распределения Стьюдента), т. е. |tнабл|≤tкрит, то с вероятностью а или (1-γ) основная гипотеза о незначимости параметров модели регрессии принимается.
Пример нахождения статистической значимости коэффициентов регрессии
Числитель в этой формуле может быть рассчитан через коэффициент детерминации и общую дисперсию признака-результата: .
Для параметра a критерий проверки гипотезы о незначимом отличии его от нуля имеет вид:
,
где — оценка параметра регрессии, полученная по наблюдаемым данным;
μa – стандартная ошибка параметра a.
Для линейного парного уравнения регрессии:
.
Для проверки гипотезы о незначимом отличии от нуля коэффициента линейной парной корреляции в генеральной совокупности используют следующий критерий:
, где ryx — оценка коэффициента корреляции, полученная по наблюдаемым данным; mr – стандартная ошибка коэффициента корреляции ryx.
Для линейного парного уравнения регрессии:
.
В парной линейной регрессии между наблюдаемыми значениями критериев существует взаимосвязь: t ( b =0) = t (r=0).
Пример №1 . Уравнение имеет вид y=ax+b
1. Параметры уравнения регрессии.
Средние значения
Связь между признаком Y фактором X сильная и прямая
Уравнение регрессии
Коэффициент детерминации
R 2 = 0.73 2 = 0.54, т.е. в 54% случаев изменения х приводят к изменению y . Другими словами — точность подбора уравнения регрессии — средняя.
x | y | x 2 | y 2 | x ∙ y | y(x) | (y-y cp ) 2 | (y-y(x)) 2 | (x-x p ) 2 |
69 | 124 | 4761 | 15376 | 8556 | 128.48 | 491.36 | 20.11 | 367.36 |
83 | 133 | 6889 | 17689 | 11039 | 141.4 | 173.36 | 70.56 | 26.69 |
92 | 146 | 8464 | 21316 | 13432 | 149.7 | 0.03 | 13.71 | 14.69 |
97 | 153 | 9409 | 23409 | 14841 | 154.32 | 46.69 | 1.73 | 78.03 |
88 | 138 | 7744 | 19044 | 12144 | 146.01 | 66.69 | 64.21 | 0.03 |
93 | 159 | 8649 | 25281 | 14787 | 150.63 | 164.69 | 70.13 | 23.36 |
74 | 145 | 5476 | 21025 | 10730 | 133.1 | 1.36 | 141.68 | 200.69 |
79 | 152 | 6241 | 23104 | 12008 | 137.71 | 34.03 | 204.21 | 84.03 |
105 | 168 | 11025 | 28224 | 17640 | 161.7 | 476.69 | 39.74 | 283.36 |
99 | 154 | 9801 | 23716 | 15246 | 156.16 | 61.36 | 4.67 | 117.36 |
85 | 127 | 7225 | 16129 | 10795 | 143.25 | 367.36 | 263.91 | 10.03 |
94 | 155 | 8836 | 24025 | 14570 | 151.55 | 78.03 | 11.91 | 34.03 |
1058 | 1754 | 94520 | 258338 | 155788 | 1754 | 1961.67 | 906.57 | 1239.67 |
Значимость коэффициента корреляции
По таблице Стьюдента находим Tтабл
Tтабл (n-m-1;a) = (10;0.05) = 1.812
Поскольку Tнабл > Tтабл , то отклоняем гипотезу о равенстве 0 коэффициента корреляции. Другими словами, коэффициента корреляции статистически — значим.
Анализ точности определения оценок коэффициентов регрессии
S a = 0.2704
Доверительные интервалы для зависимой переменной
Рассчитаем границы интервала, в котором будет сосредоточено 95% возможных значений Y при неограниченно большом числе наблюдений и X = 88,16
(128.06;163.97)
Проверка гипотез относительно коэффициентов линейного уравнения регрессии
1) t-статистика
Статистическая значимость коэффициента регрессии a подтверждается (3.41>1.812).
Статистическая значимость коэффициента регрессии b подтверждается (2.7>1.812).
Доверительный интервал для коэффициентов уравнения регрессии
Определим доверительные интервалы коэффициентов регрессии, которые с надежность 95% будут следующими (tтабл=1.812):
(a — tтабл·S a; a + tтабл·Sa)
(0.4325;1.4126)
(b — tтабл·S b; b + tтабл·Sb)
(21.3389;108.3164)
2) F-статистики
Fkp = 4.96
Поскольку F > Fkp, то коэффициент детерминации статистически значим.
Пример №2 . По территориям региона приводятся данные за 199Х г.;
Среднедневная заработная плата, руб., у | ||
1 | 78 | 133 |
2 | 82 | 148 |
3 | 87 | 134 |
4 | 79 | 154 |
5 | 89 | 162 |
6 | 106 | 195 |
7 | 67 | 139 |
8 | 88 | 158 |
9 | 73 | 152 |
10 | 87 | 162 |
11 | 76 | 159 |
12 | 115 | 173 |
1. Построить линейное уравнение парной регрессии у от х.
2. Рассчитать линейный коэффициент парной корреляции и среднюю ошибку аппроксимации.
3. Оценить статистическую значимость параметров регрессии и корреляции.
4. Выполнить прогноз заработной платы у при прогнозном значении среднедушевого прожиточного минимума х , составляющем 107% от среднего уровня.
5. Оценить точность прогноза, рассчитав ошибку прогноза и его доверительный интервал.
Решение находим с помощью калькулятора.
Использование графического метода .
Этот метод применяют для наглядного изображения формы связи между изучаемыми экономическими показателями. Для этого в прямоугольной системе координат строят график, по оси ординат откладывают индивидуальные значения результативного признака Y, а по оси абсцисс — индивидуальные значения факторного признака X.
Совокупность точек результативного и факторного признаков называется полем корреляции.
На основании поля корреляции можно выдвинуть гипотезу (для генеральной совокупности) о том, что связь между всеми возможными значениями X и Y носит линейный характер.
Линейное уравнение регрессии имеет вид y = bx + a + ε
Здесь ε — случайная ошибка (отклонение, возмущение).
Причины существования случайной ошибки:
1. Невключение в регрессионную модель значимых объясняющих переменных;
2. Агрегирование переменных. Например, функция суммарного потребления – это попытка общего выражения совокупности решений отдельных индивидов о расходах. Это лишь аппроксимация отдельных соотношений, которые имеют разные параметры.
3. Неправильное описание структуры модели;
4. Неправильная функциональная спецификация;
5. Ошибки измерения.
Так как отклонения εi для каждого конкретного наблюдения i – случайны и их значения в выборке неизвестны, то:
1) по наблюдениям xi и yi можно получить только оценки параметров α и β
2) Оценками параметров α и β регрессионной модели являются соответственно величины а и b, которые носят случайный характер, т.к. соответствуют случайной выборке;
Тогда оценочное уравнение регрессии (построенное по выборочным данным) будет иметь вид y = bx + a + ε, где ei – наблюдаемые значения (оценки) ошибок εi, а и b соответственно оценки параметров α и β регрессионной модели, которые следует найти.
Для оценки параметров α и β — используют МНК (метод наименьших квадратов).
Система нормальных уравнений.
Для наших данных система уравнений имеет вид
12a+1027b=1869
1027a+89907b=161808
Из первого уравнения выражаем а и подставим во второе уравнение. Получаем b = 0.92, a = 76.98
Уравнение регрессии: y = 0.92 x + 76.98
1. Параметры уравнения регрессии.
Выборочные средние.
Коэффициент корреляции
Рассчитываем показатель тесноты связи. Таким показателем является выборочный линейный коэффициент корреляции, который рассчитывается по формуле:
Линейный коэффициент корреляции принимает значения от –1 до +1.
Связи между признаками могут быть слабыми и сильными (тесными). Их критерии оцениваются по шкале Чеддока:
0.1 0 – прямая связь, иначе — обратная). В нашем примере связь прямая.
Коэффициент эластичности.
Коэффициенты регрессии (в примере b) нежелательно использовать для непосредственной оценки влияния факторов на результативный признак в том случае, если существует различие единиц измерения результативного показателя у и факторного признака х.
Для этих целей вычисляются коэффициенты эластичности и бета — коэффициенты. Коэффициент эластичности находится по формуле:
Он показывает, на сколько процентов в среднем изменяется результативный признак у при изменении факторного признака х на 1%. Он не учитывает степень колеблемости факторов.
Коэффициент эластичности меньше 1. Следовательно, при изменении среднедушевого прожиточного минимума в день на 1%, среднедневная заработная плата изменится менее чем на 1%. Другими словами — влияние среднедушевого прожиточного минимума Х на среднедневную заработную плату Y не существенно.
Бета – коэффициент показывает, на какую часть величины своего среднего квадратичного отклонения изменится в среднем значение результативного признака при изменении факторного признака на величину его среднеквадратического отклонения при фиксированном на постоянном уровне значении остальных независимых переменных:
Т.е. увеличение x на величину среднеквадратического отклонения этого показателя приведет к увеличению средней среднедневной заработной платы Y на 0.721 среднеквадратичного отклонения этого показателя.
1.4. Ошибка аппроксимации.
Оценим качество уравнения регрессии с помощью ошибки абсолютной аппроксимации.
Поскольку ошибка меньше 15%, то данное уравнение можно использовать в качестве регрессии.
Коэффициент детерминации.
Квадрат (множественного) коэффициента корреляции называется коэффициентом детерминации, который показывает долю вариации результативного признака, объясненную вариацией факторного признака.
Чаще всего, давая интерпретацию коэффициента детерминации, его выражают в процентах.
R 2 = 0.72 2 = 0.5199, т.е. в 51.99 % случаев изменения среднедушевого прожиточного минимума х приводят к изменению среднедневной заработной платы y. Другими словами — точность подбора уравнения регрессии — средняя. Остальные 48.01% изменения среднедневной заработной платы Y объясняются факторами, не учтенными в модели.
y 2 | x·y | y(x) | (y i — y ) 2 | (y-y(x)) 2 | (x i — x ) 2 | |y-y x |:y | |||
78 | 133 | 6084 | 17689 | 10374 | 148,77 | 517,56 | 248,7 | 57,51 | 0,1186 |
82 | 148 | 6724 | 21904 | 12136 | 152,45 | 60,06 | 19,82 | 12,84 | 0,0301 |
87 | 134 | 7569 | 17956 | 11658 | 157,05 | 473,06 | 531,48 | 2,01 | 0,172 |
79 | 154 | 6241 | 23716 | 12166 | 149,69 | 3,06 | 18,57 | 43,34 | 0,028 |
89 | 162 | 7921 | 26244 | 14418 | 158,89 | 39,06 | 9,64 | 11,67 | 0,0192 |
106 | 195 | 11236 | 38025 | 20670 | 174,54 | 1540,56 | 418,52 | 416,84 | 0,1049 |
67 | 139 | 4489 | 19321 | 9313 | 138,65 | 280,56 | 0,1258 | 345,34 | 0,0026 |
88 | 158 | 7744 | 24964 | 13904 | 157,97 | 5,06 | 0,0007 | 5,84 | 0,0002 |
73 | 152 | 5329 | 23104 | 11096 | 144,17 | 14,06 | 61,34 | 158,34 | 0,0515 |
87 | 162 | 7569 | 26244 | 14094 | 157,05 | 39,06 | 24,46 | 2,01 | 0,0305 |
76 | 159 | 5776 | 25281 | 12084 | 146,93 | 10,56 | 145,7 | 91,84 | 0,0759 |
115 | 173 | 13225 | 29929 | 19895 | 182,83 | 297,56 | 96,55 | 865,34 | 0,0568 |
1027 | 1869 | 89907 | 294377 | 161808 | 1869 | 3280,25 | 1574,92 | 2012,92 | 0,6902 |
2.1. Значимость коэффициента корреляции.
По таблице Стьюдента с уровнем значимости α=0.05 и степенями свободы k=10 находим tкрит:
tкрит = (10;0.05) = 1.812
где m = 1 — количество объясняющих переменных.
Если tнабл > tкритич, то полученное значение коэффициента корреляции признается значимым (нулевая гипотеза, утверждающая равенство нулю коэффициента корреляции, отвергается).
Поскольку tнабл > tкрит, то отклоняем гипотезу о равенстве 0 коэффициента корреляции. Другими словами, коэффициент корреляции статистически — значим.
В парной линейной регрессии t 2 r = t 2 b и тогда проверка гипотез о значимости коэффициентов регрессии и корреляции равносильна проверке гипотезы о существенности линейного уравнения регрессии.
2.3. Анализ точности определения оценок коэффициентов регрессии.
Несмещенной оценкой дисперсии возмущений является величина:
S 2 y = 157.4922 — необъясненная дисперсия (мера разброса зависимой переменной вокруг линии регрессии).
12.5496 — стандартная ошибка оценки (стандартная ошибка регрессии).
S a — стандартное отклонение случайной величины a.
Sb — стандартное отклонение случайной величины b.
2.4. Доверительные интервалы для зависимой переменной.
Экономическое прогнозирование на основе построенной модели предполагает, что сохраняются ранее существовавшие взаимосвязи переменных и на период упреждения.
Для прогнозирования зависимой переменной результативного признака необходимо знать прогнозные значения всех входящих в модель факторов.
Прогнозные значения факторов подставляют в модель и получают точечные прогнозные оценки изучаемого показателя.
(a + bxp ± ε)
где
Рассчитаем границы интервала, в котором будет сосредоточено 95% возможных значений Y при неограниченно большом числе наблюдений и X p = 94
(76.98 + 0.92*94 ± 7.8288)
(155.67;171.33)
С вероятностью 95% можно гарантировать, что значения Y при неограниченно большом числе наблюдений не выйдет за пределы найденных интервалов.
2.5. Проверка гипотез относительно коэффициентов линейного уравнения регрессии.
1) t-статистика. Критерий Стьюдента.
Проверим гипотезу H0 о равенстве отдельных коэффициентов регрессии нулю (при альтернативе H1 не равно) на уровне значимости α=0.05.
tкрит = (10;0.05) = 1.812
Поскольку 3.2906 > 1.812, то статистическая значимость коэффициента регрессии b подтверждается (отвергаем гипотезу о равенстве нулю этого коэффициента).
Поскольку 3.1793 > 1.812, то статистическая значимость коэффициента регрессии a подтверждается (отвергаем гипотезу о равенстве нулю этого коэффициента).
Доверительный интервал для коэффициентов уравнения регрессии.
Определим доверительные интервалы коэффициентов регрессии, которые с надежность 95% будут следующими:
(b — tкрит Sb; b + tкрит Sb)
(0.9204 — 1.812·0.2797; 0.9204 + 1.812·0.2797)
(0.4136;1.4273)
С вероятностью 95% можно утверждать, что значение данного параметра будут лежать в найденном интервале.
(a-ta)
(76.9765 — 1.812·24.2116; 76.9765 + 1.812·24.2116)
(33.1051;120.8478)
С вероятностью 95% можно утверждать, что значение данного параметра будут лежать в найденном интервале.
2) F-статистики. Критерий Фишера.
Проверка значимости модели регрессии проводится с использованием F-критерия Фишера, расчетное значение которого находится как отношение дисперсии исходного ряда наблюдений изучаемого показателя и несмещенной оценки дисперсии остаточной последовательности для данной модели.
Если расчетное значение с k1=(m) и k2=(n-m-1) степенями свободы больше табличного при заданном уровне значимости, то модель считается значимой.
где m – число факторов в модели.
Оценка статистической значимости парной линейной регрессии производится по следующему алгоритму:
1. Выдвигается нулевая гипотеза о том, что уравнение в целом статистически незначимо: H0: R 2 =0 на уровне значимости α.
2. Далее определяют фактическое значение F-критерия:
где m=1 для парной регрессии.
3. Табличное значение определяется по таблицам распределения Фишера для заданного уровня значимости, принимая во внимание, что число степеней свободы для общей суммы квадратов (большей дисперсии) равно 1 и число степеней свободы остаточной суммы квадратов (меньшей дисперсии) при линейной регрессии равно n-2.
4. Если фактическое значение F-критерия меньше табличного, то говорят, что нет основания отклонять нулевую гипотезу.
В противном случае, нулевая гипотеза отклоняется и с вероятностью (1-α) принимается альтернативная гипотеза о статистической значимости уравнения в целом.
Табличное значение критерия со степенями свободы k1=1 и k2=10, Fkp = 4.96
Поскольку фактическое значение F > Fkp, то коэффициент детерминации статистически значим (Найденная оценка уравнения регрессии статистически надежна).
Вопрос №11.Проверка гипотез о значимости параметров регрессии и уравнение регрессии в целом.
При помощи способа меньших квадратов мы получили только оценки характеристик уравнения регрессии. Чтоб проверить, значимы ли эти характеристики (т. е. значимо ли они отличаются от нуля в «истинном» уравнении регрессе y =b0 + b1∙x + u), употребляют статистические способы проверки гипотез. При помощи статистических способов проверки гипотез можно также проверить значимость коэффициента парной линейной корреляции (т. е. значимо ли он отличается от нуля в генеральной совокупы).
В качестве основной догадки (H0) выдвигают догадку о незначимом отличии от нуля «истинного» параметра регрессии либо коэффициента корреляции. Кандидатурой догадкой (Н1) при всем этом является догадка оборотная, т.е. о неравенстве нулю «истинного» параметра либо коэффициента корреляции. Мы заинтересованы в том, чтоб основная догадка была отвергнута. Для проверки этой догадки; употребляется t-статистика аспекта проверки догадки, имеющая рассредотачивание Стьюдента.
Отысканное по данным наблюдений значение t-статистики (его еще именуют наблюдаемым либо фактическим) сравнивается с критичным значением t -статистики, определяемым по таблицам рассредотачивания Стьюдента (которые обычно приводятся в конце учебников и практикумов по статистике либо эконометрике). Критичное значение определяется зависимо от уровня значимости ( ) и числа степеней свободы, которое равно (n – h), n — число наблюдений, h — число оцениваемых характеристик в уравнении регрессии. В случае линейной парной регрессии h= 2, а число степеней свободы равно (n – 2). Критичное значение может быть также вычислено на компьютере при помощи интегрированной функции СТЬЮДРАСПОБР пакета Ехcеl.
Если фактическое значение t-статистики, взятое по модулю, больше критичного, то основную догадку отторгают и считают, что с вероятностью ( ) «истинный» параметр регрессии (или коэффициент корреляции) значимо отличается от нуля.
Если фактическое значение t-статистики (по модулю) меньше критичного, то нет оснований отторгать основную догадку, т. е. «истинный» параметр регрессии (или коэффициент корреляции) незначимо отличается от нуля при уровне значимости .
Для проверки догадки: b1=0 статистика аспекта проверки имеет вид:
где — оценка коэффициента регрессии b1 приобретенная по наблюдаемым данным;
— стандартная ошибка оценки коэффициента регрессии .
Для линейного парного уравнения регрессий стандартная ошибка коэффициента рассчитывается по формуле:
Числитель в этой формуле может быть просто рассчитан через коэффициент детерминации и общую дисперсию признака-результата:
Для проверки догадки: b0=0 статистика аспекта проверки догадки имеет вид:
где — оценка параметра регрессии b0, приобретенная по наблюдаемым данным;
— стандартная ошибка оценки параметра .
Для линейного парного уравнения регрессии:
Для проверки догадки о незначимом отличии от нуля «истинного» коэффициента линейной парной корреляции употребляют статистику аспекта:
– оценка коэффициента корреляции, приобретенная по наблюдаемым данным (выборочный коэффициент корреляции);
– стандартная ошибка выборочного коэффициента корреляции .
Для линейного парного уравнения регрессии:
В парной линейной регрессии меж наблюдаемыми значениями статистик критериев существует связь: .
Рассмотренная формула статистики аспекта проверки догадки о незначимом отличии от нуля коэффициента корреляции рекомендуется к применению, если:
1) число наблюдений (n) огромное;
2) величина не близка к единице.
Если же величина выборочного коэффициента корреляции по модулю близка к 1, то рассредотачивание его оценок отличается от рассредотачивания Стьюдента. В этом случае употребляют подход, предложенный Р. Фишером, а конкретно, для оценки значимости линейного парного коэффициента корреляции r вводится вспомогательная величина z, связанная c данным коэффициентом последующим отношением:
Величину z можно не рассчитывать, а пользоваться готовыми таблицами z-преобразования, в каких приведены значения z для соответственных значений .
При изменении от –1 до +1 величина z меняется от –¥ до +¥, что соответствует нормальному рассредотачиванию. Математический анализ обосновывает, что рассредотачивание величины z не много отличается от обычного даже при близких к единице значениях коэффициента корреляции.
Тогда догадка о том, что «истинный» коэффициент корреляции незначимо отличается от нуля, сводится к догадке о незначимом отличии от нуля величины z. Для проверки данной догадки употребляют статистику аспекта: . Стандартная ошибка определяется по формуле:
где п — число наблюдений.
Критичное значение t-статистики — tкрнаходят по таблицам стандартного обычного рассредотачивания по доверительной вероятности ( ). Основную догадку отторгают, если .
Оценка значимости уравнения регрессии делается для того, чтоб выяснить, применимо уравнение регрессии для практического использования (к примеру, для прогноза) илинет. При всем этом выдвигают основную догадку о незначимости уравнения в целом, которая формально сводится к догадке о равенстве нулю характеристик регрессии, либо, что тоже самое, о равенстве нулю коэффициента детерминации R2=0. Другая ей догадка о значимости уравнения – догадка о неравенстве нулю характеристик регрессии либо о неравенстве нулю коэффициента детерминации:
Для ее проверки употребляют F-статистику аспекта проверки догадки: , где n –число наблюдений; h – число оцениваемых характеристик. Данная статистика имеет рассредотачивание Фишера-Снедоккора.
По таблицам рассредотачивания Фишера-Снедоккора находят критичное значение F-критерия зависимо от уровня значимости (обычно его берут равным 0,05) и 2-ух чисел степеней свободы k1=h – 1 и k2 = n – h.
Ассоциируют значение F-критерия, рассчитанное по данным подборки — Fнабл с критичным значением . Если , то догадку о незначимости уравнения регрессии не отторгают. Если , то выдвинутую догадку отторгают и принимают альтернативную догадку о статистической значимости уравнения регрессии.
Вопрос №12.Интервальная оценка параметров модели множественной регрессии.
- Интервальная оценка функции регрессии и ее параметров
В прогнозных расчетах по уравнению регрессии определяется предсказываемое (ур) значение как точечный прогноз ŷx при хр=хк, то есть путем подстановки в уравнение регрессии ŷx=a+b*x соответствующего значения х 12 . однако точечный прогноз явно не реален. Поэтому он дополняется расчетом стандартной ошибки ŷx, то есть mŷx, и соответственно интервальной оценкой прогнозного значения (у * )
что бы понять, как строится формула для определения величины стандартной ошибки ŷx, обратимся к уравнению линейной регрессии: ŷx=a+b*x. Подставим в это уравнение выражение параметра а: a=y-b*x, тогда уравнение регрессии примет вид: ŷx= y-b*x+b*x=у+ b(x-x).
Отсюда вытекает, что стандартная ошибка mŷx зависит от ошибки у и ошибки коэффициента регрессии b, то есть:
Из теории выборки известно, что my 2 = σ 2 /n. Используя в качестве оценки σ 2 остаточную дисперсию на одну степень свободы S 2 , получим формулу расчета ошибки среднего значения переменной у:
Считая, что прогнозное значение фактора хз=хк, получим следующую формулу расчета стандартной ошибки предсказываемого по линии регрессии значения, то есть mŷx:
Рассмотренная формула стандартной ошибки предсказываемого среднего значения у при заданном значении xk характеризует ошибку положения линии регрессии. Величина стандартной ошибки mŷx, как видно из формулы, достигает минимума при хк=х, и возрастает по мере того, как «удаляется» от х в любом направлении. Иными словами, чем больше разность между хк и х, тем больше ошибка mŷx с которой предсказывается среднее значение у для заданного значения хк. Можно ожидать наилучшие результаты прогноза, если признак-фактор х находится в центре области наблюдений х и нельзя ожидать хороших результатов прогноза при удалении хк от х. Если же значение хк оказывается за пределами наблюдаемых значений х, используемых при построении линейной регрессии, то результаты прогноза ухудшаются в зависимости от того, насколько хк отклоняется от области наблюдаемых значений фактора х.
Фактические значения у варьируются около среднего значения ŷx. Индивидуальные значения у могут отклоняться от ŷx на величину случайной ошибки ε, дисперсия которой оценивается как остаточная дисперсия на одну степень свободы S 2 . Поэтому ошибка предсказываемого индивидуального значения у должна включать не только стандартную ошибку mŷx, но и случайную ошибку S.
http://math.semestr.ru/corel/prim3.php
http://zdamsam.ru/a22227.html