Проверка гипотезы о незначимости уравнения регрессии

Проверка гипотезы о значимости коэффициентов модели парной регрессии

Проверкой статистической гипотезы о значимости отдельных параметров модели называется проверка предположения о том, что данные параметры значимо отличаются от нуля.

Необходимость проверки гипотез о значимости параметров модели вызвана тем, что в дальнейшем построенную модель будут использовать для дальнейших экономических расчётов.

Предположим, что по данным выборочной совокупности была построена линейная модель парной регрессии. Задача состоит в проверке значимости оценок неизвестных коэффициентов модели, полученных методом наименьших квадратов.

Основная гипотеза состоит в предположении о незначимости коэффициентов регрессии, т. е.

Обратная или конкурирующая гипотеза состоит в предположении о значимости коэффициентов регрессии, т.е.

Данные гипотезы проверяются с помощью t-критерия Стьюдента.

Наблюдаемое значение t-критерия (вычисленное на основе выборочных данных) сравнивают со значением t-критерия, которое определяется по таблице распределения Стьюдента и называется критическим.

Критическое значение t-критерия зависит от уровня значимости и числа степеней свободы.

Уровнем значимостиа называется величина, которая рассчитывается по формуле:

где γ – это доверительная вероятность попадания оцениваемого параметра в доверительный интервал. Значение доверительной вероятности должно быть близким к единице, например, 0.95, 0.99. Следовательно, уровень значимости а можно определить как вероятность того, что оцениваемый параметр не попадёт в доверительный интервал.

Числом степеней свободы называется показатель, который рассчитывается как разность между объёмом выборочной совокупности n и числом оцениваемых параметров по данной выборке h. Для линейной модели парной регрессии число степеней свободы рассчитывается как (n-2), потому что по данным выборочной совокупности оцениваются только два параметра – β0 и β1.

Таким образом, критическое значение t-критерия Стьюдента определяется как tкрит(а;n-h).

При проверке основной гипотезы вида Н01=0 наблюдаемое значение t-критерия Стьюдента рассчитывается по формуле:

где – оценка параметра модели регрессии β1;

ω(β1) – величина стандартной ошибки параметра модели регрессии β1.

Показатель стандартной ошибки параметра модели регрессии β1 для линейной модели парной регрессии рассчитывается по формуле:

Числитель стандартной ошибки может быть рассчитан через парный коэффициент детерминации следующим образом:

где G 2 (y) – общая дисперсия зависимой переменной;

r2yx – парный коэффициент детерминации между зависимой и независимой переменными.

При проверке основной гипотезы β0=0 наблюдаемое значение t-критерия Стьюдента рассчитывается по формуле:

где – оценка параметра модели регрессии β0;

ω(β0) – величина стандартной ошибки параметра модели регрессии β0.

Показатель стандартной ошибки параметра β0 модели регрессии для линейной модели парной регрессии рассчитывается по формуле:

При проверке основных гипотез возможны следующие ситуации:

Если наблюдаемое значение t-критерия (вычисленное по выборочным данным) по модулю больше критического значения t-критерия (определённого по таблице распределения Стьюдента), т. е. |tнабл|›tкрит, то с вероятностью (1-а) или γ основная гипотеза о незначимости параметров модели регрессии отвергается.

Если наблюдаемое значение t-критерия (вычисленное по выборочным данным) по модулю меньше или равно критического значения t-критерия (определённого по таблице распределения Стьюдента), т. е. |tнабл|≤tкрит, то с вероятностью а или (1-γ) основная гипотеза о незначимости параметров модели регрессии принимается.

Пример нахождения статистической значимости коэффициентов регрессии

Числитель в этой формуле может быть рассчитан через коэффициент детерминации и общую дисперсию признака-результата: .
Для параметра a критерий проверки гипотезы о незначимом отличии его от нуля имеет вид:
,
где — оценка параметра регрессии, полученная по наблюдаемым данным;
μa – стандартная ошибка параметра a.
Для линейного парного уравнения регрессии:
.
Для проверки гипотезы о незначимом отличии от нуля коэффициента линейной парной корреляции в генеральной совокупности используют следующий критерий:
, где ryx — оценка коэффициента корреляции, полученная по наблюдаемым данным; mr – стандартная ошибка коэффициента корреляции ryx.
Для линейного парного уравнения регрессии:
.
В парной линейной регрессии между наблюдаемыми значениями критериев существует взаимосвязь: t ( b =0) = t (r=0).

Пример №1 . Уравнение имеет вид y=ax+b
1. Параметры уравнения регрессии.
Средние значения

Связь между признаком Y фактором X сильная и прямая
Уравнение регрессии

Коэффициент детерминации
R 2 = 0.73 2 = 0.54, т.е. в 54% случаев изменения х приводят к изменению y . Другими словами — точность подбора уравнения регрессии — средняя.

xyx 2y 2x ∙ yy(x)(y-y cp ) 2(y-y(x)) 2(x-x p ) 2
691244761153768556128.48491.3620.11367.36
8313368891768911039141.4173.3670.5626.69
9214684642131613432149.70.0313.7114.69
9715394092340914841154.3246.691.7378.03
8813877441904412144146.0166.6964.210.03
9315986492528114787150.63164.6970.1323.36
7414554762102510730133.11.36141.68200.69
7915262412310412008137.7134.03204.2184.03
105168110252822417640161.7476.6939.74283.36
9915498012371615246156.1661.364.67117.36
8512772251612910795143.25367.36263.9110.03
9415588362402514570151.5578.0311.9134.03
105817549452025833815578817541961.67906.571239.67
2. Оценка параметров уравнения регрессии
Значимость коэффициента корреляции

По таблице Стьюдента находим Tтабл
Tтабл (n-m-1;a) = (10;0.05) = 1.812
Поскольку Tнабл > Tтабл , то отклоняем гипотезу о равенстве 0 коэффициента корреляции. Другими словами, коэффициента корреляции статистически — значим.

Анализ точности определения оценок коэффициентов регрессии

S a = 0.2704
Доверительные интервалы для зависимой переменной

Рассчитаем границы интервала, в котором будет сосредоточено 95% возможных значений Y при неограниченно большом числе наблюдений и X = 88,16
(128.06;163.97)
Проверка гипотез относительно коэффициентов линейного уравнения регрессии
1) t-статистика

Статистическая значимость коэффициента регрессии a подтверждается (3.41>1.812).

Статистическая значимость коэффициента регрессии b подтверждается (2.7>1.812).
Доверительный интервал для коэффициентов уравнения регрессии
Определим доверительные интервалы коэффициентов регрессии, которые с надежность 95% будут следующими (tтабл=1.812):
(a — tтабл·S a; a + tтабл·Sa)
(0.4325;1.4126)
(b — tтабл·S b; b + tтабл·Sb)
(21.3389;108.3164)
2) F-статистики

Fkp = 4.96
Поскольку F > Fkp, то коэффициент детерминации статистически значим.

Пример №2 . По территориям региона приводятся данные за 199Х г.;

Среднедневная заработная плата, руб., у
178133
282148
387134
479154
589162
6106195
767139
888158
973152
1087162
1176159
12115173
Требуется:
1. Построить линейное уравнение парной регрессии у от х.
2. Рассчитать линейный коэффициент парной корреляции и среднюю ошибку аппроксимации.
3. Оценить статистическую значимость параметров регрессии и корреляции.
4. Выполнить прогноз заработной платы у при прогнозном значении среднедушевого прожиточного минимума х , составляющем 107% от среднего уровня.
5. Оценить точность прогноза, рассчитав ошибку прогноза и его доверительный интервал.

Решение находим с помощью калькулятора.
Использование графического метода .
Этот метод применяют для наглядного изображения формы связи между изучаемыми экономическими показателями. Для этого в прямоугольной системе координат строят график, по оси ординат откладывают индивидуальные значения результативного признака Y, а по оси абсцисс — индивидуальные значения факторного признака X.
Совокупность точек результативного и факторного признаков называется полем корреляции.
На основании поля корреляции можно выдвинуть гипотезу (для генеральной совокупности) о том, что связь между всеми возможными значениями X и Y носит линейный характер.
Линейное уравнение регрессии имеет вид y = bx + a + ε
Здесь ε — случайная ошибка (отклонение, возмущение).
Причины существования случайной ошибки:
1. Невключение в регрессионную модель значимых объясняющих переменных;
2. Агрегирование переменных. Например, функция суммарного потребления – это попытка общего выражения совокупности решений отдельных индивидов о расходах. Это лишь аппроксимация отдельных соотношений, которые имеют разные параметры.
3. Неправильное описание структуры модели;
4. Неправильная функциональная спецификация;
5. Ошибки измерения.
Так как отклонения εi для каждого конкретного наблюдения i – случайны и их значения в выборке неизвестны, то:
1) по наблюдениям xi и yi можно получить только оценки параметров α и β
2) Оценками параметров α и β регрессионной модели являются соответственно величины а и b, которые носят случайный характер, т.к. соответствуют случайной выборке;
Тогда оценочное уравнение регрессии (построенное по выборочным данным) будет иметь вид y = bx + a + ε, где ei – наблюдаемые значения (оценки) ошибок εi, а и b соответственно оценки параметров α и β регрессионной модели, которые следует найти.
Для оценки параметров α и β — используют МНК (метод наименьших квадратов).
Система нормальных уравнений.
Для наших данных система уравнений имеет вид
12a+1027b=1869
1027a+89907b=161808
Из первого уравнения выражаем а и подставим во второе уравнение. Получаем b = 0.92, a = 76.98
Уравнение регрессии: y = 0.92 x + 76.98
1. Параметры уравнения регрессии.
Выборочные средние.

Коэффициент корреляции
Рассчитываем показатель тесноты связи. Таким показателем является выборочный линейный коэффициент корреляции, который рассчитывается по формуле:

Линейный коэффициент корреляции принимает значения от –1 до +1.
Связи между признаками могут быть слабыми и сильными (тесными). Их критерии оцениваются по шкале Чеддока:
0.1 0 – прямая связь, иначе — обратная). В нашем примере связь прямая.
Коэффициент эластичности.
Коэффициенты регрессии (в примере b) нежелательно использовать для непосредственной оценки влияния факторов на результативный признак в том случае, если существует различие единиц измерения результативного показателя у и факторного признака х.
Для этих целей вычисляются коэффициенты эластичности и бета — коэффициенты. Коэффициент эластичности находится по формуле:

Он показывает, на сколько процентов в среднем изменяется результативный признак у при изменении факторного признака х на 1%. Он не учитывает степень колеблемости факторов.
Коэффициент эластичности меньше 1. Следовательно, при изменении среднедушевого прожиточного минимума в день на 1%, среднедневная заработная плата изменится менее чем на 1%. Другими словами — влияние среднедушевого прожиточного минимума Х на среднедневную заработную плату Y не существенно.
Бета – коэффициент показывает, на какую часть величины своего среднего квадратичного отклонения изменится в среднем значение результативного признака при изменении факторного признака на величину его среднеквадратического отклонения при фиксированном на постоянном уровне значении остальных независимых переменных:

Т.е. увеличение x на величину среднеквадратического отклонения этого показателя приведет к увеличению средней среднедневной заработной платы Y на 0.721 среднеквадратичного отклонения этого показателя.
1.4. Ошибка аппроксимации.
Оценим качество уравнения регрессии с помощью ошибки абсолютной аппроксимации.

Поскольку ошибка меньше 15%, то данное уравнение можно использовать в качестве регрессии.
Коэффициент детерминации.
Квадрат (множественного) коэффициента корреляции называется коэффициентом детерминации, который показывает долю вариации результативного признака, объясненную вариацией факторного признака.
Чаще всего, давая интерпретацию коэффициента детерминации, его выражают в процентах.
R 2 = 0.72 2 = 0.5199, т.е. в 51.99 % случаев изменения среднедушевого прожиточного минимума х приводят к изменению среднедневной заработной платы y. Другими словами — точность подбора уравнения регрессии — средняя. Остальные 48.01% изменения среднедневной заработной платы Y объясняются факторами, не учтенными в модели.

y 2x·yy(x)(y i — y ) 2(y-y(x)) 2(x i — x ) 2|y-y x |:y
7813360841768910374148,77517,56248,757,510,1186
8214867242190412136152,4560,0619,8212,840,0301
8713475691795611658157,05473,06531,482,010,172
7915462412371612166149,693,0618,5743,340,028
8916279212624414418158,8939,069,6411,670,0192
106195112363802520670174,541540,56418,52416,840,1049
671394489193219313138,65280,560,1258345,340,0026
8815877442496413904157,975,060,00075,840,0002
7315253292310411096144,1714,0661,34158,340,0515
8716275692624414094157,0539,0624,462,010,0305
7615957762528112084146,9310,56145,791,840,0759
115173132252992919895182,83297,5696,55865,340,0568
102718698990729437716180818693280,251574,922012,920,6902
2. Оценка параметров уравнения регрессии.
2.1. Значимость коэффициента корреляции.

По таблице Стьюдента с уровнем значимости α=0.05 и степенями свободы k=10 находим tкрит:
tкрит = (10;0.05) = 1.812
где m = 1 — количество объясняющих переменных.
Если tнабл > tкритич, то полученное значение коэффициента корреляции признается значимым (нулевая гипотеза, утверждающая равенство нулю коэффициента корреляции, отвергается).
Поскольку tнабл > tкрит, то отклоняем гипотезу о равенстве 0 коэффициента корреляции. Другими словами, коэффициент корреляции статистически — значим.
В парной линейной регрессии t 2 r = t 2 b и тогда проверка гипотез о значимости коэффициентов регрессии и корреляции равносильна проверке гипотезы о существенности линейного уравнения регрессии.

2.3. Анализ точности определения оценок коэффициентов регрессии.
Несмещенной оценкой дисперсии возмущений является величина:

S 2 y = 157.4922 — необъясненная дисперсия (мера разброса зависимой переменной вокруг линии регрессии).

12.5496 — стандартная ошибка оценки (стандартная ошибка регрессии).
S a — стандартное отклонение случайной величины a.

Sb — стандартное отклонение случайной величины b.

2.4. Доверительные интервалы для зависимой переменной.
Экономическое прогнозирование на основе построенной модели предполагает, что сохраняются ранее существовавшие взаимосвязи переменных и на период упреждения.
Для прогнозирования зависимой переменной результативного признака необходимо знать прогнозные значения всех входящих в модель факторов.
Прогнозные значения факторов подставляют в модель и получают точечные прогнозные оценки изучаемого показателя.
(a + bxp ± ε)
где
Рассчитаем границы интервала, в котором будет сосредоточено 95% возможных значений Y при неограниченно большом числе наблюдений и X p = 94

(76.98 + 0.92*94 ± 7.8288)
(155.67;171.33)
С вероятностью 95% можно гарантировать, что значения Y при неограниченно большом числе наблюдений не выйдет за пределы найденных интервалов.
2.5. Проверка гипотез относительно коэффициентов линейного уравнения регрессии.
1) t-статистика. Критерий Стьюдента.
Проверим гипотезу H0 о равенстве отдельных коэффициентов регрессии нулю (при альтернативе H1 не равно) на уровне значимости α=0.05.
tкрит = (10;0.05) = 1.812

Поскольку 3.2906 > 1.812, то статистическая значимость коэффициента регрессии b подтверждается (отвергаем гипотезу о равенстве нулю этого коэффициента).

Поскольку 3.1793 > 1.812, то статистическая значимость коэффициента регрессии a подтверждается (отвергаем гипотезу о равенстве нулю этого коэффициента).
Доверительный интервал для коэффициентов уравнения регрессии.
Определим доверительные интервалы коэффициентов регрессии, которые с надежность 95% будут следующими:
(b — tкрит Sb; b + tкрит Sb)
(0.9204 — 1.812·0.2797; 0.9204 + 1.812·0.2797)
(0.4136;1.4273)
С вероятностью 95% можно утверждать, что значение данного параметра будут лежать в найденном интервале.
(a-ta)
(76.9765 — 1.812·24.2116; 76.9765 + 1.812·24.2116)
(33.1051;120.8478)
С вероятностью 95% можно утверждать, что значение данного параметра будут лежать в найденном интервале.
2) F-статистики. Критерий Фишера.
Проверка значимости модели регрессии проводится с использованием F-критерия Фишера, расчетное значение которого находится как отношение дисперсии исходного ряда наблюдений изучаемого показателя и несмещенной оценки дисперсии остаточной последовательности для данной модели.
Если расчетное значение с k1=(m) и k2=(n-m-1) степенями свободы больше табличного при заданном уровне значимости, то модель считается значимой.

где m – число факторов в модели.
Оценка статистической значимости парной линейной регрессии производится по следующему алгоритму:
1. Выдвигается нулевая гипотеза о том, что уравнение в целом статистически незначимо: H0: R 2 =0 на уровне значимости α.
2. Далее определяют фактическое значение F-критерия:

где m=1 для парной регрессии.
3. Табличное значение определяется по таблицам распределения Фишера для заданного уровня значимости, принимая во внимание, что число степеней свободы для общей суммы квадратов (большей дисперсии) равно 1 и число степеней свободы остаточной суммы квадратов (меньшей дисперсии) при линейной регрессии равно n-2.
4. Если фактическое значение F-критерия меньше табличного, то говорят, что нет основания отклонять нулевую гипотезу.
В противном случае, нулевая гипотеза отклоняется и с вероятностью (1-α) принимается альтернативная гипотеза о статистической значимости уравнения в целом.
Табличное значение критерия со степенями свободы k1=1 и k2=10, Fkp = 4.96
Поскольку фактическое значение F > Fkp, то коэффициент детерминации статистически значим (Найденная оценка уравнения регрессии статистически надежна).

Вопрос №11.Проверка гипотез о значимости параметров регрессии и уравнение регрессии в целом.

При помощи способа меньших квадратов мы получили только оценки характеристик уравнения регрессии. Чтоб проверить, значимы ли эти характеристики (т. е. значимо ли они отличаются от нуля в «истинном» уравнении регрессе y =b0 + b1∙x + u), употребляют статистические способы проверки гипотез. При помощи статистических способов проверки гипотез можно также проверить значимость коэффициента парной линейной корреляции (т. е. значимо ли он отличается от нуля в генеральной совокупы).

В качестве основной догадки (H0) выдвигают догадку о незначимом отличии от нуля «истинного» параметра регрессии либо коэффициента корреляции. Кандидатурой догадкой (Н1) при всем этом является догадка оборотная, т.е. о неравенстве нулю «истинного» параметра либо коэффициента корреляции. Мы заинтересованы в том, чтоб основная догадка была отвергнута. Для проверки этой догадки; употребляется t-статистика аспекта проверки догадки, имеющая рассредотачивание Стьюдента.

Отысканное по данным наблюдений значение t-статистики (его еще именуют наблюдаемым либо фактическим) сравнивается с критичным значением t -статистики, определяемым по таблицам рассредотачивания Стьюдента (которые обычно приводятся в конце учебников и практикумов по статистике либо эконометрике). Критичное значение определяется зависимо от уровня значимости ( ) и числа степеней свободы, которое равно (n – h), n — число наблюдений, h — число оцениваемых характеристик в уравнении регрессии. В случае линейной парной регрессии h= 2, а число степеней свободы равно (n – 2). Критичное значение может быть также вычислено на компьютере при помощи интегрированной функции СТЬЮДРАСПОБР пакета Ехcеl.

Если фактическое значение t-статистики, взятое по модулю, больше критичного, то основную догадку отторгают и считают, что с вероятностью ( ) «истинный» параметр регрессии (или коэффициент корреляции) значимо отличается от нуля.

Если фактическое значение t-статистики (по модулю) меньше критичного, то нет оснований отторгать основную догадку, т. е. «истинный» параметр регрессии (или коэффициент корреляции) незначимо отличается от нуля при уровне значимости .

Для проверки догадки: b1=0 статистика аспекта проверки имеет вид:

где — оценка коэффициента регрессии b1 приобретенная по наблюдаемым данным;

— стандартная ошибка оценки коэффициента регрессии .

Для линейного парного уравнения регрессий стандартная ошибка коэффициента рассчитывается по формуле:

Числитель в этой формуле может быть просто рассчитан через коэффициент детерминации и общую дисперсию признака-результата:

Для проверки догадки: b0=0 статистика аспекта проверки догадки имеет вид:

где — оценка параметра регрессии b0, приобретенная по наблюдаемым данным;

— стандартная ошибка оценки параметра .

Для линейного парного уравнения регрессии:

Для проверки догадки о незначимом отличии от нуля «истинного» коэффициента линейной парной корреляции употребляют статистику аспекта:

– оценка коэффициента корреляции, приобретенная по наблюдаемым данным (выборочный коэффициент корреляции);

– стандартная ошибка выборочного коэффициента корреляции .

Для линейного парного уравнения регрессии:

В парной линейной регрессии меж наблюдаемыми значениями статистик критериев существует связь: .

Рассмотренная формула статистики аспекта проверки догадки о незначимом отличии от нуля коэффициента корреляции рекомендуется к применению, если:

1) число наблюдений (n) огромное;

2) величина не близка к единице.

Если же величина выборочного коэффициента корреляции по модулю близка к 1, то рассредотачивание его оценок отличается от рассредотачивания Стьюдента. В этом случае употребляют подход, предложенный Р. Фишером, а конкретно, для оценки значимости линейного парного коэффициента корреляции r вводится вспомогательная величина z, связанная c данным коэффициентом последующим отношением:

Величину z можно не рассчитывать, а пользоваться готовыми таблицами z-преобразования, в каких приведены значения z для соответственных значений .

При изменении от –1 до +1 величина z меняется от –¥ до +¥, что соответствует нормальному рассредотачиванию. Математический анализ обосновывает, что рассредотачивание величины z не много отличается от обычного даже при близких к единице значениях коэффициента корреляции.

Тогда догадка о том, что «истинный» коэффициент корреляции незначимо отличается от нуля, сводится к догадке о незначимом отличии от нуля величины z. Для проверки данной догадки употребляют статистику аспекта: . Стандартная ошибка определяется по формуле:

где п — число наблюдений.

Критичное значение t-статистики — tкрнаходят по таблицам стандартного обычного рассредотачивания по доверительной вероятности ( ). Основную догадку отторгают, если .

Оценка значимости уравнения регрессии делается для того, чтоб выяснить, применимо уравнение регрессии для практического использования (к примеру, для прогноза) илинет. При всем этом выдвигают основную догадку о незначимости уравнения в целом, которая формально сводится к догадке о равенстве нулю характеристик регрессии, либо, что тоже самое, о равенстве нулю коэффициента детерминации R2=0. Другая ей догадка о значимости уравнения – догадка о неравенстве нулю характеристик регрессии либо о неравенстве нулю коэффициента детерминации:

Для ее проверки употребляют F-статистику аспекта проверки догадки: , где n –число наблюдений; h – число оцениваемых характеристик. Данная статистика имеет рассредотачивание Фишера-Снедоккора.

По таблицам рассредотачивания Фишера-Снедоккора находят критичное значение F-критерия зависимо от уровня значимости (обычно его берут равным 0,05) и 2-ух чисел степеней свободы k1=h – 1 и k2 = n – h.

Ассоциируют значение F-критерия, рассчитанное по данным подборки — Fнабл с критичным значением . Если , то догадку о незначимости уравнения регрессии не отторгают. Если , то выдвинутую догадку отторгают и принимают альтернативную догадку о статистической значимости уравнения регрессии.

Вопрос №12.Интервальная оценка параметров модели множественной регрессии.

    1. Интервальная оценка функции регрессии и ее параметров

В прогнозных расчетах по уравнению регрессии определяется предсказываемое (ур) значение как точечный прогноз ŷx при хрк, то есть путем подстановки в уравнение регрессии ŷx=a+b*x соответствующего значения х 12 . однако точечный прогноз явно не реален. Поэтому он дополняется расчетом стандартной ошибки ŷx, то есть mŷx, и соответственно интервальной оценкой прогнозного значения (у * )

что бы понять, как строится формула для определения величины стандартной ошибки ŷx, обратимся к уравнению линейной регрессии: ŷx=a+b*x. Подставим в это уравнение выражение параметра а: a=y-b*x, тогда уравнение регрессии примет вид: ŷx= y-b*x+b*x=у+ b(x-x).

Отсюда вытекает, что стандартная ошибка mŷx зависит от ошибки у и ошибки коэффициента регрессии b, то есть:

Из теории выборки известно, что my 2 = σ 2 /n. Используя в качестве оценки σ 2 остаточную дисперсию на одну степень свободы S 2 , получим формулу расчета ошибки среднего значения переменной у:

Считая, что прогнозное значение фактора хзк, получим следующую формулу расчета стандартной ошибки предсказываемого по линии регрессии значения, то есть mŷx:

Рассмотренная формула стандартной ошибки предсказываемого среднего значения у при заданном значении xk характеризует ошибку положения линии регрессии. Величина стандартной ошибки mŷx, как видно из формулы, достигает минимума при хк=х, и возрастает по мере того, как «удаляется» от х в любом направлении. Иными словами, чем больше разность между хк и х, тем больше ошибка mŷx с которой предсказывается среднее значение у для заданного значения хк. Можно ожидать наилучшие результаты прогноза, если признак-фактор х находится в центре области наблюдений х и нельзя ожидать хороших результатов прогноза при удалении хк от х. Если же значение хк оказывается за пределами наблюдаемых значений х, используемых при построении линейной регрессии, то результаты прогноза ухудшаются в зависимости от того, насколько хк отклоняется от области наблюдаемых значений фактора х.

Фактические значения у варьируются около среднего значения ŷx. Индивидуальные значения у могут отклоняться от ŷx на величину случайной ошибки ε, дисперсия которой оценивается как остаточная дисперсия на одну степень свободы S 2 . Поэтому ошибка предсказываемого индивидуального значения у должна включать не только стандартную ошибку mŷx, но и случайную ошибку S.


источники:

http://math.semestr.ru/corel/prim3.php

http://zdamsam.ru/a22227.html