Доверительный интервал для уравнения регрессии

Расчет доверительных интервалов и прогнозов для линейного уравнения регрессии

Как правило, в линейной регрессии обычно оценивается значимость не только уравнения в целом, но и отдельных его параметров.Показатели корреляционной связи, вычисленные по ограничен­ной совокупности (по выборке), являются лишь оценками той или иной статистической закономерности, поскольку в любом парамет­ре сохраняется элемент не полностью погасившейся случайности, присущей индивидуальным значениям признаков. Поэтому необхо­дима статистическая оценка степени точности и надежности пара­метров корреляции. Под надежностью здесь понимается вероятность того, что значение проверяемого параметра не равно нулю, не вклю­чает в себя величины противоположных знаков.

Вероятностная оценка параметров корреляции производится по общим правилам проверки статистических гипотез, разработанным математической статистикой, в частности путем сравнения оцени­ваемой величины со средней случайной ошибкой оценки. Для ко­эффициента парной регрессии b средняя ошибка оценки вычисля­ется как:

где Dост – остаточная дисперсия на одну степень свободы.

Для нашего примера величина стандартной ошибки коэффициента регрессии составила:

.

Для оценки того, насколько точные значения показателей могут отличаться от рассчитанных, осуществляется построение доверительных интервалов. Они определяют пределы, в которых лежат точные значения определяемых показателей с заданной степенью точности, соответствующей заданному уровню значимости α (α – вероятность отвергнуть правильную гипотезу при условии, что она верна, обычно принимается равной 0,05 или 0,01).

Для оценки статистической значимости коэффициента линейной регрессии и линейного коэффициента парной корреляции, а также для расчета доверительных интервалов b, применяется t – критерий Стьюдента.

Для оценки существенности коэффициента регрессии его величина сравнивается с его стандартной ошибкой, т.е. определяется фактическое значение t-критерия Стьюдента: , которое затем сравнивается с табличным значением при определенном уровне значимости а и числе степеней свободы (n — 2).

В рассматриваемом примере фактическое значение t-критерия для коэффициента регрессии составило:

.

Этот же результат получим, извлекая квадратный корень из найденного F-критерия, т.е.

.

Действительно, справедливо равенство .

При (для двустороннего критерия) и числе степеней свободы 13 табличное значение tb=2,16. Так как фактическое значение t‑критерия превышает табличное, то, следовательно, гипотезу о несущественности коэффициента регрессии можно отклонить.

Для расчета доверительных интервалов для параметров a и b уравнения линейной регрессии определяем предельную ошибку для каждого показателя:

Формулы для расчета доверительных интервалов имеют вид:

Если границы интервала имеют разные знаки, т.е. в эти границы попадает ноль, то оцениваемый параметр принимается нулевым.

Доверительный интервал для коэффициента регрессии определяется как . Для коэффициента регрессии b в примере 95%-ные границы составят:

0,022 ± 2,16·0,0026 = 0,022 ± 0,0057, т.е.

Поскольку коэффициент регрессии в эконометрических исследованиях имеет четкую экономическую интерпретацию, то доверительные границы интервала для коэффициента регрессии не должны содержать противоречивых результатов, например, -10 ≤ b ≤ 40. Такого рода запись указывает, что истинное значение коэффициента регрессии одновременно содержит положительные и отрицательные величины и даже ноль, чего не может быть.

Стандартная ошибка параметра а определяется по формуле:

Процедура оценивания существенности данного параметра не отличается от рассмотренной выше для коэффициента регрессии; вычисляется t-критерий: , его величина сравнивается с табличным значением при df = n — 2 степенях свободы. В нашем примере ma составила 0,032.

Значимость линейного коэффициента корреляции проверяется на основе величины ошибки коэффициента корреляции mr:

Фактическое значение t-критерия Стьюдента определяется как

Данная формула свидетельствует, что в парной линейной регрессии , ибо, как уже указывалось, Кроме того, Следовательно,

Таким образом, проверка гипотез о значимости коэффициентов регрессии и корреляции равносильна проверке гипотезы о существенности линейного уравнения регрессии.

В рассматриваемом примере tr совпало с tb. Величина tr =8,37 значительно превышает табличное значение 2,16 при а=0,05. Следовательно, коэффициент корреляции существенно отличен от нуля и зависимость является достоверной.

Прогноз, полученный подстановкой в уравнение регрессии ожи­даемого значения фактора, называют точечным прогнозом. Вероят­ность точной реализации такого прогноза крайне мала. Необходимо сопроводить его значением средней ошибки прогноза или довери­тельным интервалом прогноза с достаточно большой вероятностью.

Точечный прогноз заключается в получении прогнозного значения yp, которое определяется путем подстановки в уравнение регрессии

соответствующего прогнозного значения xp:

Интервальный прогноз заключается в построении доверительного интервала прогноза, т.е. верхней и нижней границы ypmin, ypmax интервала, содержащего точную величину для прогнозного значения
(ypmin 2
– индекс детерминации;

n – число наблюдений;

m – число параметров при переменных х.

Величина m характеризует число степеней свободы для факторной суммы квадратов, а (n – m — 1) – число степеней свободы для остаточной суммы квадратов.

Для степенной функции и формула F – критерия примет тот же вид, что и при линейной зависимости:

Для параболы второй степени y=a + b·x + c·x 2 + ε m=2 и .

Для оценки качества построенной модели используется также средняя ошибка аппроксимации. Фактические значения результативного признака отличаются от теоретических, рассчитанных по уравнению регрессии, т.е. у и . Чем меньше это отличие, тем ближе теоретические значения подходят к эмпирическим данным, лучше качество модели. Величина отклонений фактических и расчетных значений результативного признака (у) по каждому наблюдению представляет собой ошибку аппроксимации. Их число соответствует объему совокупности. В отдельных случаях ошибка аппроксимации может оказаться равной нулю. Для сравнения берутся величины отклонений, выраженные в процентах к фактическим значениям. Так, если для первого наблюдения у=20, а для второго у=50, ошибка аппроксимации составит 25% для первого наблюдения и 20% — для второго.

Поскольку (у) может быть как величиной положительной, так и отрицательной, то ошибки аппроксимации для каждого наблюдения принято определять в процентах по модулю.

Чтобы иметь общее суждение о качестве модели из относительных отклонений по каждому наблюдению, определяют среднюю ошибку аппроксимации как среднюю арифметическую простую:

.

Для нашего примера представим расчет средней ошибки аппроксимации в таблице 4.

Пример нахождения доверительных интервалов коэффициентов регрессии

1. Постройте поле корреляции и сформулируйте гипотезу о форме связи.

2. Постройте уравнение зависимости экспорта нефти от цены на нефть.

3. Рассчитайте среднюю ошибку аппроксимации и коэффициент детерминации. Оценить статистическую значимость параметров регрессии и уравнения в целом.

4. Оцените полученные результаты, выводы оформите в аналитической записке.

Таблица 5

Цена нефти марки Urals (Россия), долл/барр.

Экспорт нефти и нефтепродуктов, млн.т.

Решение:

Уравнение имеет вид y = ax + b
1. Параметры уравнения регрессии.
Средние значения

Связь между признаком Y фактором X сильная и прямая
Уравнение регрессии

xyx 2y 2x ∙ yy(x)(y- y ) 2(y-y(x)) 2(x-x p ) 2
119298.121416188875.5335476.28219.63232120.86160.5624362.01
203481.0341209231389.8697649.09521.1689328.761610.265196.01
281539.1278961290650.37151492.72801.1557979.4268658.5135.01
305653.5793025427153.74199338.85887.315961.5954628.94895.01
381987.66145161975472.28376298.461160.1143160.4129738.5711218.34
3631252.851317691569633.12454784.551095.5223673.0324760.357729.34
3891276.881513211630422.53496706.321188.83246980.017753.5712977.01
3871396.701497691950770.89540522.91181.65380430.9346248.0412525.34
315952.0399225906361.12299889.45923.1929625.58831.491593.34
217619.9647089384350.4134531.32571.4125583.742356.853373.67
149384.4022201147763.3657275.6327.32156427.53258.2315897.01
192516.5936864266865.2399185.28481.6769336.981219.246902.84
33019358.9110107558869708.452943150.829358.911570608.75247224.62102704.92

По таблице Стьюдента находим Tтабл
Tтабл (n-m-1;a) = (10;0.05) = 1.812
Поскольку Tнабл > Tтабл , то отклоняем гипотезу о равенстве 0 коэффициента корреляции. Другими словами, коэффициента корреляции статистически — значим.

Анализ точности определения оценок коэффициентов регрессии

S a = 0.4906
Доверительные интервалы для зависимой переменной

Рассчитаем границы интервала, в котором будет сосредоточено 95% возможных значений Y при неограниченно большом числе наблюдений и X = 1
(-587.75;179.86)
Проверка гипотез относительно коэффициентов линейного уравнения регрессии
1) t-статистика

Статистическая значимость коэффициента регрессии a подтверждается (7.32>1.812)

Статистическая значимость коэффициента регрессии b не подтверждается (1.46 Fkp, то коэффициент детерминации статистически значим.

Доверительные интервалы для зависимой переменной

Уравнение тренда имеет вид y = at 2 + bt + c
1. Находим параметры уравнения методом наименьших квадратов.
Система уравнений

Для наших данных система уравнений имеет вид (см. таблицу).

Получаем a0 = -11.37, a1 = 88.47, a2 = 2151.09
Уравнение тренда: y = -11.37t 2 +88.47t+2151.09
Оценим качество уравнения тренда с помощью ошибки абсолютной аппроксимации.

Поскольку ошибка больше 15%, то данное уравнение не желательно использовать в качестве тренда
Средние значения

т.е. в 87.35 % случаев влияет на изменение данных. Другими словами — точность подбора уравнения тренда — высокая

tyt 2y 2x ∙ yy(t)(y-y cp ) 2(y-y(t)) 2(t-t p ) 2(y-y(t)) : yt 3t 4t 2 y
12225.314951960.092225.32228.1965.60998.352166431.117112225.3
22254.945084574.014509.82282.55462.25764.5225962347.9858169019.6
32332.395439623.296996.92314.179781.21328.6969442284.599278120990.7
42365.8165597009.649463.22323.0517529.761827.56251101137.956425637852.8
52295.4255268861.16114772309.193844190.1641031653.56612562557385
62303.9365307955.2113823.42272.594970.25980.3161172135.109216129682940.4
72166.7494694588.8915166.92213.254448.892166.90254100859.8853432401106168.3
82080.4644328064.1616643.22131.17234092577.59299105621.9085124096133145.6
92075.9814309360.8118683.12026.3524806.252455.202516102860.8457296561168147.9
4520100.628544981997.2698988.820100.5189317.219911299.31260625332.9644050306661235751.2

2. Анализ точности определения оценок параметров уравнения тренда.

Анализ точности определения оценок параметров уравнения тренда

S a = 4.8518
Доверительные интервалы для зависимой переменной

По таблице Стьюдента находим Tтабл
Tтабл (n-m-1;a) = (7;0.05) = 1.895
Рассчитаем границы интервала, в котором будет сосредоточено 95% возможных значений Y при неограниченно большом числе наблюдений и t = 6
2151.09 + 88.47*6 + -11.37*62 — 1.895*39.911 ; 2151.09 + 88.47*6 + -11.37*62 — 1.895*39.911
(-55.3814;95.8814)
Интервальный прогноз.
Определим среднеквадратическую ошибку прогнозируемого показателя.

где L — период упреждения; уn+L — точечный прогноз по модели на (n + L)-й момент времени; n — количество наблюдений во временном ряду; Sy — стандартная ошибка прогнозируемого показателя; Tтабл — табличное значение критерия Стьюдента для уровня значимости а и для числа степеней свободы, равного n — 2.
Точечный прогноз, t = 10: y(10) = -11.37*10 2 + 88.47* + 2151.09 = 1898.79
K1 = 247.4924
1898.79 — 247.4924 = 1651.2976 ; 1898.79 + 247.4924 = 2146.2824
t = 10: (1651.2976;2146.2824)
Точечный прогноз, t = 11: y(11) = -11.37*11 2 + 88.47* + 2151.09 = 1748.49
K2 = 261.9213
1748.49 — 261.9213 = 1486.5687 ; 1748.49 + 261.9213 = 2010.4113
t = 11: (1486.5687;2010.4113)
Точечный прогноз, t = 12: y(12) = -11.37*12 2 + 88.47* + 2151.09 = 1575.45
K3 = 278.0099
1575.45 — 278.0099 = 1297.4401 ; 1575.45 + 278.0099 = 1853.4599
t = 12: (1297.4401;1853.4599)
Точечный прогноз, t = 13: y(13) = -11.37*13 2 + 88.47* + 2151.09 = 1379.67
K4 = 295.4871
1379.67 — 295.4871 = 1084.1829 ; 1379.67 + 295.4871 = 1675.1571
t = 13: (1084.1829;1675.1571)
Точечный прогноз, t = 14: y(14) = -11.37*14 2 + 88.47* + 2151.09 = 1161.15
K5 = 314.1213
1161.15 — 314.1213 = 847.0287 ; 1161.15 + 314.1213 = 1475.2713
t = 14: (847.0287;1475.2713)
3. Проверка гипотез относительно коэффициентов линейного уравнения тренда.
1) t-статистика. Критерий Стьюдента.

Статистическая значимость коэффициента уравнения подтверждается

Статистическая значимость коэффициента тренда подтверждается
Доверительный интервал для коэффициентов уравнения тренда
Определим доверительные интервалы коэффициентов тренда, которые с надежность 95% будут следующими (tтабл=1.895):
(a — tтабл·Sa; a + tтабл·Sa)
(-20.5642;-2.1758)
(b — t табл·Sb; b + tтаблb)
(36.7313;140.2087)
2) F-статистика. Критерий Фишера.

Fkp = 5.32
Поскольку F > Fkp, то коэффициент детерминации статистически значим
4. Тест Дарбина-Уотсона на наличие автокорреляции остатков для временного ряда.

yy(x)e i = y-y(x)e 2(e i — e i-1 ) 2
2225.32228.19-2.898.35210
2254.92282.55-27.65764.5225613.0576
2332.32314.1718.13328.69692095.8084
2365.82323.0542.751827.5625606.1444
2295.42309.19-13.79190.16413196.7716
2303.92272.5931.31980.31612034.01
2166.72213.25-46.552166.90256062.1796
2080.42131.17-50.772577.592917.8084
2075.92026.3549.552455.202510064.1024
11299.312124689.8824

Критические значения d1 и d2 определяются на основе специальных таблиц для требуемого уровня значимости a, числа наблюдений n и количества объясняющих переменных m.
Не обращаясь к таблицам, можно пользоваться приблизительным правилом и считать, что автокорреляция остатков отсутствует, если 1.5

5. 2. Доверительные интервалы для коэффициентов регрессии

В некотором эксперименте измерены значения пары случайных величин y и x

Без ограничения общности можно считать, что величина x измерена точно, в то время как измерение величины y содержит случайные погрешности. Это означает, что погрешность измерения величины x пренебрежимо мала по сравнению с погрешностью измерения величины y. Таким образом, результаты эксперимента можно рассматривать как выборочные значения случайной величины h (x), зависящей от x как от параметра.

Пусть требуется построить зависимость y(x).

Регрессией называют зависимость условного математического ожидания величины h (x) от x:

.

Задача регрессионного анализа состоит в восстановлении по результатам измерений <(xi,yi)>, i = 1, 2, …, n функциональной зависимости y(x).

Это означает, что результаты измерений можно представить в виде

,

где a0, a1, …, ak — неизвестные параметры регрессии, а e i — случайные величины, характеризующие погрешности эксперимента.

Обычно предполагается, что e i — это независимые нормально распределенные случайные величины с M( e i) = 0 и одинаковыми дисперсиями D( e i) = s 2 .

В случае простейшей линейной регрессии выдвигается гипотеза о том, что функция f(x; a0, a1, …, ak) зависит от двух параметров и имеет вид , .

Точечные оценки параметров регрессии известны, они вычисляются по формулам

, .

M( e i) = 0, D( e i) = s 2 обычно неизвестна, её оценку s 2 можно получить, например, методом максимального правдоподобия:

.

Оценки — несмещенные состоятельные оценки параметров регрессии .

Важно понимать, что точечные оценки — случайные величины, о которых известно, что они распределены нормально с математическими ожиданиями и дисперсиями .

Используя информацию о статистических свойствах оценок , можно построить доверительные интервалы для оцениваемых параметров s 2 , a, b.

Доверительный интервал для константы b

Если дисперсия s 2 известна, то случайная величина

имеет стандартное нормальное распределение и доверительный интервал

накрывает неизвестный параметр b с вероятностью 1– a . Здесь критическая точка x a — решение уравнения , где — функция Лапласа.

Если дисперсия s 2 неизвестна, то используем её оценку , в качестве критерия можно взять величину

,

она имеет распределение Стьюдента с (n – 2) степенями свободы и доверительный интервал

накрывает неизвестный параметр b с вероятностью 1– a .

Здесь критическая точка tn— 2, a — корень уравнения , Fn-2(tn— 2, a )— функция распределения Стьюдента с (n – 2) степенями свободы. Величину — стандартную ошибку регрессии, вычисляют по формуле :

.

Для того чтобы найти границы доверительного интервала, задаём малое значение a ,

находим соответствующую критическую точку, затем вычисляем точечную оценку параметра b и наконец — границы соответствующего доверительного интервала.

Доверительный интервал для наклона a

Если дисперсия s 2 известна, то случайная величина

имеет стандартное нормальное распределение.

Если a — доверительная вероятность, и критическая точка x a — решение уравнения

, где Φ (x) — функция Лапласа, то доверительный интервал

накрывает оцениваемый параметр a с вероятностью 1– a .

Если же дисперсия неизвестна, то в качестве критерия можно взять величину

,

она имеет распределение Стьюдента с (n – 2) степенями свободы и поэтому интервал

накрывает оцениваемый параметр a с доверительной вероятностью 1– a .

Здесь критическая точка tn— 2, a — корень уравнения , где F(tn— 2, a ) — функция распределения Стьюдента с (n – 2) степенями свободы.

Для того чтобы найти границы доверительного интервала, задаём малое значение a ,

находим соответствующую критическую точку, затем вычисляем точечную оценку параметра a и наконец — границы доверительного интервала.

Доверительный интервал для дисперсии

Интервал накрывает неизвестную дисперсию s 2 с доверительной вероятностью 1– a .

Здесь критические точки и — решения уравнений и , где Fn-2(x)— функция распределения с (n – 2) степенями свободы.

Для того чтобы найти границы доверительного интервала, задаём малое значение a , находим критические точки, затем вычисляем точечную оценку параметра и наконец — границы соответствующего доверительного интервала.

Функция Excel СТЬЮДРАСПОБР(p, k) возвращает значение t, при котором P(|x| > t) = p, x значение случайной величины, имеющей распределение Стьюдента с k степенями свободы. Поэтому решение уравнения в Excel возвращает функция СТЬЮДРАСПОБР( a /2, n – 2).

В Excel функция распределения случайной величины определена нестандартно: F x (x) = P(x > x ). Поэтому решение уравнения возвращает функция ХИ2ОБР(1– a /2, n – 2) , а решение уравнения — ХИ2ОБР( a /2, n – 2).


источники:

http://math.semestr.ru/corel/prim1.php

http://mcimeer.narod.ru/data/t5/t5_2.html