Доверительный интервал прогноза уравнения регрессии

Расчет доверительных интервалов и прогнозов для линейного уравнения регрессии

Как правило, в линейной регрессии обычно оценивается значимость не только уравнения в целом, но и отдельных его параметров.Показатели корреляционной связи, вычисленные по ограниченной совокупности (по выборке), являются лишь оценками той или иной статистической закономерности, поскольку в любом параметре сохраняется элемент не полностью погасившейся случайности, присущей индивидуальным значениям признаков. Поэтому необходима статистическая оценка степени точности и надежности параметров корреляции. Под надежностью здесь понимается вероятность того, что значение проверяемого параметра не равно нулю, не включает в себя величины противоположных знаков.

Вероятностная оценка параметров корреляции производится по общим правилам проверки статистических гипотез, разработанным математической статистикой, в частности путем сравнения оцениваемой величины со средней случайной ошибкой оценки. Для коэффициента парной регрессии b средняя ошибка оценки вычисляется как:

где D_ост – остаточная дисперсия на одну степень свободы.

Для нашего примера величина стандартной ошибки коэффициента регрессии составила:

Для оценки того, насколько точные значения показателей могут отличаться от рассчитанных, осуществляется построение доверительных интервалов. Они определяют пределы, в которых лежат точные значения определяемых показателей с заданной степенью точности, соответствующей заданному уровню значимости α (α – вероятность отвергнуть правильную гипотезу при условии, что она верна, обычно принимается равной 0,05 или 0,01).

Для оценки статистической значимости коэффициента линейной регрессии и линейного коэффициента парной корреляции, а также для расчета доверительных интервалов b, применяется t – критерий Стьюдента.

Для оценки существенности коэффициента регрессии его величина сравнивается с его стандартной ошибкой, т.е. определяется фактическое значение t-критерия Стьюдента: , которое затем сравнивается с табличным значением при определенном уровне значимости а и числе степеней свободы (n — 2).

В рассматриваемом примере фактическое значение t-критерия для коэффициента регрессии составило:

Этот же результат получим, извлекая квадратный корень из найденного F-критерия, т.е.

Действительно, справедливо равенство .

При (для двустороннего критерия) и числе степеней свободы 13 табличное значение t_b=2,16. Так как фактическое значение t‑критерия превышает табличное, то, следовательно, гипотезу о несущественности коэффициента регрессии можно отклонить.

Для расчета доверительных интервалов для параметров a и b уравнения линейной регрессии определяем предельную ошибку ∆ для каждого показателя:

Формулы для расчета доверительных интервалов имеют вид:

Если границы интервала имеют разные знаки, т.е. в эти границы попадает ноль, то оцениваемый параметр принимается нулевым.

Доверительный интервал для коэффициента регрессии определяется как . Для коэффициента регрессии b в примере 95%-ные границы составят:

0,022 ± 2,16·0,0026 = 0,022 ± 0,0057, т.е.

Поскольку коэффициент регрессии в эконометрических исследованиях имеет четкую экономическую интерпретацию, то доверительные границы интервала для коэффициента регрессии не должны содержать противоречивых результатов, например, -10 ≤ b ≤ 40. Такого рода запись указывает, что истинное значение коэффициента регрессии одновременно содержит положительные и отрицательные величины и даже ноль, чего не может быть.

Стандартная ошибка параметра а определяется по формуле:

Процедура оценивания существенности данного параметра не отличается от рассмотренной выше для коэффициента регрессии; вычисляется t-критерий: , его величина сравнивается с табличным значением при df = n — 2 степенях свободы. В нашем примере m_a составила 0,032.

Значимость линейного коэффициента корреляции проверяется на основе величины ошибки коэффициента корреляции m_r:

Фактическое значение t-критерия Стьюдента определяется как

Данная формула свидетельствует, что в парной линейной регрессии , ибо, как уже указывалось, Кроме того, Следовательно,

Таким образом, проверка гипотез о значимости коэффициентов регрессии и корреляции равносильна проверке гипотезы о существенности линейного уравнения регрессии.

В рассматриваемом примере t_r совпало с t_b. Величина t_r =8,37 значительно превышает табличное значение 2,16 при а=0,05. Следовательно, коэффициент корреляции существенно отличен от нуля и зависимость является достоверной.

Прогноз, полученный подстановкой в уравнение регрессии ожидаемого значения фактора, называют точечным прогнозом. Вероятность точной реализации такого прогноза крайне мала. Необходимо сопроводить его значением средней ошибки прогноза или доверительным интервалом прогноза с достаточно большой вероятностью.

Точечный прогноз заключается в получении прогнозного значения y_p, которое определяется путем подстановки в уравнение регрессии

соответствующего прогнозного значения x_p:

Интервальный прогноз заключается в построении доверительного интервала прогноза, т.е. верхней и нижней границы y_pmin, y_pmax интервала, содержащего точную величину для прогнозного значения
(y_pmin 2 – индекс детерминации;

n – число наблюдений;

m – число параметров при переменных х.

Величина m характеризует число степеней свободы для факторной суммы квадратов, а (n – m — 1) – число степеней свободы для остаточной суммы квадратов.

Для степенной функции и формула F – критерия примет тот же вид, что и при линейной зависимости:

Для параболы второй степени y=a + b·x + c·x 2 + ε m=2 и .

Для оценки качества построенной модели используется также средняя ошибка аппроксимации. Фактические значения результативного признака отличаются от теоретических, рассчитанных по уравнению регрессии, т.е. у и . Чем меньше это отличие, тем ближе теоретические значения подходят к эмпирическим данным, лучше качество модели. Величина отклонений фактических и расчетных значений результативного признака (у— ) по каждому наблюдению представляет собой ошибку аппроксимации. Их число соответствует объему совокупности. В отдельных случаях ошибка аппроксимации может оказаться равной нулю. Для сравнения берутся величины отклонений, выраженные в процентах к фактическим значениям. Так, если для первого наблюдения у=20, а для второго у=50, ошибка аппроксимации составит 25% для первого наблюдения и 20% — для второго.

Поскольку (у— ) может быть как величиной положительной, так и отрицательной, то ошибки аппроксимации для каждого наблюдения принято определять в процентах по модулю.

Чтобы иметь общее суждение о качестве модели из относительных отклонений по каждому наблюдению, определяют среднюю ошибку аппроксимации как среднюю арифметическую простую:

Для нашего примера представим расчет средней ошибки аппроксимации в таблице 4.

Пример нахождения доверительных интервалов коэффициентов регрессии

1. Постройте поле корреляции и сформулируйте гипотезу о форме связи.

2. Постройте уравнение зависимости экспорта нефти от цены на нефть.

3. Рассчитайте среднюю ошибку аппроксимации и коэффициент детерминации. Оценить статистическую значимость параметров регрессии и уравнения в целом.

4. Оцените полученные результаты, выводы оформите в аналитической записке.

Таблица 5

Цена нефти марки Urals (Россия), долл/барр.

Экспорт нефти и нефтепродуктов, млн.т.

Решение:

Уравнение имеет вид y = ax + b
1. Параметры уравнения регрессии.
Средние значения

Связь между признаком Y фактором X сильная и прямая
Уравнение регрессии

x	y	x 2	y 2	x ∙ y	y(x)	(y- y ) 2	(y-y(x)) 2	(x-x p ) 2
119	298.12	14161	88875.53	35476.28	219.63	232120.8	6160.56	24362.01
203	481.03	41209	231389.86	97649.09	521.16	89328.76	1610.26	5196.01
281	539.12	78961	290650.37	151492.72	801.15	57979.42	68658.51	35.01
305	653.57	93025	427153.74	199338.85	887.3	15961.59	54628.94	895.01
381	987.66	145161	975472.28	376298.46	1160.11	43160.41	29738.57	11218.34
363	1252.85	131769	1569633.12	454784.55	1095.5	223673.03	24760.35	7729.34
389	1276.88	151321	1630422.53	496706.32	1188.83	246980.01	7753.57	12977.01
387	1396.70	149769	1950770.89	540522.9	1181.65	380430.93	46248.04	12525.34
315	952.03	99225	906361.12	299889.45	923.19	29625.58	831.49	1593.34
217	619.96	47089	384350.4	134531.32	571.41	25583.74	2356.85	3373.67
149	384.40	22201	147763.36	57275.6	327.32	156427.5	3258.23	15897.01
192	516.59	36864	266865.23	99185.28	481.67	69336.98	1219.24	6902.84
3301	9358.91	1010755	8869708.45	2943150.82	9358.91	1570608.75	247224.62	102704.92

По таблице Стьюдента находим Tтабл
T_табл (n-m-1;a) = (10;0.05) = 1.812
Поскольку Tнабл > Tтабл , то отклоняем гипотезу о равенстве 0 коэффициента корреляции. Другими словами, коэффициента корреляции статистически — значим.

Анализ точности определения оценок коэффициентов регрессии

S _a = 0.4906
Доверительные интервалы для зависимой переменной

Рассчитаем границы интервала, в котором будет сосредоточено 95% возможных значений Y при неограниченно большом числе наблюдений и X = 1
(-587.75;179.86)
Проверка гипотез относительно коэффициентов линейного уравнения регрессии
1) t-статистика

Статистическая значимость коэффициента регрессии a подтверждается (7.32>1.812)

Статистическая значимость коэффициента регрессии b не подтверждается (1.46 Fkp, то коэффициент детерминации статистически значим.

Доверительные интервалы для зависимой переменной

Уравнение тренда имеет вид y = at 2 + bt + c
1. Находим параметры уравнения методом наименьших квадратов.
Система уравнений

Для наших данных система уравнений имеет вид (см. таблицу).

Получаем a₀ = -11.37, a₁ = 88.47, a₂ = 2151.09
Уравнение тренда: y = -11.37t 2 +88.47t+2151.09
Оценим качество уравнения тренда с помощью ошибки абсолютной аппроксимации.

Поскольку ошибка больше 15%, то данное уравнение не желательно использовать в качестве тренда
Средние значения

т.е. в 87.35 % случаев влияет на изменение данных. Другими словами — точность подбора уравнения тренда — высокая

t	y	t 2	y 2	x ∙ y	y(t)	(y-y cp ) 2	(y-y(t)) 2	(t-t p ) 2	(y-y(t)) : y	t 3	t 4	t 2 y
1	2225.3	1	4951960.09	2225.3	2228.19	65.6099	8.352	16	6431.117	1	1	2225.3
2	2254.9	4	5084574.01	4509.8	2282.55	462.25	764.5225	9	62347.985	8	16	9019.6
3	2332.3	9	5439623.29	6996.9	2314.17	9781.21	328.6969	4	42284.599	27	81	20990.7
4	2365.8	16	5597009.64	9463.2	2323.05	17529.76	1827.5625	1	101137.95	64	256	37852.8
5	2295.4	25	5268861.16	11477	2309.19	3844	190.1641	0	31653.566	125	625	57385
6	2303.9	36	5307955.21	13823.4	2272.59	4970.25	980.3161	1	72135.109	216	1296	82940.4
7	2166.7	49	4694588.89	15166.9	2213.25	4448.89	2166.9025	4	100859.885	343	2401	106168.3
8	2080.4	64	4328064.16	16643.2	2131.17	23409	2577.5929	9	105621.908	512	4096	133145.6
9	2075.9	81	4309360.81	18683.1	2026.35	24806.25	2455.2025	16	102860.845	729	6561	168147.9
45	20100.6	285	44981997.26	98988.8	20100.51	89317.2199	11299.312	60	625332.964	4050	30666	1235751.2

2. Анализ точности определения оценок параметров уравнения тренда.

Анализ точности определения оценок параметров уравнения тренда

S _a = 4.8518
Доверительные интервалы для зависимой переменной

По таблице Стьюдента находим Tтабл
T_табл (n-m-1;a) = (7;0.05) = 1.895
Рассчитаем границы интервала, в котором будет сосредоточено 95% возможных значений Y при неограниченно большом числе наблюдений и t = 6
2151.09 + 88.47*6 + -11.37*6₂ — 1.895*39.911 ; 2151.09 + 88.47*6 + -11.37*6₂ — 1.895*39.911
(-55.3814;95.8814)
Интервальный прогноз.
Определим среднеквадратическую ошибку прогнозируемого показателя.

где L — период упреждения; у_n+L — точечный прогноз по модели на (n + L)-й момент времени; n — количество наблюдений во временном ряду; Sy — стандартная ошибка прогнозируемого показателя; T_табл — табличное значение критерия Стьюдента для уровня значимости а и для числа степеней свободы, равного n — 2.
Точечный прогноз, t = 10: y(10) = -11.37*10 2 + 88.47* + 2151.09 = 1898.79
K₁ = 247.4924
1898.79 — 247.4924 = 1651.2976 ; 1898.79 + 247.4924 = 2146.2824
t = 10: (1651.2976;2146.2824)
Точечный прогноз, t = 11: y(11) = -11.37*11 2 + 88.47* + 2151.09 = 1748.49
K₂ = 261.9213
1748.49 — 261.9213 = 1486.5687 ; 1748.49 + 261.9213 = 2010.4113
t = 11: (1486.5687;2010.4113)
Точечный прогноз, t = 12: y(12) = -11.37*12 2 + 88.47* + 2151.09 = 1575.45
K₃ = 278.0099
1575.45 — 278.0099 = 1297.4401 ; 1575.45 + 278.0099 = 1853.4599
t = 12: (1297.4401;1853.4599)
Точечный прогноз, t = 13: y(13) = -11.37*13 2 + 88.47* + 2151.09 = 1379.67
K₄ = 295.4871
1379.67 — 295.4871 = 1084.1829 ; 1379.67 + 295.4871 = 1675.1571
t = 13: (1084.1829;1675.1571)
Точечный прогноз, t = 14: y(14) = -11.37*14 2 + 88.47* + 2151.09 = 1161.15
K₅ = 314.1213
1161.15 — 314.1213 = 847.0287 ; 1161.15 + 314.1213 = 1475.2713
t = 14: (847.0287;1475.2713)
3. Проверка гипотез относительно коэффициентов линейного уравнения тренда.
1) t-статистика. Критерий Стьюдента.

Статистическая значимость коэффициента уравнения подтверждается

Статистическая значимость коэффициента тренда подтверждается
Доверительный интервал для коэффициентов уравнения тренда
Определим доверительные интервалы коэффициентов тренда, которые с надежность 95% будут следующими (t_табл=1.895):
(a — t_табл·S_a; a + t_табл·S_a)
(-20.5642;-2.1758)
(b — t _табл·S_b; b + t_таблS·_b)
(36.7313;140.2087)
2) F-статистика. Критерий Фишера.

Fkp = 5.32
Поскольку F > Fkp, то коэффициент детерминации статистически значим
4. Тест Дарбина-Уотсона на наличие автокорреляции остатков для временного ряда.

y	y(x)	e i = y-y(x)	e 2	(e i — e i-1 ) 2
2225.3	2228.19	-2.89	8.3521	0
2254.9	2282.55	-27.65	764.5225	613.0576
2332.3	2314.17	18.13	328.6969	2095.8084
2365.8	2323.05	42.75	1827.5625	606.1444
2295.4	2309.19	-13.79	190.1641	3196.7716
2303.9	2272.59	31.31	980.3161	2034.01
2166.7	2213.25	-46.55	2166.9025	6062.1796
2080.4	2131.17	-50.77	2577.5929	17.8084
2075.9	2026.35	49.55	2455.2025	10064.1024
11299.3121	24689.8824

Критические значения d₁ и d₂ определяются на основе специальных таблиц для требуемого уровня значимости a, числа наблюдений n и количества объясняющих переменных m.
Не обращаясь к таблицам, можно пользоваться приблизительным правилом и считать, что автокорреляция остатков отсутствует, если 1.5

Прогнозирование.Доверительный интервал прогноза.

Расчеты и проверка достоверности полученных оценок коэффициентов регрессии не являются самоцелью, это лишь необходимый промежуточный этап. Основное – это использование модели для анализа и прогноза поведения изучаемого экономического явления. Прогноз осуществляется подстановкой значения фактора х в полученную формулу регрессии.

Используем полученное в примере 2.1 уравнение регрессии для прогноза объема товарооборота. Пусть намечается открытие магазина с численностью работников х=140 чел., тогда достаточно обоснованный объем товарооборота следует установить по уравнению ŷ(х)= –0,974 + 0,01924×140=1,72 млрд. руб.

Доверительный интервал для прогностического значения у(х)= a₀+a₁хопределяется по формуле

, (5.2)

где t_p – критическая граница распределения Стьюдента с n – 2 степенями свободы, соответствующая уровню значимости р. Для получения доверительного интервала воспользуемся выражением (5.2).

Выберем уровень значимости 5%. Число степеней свободы у нас 8 – 2 = 6, тогда по таблице распределения Стьюдента (приложение 1) находим

следовательно, с вероятностью 95% истинные значения объемов товарооборота будут лежать в пределах

2.1.Проверим тесноту связи между факторами:

;

Вывод: связь сильная.

2.2.Проверим статистическую значимость по критерию Стьюдента:

1)Критерий Стьюдента: tвыб

Вывод: С доверительной вероятностью 90% коэффициент a₁— статистически значим, т.е. нулевая гипотеза отвергается.

6. Проверьте адекватность модели (уравнения регрессии) в целом на основе F-критерия Фишера-Снедекора.

Процедура статистической проверки:

:модель не адекватна

Вывод: т.к. Fвыб.>Fкр., то с доверительной вероятностью 95% нулевая гипотеза отвергается (т.е. принимается альтернативная). Изучаемая модель адекватна и может быть использована для прогнозирования и принятия управленческих решений.

7. Рассчитайте эмпирический коэффициент детерминации.

(таб. 3)

-показывает долю вариации.

Вывод: т.е. 80% вариации объясняется фактором, включенным в модель, а 20% не включенными в модель факторами.

8. Рассчитайте корреляционное отношение. Сравните полученное значение с величиной линейного коэффициента корреляции.

Эмпирическое корреляционное отношение указывает на тесноту связи между двумя факторами для любой связи, если связь линейная, то , т.е. коэффициент корреляции совпадает с коэффициентом детерминации.

9. Выполните точечный прогноз для .

10-12. Рассчитайте доверительные интервалы для уравнения регрессии и для результирующего признака при доверительной вероятности =90%. Изобразите в одной системе координат:

а) исходные данные,

б) линию регрессии,

в) точечный прогноз,

г) 90% доверительные интервалы.

Сформулируйте общий вывод относительно полученной модели.

-математическое ожидание среднего.

Для выполнения интервального прогноза рассматриваем две области.

1) для y из области изменения фактора x доверительные границы для линейного уравнения регрессии рассчитывается по формуле:

2) для прогнозного значения доверительный интервал для рассчитывается по формуле:

5) : 27,91 42,56 57,02 66,72

6) 19,334-4,22 2 )=1,53.

№
1	2,1	-2,12	4,49	3,03	1,74	2,31	4,68	18,81	27,91	9,10	46,72
4,22	0,00	0,00	0,1	0,32	2,31	4,68	3,46	42,56	39,10	46,02
6,3	2,08	4,33	2,93	1,71	2,31	4,68	18,49	57,02	38,53	75,51
7,7	3,48	12,11	9,02	2,31	4,68	32,43	66,72	34,29	99,15

Вывод: поскольку 90% точек наблюдения попало в 90% доверительный интервал, данная модель и ее доверительные границы могут использоваться для прогнозирования с 90% доверительной вероятностью.

Контрольные вопросы

1. Линейные регрессионные модели с гетероскедастичными и автокоррелированными остатками.

2. Виды автокорреляции и их краткая характеристика.

3. Автокорреляция в остатках и порядок её обнаружения.

4. Виды автокорреляции в остатках.

5. Порядок использования критерия Дарбина-Уотсона.

6. Автокорреляция в исходных данных и порядок определения её наличия.

7. Методы устранения влияния автокорреляции на результаты прогнозирования.

8. Обобщенный метод наименьших квадратов (ОМНК).

9. Что понимается под гомоскедастичностью?

10. Как проверяется гипотеза о гомоскедастичности ряда остатков?

11. Оценка качества регрессии. Проверка адекватности и достоверности модели.

12. Значимость коэффициентов регрессии (критерий Стъюдента).

13. Дисперсионный анализ. Проверка достоверности модели связи (по F-критерию Фишера).

14. Коэффициенты и индексы корреляции. Мультиколлениарность.

15. Оценка значимости корреляции. Детерминация.

16. Средняя ошибка аппроксимации.

17. Принятие решений на основе уравнений регрессии.

18. В каких задачах эконометрики используется распределение Фишера?

19. Таблицы каких распределений используются при оценке качества линейной регрессии?

20. Каковы особенности практического применения регрессионных моделей?

21. Как осуществляется прогнозирование экономических показателей с использованием моделей линейной регрессии?

22. Как можно оценить «естественный» уровень безработицы с использованием модели линейной регрессии?

23. В каких случаях необходимо уточнение линейной регрессионной модели и как оно осуществляется?

24. Когда необходимо выведение из рассмотрения незначимых объясняющих переменных и добавление новых переменных?

Задания и задачи

1. Имеются данные о деятельности крупнейших компаний США в 2006г.

№ п/п	Чистый доход, млрд долл.США, у	Оборот капитала, млрд долл. США, х₁	Использованный капитал, млрд долл. США, х₂	Численность служащих, тыс.чел., х₃	Рыночная капитализация компании, млрд долл. США, х₄
0,9	31,3	18,9	43,0	40,9
1,7	13,4	13,7	64,7	40,5
0,7	4,5	18,5	24,0	38,9
1,7	10,0	4,8	50,2	38,5
2,6	20,0	21,8	106,0	37,3
1,3	15,0	5,8	96,6	26,5
4,1	137,1	99,0	347,0	37,0
1,6	17,9	20,1	85,6	36,8
6,9	165,4	60,6	745,0	36,3
0,4	2,0	1,4	4,1	35,3
1,3	6,8	8,0	26,8	35,3
1,9	27,1	18,9	42,7	35,0
1,9	13,4	13,2	61,8	26,2
1,4	9,8	12,6	212,0	33,1
0,4	19,5	12,2	105,0	32,7
0,8	6,8	3,2	33,5	32,1
1,8	27,0	13,0	142,0	30,5
0,9	12,4	6,9	96,0	29,8
1,1	17,7	15,0	140,0	25,4
1,9	12,7	11,9	59,3	29,3
-0,9	21,4	1,6	131,0	29,2
1,3	13,5	8,6	70,7	29,2
2,0	13,4	11,5	65,4	29,1
0,6	4,2	1,9	23,1	27,9
0,7	15,5	5.8	80,8	27,2

Рассчитайте параметры линейного уравнения множественной регрессии с полным перечнем факторов.

Дайте сравнительную оценку силы связи факторов с результатом с помощью коэффициентов эластичности.

Рассчитайте матрицы парных коэффициентов корреляции и на их основе отберите информативные факторы в модель. Постройте модель только с информативными факторами и оцените ее параметры.

Рассчитайте прогнозное значение результата, если прогнозные значения факторов составляют 80% от их максимальных значений.

Рассчитайте ошибки и доверительный интервал прогноза для
уровня значимости 5 или 10% (γ = 0,05; γ = 0,10).

2. Имеются данные о деятельности крупнейших компаний США в 2006г.

№ п/п	Чистый доход, млрддолл. у	Оборот капитала, млрддолл. США, х₁	Использованный капитал, млрддолл. х₂	Численность, тыс. чел., х₃
6,6	6,9	83,6	222,0
3,0	18.0	6,5	32,0
6,5	107,9	50,4	82,0
3,3	16,7	15,4	45,2
0,1	79,6	29,6	299,3
3,6	16,2	13,3	41,6
1,5	5,9	5,9	17,8
5,5	53,1	27,1	151,0
2,4	18,8	11,2	82,3
3,0	35,3	16,4	103,0
4,2	71,9	32,5	225,4
2,7	93,6	25,4	675,0
1,6	10,0	6,4	43,8
2,4	31,5	12,5	102,3
3,3	36,7	14,3	105,0
1,8	13,8	6,5	49,1
2,4	64,8	22,7	50,4
1,6	30,4	15,8	480,0
1,4	12,1	9,3	71,0
0,9	31,3	18,9	43,0

Рассчитайте параметры линейного уравнения множественной регрессии с полным перечнем факторов.

Дайте сравнительную оценку силы связи факторов с результатом с помощью коэффициентов эластичности.

Рассчитайте матрицы парных и частных коэффициентов корреляции и на их основе отберите информативные факторы в модель. Постройте модель только с информативными факторами и оцените ее параметры.

Рассчитайте ошибки и доверительный интервал прогноза для уровня значимости 5 или 10% (α = 0,05; α = 0,10).

Оцените полученные результаты, выводы оформите в аналитической записке.

источники:

http://math.semestr.ru/corel/prim1.php

http://poisk-ru.ru/s50487t1.html