Построение доверительной области уравнения регрессии

5. 3. Доверительные области для регрессии

В некотором эксперименте измерены значения пары случайных величин y и x

Без ограничения общности можно считать, что величина x измерена точно, в то время как измерение величины y содержит случайные погрешности. Это означает, что погрешность измерения величины x пренебрежимо мала по сравнению с погрешностью измерения величины y. Таким образом, результаты эксперимента можно рассматривать как выборочные значения случайной величины h (x), зависящей от x как от параметра.

Пусть требуется построить зависимость y(x).

Регрессией называют зависимость условного математического ожидания величины h (x) от x: .

Задача регрессионного анализа состоит в восстановлении функциональной зависимости y(x) по результатам измерений <(xi,yi)>, i = 1, 2, …, n.

В случае простейшей линейной регрессии выдвигается гипотеза о том, что функция f(x; a0, a1, …, ak) имеет вид

Доверительный коридор линии регрессии

Пусть линейная регрессия построена: .

Возьмем в области изменения аргумента некоторую точку x0 и вычислим

.

Эта величина случайная и меняется от выборки к выборке.

Ее математическое ожидание равно истинному значению функции f(x) в точке x0, величине y0 = a x0+ b.

Доверительный коридор линии регрессии — интервал

,

накрывающий истинное значение величины y0 с вероятностью 1– a .

Величина tn— 2, a — корень уравнения , где F(tn— 2, a ) — функция распределения Стьюдента с (n – 2) степенями свободы.

Внимание! Функция Excel СТЬЮДРАСПОБР(p, k) возвращает значение t, при котором P(|x| > t) = p, x значение случайной величины, имеющей распределение Стьюдента с k степенями свободы. Поэтому решение уравнения в Excel возвращает функция СТЬЮДРАСПОБР( a /2, n – 2).

Важно понимать, что доверительный коридор не является доверительной областью для всей линии регрессии — он определяет только концы доверительных интервалов для y при каждом значении x. С помощью коридора регрессии нельзя, например, построить одновременно два доверительных интервала в различных точкахx0 и x1. Такие доверительные интервалы можно построить с помощью доверительной полосы всей линии регрессии.

Пример 1

Видео

Пример 1. В таблице приведены некоторые экспериментальные данные:

Пример нахождения доверительных интервалов коэффициентов регрессии

1. Постройте поле корреляции и сформулируйте гипотезу о форме связи.

2. Постройте уравнение зависимости экспорта нефти от цены на нефть.

3. Рассчитайте среднюю ошибку аппроксимации и коэффициент детерминации. Оценить статистическую значимость параметров регрессии и уравнения в целом.

4. Оцените полученные результаты, выводы оформите в аналитической записке.

Таблица 5

Цена нефти марки Urals (Россия), долл/барр.

Экспорт нефти и нефтепродуктов, млн.т.

Решение:

Уравнение имеет вид y = ax + b
1. Параметры уравнения регрессии.
Средние значения

Связь между признаком Y фактором X сильная и прямая
Уравнение регрессии

xyx 2y 2x ∙ yy(x)(y- y ) 2(y-y(x)) 2(x-x p ) 2
119298.121416188875.5335476.28219.63232120.86160.5624362.01
203481.0341209231389.8697649.09521.1689328.761610.265196.01
281539.1278961290650.37151492.72801.1557979.4268658.5135.01
305653.5793025427153.74199338.85887.315961.5954628.94895.01
381987.66145161975472.28376298.461160.1143160.4129738.5711218.34
3631252.851317691569633.12454784.551095.5223673.0324760.357729.34
3891276.881513211630422.53496706.321188.83246980.017753.5712977.01
3871396.701497691950770.89540522.91181.65380430.9346248.0412525.34
315952.0399225906361.12299889.45923.1929625.58831.491593.34
217619.9647089384350.4134531.32571.4125583.742356.853373.67
149384.4022201147763.3657275.6327.32156427.53258.2315897.01
192516.5936864266865.2399185.28481.6769336.981219.246902.84
33019358.9110107558869708.452943150.829358.911570608.75247224.62102704.92

По таблице Стьюдента находим Tтабл
Tтабл (n-m-1;a) = (10;0.05) = 1.812
Поскольку Tнабл > Tтабл , то отклоняем гипотезу о равенстве 0 коэффициента корреляции. Другими словами, коэффициента корреляции статистически — значим.

Анализ точности определения оценок коэффициентов регрессии

S a = 0.4906
Доверительные интервалы для зависимой переменной

Рассчитаем границы интервала, в котором будет сосредоточено 95% возможных значений Y при неограниченно большом числе наблюдений и X = 1
(-587.75;179.86)
Проверка гипотез относительно коэффициентов линейного уравнения регрессии
1) t-статистика

Статистическая значимость коэффициента регрессии a подтверждается (7.32>1.812)

Статистическая значимость коэффициента регрессии b не подтверждается (1.46 Fkp, то коэффициент детерминации статистически значим.

Доверительные интервалы для зависимой переменной

Уравнение тренда имеет вид y = at 2 + bt + c
1. Находим параметры уравнения методом наименьших квадратов.
Система уравнений

Для наших данных система уравнений имеет вид (см. таблицу).

Получаем a0 = -11.37, a1 = 88.47, a2 = 2151.09
Уравнение тренда: y = -11.37t 2 +88.47t+2151.09
Оценим качество уравнения тренда с помощью ошибки абсолютной аппроксимации.

Поскольку ошибка больше 15%, то данное уравнение не желательно использовать в качестве тренда
Средние значения

т.е. в 87.35 % случаев влияет на изменение данных. Другими словами — точность подбора уравнения тренда — высокая

tyt 2y 2x ∙ yy(t)(y-y cp ) 2(y-y(t)) 2(t-t p ) 2(y-y(t)) : yt 3t 4t 2 y
12225.314951960.092225.32228.1965.60998.352166431.117112225.3
22254.945084574.014509.82282.55462.25764.5225962347.9858169019.6
32332.395439623.296996.92314.179781.21328.6969442284.599278120990.7
42365.8165597009.649463.22323.0517529.761827.56251101137.956425637852.8
52295.4255268861.16114772309.193844190.1641031653.56612562557385
62303.9365307955.2113823.42272.594970.25980.3161172135.109216129682940.4
72166.7494694588.8915166.92213.254448.892166.90254100859.8853432401106168.3
82080.4644328064.1616643.22131.17234092577.59299105621.9085124096133145.6
92075.9814309360.8118683.12026.3524806.252455.202516102860.8457296561168147.9
4520100.628544981997.2698988.820100.5189317.219911299.31260625332.9644050306661235751.2

2. Анализ точности определения оценок параметров уравнения тренда.

Анализ точности определения оценок параметров уравнения тренда

S a = 4.8518
Доверительные интервалы для зависимой переменной

По таблице Стьюдента находим Tтабл
Tтабл (n-m-1;a) = (7;0.05) = 1.895
Рассчитаем границы интервала, в котором будет сосредоточено 95% возможных значений Y при неограниченно большом числе наблюдений и t = 6
2151.09 + 88.47*6 + -11.37*62 — 1.895*39.911 ; 2151.09 + 88.47*6 + -11.37*62 — 1.895*39.911
(-55.3814;95.8814)
Интервальный прогноз.
Определим среднеквадратическую ошибку прогнозируемого показателя.

где L — период упреждения; уn+L — точечный прогноз по модели на (n + L)-й момент времени; n — количество наблюдений во временном ряду; Sy — стандартная ошибка прогнозируемого показателя; Tтабл — табличное значение критерия Стьюдента для уровня значимости а и для числа степеней свободы, равного n — 2.
Точечный прогноз, t = 10: y(10) = -11.37*10 2 + 88.47* + 2151.09 = 1898.79
K1 = 247.4924
1898.79 — 247.4924 = 1651.2976 ; 1898.79 + 247.4924 = 2146.2824
t = 10: (1651.2976;2146.2824)
Точечный прогноз, t = 11: y(11) = -11.37*11 2 + 88.47* + 2151.09 = 1748.49
K2 = 261.9213
1748.49 — 261.9213 = 1486.5687 ; 1748.49 + 261.9213 = 2010.4113
t = 11: (1486.5687;2010.4113)
Точечный прогноз, t = 12: y(12) = -11.37*12 2 + 88.47* + 2151.09 = 1575.45
K3 = 278.0099
1575.45 — 278.0099 = 1297.4401 ; 1575.45 + 278.0099 = 1853.4599
t = 12: (1297.4401;1853.4599)
Точечный прогноз, t = 13: y(13) = -11.37*13 2 + 88.47* + 2151.09 = 1379.67
K4 = 295.4871
1379.67 — 295.4871 = 1084.1829 ; 1379.67 + 295.4871 = 1675.1571
t = 13: (1084.1829;1675.1571)
Точечный прогноз, t = 14: y(14) = -11.37*14 2 + 88.47* + 2151.09 = 1161.15
K5 = 314.1213
1161.15 — 314.1213 = 847.0287 ; 1161.15 + 314.1213 = 1475.2713
t = 14: (847.0287;1475.2713)
3. Проверка гипотез относительно коэффициентов линейного уравнения тренда.
1) t-статистика. Критерий Стьюдента.

Статистическая значимость коэффициента уравнения подтверждается

Статистическая значимость коэффициента тренда подтверждается
Доверительный интервал для коэффициентов уравнения тренда
Определим доверительные интервалы коэффициентов тренда, которые с надежность 95% будут следующими (tтабл=1.895):
(a — tтабл·Sa; a + tтабл·Sa)
(-20.5642;-2.1758)
(b — t табл·Sb; b + tтаблb)
(36.7313;140.2087)
2) F-статистика. Критерий Фишера.

Fkp = 5.32
Поскольку F > Fkp, то коэффициент детерминации статистически значим
4. Тест Дарбина-Уотсона на наличие автокорреляции остатков для временного ряда.

yy(x)e i = y-y(x)e 2(e i — e i-1 ) 2
2225.32228.19-2.898.35210
2254.92282.55-27.65764.5225613.0576
2332.32314.1718.13328.69692095.8084
2365.82323.0542.751827.5625606.1444
2295.42309.19-13.79190.16413196.7716
2303.92272.5931.31980.31612034.01
2166.72213.25-46.552166.90256062.1796
2080.42131.17-50.772577.592917.8084
2075.92026.3549.552455.202510064.1024
11299.312124689.8824

Критические значения d1 и d2 определяются на основе специальных таблиц для требуемого уровня значимости a, числа наблюдений n и количества объясняющих переменных m.
Не обращаясь к таблицам, можно пользоваться приблизительным правилом и считать, что автокорреляция остатков отсутствует, если 1.5

8 Построение доверительных интервалов для коэффициентов регрессии

§ 8. Построение доверительных интервалов для коэффициентов регрессии

Найденные по МНК из нормальной системы значения коэффициентов регрессии, само уравнение регрессии – это не истинные значения, а приближенные, как и все, что мы находим по статистическим данным.

Те же самые формулы для другой серии наблюдений дадут и другие результаты, немного отличающиеся.

Для истинных значений мы можем построить доверительные интервалы:

Истинные значения коэффициентов с заданной вероятностью g будут лежать в построенных интервалах.

Размах доверительных интервалов определяется формулами:

; .

Рекомендуемые файлы

Здесь коэффициент определяется по таблицам критерия Стьюдента.

– стандартное отклонение остатков, характеризующие разброс данных наблюдений относительно линии регрессии.

– среднее квадратов фактора X.

Чем меньше разброс статистических данных относительно построенной линии регрессии, тем меньше дисперсия и стандартное отклонение остатков, тем уже доверительные интервалы.

С другой стороны размах доверительных интервалов можно уменьшить, увеличивая объем выборки n, т.е. количество наблюдений.

Доверительная зона для линии регрессии

Уравнения регрессии – это тоже не истинные уравнения, это приблизительное знание о них. И подсчитанные по ним теоретические значения фактора Y, т.е. – тоже. Истинные значения с заданной вероятностью γ лежат в доверительных интервалах

Размах доверительных интервалов определяется формулой:

Если подсчитать эти значения и отступить от прямой регрессии на соответствующие расстояния вверх и вниз, то получим доверительную зону для линии регрессии. Истинная линия регрессии с заданной вероятностью γ должна находиться в пределах этой доверительной зоны.

IV. Прогноз и его доверительный интервал

Прогноз — научное предвидение вероятностных путей развития экономических процессов в более-менее удаленном будущем.

Период упреждения — промежуток времени от момента, для которого есть последние статистические данные до момента, которому принадлежит прогноз.

Для прогнозируемого значения доверительный интервал определяется:

Коэффициент эластичности — в экономических задачах применяется для оценки влияния некоторого фактора (х) на соответствующий показатель (y).

В общем случае, статистический коэффициент эластичности, как правило, определяется на основе статистического ряда:

Точные значения коэффициента эластичности получают на основании операции предельного перехода, при .

kx будет определяться для парной регрессии:

для коэффициентов регрессии

Найденные значения коэффициентов ( a, b, c, d ) в уравнениях регрессии – это не истинные значения, это только оценка для них. (Как и любая другая информация, которую мы получаем по выборочным, статистическим данным

7. Построение доверительной зоны для линии регрессии

Уравнения регрессии – это тоже не истинные уравнения, это приблизительное знание о них. И подсчитанные по ним теоретические значения фактора Y, т.е. – тоже. Истинные значения с заданной вероятностью γ лежат в доверительных интервалах

Размах доверительных интервалов определяется формулой:

Если подсчитать эти значения и отступить от прямой регрессии на соответствующие расстояния вверх и вниз, то получим доверительную зону для линии регрессии. Истинная линия регрессии с заданной вероятностью γ должна находиться в пределах этой доверительной зоны.

· В столбце BL ( ΔYi ) вычислить доверительные интервалы для .

Выделяя весь столбец, программируем формулу

Для чисел ( Sост , n ,) и () указать абсолютный адрес или имя ячейки ; для указать имя столбца исходных данных для фактора Х (столбец N). Закончить ввод сочетанием Ctrl + Enter.

· В столбцах BM «нижн грань» и BN «верхн грань» вычислить границы

доверительной зоны.: .

Выделять весь столбец, программировать формулу с именами. Закончить ввод сочетанием Ctrl + Enter.

· Построить график доверительной зоны. Для этого выделить пять столб-

цов данных (вместе с заголовками):

¨ столбец N, в котором находятся статистические данные для фактора X.

¨ нажав клавишу Ctrl:

§ столбец O для фактора Y,

§ столбец AG для линии регрессии Y на X,

§ столбцы BM и BN для границ доверительной зоны.

Затем вызвать Мастер Диаграмм и построить Точечную Диаграмму. Отредактировать ее, так чтобы точки, указывающие линию регрессии и линии границы доверительной зоны на графике были линиями без маркеров ( желательно линию регрессии и границы – разным цветом). График должен выглядеть так же, как приведенный выше.

8. Определение прогноза и доверительного интервала для прогноза

Построенное уравнение регрессии можно теперь использовать для прогнозирования. Задавая любое значение фактора X можно подсчитать соответствующее среднее значение фактора Y.

Найденное таким образом значение, во–первых среднее, а во–вторых, опять таки, приблизительное. Истинное прогнозное значение с заданной вероятностью γ следует ожидать в доверительном интервале .

Размах доверительного интеграла для прогноза определяется формулой, почти такой же, как и при построении доверительной зоны:

· В ячейку BS29 скопировать из N23 заданное для прогноза значение Xp.

· В ячейке BV29 вычислить по найденной формуле регрессии прогнозное значение Yp :

· Размах доверительного интервала для прогноза найти в ячейке BS32 по приведенной формуле

· В ячейках BU32 и BW32 подсчитать границы доверительного интервала для прогноза:

§ 9. Прогноз и доверительные интервал для прогноза

Построенное уравнение регрессии можно теперь использовать для прогнозирования. Задавая любое значение фактора X можно подсчитать соответствующее среднее значение фактора Y.

Найденное таким образом значение, во–первых среднее, а во–вторых, опять таки, приблизительное. Истинное прогнозное значение с заданной вероятностью γ следует ожидать в доверительном интервале .

Размах доверительного интеграла для прогноза определяется формулой, почти такой же, как и при построении доверительной зоны:


источники:

http://math.semestr.ru/corel/prim1.php

http://studizba.com/lectures/139-jekonomika-i-finansy/2256-lekcii-po-jekonometrike/43049-8-postroenie-doveritelnyh-intervalov-dlja-kojefficientov-regressii.html