Пример нахождения доверительных интервалов коэффициентов регрессии
1. Постройте поле корреляции и сформулируйте гипотезу о форме связи.
2. Постройте уравнение зависимости экспорта нефти от цены на нефть.
3. Рассчитайте среднюю ошибку аппроксимации и коэффициент детерминации. Оценить статистическую значимость параметров регрессии и уравнения в целом.
4. Оцените полученные результаты, выводы оформите в аналитической записке.
Таблица 5
x | y | x 2 | y 2 | x ∙ y | y(x) | (y- y ) 2 | (y-y(x)) 2 | (x-x p ) 2 |
119 | 298.12 | 14161 | 88875.53 | 35476.28 | 219.63 | 232120.8 | 6160.56 | 24362.01 |
203 | 481.03 | 41209 | 231389.86 | 97649.09 | 521.16 | 89328.76 | 1610.26 | 5196.01 |
281 | 539.12 | 78961 | 290650.37 | 151492.72 | 801.15 | 57979.42 | 68658.51 | 35.01 |
305 | 653.57 | 93025 | 427153.74 | 199338.85 | 887.3 | 15961.59 | 54628.94 | 895.01 |
381 | 987.66 | 145161 | 975472.28 | 376298.46 | 1160.11 | 43160.41 | 29738.57 | 11218.34 |
363 | 1252.85 | 131769 | 1569633.12 | 454784.55 | 1095.5 | 223673.03 | 24760.35 | 7729.34 |
389 | 1276.88 | 151321 | 1630422.53 | 496706.32 | 1188.83 | 246980.01 | 7753.57 | 12977.01 |
387 | 1396.70 | 149769 | 1950770.89 | 540522.9 | 1181.65 | 380430.93 | 46248.04 | 12525.34 |
315 | 952.03 | 99225 | 906361.12 | 299889.45 | 923.19 | 29625.58 | 831.49 | 1593.34 |
217 | 619.96 | 47089 | 384350.4 | 134531.32 | 571.41 | 25583.74 | 2356.85 | 3373.67 |
149 | 384.40 | 22201 | 147763.36 | 57275.6 | 327.32 | 156427.5 | 3258.23 | 15897.01 |
192 | 516.59 | 36864 | 266865.23 | 99185.28 | 481.67 | 69336.98 | 1219.24 | 6902.84 |
3301 | 9358.91 | 1010755 | 8869708.45 | 2943150.82 | 9358.91 | 1570608.75 | 247224.62 | 102704.92 |
По таблице Стьюдента находим Tтабл
Tтабл (n-m-1;a) = (10;0.05) = 1.812
Поскольку Tнабл > Tтабл , то отклоняем гипотезу о равенстве 0 коэффициента корреляции. Другими словами, коэффициента корреляции статистически — значим.
Анализ точности определения оценок коэффициентов регрессии
S a = 0.4906
Доверительные интервалы для зависимой переменной
Рассчитаем границы интервала, в котором будет сосредоточено 95% возможных значений Y при неограниченно большом числе наблюдений и X = 1
(-587.75;179.86)
Проверка гипотез относительно коэффициентов линейного уравнения регрессии
1) t-статистика
Статистическая значимость коэффициента регрессии a подтверждается (7.32>1.812)
Статистическая значимость коэффициента регрессии b не подтверждается (1.46 Fkp, то коэффициент детерминации статистически значим.
Доверительные интервалы для зависимой переменной
Уравнение тренда имеет вид y = at 2 + bt + c
1. Находим параметры уравнения методом наименьших квадратов.
Система уравнений
Для наших данных система уравнений имеет вид (см. таблицу).
Получаем a0 = -11.37, a1 = 88.47, a2 = 2151.09
Уравнение тренда: y = -11.37t 2 +88.47t+2151.09
Оценим качество уравнения тренда с помощью ошибки абсолютной аппроксимации.
Поскольку ошибка больше 15%, то данное уравнение не желательно использовать в качестве тренда
Средние значения
т.е. в 87.35 % случаев влияет на изменение данных. Другими словами — точность подбора уравнения тренда — высокая
t | y | t 2 | y 2 | x ∙ y | y(t) | (y-y cp ) 2 | (y-y(t)) 2 | (t-t p ) 2 | (y-y(t)) : y | t 3 | t 4 | t 2 y |
1 | 2225.3 | 1 | 4951960.09 | 2225.3 | 2228.19 | 65.6099 | 8.352 | 16 | 6431.117 | 1 | 1 | 2225.3 |
2 | 2254.9 | 4 | 5084574.01 | 4509.8 | 2282.55 | 462.25 | 764.5225 | 9 | 62347.985 | 8 | 16 | 9019.6 |
3 | 2332.3 | 9 | 5439623.29 | 6996.9 | 2314.17 | 9781.21 | 328.6969 | 4 | 42284.599 | 27 | 81 | 20990.7 |
4 | 2365.8 | 16 | 5597009.64 | 9463.2 | 2323.05 | 17529.76 | 1827.5625 | 1 | 101137.95 | 64 | 256 | 37852.8 |
5 | 2295.4 | 25 | 5268861.16 | 11477 | 2309.19 | 3844 | 190.1641 | 0 | 31653.566 | 125 | 625 | 57385 |
6 | 2303.9 | 36 | 5307955.21 | 13823.4 | 2272.59 | 4970.25 | 980.3161 | 1 | 72135.109 | 216 | 1296 | 82940.4 |
7 | 2166.7 | 49 | 4694588.89 | 15166.9 | 2213.25 | 4448.89 | 2166.9025 | 4 | 100859.885 | 343 | 2401 | 106168.3 |
8 | 2080.4 | 64 | 4328064.16 | 16643.2 | 2131.17 | 23409 | 2577.5929 | 9 | 105621.908 | 512 | 4096 | 133145.6 |
9 | 2075.9 | 81 | 4309360.81 | 18683.1 | 2026.35 | 24806.25 | 2455.2025 | 16 | 102860.845 | 729 | 6561 | 168147.9 |
45 | 20100.6 | 285 | 44981997.26 | 98988.8 | 20100.51 | 89317.2199 | 11299.312 | 60 | 625332.964 | 4050 | 30666 | 1235751.2 |
2. Анализ точности определения оценок параметров уравнения тренда.
Анализ точности определения оценок параметров уравнения тренда
S a = 4.8518
Доверительные интервалы для зависимой переменной
По таблице Стьюдента находим Tтабл
Tтабл (n-m-1;a) = (7;0.05) = 1.895
Рассчитаем границы интервала, в котором будет сосредоточено 95% возможных значений Y при неограниченно большом числе наблюдений и t = 6
2151.09 + 88.47*6 + -11.37*62 — 1.895*39.911 ; 2151.09 + 88.47*6 + -11.37*62 — 1.895*39.911
(-55.3814;95.8814)
Интервальный прогноз.
Определим среднеквадратическую ошибку прогнозируемого показателя.
где L — период упреждения; уn+L — точечный прогноз по модели на (n + L)-й момент времени; n — количество наблюдений во временном ряду; Sy — стандартная ошибка прогнозируемого показателя; Tтабл — табличное значение критерия Стьюдента для уровня значимости а и для числа степеней свободы, равного n — 2.
Точечный прогноз, t = 10: y(10) = -11.37*10 2 + 88.47* + 2151.09 = 1898.79
K1 = 247.4924
1898.79 — 247.4924 = 1651.2976 ; 1898.79 + 247.4924 = 2146.2824
t = 10: (1651.2976;2146.2824)
Точечный прогноз, t = 11: y(11) = -11.37*11 2 + 88.47* + 2151.09 = 1748.49
K2 = 261.9213
1748.49 — 261.9213 = 1486.5687 ; 1748.49 + 261.9213 = 2010.4113
t = 11: (1486.5687;2010.4113)
Точечный прогноз, t = 12: y(12) = -11.37*12 2 + 88.47* + 2151.09 = 1575.45
K3 = 278.0099
1575.45 — 278.0099 = 1297.4401 ; 1575.45 + 278.0099 = 1853.4599
t = 12: (1297.4401;1853.4599)
Точечный прогноз, t = 13: y(13) = -11.37*13 2 + 88.47* + 2151.09 = 1379.67
K4 = 295.4871
1379.67 — 295.4871 = 1084.1829 ; 1379.67 + 295.4871 = 1675.1571
t = 13: (1084.1829;1675.1571)
Точечный прогноз, t = 14: y(14) = -11.37*14 2 + 88.47* + 2151.09 = 1161.15
K5 = 314.1213
1161.15 — 314.1213 = 847.0287 ; 1161.15 + 314.1213 = 1475.2713
t = 14: (847.0287;1475.2713)
3. Проверка гипотез относительно коэффициентов линейного уравнения тренда.
1) t-статистика. Критерий Стьюдента.
Статистическая значимость коэффициента уравнения подтверждается
Статистическая значимость коэффициента тренда подтверждается
Доверительный интервал для коэффициентов уравнения тренда
Определим доверительные интервалы коэффициентов тренда, которые с надежность 95% будут следующими (tтабл=1.895):
(a — tтабл·Sa; a + tтабл·Sa)
(-20.5642;-2.1758)
(b — t табл·Sb; b + tтаблS·b)
(36.7313;140.2087)
2) F-статистика. Критерий Фишера.
Fkp = 5.32
Поскольку F > Fkp, то коэффициент детерминации статистически значим
4. Тест Дарбина-Уотсона на наличие автокорреляции остатков для временного ряда.
y | y(x) | e i = y-y(x) | e 2 | (e i — e i-1 ) 2 |
2225.3 | 2228.19 | -2.89 | 8.3521 | 0 |
2254.9 | 2282.55 | -27.65 | 764.5225 | 613.0576 |
2332.3 | 2314.17 | 18.13 | 328.6969 | 2095.8084 |
2365.8 | 2323.05 | 42.75 | 1827.5625 | 606.1444 |
2295.4 | 2309.19 | -13.79 | 190.1641 | 3196.7716 |
2303.9 | 2272.59 | 31.31 | 980.3161 | 2034.01 |
2166.7 | 2213.25 | -46.55 | 2166.9025 | 6062.1796 |
2080.4 | 2131.17 | -50.77 | 2577.5929 | 17.8084 |
2075.9 | 2026.35 | 49.55 | 2455.2025 | 10064.1024 |
11299.3121 | 24689.8824 |
Критические значения d1 и d2 определяются на основе специальных таблиц для требуемого уровня значимости a, числа наблюдений n и количества объясняющих переменных m.
Не обращаясь к таблицам, можно пользоваться приблизительным правилом и считать, что автокорреляция остатков отсутствует, если 1.5
Построение доверительных интервалов для коэффициентов регрессии
§ 8. Построение доверительных интервалов для коэффициентов регрессии
Найденные по МНК из нормальной системы значения коэффициентов регрессии, само уравнение регрессии – это не истинные значения, а приближенные, как и все, что мы находим по статистическим данным.
Те же самые формулы для другой серии наблюдений дадут и другие результаты, немного отличающиеся.
Для истинных значений мы можем построить доверительные интервалы:
Истинные значения коэффициентов с заданной вероятностью g будут лежать в построенных интервалах.
Размах доверительных интервалов определяется формулами:
; .
Рекомендуемые файлы
Здесь коэффициент определяется по таблицам критерия Стьюдента.
– стандартное отклонение остатков, характеризующие разброс данных наблюдений относительно линии регрессии.
– среднее квадратов фактора X.
Чем меньше разброс статистических данных относительно построенной линии регрессии, тем меньше дисперсия и стандартное отклонение остатков, тем уже доверительные интервалы.
С другой стороны размах доверительных интервалов можно уменьшить, увеличивая объем выборки n, т.е. количество наблюдений.
Доверительная зона для линии регрессии
Уравнения регрессии – это тоже не истинные уравнения, это приблизительное знание о них. И подсчитанные по ним теоретические значения фактора Y, т.е. – тоже. Истинные значения с заданной вероятностью γ лежат в доверительных интервалах
Размах доверительных интервалов определяется формулой:
Если подсчитать эти значения и отступить от прямой регрессии на соответствующие расстояния вверх и вниз, то получим доверительную зону для линии регрессии. Истинная линия регрессии с заданной вероятностью γ должна находиться в пределах этой доверительной зоны.
IV. Прогноз и его доверительный интервал
Прогноз — научное предвидение вероятностных путей развития экономических процессов в более-менее удаленном будущем.
Период упреждения — промежуток времени от момента, для которого есть последние статистические данные до момента, которому принадлежит прогноз.
Для прогнозируемого значения доверительный интервал определяется:
Коэффициент эластичности — в экономических задачах применяется для оценки влияния некоторого фактора (х) на соответствующий показатель (y).
В общем случае, статистический коэффициент эластичности, как правило, определяется на основе статистического ряда:
Точные значения коэффициента эластичности получают на основании операции предельного перехода, при .
kx будет определяться для парной регрессии:
для коэффициентов регрессии
Найденные значения коэффициентов ( a, b, c, d ) в уравнениях регрессии – это не истинные значения, это только оценка для них. (Как и любая другая информация, которую мы получаем по выборочным, статистическим данным
7. Построение доверительной зоны для линии регрессии
Уравнения регрессии – это тоже не истинные уравнения, это приблизительное знание о них. И подсчитанные по ним теоретические значения фактора Y, т.е. – тоже. Истинные значения с заданной вероятностью γ лежат в доверительных интервалах
Размах доверительных интервалов определяется формулой:
Если подсчитать эти значения и отступить от прямой регрессии на соответствующие расстояния вверх и вниз, то получим доверительную зону для линии регрессии. Истинная линия регрессии с заданной вероятностью γ должна находиться в пределах этой доверительной зоны.
· В столбце BL ( ΔYi ) вычислить доверительные интервалы для .
Выделяя весь столбец, программируем формулу
Для чисел ( Sост , n ,) и () указать абсолютный адрес или имя ячейки ; для указать имя столбца исходных данных для фактора Х (столбец N). Закончить ввод сочетанием Ctrl + Enter.
· В столбцах BM «нижн грань» и BN «верхн грань» вычислить границы
доверительной зоны.: .
Выделять весь столбец, программировать формулу с именами. Закончить ввод сочетанием Ctrl + Enter.
· Построить график доверительной зоны. Для этого выделить пять столб-
цов данных (вместе с заголовками):
¨ столбец N, в котором находятся статистические данные для фактора X.
¨ нажав клавишу Ctrl:
§ столбец O для фактора Y,
§ столбец AG для линии регрессии Y на X,
§ столбцы BM и BN для границ доверительной зоны.
Затем вызвать Мастер Диаграмм и построить Точечную Диаграмму. Отредактировать ее, так чтобы точки, указывающие линию регрессии и линии границы доверительной зоны на графике были линиями без маркеров ( желательно линию регрессии и границы – разным цветом). График должен выглядеть так же, как приведенный выше.
8. Определение прогноза и доверительного интервала для прогноза
Построенное уравнение регрессии можно теперь использовать для прогнозирования. Задавая любое значение фактора X можно подсчитать соответствующее среднее значение фактора Y.
Найденное таким образом значение, во–первых среднее, а во–вторых, опять таки, приблизительное. Истинное прогнозное значение с заданной вероятностью γ следует ожидать в доверительном интервале .
Размах доверительного интеграла для прогноза определяется формулой, почти такой же, как и при построении доверительной зоны:
· В ячейку BS29 скопировать из N23 заданное для прогноза значение Xp.
· В ячейке BV29 вычислить по найденной формуле регрессии прогнозное значение Yp :
· Размах доверительного интервала для прогноза найти в ячейке BS32 по приведенной формуле
· В ячейках BU32 и BW32 подсчитать границы доверительного интервала для прогноза:
§ 9. Прогноз и доверительные интервал для прогноза
Построенное уравнение регрессии можно теперь использовать для прогнозирования. Задавая любое значение фактора X можно подсчитать соответствующее среднее значение фактора Y.
Найденное таким образом значение, во–первых среднее, а во–вторых, опять таки, приблизительное. Истинное прогнозное значение с заданной вероятностью γ следует ожидать в доверительном интервале .
Размах доверительного интеграла для прогноза определяется формулой, почти такой же, как и при построении доверительной зоны:
5. 2. Доверительные интервалы для коэффициентов регрессии
В некотором эксперименте измерены значения пары случайных величин y и x
Без ограничения общности можно считать, что величина x измерена точно, в то время как измерение величины y содержит случайные погрешности. Это означает, что погрешность измерения величины x пренебрежимо мала по сравнению с погрешностью измерения величины y. Таким образом, результаты эксперимента можно рассматривать как выборочные значения случайной величины h (x), зависящей от x как от параметра.
Пусть требуется построить зависимость y(x).
Регрессией называют зависимость условного математического ожидания величины h (x) от x:
.
Задача регрессионного анализа состоит в восстановлении по результатам измерений <(xi,yi)>, i = 1, 2, …, n функциональной зависимости y(x).
Это означает, что результаты измерений можно представить в виде
,
где a0, a1, …, ak — неизвестные параметры регрессии, а e i — случайные величины, характеризующие погрешности эксперимента.
Обычно предполагается, что e i — это независимые нормально распределенные случайные величины с M( e i) = 0 и одинаковыми дисперсиями D( e i) = s 2 .
В случае простейшей линейной регрессии выдвигается гипотеза о том, что функция f(x; a0, a1, …, ak) зависит от двух параметров и имеет вид , .
Точечные оценки параметров регрессии известны, они вычисляются по формулам
, .
M( e i) = 0, D( e i) = s 2 обычно неизвестна, её оценку s 2 можно получить, например, методом максимального правдоподобия:
.
Оценки — несмещенные состоятельные оценки параметров регрессии .
Важно понимать, что точечные оценки — случайные величины, о которых известно, что они распределены нормально с математическими ожиданиями и дисперсиями .
Используя информацию о статистических свойствах оценок , можно построить доверительные интервалы для оцениваемых параметров s 2 , a, b.
Доверительный интервал для константы b
Если дисперсия s 2 известна, то случайная величина
имеет стандартное нормальное распределение и доверительный интервал
накрывает неизвестный параметр b с вероятностью 1– a . Здесь критическая точка x a — решение уравнения , где — функция Лапласа.
Если дисперсия s 2 неизвестна, то используем её оценку , в качестве критерия можно взять величину
,
она имеет распределение Стьюдента с (n – 2) степенями свободы и доверительный интервал
накрывает неизвестный параметр b с вероятностью 1– a .
Здесь критическая точка tn— 2, a — корень уравнения , Fn-2(tn— 2, a )— функция распределения Стьюдента с (n – 2) степенями свободы. Величину — стандартную ошибку регрессии, вычисляют по формуле :
.
Для того чтобы найти границы доверительного интервала, задаём малое значение a ,
находим соответствующую критическую точку, затем вычисляем точечную оценку параметра b и наконец — границы соответствующего доверительного интервала.
Доверительный интервал для наклона a
Если дисперсия s 2 известна, то случайная величина
имеет стандартное нормальное распределение.
Если a — доверительная вероятность, и критическая точка x a — решение уравнения
, где Φ (x) — функция Лапласа, то доверительный интервал
накрывает оцениваемый параметр a с вероятностью 1– a .
Если же дисперсия неизвестна, то в качестве критерия можно взять величину
,
она имеет распределение Стьюдента с (n – 2) степенями свободы и поэтому интервал
накрывает оцениваемый параметр a с доверительной вероятностью 1– a .
Здесь критическая точка tn— 2, a — корень уравнения , где F(tn— 2, a ) — функция распределения Стьюдента с (n – 2) степенями свободы.
Для того чтобы найти границы доверительного интервала, задаём малое значение a ,
находим соответствующую критическую точку, затем вычисляем точечную оценку параметра a и наконец — границы доверительного интервала.
Доверительный интервал для дисперсии
Интервал накрывает неизвестную дисперсию s 2 с доверительной вероятностью 1– a .
Здесь критические точки и — решения уравнений и , где Fn-2(x)— функция распределения с (n – 2) степенями свободы.
Для того чтобы найти границы доверительного интервала, задаём малое значение a , находим критические точки, затем вычисляем точечную оценку параметра и наконец — границы соответствующего доверительного интервала.
Функция Excel СТЬЮДРАСПОБР(p, k) возвращает значение t, при котором P(|x| > t) = p, x — значение случайной величины, имеющей распределение Стьюдента с k степенями свободы. Поэтому решение уравнения в Excel возвращает функция СТЬЮДРАСПОБР( a /2, n – 2).
В Excel функция распределения случайной величины определена нестандартно: F x (x) = P(x > x ). Поэтому решение уравнения возвращает функция ХИ2ОБР(1– a /2, n – 2) , а решение уравнения — ХИ2ОБР( a /2, n – 2).
http://studizba.com/lectures/139-jekonomika-i-finansy/2256-lekcii-po-jekonometrike/43049-8-postroenie-doveritelnyh-intervalov-dlja-kojefficientov-regressii.html
http://mcimeer.narod.ru/data/t5/t5_2.html