Пример нахождения доверительных интервалов коэффициентов регрессии
1. Постройте поле корреляции и сформулируйте гипотезу о форме связи.
2. Постройте уравнение зависимости экспорта нефти от цены на нефть.
3. Рассчитайте среднюю ошибку аппроксимации и коэффициент детерминации. Оценить статистическую значимость параметров регрессии и уравнения в целом.
4. Оцените полученные результаты, выводы оформите в аналитической записке.
Таблица 5
x | y | x 2 | y 2 | x ∙ y | y(x) | (y- y ) 2 | (y-y(x)) 2 | (x-x p ) 2 |
119 | 298.12 | 14161 | 88875.53 | 35476.28 | 219.63 | 232120.8 | 6160.56 | 24362.01 |
203 | 481.03 | 41209 | 231389.86 | 97649.09 | 521.16 | 89328.76 | 1610.26 | 5196.01 |
281 | 539.12 | 78961 | 290650.37 | 151492.72 | 801.15 | 57979.42 | 68658.51 | 35.01 |
305 | 653.57 | 93025 | 427153.74 | 199338.85 | 887.3 | 15961.59 | 54628.94 | 895.01 |
381 | 987.66 | 145161 | 975472.28 | 376298.46 | 1160.11 | 43160.41 | 29738.57 | 11218.34 |
363 | 1252.85 | 131769 | 1569633.12 | 454784.55 | 1095.5 | 223673.03 | 24760.35 | 7729.34 |
389 | 1276.88 | 151321 | 1630422.53 | 496706.32 | 1188.83 | 246980.01 | 7753.57 | 12977.01 |
387 | 1396.70 | 149769 | 1950770.89 | 540522.9 | 1181.65 | 380430.93 | 46248.04 | 12525.34 |
315 | 952.03 | 99225 | 906361.12 | 299889.45 | 923.19 | 29625.58 | 831.49 | 1593.34 |
217 | 619.96 | 47089 | 384350.4 | 134531.32 | 571.41 | 25583.74 | 2356.85 | 3373.67 |
149 | 384.40 | 22201 | 147763.36 | 57275.6 | 327.32 | 156427.5 | 3258.23 | 15897.01 |
192 | 516.59 | 36864 | 266865.23 | 99185.28 | 481.67 | 69336.98 | 1219.24 | 6902.84 |
3301 | 9358.91 | 1010755 | 8869708.45 | 2943150.82 | 9358.91 | 1570608.75 | 247224.62 | 102704.92 |
По таблице Стьюдента находим Tтабл
Tтабл (n-m-1;a) = (10;0.05) = 1.812
Поскольку Tнабл > Tтабл , то отклоняем гипотезу о равенстве 0 коэффициента корреляции. Другими словами, коэффициента корреляции статистически — значим.
Анализ точности определения оценок коэффициентов регрессии
S a = 0.4906
Доверительные интервалы для зависимой переменной
Рассчитаем границы интервала, в котором будет сосредоточено 95% возможных значений Y при неограниченно большом числе наблюдений и X = 1
(-587.75;179.86)
Проверка гипотез относительно коэффициентов линейного уравнения регрессии
1) t-статистика
Статистическая значимость коэффициента регрессии a подтверждается (7.32>1.812)
Статистическая значимость коэффициента регрессии b не подтверждается (1.46 Fkp, то коэффициент детерминации статистически значим.
Доверительные интервалы для зависимой переменной
Уравнение тренда имеет вид y = at 2 + bt + c
1. Находим параметры уравнения методом наименьших квадратов.
Система уравнений
Для наших данных система уравнений имеет вид (см. таблицу).
Получаем a0 = -11.37, a1 = 88.47, a2 = 2151.09
Уравнение тренда: y = -11.37t 2 +88.47t+2151.09
Оценим качество уравнения тренда с помощью ошибки абсолютной аппроксимации.
Поскольку ошибка больше 15%, то данное уравнение не желательно использовать в качестве тренда
Средние значения
т.е. в 87.35 % случаев влияет на изменение данных. Другими словами — точность подбора уравнения тренда — высокая
t | y | t 2 | y 2 | x ∙ y | y(t) | (y-y cp ) 2 | (y-y(t)) 2 | (t-t p ) 2 | (y-y(t)) : y | t 3 | t 4 | t 2 y |
1 | 2225.3 | 1 | 4951960.09 | 2225.3 | 2228.19 | 65.6099 | 8.352 | 16 | 6431.117 | 1 | 1 | 2225.3 |
2 | 2254.9 | 4 | 5084574.01 | 4509.8 | 2282.55 | 462.25 | 764.5225 | 9 | 62347.985 | 8 | 16 | 9019.6 |
3 | 2332.3 | 9 | 5439623.29 | 6996.9 | 2314.17 | 9781.21 | 328.6969 | 4 | 42284.599 | 27 | 81 | 20990.7 |
4 | 2365.8 | 16 | 5597009.64 | 9463.2 | 2323.05 | 17529.76 | 1827.5625 | 1 | 101137.95 | 64 | 256 | 37852.8 |
5 | 2295.4 | 25 | 5268861.16 | 11477 | 2309.19 | 3844 | 190.1641 | 0 | 31653.566 | 125 | 625 | 57385 |
6 | 2303.9 | 36 | 5307955.21 | 13823.4 | 2272.59 | 4970.25 | 980.3161 | 1 | 72135.109 | 216 | 1296 | 82940.4 |
7 | 2166.7 | 49 | 4694588.89 | 15166.9 | 2213.25 | 4448.89 | 2166.9025 | 4 | 100859.885 | 343 | 2401 | 106168.3 |
8 | 2080.4 | 64 | 4328064.16 | 16643.2 | 2131.17 | 23409 | 2577.5929 | 9 | 105621.908 | 512 | 4096 | 133145.6 |
9 | 2075.9 | 81 | 4309360.81 | 18683.1 | 2026.35 | 24806.25 | 2455.2025 | 16 | 102860.845 | 729 | 6561 | 168147.9 |
45 | 20100.6 | 285 | 44981997.26 | 98988.8 | 20100.51 | 89317.2199 | 11299.312 | 60 | 625332.964 | 4050 | 30666 | 1235751.2 |
2. Анализ точности определения оценок параметров уравнения тренда.
Анализ точности определения оценок параметров уравнения тренда
S a = 4.8518
Доверительные интервалы для зависимой переменной
По таблице Стьюдента находим Tтабл
Tтабл (n-m-1;a) = (7;0.05) = 1.895
Рассчитаем границы интервала, в котором будет сосредоточено 95% возможных значений Y при неограниченно большом числе наблюдений и t = 6
2151.09 + 88.47*6 + -11.37*62 — 1.895*39.911 ; 2151.09 + 88.47*6 + -11.37*62 — 1.895*39.911
(-55.3814;95.8814)
Интервальный прогноз.
Определим среднеквадратическую ошибку прогнозируемого показателя.
где L — период упреждения; уn+L — точечный прогноз по модели на (n + L)-й момент времени; n — количество наблюдений во временном ряду; Sy — стандартная ошибка прогнозируемого показателя; Tтабл — табличное значение критерия Стьюдента для уровня значимости а и для числа степеней свободы, равного n — 2.
Точечный прогноз, t = 10: y(10) = -11.37*10 2 + 88.47* + 2151.09 = 1898.79
K1 = 247.4924
1898.79 — 247.4924 = 1651.2976 ; 1898.79 + 247.4924 = 2146.2824
t = 10: (1651.2976;2146.2824)
Точечный прогноз, t = 11: y(11) = -11.37*11 2 + 88.47* + 2151.09 = 1748.49
K2 = 261.9213
1748.49 — 261.9213 = 1486.5687 ; 1748.49 + 261.9213 = 2010.4113
t = 11: (1486.5687;2010.4113)
Точечный прогноз, t = 12: y(12) = -11.37*12 2 + 88.47* + 2151.09 = 1575.45
K3 = 278.0099
1575.45 — 278.0099 = 1297.4401 ; 1575.45 + 278.0099 = 1853.4599
t = 12: (1297.4401;1853.4599)
Точечный прогноз, t = 13: y(13) = -11.37*13 2 + 88.47* + 2151.09 = 1379.67
K4 = 295.4871
1379.67 — 295.4871 = 1084.1829 ; 1379.67 + 295.4871 = 1675.1571
t = 13: (1084.1829;1675.1571)
Точечный прогноз, t = 14: y(14) = -11.37*14 2 + 88.47* + 2151.09 = 1161.15
K5 = 314.1213
1161.15 — 314.1213 = 847.0287 ; 1161.15 + 314.1213 = 1475.2713
t = 14: (847.0287;1475.2713)
3. Проверка гипотез относительно коэффициентов линейного уравнения тренда.
1) t-статистика. Критерий Стьюдента.
Статистическая значимость коэффициента уравнения подтверждается
Статистическая значимость коэффициента тренда подтверждается
Доверительный интервал для коэффициентов уравнения тренда
Определим доверительные интервалы коэффициентов тренда, которые с надежность 95% будут следующими (tтабл=1.895):
(a — tтабл·Sa; a + tтабл·Sa)
(-20.5642;-2.1758)
(b — t табл·Sb; b + tтаблS·b)
(36.7313;140.2087)
2) F-статистика. Критерий Фишера.
Fkp = 5.32
Поскольку F > Fkp, то коэффициент детерминации статистически значим
4. Тест Дарбина-Уотсона на наличие автокорреляции остатков для временного ряда.
y | y(x) | e i = y-y(x) | e 2 | (e i — e i-1 ) 2 |
2225.3 | 2228.19 | -2.89 | 8.3521 | 0 |
2254.9 | 2282.55 | -27.65 | 764.5225 | 613.0576 |
2332.3 | 2314.17 | 18.13 | 328.6969 | 2095.8084 |
2365.8 | 2323.05 | 42.75 | 1827.5625 | 606.1444 |
2295.4 | 2309.19 | -13.79 | 190.1641 | 3196.7716 |
2303.9 | 2272.59 | 31.31 | 980.3161 | 2034.01 |
2166.7 | 2213.25 | -46.55 | 2166.9025 | 6062.1796 |
2080.4 | 2131.17 | -50.77 | 2577.5929 | 17.8084 |
2075.9 | 2026.35 | 49.55 | 2455.2025 | 10064.1024 |
11299.3121 | 24689.8824 |
Критические значения d1 и d2 определяются на основе специальных таблиц для требуемого уровня значимости a, числа наблюдений n и количества объясняющих переменных m.
Не обращаясь к таблицам, можно пользоваться приблизительным правилом и считать, что автокорреляция остатков отсутствует, если 1.5
Расчет доверительных интервалов и прогнозов для линейного уравнения регрессии
Как правило, в линейной регрессии обычно оценивается значимость не только уравнения в целом, но и отдельных его параметров.Показатели корреляционной связи, вычисленные по ограниченной совокупности (по выборке), являются лишь оценками той или иной статистической закономерности, поскольку в любом параметре сохраняется элемент не полностью погасившейся случайности, присущей индивидуальным значениям признаков. Поэтому необходима статистическая оценка степени точности и надежности параметров корреляции. Под надежностью здесь понимается вероятность того, что значение проверяемого параметра не равно нулю, не включает в себя величины противоположных знаков.
Вероятностная оценка параметров корреляции производится по общим правилам проверки статистических гипотез, разработанным математической статистикой, в частности путем сравнения оцениваемой величины со средней случайной ошибкой оценки. Для коэффициента парной регрессии b средняя ошибка оценки вычисляется как:
где Dост – остаточная дисперсия на одну степень свободы.
Для нашего примера величина стандартной ошибки коэффициента регрессии составила:
.
Для оценки того, насколько точные значения показателей могут отличаться от рассчитанных, осуществляется построение доверительных интервалов. Они определяют пределы, в которых лежат точные значения определяемых показателей с заданной степенью точности, соответствующей заданному уровню значимости α (α – вероятность отвергнуть правильную гипотезу при условии, что она верна, обычно принимается равной 0,05 или 0,01).
Для оценки статистической значимости коэффициента линейной регрессии и линейного коэффициента парной корреляции, а также для расчета доверительных интервалов b, применяется t – критерий Стьюдента.
Для оценки существенности коэффициента регрессии его величина сравнивается с его стандартной ошибкой, т.е. определяется фактическое значение t-критерия Стьюдента: , которое затем сравнивается с табличным значением при определенном уровне значимости а и числе степеней свободы (n — 2).
В рассматриваемом примере фактическое значение t-критерия для коэффициента регрессии составило:
.
Этот же результат получим, извлекая квадратный корень из найденного F-критерия, т.е.
.
Действительно, справедливо равенство .
При (для двустороннего критерия) и числе степеней свободы 13 табличное значение tb=2,16. Так как фактическое значение t‑критерия превышает табличное, то, следовательно, гипотезу о несущественности коэффициента регрессии можно отклонить.
Для расчета доверительных интервалов для параметров a и b уравнения линейной регрессии определяем предельную ошибку ∆ для каждого показателя:
Формулы для расчета доверительных интервалов имеют вид:
Если границы интервала имеют разные знаки, т.е. в эти границы попадает ноль, то оцениваемый параметр принимается нулевым.
Доверительный интервал для коэффициента регрессии определяется как . Для коэффициента регрессии b в примере 95%-ные границы составят:
0,022 ± 2,16·0,0026 = 0,022 ± 0,0057, т.е.
Поскольку коэффициент регрессии в эконометрических исследованиях имеет четкую экономическую интерпретацию, то доверительные границы интервала для коэффициента регрессии не должны содержать противоречивых результатов, например, -10 ≤ b ≤ 40. Такого рода запись указывает, что истинное значение коэффициента регрессии одновременно содержит положительные и отрицательные величины и даже ноль, чего не может быть.
Стандартная ошибка параметра а определяется по формуле:
Процедура оценивания существенности данного параметра не отличается от рассмотренной выше для коэффициента регрессии; вычисляется t-критерий: , его величина сравнивается с табличным значением при df = n — 2 степенях свободы. В нашем примере ma составила 0,032.
Значимость линейного коэффициента корреляции проверяется на основе величины ошибки коэффициента корреляции mr:
Фактическое значение t-критерия Стьюдента определяется как
Данная формула свидетельствует, что в парной линейной регрессии , ибо, как уже указывалось, Кроме того, Следовательно,
Таким образом, проверка гипотез о значимости коэффициентов регрессии и корреляции равносильна проверке гипотезы о существенности линейного уравнения регрессии.
В рассматриваемом примере tr совпало с tb. Величина tr =8,37 значительно превышает табличное значение 2,16 при а=0,05. Следовательно, коэффициент корреляции существенно отличен от нуля и зависимость является достоверной.
Прогноз, полученный подстановкой в уравнение регрессии ожидаемого значения фактора, называют точечным прогнозом. Вероятность точной реализации такого прогноза крайне мала. Необходимо сопроводить его значением средней ошибки прогноза или доверительным интервалом прогноза с достаточно большой вероятностью.
Точечный прогноз заключается в получении прогнозного значения yp, которое определяется путем подстановки в уравнение регрессии
соответствующего прогнозного значения xp:
Интервальный прогноз заключается в построении доверительного интервала прогноза, т.е. верхней и нижней границы ypmin, ypmax интервала, содержащего точную величину для прогнозного значения
(ypmin 2 – индекс детерминации;
n – число наблюдений;
m – число параметров при переменных х.
Величина m характеризует число степеней свободы для факторной суммы квадратов, а (n – m — 1) – число степеней свободы для остаточной суммы квадратов.
Для степенной функции и формула F – критерия примет тот же вид, что и при линейной зависимости:
Для параболы второй степени y=a + b·x + c·x 2 + ε m=2 и .
Для оценки качества построенной модели используется также средняя ошибка аппроксимации. Фактические значения результативного признака отличаются от теоретических, рассчитанных по уравнению регрессии, т.е. у и . Чем меньше это отличие, тем ближе теоретические значения подходят к эмпирическим данным, лучше качество модели. Величина отклонений фактических и расчетных значений результативного признака (у— ) по каждому наблюдению представляет собой ошибку аппроксимации. Их число соответствует объему совокупности. В отдельных случаях ошибка аппроксимации может оказаться равной нулю. Для сравнения берутся величины отклонений, выраженные в процентах к фактическим значениям. Так, если для первого наблюдения у=20, а для второго у=50, ошибка аппроксимации составит 25% для первого наблюдения и 20% — для второго.
Поскольку (у— ) может быть как величиной положительной, так и отрицательной, то ошибки аппроксимации для каждого наблюдения принято определять в процентах по модулю.
Чтобы иметь общее суждение о качестве модели из относительных отклонений по каждому наблюдению, определяют среднюю ошибку аппроксимации как среднюю арифметическую простую:
.
Для нашего примера представим расчет средней ошибки аппроксимации в таблице 4.
Построение доверительных интервалов для коэффициентов регрессии
§ 8. Построение доверительных интервалов для коэффициентов регрессии
Найденные по МНК из нормальной системы значения коэффициентов регрессии, само уравнение регрессии – это не истинные значения, а приближенные, как и все, что мы находим по статистическим данным.
Те же самые формулы для другой серии наблюдений дадут и другие результаты, немного отличающиеся.
Для истинных значений мы можем построить доверительные интервалы:
Истинные значения коэффициентов с заданной вероятностью g будут лежать в построенных интервалах.
Размах доверительных интервалов определяется формулами:
; .
Рекомендуемые файлы
Здесь коэффициент определяется по таблицам критерия Стьюдента.
– стандартное отклонение остатков, характеризующие разброс данных наблюдений относительно линии регрессии.
– среднее квадратов фактора X.
Чем меньше разброс статистических данных относительно построенной линии регрессии, тем меньше дисперсия и стандартное отклонение остатков, тем уже доверительные интервалы.
С другой стороны размах доверительных интервалов можно уменьшить, увеличивая объем выборки n, т.е. количество наблюдений.
Доверительная зона для линии регрессии
Уравнения регрессии – это тоже не истинные уравнения, это приблизительное знание о них. И подсчитанные по ним теоретические значения фактора Y, т.е. – тоже. Истинные значения с заданной вероятностью γ лежат в доверительных интервалах
Размах доверительных интервалов определяется формулой:
Если подсчитать эти значения и отступить от прямой регрессии на соответствующие расстояния вверх и вниз, то получим доверительную зону для линии регрессии. Истинная линия регрессии с заданной вероятностью γ должна находиться в пределах этой доверительной зоны.
IV. Прогноз и его доверительный интервал
Прогноз — научное предвидение вероятностных путей развития экономических процессов в более-менее удаленном будущем.
Период упреждения — промежуток времени от момента, для которого есть последние статистические данные до момента, которому принадлежит прогноз.
Для прогнозируемого значения доверительный интервал определяется:
Коэффициент эластичности — в экономических задачах применяется для оценки влияния некоторого фактора (х) на соответствующий показатель (y).
В общем случае, статистический коэффициент эластичности, как правило, определяется на основе статистического ряда:
Точные значения коэффициента эластичности получают на основании операции предельного перехода, при .
kx будет определяться для парной регрессии:
для коэффициентов регрессии
Найденные значения коэффициентов ( a, b, c, d ) в уравнениях регрессии – это не истинные значения, это только оценка для них. (Как и любая другая информация, которую мы получаем по выборочным, статистическим данным
7. Построение доверительной зоны для линии регрессии
Уравнения регрессии – это тоже не истинные уравнения, это приблизительное знание о них. И подсчитанные по ним теоретические значения фактора Y, т.е. – тоже. Истинные значения с заданной вероятностью γ лежат в доверительных интервалах
Размах доверительных интервалов определяется формулой:
Если подсчитать эти значения и отступить от прямой регрессии на соответствующие расстояния вверх и вниз, то получим доверительную зону для линии регрессии. Истинная линия регрессии с заданной вероятностью γ должна находиться в пределах этой доверительной зоны.
· В столбце BL ( ΔYi ) вычислить доверительные интервалы для .
Выделяя весь столбец, программируем формулу
Для чисел ( Sост , n ,) и () указать абсолютный адрес или имя ячейки ; для указать имя столбца исходных данных для фактора Х (столбец N). Закончить ввод сочетанием Ctrl + Enter.
· В столбцах BM «нижн грань» и BN «верхн грань» вычислить границы
доверительной зоны.: .
Выделять весь столбец, программировать формулу с именами. Закончить ввод сочетанием Ctrl + Enter.
· Построить график доверительной зоны. Для этого выделить пять столб-
цов данных (вместе с заголовками):
¨ столбец N, в котором находятся статистические данные для фактора X.
¨ нажав клавишу Ctrl:
§ столбец O для фактора Y,
§ столбец AG для линии регрессии Y на X,
§ столбцы BM и BN для границ доверительной зоны.
Затем вызвать Мастер Диаграмм и построить Точечную Диаграмму. Отредактировать ее, так чтобы точки, указывающие линию регрессии и линии границы доверительной зоны на графике были линиями без маркеров ( желательно линию регрессии и границы – разным цветом). График должен выглядеть так же, как приведенный выше.
8. Определение прогноза и доверительного интервала для прогноза
Построенное уравнение регрессии можно теперь использовать для прогнозирования. Задавая любое значение фактора X можно подсчитать соответствующее среднее значение фактора Y.
Найденное таким образом значение, во–первых среднее, а во–вторых, опять таки, приблизительное. Истинное прогнозное значение с заданной вероятностью γ следует ожидать в доверительном интервале .
Размах доверительного интеграла для прогноза определяется формулой, почти такой же, как и при построении доверительной зоны:
· В ячейку BS29 скопировать из N23 заданное для прогноза значение Xp.
· В ячейке BV29 вычислить по найденной формуле регрессии прогнозное значение Yp :
· Размах доверительного интервала для прогноза найти в ячейке BS32 по приведенной формуле
· В ячейках BU32 и BW32 подсчитать границы доверительного интервала для прогноза:
§ 9. Прогноз и доверительные интервал для прогноза
Построенное уравнение регрессии можно теперь использовать для прогнозирования. Задавая любое значение фактора X можно подсчитать соответствующее среднее значение фактора Y.
Найденное таким образом значение, во–первых среднее, а во–вторых, опять таки, приблизительное. Истинное прогнозное значение с заданной вероятностью γ следует ожидать в доверительном интервале .
Размах доверительного интеграла для прогноза определяется формулой, почти такой же, как и при построении доверительной зоны:
http://mydocx.ru/4-12751.html
http://studizba.com/lectures/139-jekonomika-i-finansy/2256-lekcii-po-jekonometrike/43049-8-postroenie-doveritelnyh-intervalov-dlja-kojefficientov-regressii.html