Интервальный прогноз по линейному уравнению регрессии

Интервалы прогноза по линейному уравнению регрессии.

В прогнозных расчётах по уравнению регрессии определяется то, что уравнение не является реальным, для есть ещё стандартная ошибка . Поэтому интервальная оценка прогнозного значения

Выразим из уравнения

, то есть стандартная ошибка зависит и ошибки коэффициента регрессии b,

.

Из теории выборки известно, что . Используя в качестве оценки остаточную дисперсию на одну степень свободы , получим формулу расчёта ошибки среднего значения переменной y: .

Ошибка коэффициента регрессии: .

В прогнозных расчетах по уравнению регрессии определяется уравнение как точечный прогноз при , то есть путём подстановки в уравнение регрессии . Однако точечный прогноз явно нереален.

— формула стандартной ошибки предсказываемого значения y при заданных , характеризует ошибку положения линии регрессии. Величина стандартной ошибки , достигает min при , и возрастает по мере того, как «удаляется» от в любом направлении. То есть чем больше разность между и x, тем больше ошибка , с которой предсказывается среднее значение y для заданного значения .

Можно ожидать наилучшие результаты прогноза, если признак — фактор x находится в центре области наблюдений х и нельзя ожидать хороших результатов прогноза при удалении от .

Если же значение оказывается за пределами наблюдаемых значений х, используемых при построении ЛР, то результаты прогноза ухудшаются в зависимости то того, насколько отклоняется от области наблюдаемых значений фактора х. Доверит. интервалы при .

На графике доверительной границы представляет собой гиперболы, расположенные по обе стороны от линии регрессии.

Две гиперболы по обе стороны от ЛР определяют 95%-ные доверительные интервалы для среднего значения y при заданном значении x.

Однако фактические значения y варьируют около среднего значения . Индивидуальные значения y могут отклоняться от на величину случайной ошибки , дисперсия которой оценивается как остаточная дисперсия на одну степень свободы . Поэтому ошибка предсказываемого индивидуального значения y должна включать не только стандартную ошибку , но и случайную ошибку .

Средняя ошибка прогнозируемого индивидуального значения y составит:

.

При прогнозировании на основе УР следует помнить, что величина прогноза зависит не только от стандартной ошибки индивидуального значения y, но и от точности прогноза значений фактора x.

Его величина может задаваться на основе анализа других моделей исходя из конкретной ситуации, а также из анализа динамики данного фактора.

Рассмотренная формула средней ошибки индивидуального значения признака y( ) может быть использована также для оценки существенности различия предсказываемого значения исходя из регрессионной модели и выдвинутой гипотезы развития событий.

Понятие о множественной регрессии. Классическая линейная модель множественной регрессии (КЛММР). Определение параметров уравнения множественной регрессии методом наименьших квадратов.

Парная регрессия используется при моделировании, если влияние других факторов, воздействующих на объект исследования можно пренебречь.

Например, при построении модели потребления того или иного товара от дохода исследователь предполагает, что в каждой группе дохода одинаково влияние на потребление таких факторов, как цена товара, размер семьи, ее состав. Однако, уверенности в справедливости данного утверждения нет.

Прямой путь решения такой задачи состоит в отборе единиц совокупности с одинаковыми значениями всех других факторов, кроме дохода. Он приводит к планированию эксперимента – метод, который используется в естественно-научных исследованиях. Экономист лишен возможности регулировать другие факторы. Поведение отдельных экономических переменных контролировать нельзя, т.е. не удается обеспечить равенство прочих условий для оценки влияния одного исследуемого фактора.

Как поступить в этом случае? Надо выявить влияние других факторов, введя их в модель, т.е. построить уравнение множественной регрессии.

такого рода уравнения используется при изучении потребления.

Коэффициенты bj – частные производные у по факторами хi

при условии, что все остальные хi = const

Рассмотрим современную потребительскую функцию (впервые 30е годы предложил Кейнс Дж.М.) как модель вида С = f(y,P,M,Z)

c- потребление. у – доход

P – цена, индекс стоимости.

M – наличные деньги

Z – ликвидные активы

При этом

Множественная регрессия широко используется в решении проблем спроса, доходности акций, при изучении функций издержек производства, в макроэкономических вопросах и других вопросах эконометрики.

В настоящее время множественная регрессия – один из наиболее распространенных методов в эконометрике.

Основная цель множественной регрессии – построить модель с большим числом факторов, определив при этом влияние каждого их них в отдельности, а также совокупное воздействие на моделируемый показатель.

Построение уравнения множественной регрессии начинается с решения вопроса о спецификации модели. Она включает в себя 2 круга вопросов:

1. отбор факторов

2. выбор уравнения регрессии.

Включение в уравнение множественной регрессии того или иного набора факторов связано с представлением исследователя о природе взаимосвязи моделируемого показателя с другими экономическими явлениями. Требования к факторам, включаемым во множественную регрессию

1. они должны быть количественно измеримы, если необходимо включить в модель качественный фактор, не имеющий количественного измерения, то ему нужно придать количественную определенность (например, в модели урожайности качество почвы задается в виде баллов; в модели стоимости объектов недвижимости: районы должны быть проранжированы).

2. факторы не должны быть интеркоррелированы и тем более находиться в точной функциональной связи.

Включение в модель факторов с высокой интеркорреляцией, когда Rуx1 2 , которая фиксирует долю объясненной вариации результативного признака за счет рассматриваемых в регрессии р факторов. Влияние других неучтенных в модели факторов оценивается как 1-R 2 c соответствующей остаточной дисперсией S 2 .

При дополнительном включении в регрессию р+1 фактора коэффициент детерминации должен возрастать, а остаточная дисперсия уменьшается.

Если же этого не происходит и данные показатели практически мало отличаются друг от друга, то включенный в анализ фактор xр+1 не улучшает модель и практически является лишним фактором.

Если для регрессии, включающей 5 факторов R 2 = 0,857, и включенный 6 дало R 2 = 0,858, то нецелесообразно включать в модель этот фактор.

Насыщение модели лишними факторами не только не снижает величину остаточной дисперсии и не увеличивает показатель детерминации, но и приводит к статистической не значимости параметров регрессии по критерию t-Стьюдента.

Таким образом, хотя теоретически регрессионная модель позволяет учесть любое число факторов, практически в этом нет необходимости.

Отбор факторов производиться на основе теоретико-экономического анализа. Однако, он часто не позволяет однозначно ответить на вопрос о количественной взаимосвязи рассматриваемых признаков и целесообразности включения фактора в модель. Поэтому отбор факторов осуществляется в две стадии:

на первой – подбирают факторы, исходя из сущности проблемы.

на второй – на основе матрицы показателей корреляции определяют t-статистики для параметров регрессии.

Коэффициенты интеркоррелиции (т.е. корреляция между объясняющими переменными) позволяют исключить из моделей дублирующие факторы. Считается, что две переменные явно коллинеарны, т.е. находятся между собой в линейной зависимости, если rхiхj >=0.7.

Поскольку одним из условий построения уравнения множественной регрессии является независимость действия факторов, т.е. Rхixj = 0, коллинеарность факторов нарушает это условие. Если факторы явно коллинеарны, то они дублируют друг друга и один из них рекомендуется исключить из регрессии. Предпочтение при этом отдается не фактору, более тесно связанному с результатом, а тому фактору, который при достаточно тесной связи с результатом имеет наименьшую тесноту связи с другими факторами. В этом требовании проявляется специфика множественной регрессии как метода исследования комплексного воздействия факторов в условиях их независимости друг от друга.

Рассмотрим матрицу парных коэффициентов корреляции при изучении зависимости у = f(x, z, v)

yxzv
y
x0,8
z0,70,8
v0,60,50,2

Очевидно, факторы x и z дублируют друг друга. В анализ целесообразно включит фактор z, а не х, так как корреляция z с у слабее чем корреляция фактора х с у (rуz 2 к 1, тем сильнее проявляется мультиколлинеарность. Сравнивая между собой коэффициенты множественной детерминации и т.п.

Можно выделить переменные, ответственные за мультиколлинеарность, следовательно, решить проблему отбора факторов, оставляя в уравнения факторы с минимальной величиной коэффициента множественной детерминации.

Существует ряд походов преодоления сильной межфакторной корреляции. Самый простой путь устранения МК состоит в исключении из модели одного или несколько факторов.

Другой подход связан с преобразованием факторов, при котором уменьшается корреляция между ними.

Если y = f(x1, x2, x3), то возможно построение следующего совмещенного уравнения:

Это уравнение включает взаимодействие первого порядка (взаимодействие двух факторов).

Возможно включение в уравнение взаимодействий и более высокого порядка, если будет доказано их статистически значимость по F-критерию

Если анализ совмещенного уравнения показал значимость только взаимодействия факторов х1 и х3, то уравнение будет имеет вид:

Взаимодействие факторов х1 и х3 означает, что на разных уровнях фактора х3 влияние фактора х1 на у будет неодинаково, т.е. оно зависит от значения фактора х3. На рис. 3.1 взаимодействие факторов представляет непараллельными линями связи с результатом у. И наоборот, параллельные линии влияние фактора х1 на у при разных уровнях фактора х3 означают отсутствие взаимодействия факторов х1 и х3.

Рис 3.1. Графическая иллюстрация взаимодействия факторов.

а — х1 влияет на у, причем это влияние одинаково при х31, так и при х32 (одинаковый наклон линий регрессии), что означает отсутствие взаимодействия факторов х1 и х3;

б – с ростом х1 результативный признак у возрастает при х31, с ростом х1 результативный признак у снижается при х32. Между х1 и х3 существует взаимодействие.

Совмещенные уравнения регрессии строятся, например, при исследовании эффекта влияния на урожайность разных видов удобрений (комбинации азота и фосфора).

Решению проблемы устранения мультиколлинеарности факторов может помочь и переход к устранениям приведенной формы. С этой целью в уравнение регрессии производится подстановка рассматриваемого фактора через выражение его из другого уравнения.

Пусть, например, рассматривается двухфакторная регрессия вида a + b1x1 + b2x2, для которой x1 и x2 обнаруживают высокую коллеряцию. Если исключить один из факторов, то мы придем к уравнению парной регрессии. Вместе с тем можно оставить факторы в модели, но исследовать данное двухфакторное уравнение регрессии совместно с другим уравнением, в котором фактор (например х2) рассматривается как зависимая переменная. Предположим, известно, что . Постановляя это уравнение в искомое вместо х2, получим:

Или

Если , то разделив обе части равенства на , получаем уравнение вида:

,

которое представляет собой приведенную форму уравнения для определения результативного признака у. Это уравнение может быть представлено в виде:

.

К нему для оценки параметров может быть применен МНК.

Отбор факторов, включаемых в регрессию, является одним из важнейших этапов практического использования методов регрессии. Походы к отбору факторов на основе показателей корреляции могут быть разные. Они приводят построение уравнения множественной регрессии соответственно разным методикам. В зависимости от того, какая методика построение уравнения регрессии принята, меняется алгоритм ее решения на ЭВМ.

Наиболее широкое применение получили следующие методы построение уравнения множественной регрессии:

· шаговый регрессионный анализ.

Каждый из этих методов по-своему решает проблему отбора факторов, давая в целом близкие результаты – отсев факторов из полного его отбора (метод исключение), дополнительное введение фактора (метод включения), исключение ранее введенного фактора (шаговый регрессионный анализ).

На первый взгляд может показаться, что матрица парных коэффициентов корреляции играет главную роль в отборе факторов. Вместе с тем вследствие взаимодействия факторов парные коэффициенты корреляции не могут в полной мере решать вопрос о целесообразности включения в модель того или иного фактора. Эту роль выполняют показатели частной корреляции, оценивающие в чистом виде тесноту связи фактора с результатом. Матрица частных коэффициентов корреляции наиболее широко используется в процедура отсева фактора. При отборе факторов рекомендуется пользоваться следующим правилом: число включаемых факторов обычно в 6-7 раз меньше объема совокупности, по которой строит регрессии. Если это отношение нарушено, то число степеней свободны остаточной вариаций очень мало. Это приводит к тому, что параметры уравнения регресс оказываются статистически незначимыми, а F-критерий меньше табличного значения.

Дата добавления: 2016-05-16 ; просмотров: 1079 ; ЗАКАЗАТЬ НАПИСАНИЕ РАБОТЫ

Расчет доверительных интервалов и прогнозов для линейного уравнения регрессии

Как правило, в линейной регрессии обычно оценивается значимость не только уравнения в целом, но и отдельных его параметров.Показатели корреляционной связи, вычисленные по ограничен­ной совокупности (по выборке), являются лишь оценками той или иной статистической закономерности, поскольку в любом парамет­ре сохраняется элемент не полностью погасившейся случайности, присущей индивидуальным значениям признаков. Поэтому необхо­дима статистическая оценка степени точности и надежности пара­метров корреляции. Под надежностью здесь понимается вероятность того, что значение проверяемого параметра не равно нулю, не вклю­чает в себя величины противоположных знаков.

Вероятностная оценка параметров корреляции производится по общим правилам проверки статистических гипотез, разработанным математической статистикой, в частности путем сравнения оцени­ваемой величины со средней случайной ошибкой оценки. Для ко­эффициента парной регрессии b средняя ошибка оценки вычисля­ется как:

где Dост – остаточная дисперсия на одну степень свободы.

Для нашего примера величина стандартной ошибки коэффициента регрессии составила:

.

Для оценки того, насколько точные значения показателей могут отличаться от рассчитанных, осуществляется построение доверительных интервалов. Они определяют пределы, в которых лежат точные значения определяемых показателей с заданной степенью точности, соответствующей заданному уровню значимости α (α – вероятность отвергнуть правильную гипотезу при условии, что она верна, обычно принимается равной 0,05 или 0,01).

Для оценки статистической значимости коэффициента линейной регрессии и линейного коэффициента парной корреляции, а также для расчета доверительных интервалов b, применяется t – критерий Стьюдента.

Для оценки существенности коэффициента регрессии его величина сравнивается с его стандартной ошибкой, т.е. определяется фактическое значение t-критерия Стьюдента: , которое затем сравнивается с табличным значением при определенном уровне значимости а и числе степеней свободы (n — 2).

В рассматриваемом примере фактическое значение t-критерия для коэффициента регрессии составило:

.

Этот же результат получим, извлекая квадратный корень из найденного F-критерия, т.е.

.

Действительно, справедливо равенство .

При (для двустороннего критерия) и числе степеней свободы 13 табличное значение tb=2,16. Так как фактическое значение t‑критерия превышает табличное, то, следовательно, гипотезу о несущественности коэффициента регрессии можно отклонить.

Для расчета доверительных интервалов для параметров a и b уравнения линейной регрессии определяем предельную ошибку для каждого показателя:

Формулы для расчета доверительных интервалов имеют вид:

Если границы интервала имеют разные знаки, т.е. в эти границы попадает ноль, то оцениваемый параметр принимается нулевым.

Доверительный интервал для коэффициента регрессии определяется как . Для коэффициента регрессии b в примере 95%-ные границы составят:

0,022 ± 2,16·0,0026 = 0,022 ± 0,0057, т.е.

Поскольку коэффициент регрессии в эконометрических исследованиях имеет четкую экономическую интерпретацию, то доверительные границы интервала для коэффициента регрессии не должны содержать противоречивых результатов, например, -10 ≤ b ≤ 40. Такого рода запись указывает, что истинное значение коэффициента регрессии одновременно содержит положительные и отрицательные величины и даже ноль, чего не может быть.

Стандартная ошибка параметра а определяется по формуле:

Процедура оценивания существенности данного параметра не отличается от рассмотренной выше для коэффициента регрессии; вычисляется t-критерий: , его величина сравнивается с табличным значением при df = n — 2 степенях свободы. В нашем примере ma составила 0,032.

Значимость линейного коэффициента корреляции проверяется на основе величины ошибки коэффициента корреляции mr:

Фактическое значение t-критерия Стьюдента определяется как

Данная формула свидетельствует, что в парной линейной регрессии , ибо, как уже указывалось, Кроме того, Следовательно,

Таким образом, проверка гипотез о значимости коэффициентов регрессии и корреляции равносильна проверке гипотезы о существенности линейного уравнения регрессии.

В рассматриваемом примере tr совпало с tb. Величина tr =8,37 значительно превышает табличное значение 2,16 при а=0,05. Следовательно, коэффициент корреляции существенно отличен от нуля и зависимость является достоверной.

Прогноз, полученный подстановкой в уравнение регрессии ожи­даемого значения фактора, называют точечным прогнозом. Вероят­ность точной реализации такого прогноза крайне мала. Необходимо сопроводить его значением средней ошибки прогноза или довери­тельным интервалом прогноза с достаточно большой вероятностью.

Точечный прогноз заключается в получении прогнозного значения yp, которое определяется путем подстановки в уравнение регрессии

соответствующего прогнозного значения xp:

Интервальный прогноз заключается в построении доверительного интервала прогноза, т.е. верхней и нижней границы ypmin, ypmax интервала, содержащего точную величину для прогнозного значения
(ypmin 2
– индекс детерминации;

n – число наблюдений;

m – число параметров при переменных х.

Величина m характеризует число степеней свободы для факторной суммы квадратов, а (n – m — 1) – число степеней свободы для остаточной суммы квадратов.

Для степенной функции и формула F – критерия примет тот же вид, что и при линейной зависимости:

Для параболы второй степени y=a + b·x + c·x 2 + ε m=2 и .

Для оценки качества построенной модели используется также средняя ошибка аппроксимации. Фактические значения результативного признака отличаются от теоретических, рассчитанных по уравнению регрессии, т.е. у и . Чем меньше это отличие, тем ближе теоретические значения подходят к эмпирическим данным, лучше качество модели. Величина отклонений фактических и расчетных значений результативного признака (у) по каждому наблюдению представляет собой ошибку аппроксимации. Их число соответствует объему совокупности. В отдельных случаях ошибка аппроксимации может оказаться равной нулю. Для сравнения берутся величины отклонений, выраженные в процентах к фактическим значениям. Так, если для первого наблюдения у=20, а для второго у=50, ошибка аппроксимации составит 25% для первого наблюдения и 20% — для второго.

Поскольку (у) может быть как величиной положительной, так и отрицательной, то ошибки аппроксимации для каждого наблюдения принято определять в процентах по модулю.

Чтобы иметь общее суждение о качестве модели из относительных отклонений по каждому наблюдению, определяют среднюю ошибку аппроксимации как среднюю арифметическую простую:

.

Для нашего примера представим расчет средней ошибки аппроксимации в таблице 4.


источники:

http://mydocx.ru/4-12751.html