Экономическая модель линейного уравнения регрессии

Корреляция и регрессия

Линейное уравнение регрессии имеет вид y=bx+a+ε
Здесь ε — случайная ошибка (отклонение, возмущение).
Причины существования случайной ошибки:
1. Невключение в регрессионную модель значимых объясняющих переменных;
2. Агрегирование переменных. Например, функция суммарного потребления – это попытка общего выражения совокупности решений отдельных индивидов о расходах. Это лишь аппроксимация отдельных соотношений, которые имеют разные параметры.
3. Неправильное описание структуры модели;
4. Неправильная функциональная спецификация;
5. Ошибки измерения.
Так как отклонения εi для каждого конкретного наблюдения i – случайны и их значения в выборке неизвестны, то:
1) по наблюдениям xi и yi можно получить только оценки параметров α и β
2) Оценками параметров α и β регрессионной модели являются соответственно величины а и b, которые носят случайный характер, т.к. соответствуют случайной выборке;
Тогда оценочное уравнение регрессии (построенное по выборочным данным) будет иметь вид y = bx + a + ε, где ei – наблюдаемые значения (оценки) ошибок εi, а и b соответственно оценки параметров α и β регрессионной модели, которые следует найти.
Для оценки параметров α и β — используют МНК (метод наименьших квадратов).
Система нормальных уравнений.

Для наших данных система уравнений имеет вид:

10a + 356b = 49
356a + 2135b = 9485

Из первого уравнения выражаем а и подставим во второе уравнение
Получаем b = 68.16, a = 11.17

Уравнение регрессии:
y = 68.16 x — 11.17

1. Параметры уравнения регрессии.
Выборочные средние.

1.1. Коэффициент корреляции
Рассчитываем показатель тесноты связи. Таким показателем является выборочный линейный коэффициент корреляции, который рассчитывается по формуле:

Линейный коэффициент корреляции принимает значения от –1 до +1.
Связи между признаками могут быть слабыми и сильными (тесными). Их критерии оцениваются по шкале Чеддока:
0.1 Y фактором X весьма высокая и прямая.

1.2. Уравнение регрессии (оценка уравнения регрессии).

Линейное уравнение регрессии имеет вид y = 68.16 x -11.17
Коэффициентам уравнения линейной регрессии можно придать экономический смысл. Коэффициент уравнения регрессии показывает, на сколько ед. изменится результат при изменении фактора на 1 ед.
Коэффициент b = 68.16 показывает среднее изменение результативного показателя (в единицах измерения у ) с повышением или понижением величины фактора х на единицу его измерения. В данном примере с увеличением на 1 единицу y повышается в среднем на 68.16.
Коэффициент a = -11.17 формально показывает прогнозируемый уровень у , но только в том случае, если х=0 находится близко с выборочными значениями.
Но если х=0 находится далеко от выборочных значений x , то буквальная интерпретация может привести к неверным результатам, и даже если линия регрессии довольно точно описывает значения наблюдаемой выборки, нет гарантий, что также будет при экстраполяции влево или вправо.
Подставив в уравнение регрессии соответствующие значения x , можно определить выровненные (предсказанные) значения результативного показателя y(x) для каждого наблюдения.
Связь между у и x определяет знак коэффициента регрессии b (если > 0 – прямая связь, иначе — обратная). В нашем примере связь прямая.

1.3. Коэффициент эластичности.
Коэффициенты регрессии (в примере b) нежелательно использовать для непосредственной оценки влияния факторов на результативный признак в том случае, если существует различие единиц измерения результативного показателя у и факторного признака х.
Для этих целей вычисляются коэффициенты эластичности и бета — коэффициенты. Коэффициент эластичности находится по формуле:

Он показывает, на сколько процентов в среднем изменяется результативный признак у при изменении факторного признака х на 1%. Он не учитывает степень колеблемости факторов.
В нашем примере коэффициент эластичности больше 1. Следовательно, при изменении Х на 1%, Y изменится более чем на 1%. Другими словами — Х существенно влияет на Y.
Бета – коэффициент показывает, на какую часть величины своего среднего квадратичного отклонения изменится в среднем значение результативного признака при изменении факторного признака на величину его среднеквадратического отклонения при фиксированном на постоянном уровне значении остальных независимых переменных:

Т.е. увеличение x на величину среднеквадратического отклонения этого показателя приведет к увеличению среднего Y на 0.9796 среднеквадратичного отклонения этого показателя.

1.4. Ошибка аппроксимации.
Оценим качество уравнения регрессии с помощью ошибки абсолютной аппроксимации.

Поскольку ошибка больше 15%, то данное уравнение не желательно использовать в качестве регрессии.

1.6. Коэффициент детерминации.
Квадрат (множественного) коэффициента корреляции называется коэффициентом детерминации, который показывает долю вариации результативного признака, объясненную вариацией факторного признака.
Чаще всего, давая интерпретацию коэффициента детерминации, его выражают в процентах.
R 2 = 0.98 2 = 0.9596, т.е. в 95.96 % случаев изменения x приводят к изменению у . Другими словами — точность подбора уравнения регрессии — высокая. Остальные 4.04 % изменения Y объясняются факторами, не учтенными в модели.

xyx 2y 2x·yy(x)(yi— y ) 2(y-y(x)) 2(xi— x ) 2|y — yx|:y
0.37115.60.1376243.365.7914.11780.892.210.18640.0953
0.39919.90.1592396.017.9416.02559.0615.040.1630.1949
0.50222.70.252515.2911.423.04434.490.11760.09050.0151
0.57234.20.32721169.6419.5627.8187.3240.780.05330.1867
0.60744.5.36841980.2527.0130.20.9131204.490.03830.3214
0.65526.80.429718.2417.5533.47280.3844.510.02180.2489
0.76335.70.58221274.4927.2440.8361.5426.350.00160.1438
0.87330.60.7621936.3626.7148.33167.56314.390.00490.5794
2.48161.96.1726211.61402158.0714008.0414.662.820.0236
7.23391.99.1833445.25545.2391.916380.18662.543.381.81

2. Оценка параметров уравнения регрессии.
2.1. Значимость коэффициента корреляции.

По таблице Стьюдента с уровнем значимости α=0.05 и степенями свободы k=7 находим tкрит:
tкрит = (7;0.05) = 1.895
где m = 1 — количество объясняющих переменных.
Если tнабл > tкритич, то полученное значение коэффициента корреляции признается значимым (нулевая гипотеза, утверждающая равенство нулю коэффициента корреляции, отвергается).
Поскольку tнабл > tкрит, то отклоняем гипотезу о равенстве 0 коэффициента корреляции. Другими словами, коэффициент корреляции статистически — значим
В парной линейной регрессии t 2 r = t 2 b и тогда проверка гипотез о значимости коэффициентов регрессии и корреляции равносильна проверке гипотезы о существенности линейного уравнения регрессии.

2.3. Анализ точности определения оценок коэффициентов регрессии.
Несмещенной оценкой дисперсии возмущений является величина:

S 2 y = 94.6484 — необъясненная дисперсия (мера разброса зависимой переменной вокруг линии регрессии).
Sy = 9.7287 — стандартная ошибка оценки (стандартная ошибка регрессии).
S a — стандартное отклонение случайной величины a.

Sb — стандартное отклонение случайной величины b.

2.4. Доверительные интервалы для зависимой переменной.
Экономическое прогнозирование на основе построенной модели предполагает, что сохраняются ранее существовавшие взаимосвязи переменных и на период упреждения.
Для прогнозирования зависимой переменной результативного признака необходимо знать прогнозные значения всех входящих в модель факторов.
Прогнозные значения факторов подставляют в модель и получают точечные прогнозные оценки изучаемого показателя. (a + bxp ± ε) где
Рассчитаем границы интервала, в котором будет сосредоточено 95% возможных значений Y при неограниченно большом числе наблюдений и X p = 1 (-11.17 + 68.16*1 ± 6.4554)
(50.53;63.44)
С вероятностью 95% можно гарантировать, что значения Y при неограниченно большом числе наблюдений не выйдет за пределы найденных интервалов.

Индивидуальные доверительные интервалы для Y при данном значении X.
(a + bx i ± ε)
где

xiy = -11.17 + 68.16xiεiyminymax
0.37114.1119.91-5.834.02
0.39916.0219.85-3.8335.87
0.50223.0419.673.3842.71
0.57227.8119.578.2447.38
0.60730.219.5310.6749.73
0.65533.4719.4913.9852.96
0.76340.8319.4421.460.27
0.87348.3319.4528.8867.78
2.48158.0725.72132.36183.79

С вероятностью 95% можно гарантировать, что значения Y при неограниченно большом числе наблюдений не выйдет за пределы найденных интервалов.

2.5. Проверка гипотез относительно коэффициентов линейного уравнения регрессии.
1) t-статистика. Критерий Стьюдента.
Проверим гипотезу H0 о равенстве отдельных коэффициентов регрессии нулю (при альтернативе H1 не равно) на уровне значимости α=0.05.
tкрит = (7;0.05) = 1.895

Поскольку 12.8866 > 1.895, то статистическая значимость коэффициента регрессии b подтверждается (отвергаем гипотезу о равенстве нулю этого коэффициента).

Поскольку 2.0914 > 1.895, то статистическая значимость коэффициента регрессии a подтверждается (отвергаем гипотезу о равенстве нулю этого коэффициента).

Доверительный интервал для коэффициентов уравнения регрессии.
Определим доверительные интервалы коэффициентов регрессии, которые с надежность 95% будут следующими:
(b — tкрит Sb; b + tкрит Sb)
(68.1618 — 1.895 • 5.2894; 68.1618 + 1.895 • 5.2894)
(58.1385;78.1852)
С вероятностью 95% можно утверждать, что значение данного параметра будут лежать в найденном интервале.
(a — ta)
(-11.1744 — 1.895 • 5.3429; -11.1744 + 1.895 • 5.3429)
(-21.2992;-1.0496)
С вероятностью 95% можно утверждать, что значение данного параметра будут лежать в найденном интервале.

2) F-статистики. Критерий Фишера.
Проверка значимости модели регрессии проводится с использованием F-критерия Фишера, расчетное значение которого находится как отношение дисперсии исходного ряда наблюдений изучаемого показателя и несмещенной оценки дисперсии остаточной последовательности для данной модели.
Если расчетное значение с lang=EN-US>n-m-1) степенями свободы больше табличного при заданном уровне значимости, то модель считается значимой.

где m – число факторов в модели.
Оценка статистической значимости парной линейной регрессии производится по следующему алгоритму:
1. Выдвигается нулевая гипотеза о том, что уравнение в целом статистически незначимо: H0: R 2 =0 на уровне значимости α.
2. Далее определяют фактическое значение F-критерия:

где m=1 для парной регрессии.
3. Табличное значение определяется по таблицам распределения Фишера для заданного уровня значимости, принимая во внимание, что число степеней свободы для общей суммы квадратов (большей дисперсии) равно 1 и число степеней свободы остаточной суммы квадратов (меньшей дисперсии) при линейной регрессии равно n-2.
4. Если фактическое значение F-критерия меньше табличного, то говорят, что нет основания отклонять нулевую гипотезу.
В противном случае, нулевая гипотеза отклоняется и с вероятностью (1-α) принимается альтернативная гипотеза о статистической значимости уравнения в целом.
Табличное значение критерия со степенями свободы k1=1 и k2=7, Fkp = 5.59
Поскольку фактическое значение F > Fkp, то коэффициент детерминации статистически значим (Найденная оценка уравнения регрессии статистически надежна).

Проверка на наличие автокорреляции остатков.
Важной предпосылкой построения качественной регрессионной модели по МНК является независимость значений случайных отклонений от значений отклонений во всех других наблюдениях. Это гарантирует отсутствие коррелированности между любыми отклонениями и, в частности, между соседними отклонениями.
Автокорреляция (последовательная корреляция) определяется как корреляция между наблюдаемыми показателями, упорядоченными во времени (временные ряды) или в пространстве (перекрестные ряды). Автокорреляция остатков (отклонений) обычно встречается в регрессионном анализе при использовании данных временных рядов и очень редко при использовании перекрестных данных.
В экономических задачах значительно чаще встречается положительная автокорреляция, нежели отрицательная автокорреляция. В большинстве случаев положительная автокорреляция вызывается направленным постоянным воздействием некоторых неучтенных в модели факторов.
Отрицательная автокорреляция фактически означает, что за положительным отклонением следует отрицательное и наоборот. Такая ситуация может иметь место, если ту же зависимость между спросом на прохладительные напитки и доходами рассматривать по сезонным данным (зима-лето).
Среди основных причин, вызывающих автокорреляцию, можно выделить следующие:
1. Ошибки спецификации. Неучет в модели какой-либо важной объясняющей переменной либо неправильный выбор формы зависимости обычно приводят к системным отклонениям точек наблюдения от линии регрессии, что может обусловить автокорреляцию.
2. Инерция. Многие экономические показатели (инфляция, безработица, ВНП и т.д.) обладают определенной цикличностью, связанной с волнообразностью деловой активности. Поэтому изменение показателей происходит не мгновенно, а обладает определенной инертностью.
3. Эффект паутины. Во многих производственных и других сферах экономические показатели реагируют на изменение экономических условий с запаздыванием (временным лагом).
4. Сглаживание данных. Зачастую данные по некоторому продолжительному временному периоду получают усреднением данных по составляющим его интервалам. Это может привести к определенному сглаживанию колебаний, которые имелись внутри рассматриваемого периода, что в свою очередь может служить причиной автокорреляции.
Последствия автокорреляции схожи с последствиями гетероскедастичности: выводы по t- и F-статистикам, определяющие значимость коэффициента регрессии и коэффициента детерминации, возможно, будут неверными.

Обнаружение автокорреляции

1. Графический метод
Есть ряд вариантов графического определения автокорреляции. Один из них увязывает отклонения ei с моментами их получения i. При этом по оси абсцисс откладывают либо время получения статистических данных, либо порядковый номер наблюдения, а по оси ординат – отклонения ei (либо оценки отклонений).
Естественно предположить, что если имеется определенная связь между отклонениями, то автокорреляция имеет место. Отсутствие зависимости скоре всего будет свидетельствовать об отсутствии автокорреляции.
Автокорреляция становится более наглядной, если построить график зависимости ei от ei-1.

Построение линейно-регрессионной модели экономического процесса (стр. 1 )

Из за большого объема этот материал размещен на нескольких страницах:
1 2 3 4 5 6 7 8 9

Тема 1. Построение линейно-регрессионной модели экономического процесса.

Пусть имеются две измеренные случайные величины и . В результате проведения n измерений получено n пар независимых пар . Перед исследователем экономистом ставится задача построения математической модели. Построим математическую модель представленную в виде выборочного линейного уравнения регрессии с. в. на с. в. (в обратном случае рассуждения проводятся аналогично).

Общий вид линейного уравнения в общем виде представляется:

(1)

Используя выборочные значения мы можем получить только оценку параметров и из (1), т. е. получить уравнение:

(2)

где и это соответственно оценки параметров k и b уравнения (1).

Обозначим через значение величины , соответствующее , а через значение оценки , которое получается при .

Для построение адекватной регрессионной модели экономического процесса необходимо воспользоваться методом наименьших квадратов (МНК) для этого рассмотрим разность и построим функционал который необходимо оптимизировать относительно оценок параметров:

(3)

Используя необходимое условие экстремума, приравниваем частные производные по и к 0. Получаем систему уравнений для нахождения этих коэффициентов:

(4)

после преобразования получаем систему

(4/)

откуда после выражения получаем следующие значения параметров:

Аналогично находится выборочное уравнение линейной регрессии СВ. X на СВ Y, , в котором выражения для оценок параметров и аналогичны выражению (5).

Для оценки связи между случайными величинами обычно используется выборочный коэффициент корреляции, который определяет меру зависимости одной случайной величины от другой. Рассмотрим выборочный эмпирический корреляционный момент

(6)

где , — выборочные средние (математические ожидания) и преобразуя (6) с учетом выражений и , получаем

(6/)

Выборочный коэффициент корреляции с учетом (6/) есть

(7)

где , — выборочные среднеквадратичные дисперсии.

(8)

Геометрический смысл линейной регрессии усреднение по всей выборочной совокупности данных.

Рис.1 Линейная регрессионная модель и регрессионные поля 1 и 2

Ко всем выше перечисленным коэффициентам рассчитанным по выборочным совокупностям, можно отметить следующие имеющие значение для экономических приложений, см. таблицу

Основные статистические показатели имеющие значение в экономических приложениях

Что характеризует параметр и для чего применяется

Оптимальное значение параметра

Объем данных по фактору (размер матрицы по вертикали). Применяется для установления тенденций изменения фактора

Не менее чем в 3-5 раз больше числа факторов (nxi). С увеличением числа факторов кратность должна увеличиваться

Уровень отклонения значений факторов то средней анализируемой совокупности

3.Коэффициент парной корреляции

Тесноту связи между i-м фактором и функцией. Применяется для отбора факторов

4.Коэффициент частной корреляции

Тесноту связи между факторами. Применяется для отбора факторов

Чем меньше, тем лучше модель

5.Коэффициент множественной корреляции

Тесноту связи одновременно между всеми факторами и функцией. Применяется для выбора модели

6. Коэффициент множественной детерминации

Долю влияния на функцию включенных в модель факторов. Равен квадрату коэффициента множественной корреляции

Степень отклонения фактического распределения случайных наблюдений от нормального (по центру) распределения. Применяется для проверки нормальности распределения

Классическая модель линейной регрессии

Вы будете перенаправлены на Автор24

Регрессия в статистике

Регрессия – это математическая зависимость, используемая для установления соответствия между случайными величинами.

Статистика широко применяется в экономическом анализе для исследования больших массивов данных и их динамического изменения. Кроме того, она позволяет отслеживать определенные тренды с помощью выборок.

Регрессия представляет собой одностороннюю зависимость, то есть она показывает связь между одной зависимой переменной от некоторого количества независимых. Основным условием исследования такой связи является понимание, что она будет иметь статистическую значимость. Статистическая значимость появляется тогда, когда вероятность ее возникновения является маловероятной.

Отличительной особенностью регрессионной связи является тот факт, что одному и тому же значению может соответствовать разные значения других величин, от которых она зависит.

Термин «регрессия» был впервые использован Френсисом Гальтоном. Он исследовал вопросы наследования физических характеристик человеком и установил, что дети не обязательно наследуют все признаки своих родителей. Кроме того, было отмечено постепенное усреднение параметров наследования, то есть общий «регресс».

Регрессия используется в теории вероятности. Здесь она представляется условным математическим ожиданием и имеет двумерное нормальное распределение. В этом случае регрессия будет линейной. Если же зависимость будет отличной от линейной, то она будет приближаться к линейной для упрощения ее восприятия.

Таким образом, регрессия является одним из основных методов статистического и математического анализа различных величин. В экономике регрессия применяется для изучения зависимости одной величины от множества факторов. Различные статистические методы позволяют выявлять степень влияния тех или иных параметров на результат.

Готовые работы на аналогичную тему

Классическая модель линейной регрессии

Линейная регрессия представляет собой зависимость одной величины от другой величины. Самая простая модель линейной регрессии имеет следующие допущения:

  1. Все значения зависимой переменной определяются без ошибки.
  2. У модели задано два параметра.
  3. Ошибка распределения стремится к нулю и имеет постоянное отклонение.
  4. Значения параметров заранее не известны, но их можно подобрать.

Если данные подбираются экспериментально, то чаще всего применяются программные продукты. Они предназначены специально для обработки статистических данных. Но существуют специальные формулы для расчета параметров, поэтому есть возможность рассчитать их вручную.

Метод наименьших квадратов применяется для того, чтобы минимизировать отклонения статистической выборки. Именно этот метод используется для выявления неизвестных параметров в регрессионной модели. Суть метода заключается в том, чтобы подобрать такие значения, которые будут максимально близки к независимым переменным. То есть, по сути, исследователь пытается уравнять правую и левую сторону уравнения путем подбора наиболее подходящих величин.

Этот метод широко применяется для решения системы линейных уравнений. В некоторых случаях, когда уравнение не имеет решения с общей точки зрения, метод квадратов позволяет подобрать наиболее подходящие варианты. Здесь может применяться метод минимизации суммы квадратов, внедряться псевдоинверсия и другое. Существует метод взвешенного квадрата, когда разные уравнения присваивают себе разный вес с точки зрения теоретических вычислений.

Если функция регрессии линейная, то и регрессия называется линейной. Вычисление линейной регрессии заключается в том, чтобы по результатам наблюдений подобрать выборку, данные которой будут отвечать следующим требованиям:

  1. Оптимальные точечные и интервальные оценки.
  2. Статистические гипотезы в параметрах модели.
  3. Адекватность результатам.

Однофакторная линейная модель описывает простую зависимость между двумя величинами. Расчетные значения располагаются на линии регрессии, а фактические в некоторой области, которые прилегают к ней. Уравнение регрессии состоит в том, чтобы на основе наблюдений найти пары, которые будут расположены на двух этих плоскостях максимально близко друг к другу. Здесь и применяется метод наименьших квадратов. Он заключается в том, что ищет коэффициенты, при которых сумма квадратов разностей минимальна.

Коэффициенты регрессии показывают тенденцию в изменении одного из признаков. С помощью линейной регрессии можно отслеживать, как изменение признака на единицу сказывается на зависимой переменной. Такой подход широко используется в экономическом планировании. Например, при исследовании влияния увеличения капитала компании на результат работы за период.

Надежность уравнения регрессии проверяют F-критерием Фишера-Снедекора. Он показывает тесноту связи. Это необходимо для того, чтобы выявить значимость уравнения в целом. Изначально выдвигается две гипотезы – уравнение значимо и уравнение не значимо. Далее с помощью дисперсионного анализа рассчитывается вероятность критерия. В зависимости от уровня значимости определяют случайно используемое значение или нет. Если величина значима, то это означает, что она появилась под влиянием значимых факторов, а значит, имеет влияние на статистическую выборку в целом.

Применение классических линейных регрессий актуально для решения большинства экономических задач. Они отличаются простотой расчетов, эффективным подходом к выбору информации для анализа. Здесь же есть возможность оценить отклонения и значимость переменных для анализа, что позволяет отмести неинформативные данные и сосредоточиться на тех, которые значимы для результата.

Таким образом, линейная регрессия является универсальным методом экономического анализа, который широко применяется для решения различных хозяйственных задач в рамках работы микро и макроэкономических систем.


источники:

http://pandia.ru/text/77/209/82685.php

http://spravochnick.ru/ekonometrika/klassicheskaya_model_lineynoy_regressii/