Уравнение парной линейной корреляционной зависимости

Определение параметров парного линейного корреляционного уравнения и их интерпретация

Продолжение 2 вопроса: Понятие о корреляции, виды корреляционных связей. Задачи корреляционного анализа

По направлениюсвязь может быть:

1. прямая – с увеличением x увеличивается y;

2. обратная – с увеличением x уменьшается y;

3. знакопеременная (параболическая).

В статистике для установления аналитической формы связи и ее направления строятся графики – корреляционные поля. Для этого в прямоугольной системе координат на оси Ох приводят значения факторного признака (x), на оси Oy – результативного (y). По расположению точек на графике определяется линия, отражающая направление и форму связи между факторами (точки не соединяются).

Наиболее простым примером корреляционно-регрессионного анализа является определение зависимости одного фактора от другого (между двумя признаками x и y). Это называется парной корреляцией. Установить влияние нескольких факторных признаков x1, x2, x3 и т.д. на величину y позволяет множественная корреляция.

3. ПАРНАЯ ЛИНЕЙНАЯ КОРРЕЛЯЦИЯ

Определение параметров парного линейного корреляционного уравнения и их интерпретация

Простейшей системой корреляционной связи является линейная связь между двумя признаками – парная линейная корреляция.

Практическое значение ее заключается в том, что есть системы, в которых среди всех факторов, влияющих на результативный признак, выделяется один важнейший фактор, который в основном определяет вариацию результативного признака. Измерение парных корреляций составляет необходимый этап в изучении сложных, многофакторных связей. Есть такие системы связей, при изучении которых следует предпочесть парную корреляцию. Внимание к линейным связям объясняется ограниченной вариацией переменных и тем, что в большинстве случаев нелинейные формы связей для выполнения расчетов преобразуются в линейную форму.

Уравнение парной линейной корреляционной связи называется уравнением парной регрессии и имеет вид:

где – теоретическое значение результативного признака, представляющее среднее значение результативного признака у при определённом значении факторного признака х;

a – свободный член уравнения (параметр уравнения не имеющий экономического смысла);

b – коэффициент регрессии, который выражает количественную зависимость между факторами и показывает среднее изменение результативного признака при изменении факторного на единицу.

Построение корреляционно-регрессионных моделей, какими бы сложными они не были, само по себе не вскрывает полностью всех причинно-следственных связей. Основой их адекватности является предварительный качественный анализ, основанный на учёте специфики и особенностей исследуемых социально-экономических явлений и процессов.

Методику проведения парной линейной корреляции рассмотрим на примере зависимости прибыли от реализации 1-го центнера зерна от себестоимости 1-го центнера зерна в хозяйствах Орловской области. Для этого построим таблицу.

Таблица – Зависимость между прибылью от реализации 1-го центнера зерна и себестоимостью 1-го центнера зерна в хозяйствах Орловской области

Читайте также:
  1. A) такие уравнения, которые имеют одни и те же корни.
  2. I Раздел. Определение провозной способности судна.
  3. I. Дайте определение понятиям
  4. I. Определение эпидемического процесса и методологическое обоснование разделов учения об эпидемическом процессе.
  5. I. Определение эпидемического процесса и методологическое обоснование разделов учения об эпидемическом процессе.
  6. I.1 Определение
  7. III. Психологическое сопровождение учебно-воспитательного процесса (участие в формировании «умения учиться») Определение мотивации учебной деятельности
  8. IV. ОПРЕДЕЛЕНИЕ КРУГА ИСТОЧНИКОВ, СтруктурЫ и объемА курсовой и выпускной квалификационной (дипломной) работы
  9. quot;Определение показателя преломления и концентрации растворов с помощью рефрактометра».
  10. SWOT-анализ и определение ключевых проблем отеля
№ хозяйстваСебестоимость 1 ц. зерна, руб.Прибыль от реализации 1 ц. зерна, руб.Расчетные величины
·100%
154,20166,2723777,627645,7
27645,7

25638,8148,517,2051,784,334898,60
156,28123,234611,77
175,25113,922395,12
175,68105,862353,22
189,62151,561195,08
190,54150,801132,32
192,43154,171008,70
210,34110,84191,82
228,8379,7621,53
231,5585,8454,17
239,0179,24219,63
246,5694,03500,42
249,5822,09644,65
267,4131,341867,97
268,3075,201945,69
275,3435,512616,32
285,85121,483801,96
298,5835,065533,87
Итого4035,351736,2034992,85
Ср.значение224,1996,461944,05

1. С точки зрения экономической теории между изучаемыми факторами существует взаимосвязь, т.к. снижение себестоимости 1-го центнера зерна должно приводить к росту прибыли от реализации 1-го центнера зерновых культур. В нашем примере х – факторный признак (себестоимость 1-го центнера зерна, руб.); у – результативный признак (прибыль от реализации 1-го центнера зерна, руб.).

2. Для установления направления и аналитической формы связи, используя ранжированный ряд распределения хозяйств по факторному признаку, изобразим взаимосвязь между факторами графически. Для этого построим поле корреляции (рисунок 1).

Рисунок 1 – Зависимость прибыли от реализации 1-го центнера зерна от себестоимости 1-го центнера зерна в хозяйствах Орловской области

3. Анализ данных ранжированного ряда и расположение точек на поле графика свидетельствует о наличии между факторным и результативным признаком прямой линейной зависимости, которая математически выражается уравнением прямой линии:

.

Для определения параметров a и b используется способ наименьших квадратов, основное требование которого заключается в том, чтобы сумма квадратов отклонений фактических значений (yi) от теоретических значений ( ) равна (стремится к) min.

Параметры уравнения регрессии (a и b) определяются путем решения системы нормальных уравнений:

В нашем случае система нормальных уравнений примет вид:

Параметры уравнения а и b можно рассчитать по формулам:

Можно также воспользоваться готовыми формулами, вытекающими из уравнений данной системы:

или

Определите:

Таким образом, линейное уравнение регрессии имеет вид:

В данной совокупности коэффициент регрессии показывает, что при увеличении себестоимости 1-го центнера зерна на 1руб. в среднем прибыль от реализации 1-го центнера зерна снижается на ………руб.

Ценность уравнения регрессии состоит в том, что оно позволяет, во-первых, количественно увязать между собой ключевые показатели развития предприятия в условиях рынка, во-вторых, использовать результаты расчета в управленческом учете и бизнес-плане.

4. Найдем коэффициент эластичности. Он показывает, насколько процентов в среднем по совокупности изменяется результативный признак от своей средней величины при изменении факторного на 1 % от своего среднего значения.

, (3),

Рассчитаем и .

Таким образом, в среднем по совокупности прибыль от реализации 1-го центнера зерна уменьшится на …% при увеличении себестоимости 1-го центнера зерна на … % от своего среднего значения.

5. Рассчитаем теоретические значения прибыли от реализации 1-го центнера зерна для каждого хозяйства, подставляя в уравнение регрессии конкретные значения факторного признака х. Выровненные уровни по уравнению регрессии:

руб.

Расчётные значения прибыли от реализации 1-го центнера зерна приведены в таблице 1, причём должно соблюдаться следующее тождество: .

Дата добавления: 2015-01-12 ; просмотров: 24 | Нарушение авторских прав

Уравнение парной линейной регрессии, интерпретация его параметров.

Корреля́ция — это статистическая взаимосвязь двух или нескольких случайных величин (либо величин, которые можно с некоторой допустимой степенью точности считать таковыми). При этом, изменения одной или нескольких из этих величин приводят к систематическому изменению другой или других величин. Математической мерой корреляции двух случайных величин служит коэффициент корреляции.

Корреляция может быть положительной и отрицательной (возможна также ситуация отсутствия статистической взаимосвязи — например, для независимых случайных величин). Отрицательная корреляция — корреляция, при которой увеличение одной переменной связано с уменьшением другой переменной, при этом коэффициент корреляции отрицателен. Положительная корреляция — корреляция, при которой увеличение одной переменной связано с увеличением другой переменной, приэтом коэффициент корреляции положителен.

Автокорреляция — статистическая взаимосвязь между случайными величинами из одного ряда, но взятых со сдвигом, например, для случайного процесса со сдвигом по времени.

Метод обработки статистических данных, заключающийся в изучении коэффициентов (корреляции) между переменными, называется корреляционным анализом.

Корреляционный анализ — метод обработки статистических данных, заключающийся в изучении коэффициентов (корреляции) между переменными. При этом сравниваются коэффициенты корреляции между одной парой или множеством пар признаков для установления между ними статистических взаимосвязей.

Цель корреляционного анализа — обеспечить получение некоторой информации об одной переменной с помощью другой переменной. В случаях, когда возможно достижение цели, говорят, что переменные коррелируют. В самом общем виде принятие гипотезы о наличии корреляции означает что изменение значения переменной А, произойдет одновременно с пропорциональным изменением значения Б: если обе переменные растут то корреляция положительная, если одна переменная растёт, а вторая уменьшается, корреляция отрицательная.

Корреляция отражает лишь линейную зависимость величин но не отражает их функциональной связности. Например, если вычислить коэффициент корреляции между величинами A = sin(x) и B = cos(x), то он будет близок к нулю, т. е. Зависимость между величинами отсутствует. Между тем, величины A и B очевидно связаны функционально по закону sin2(x) + cos2(x) = 1.

Данный метод обработки статистических данных весьма популярен в экономике и социальных науках (в частности в психологии и социологии), хотя сфера применения коэффициентов корреляции обширна:контроль качества промышленной продукции, металловедение, агрохимия, гидробиология, биометрия и прочие.

Популярность метода обусловлена двумя моментами: коэффициенты корреляции относительно просты в подсчете, их применение не требует специальной математической подготовки. В сочетании с простотой интерпретации, простота применения коэффициента привела к его широкому распространению в сфере анализа статистических данных.

Регрессионный анализ — метод моделирования измеряемых данных и исследования их свойств. Данные состоят из пар значений зависимой переменной (переменной отклика) и независимой переменной (объясняющей переменной). Регрессионная модель есть функция независимой переменной и параметров с добавленной случайной переменной. Параметры модели настраиваются таким образом, что модель наилучшим образом приближает данные. Критерием качества приближения (целевой функцией) обычно является среднеквадратичная ошибка: сумма квадратов разности значений модели и зависимой переменной для всех значений независимой переменной в качестве аргумента. Регрессионный анализ — раздел математической статистик ии машинного обучения. Предполагается, что зависимая переменная есть сумма значений некоторой модели и случайной величины. Относительно характера распределения этой величины делаются предположения, называемые гипотезой порождения данных. Для подтверждения или опровержения этой гипотезы выполняются статистические тесты, называемые анализом остатков. При этом предполагается, что независимая переменная не содержит ошибок. Регрессионный анализ используется для прогноза, анализа временных рядов, тестирования гипотез и выявления скрытых взаимосвязей в данных.

Простейшей системой корреляционной связи является линейная связь между двумя признаками — парная линейная корреляция.

Практическое значение ее в том, что есть системы, в которых среди всех факторов, влияющих на результативный признак, выделяется один важнейший фактор, который в основном определяет вариацию результативного признака. Измерение парных корреляций составляет необходимый этап в изучении сложных, многофакторных связей. Есть такие системы связей, при изучении которых следует предпочесть парную корреляцию. Внимание к линейным связям объясняется ограниченной вариацией переменных и тем, что в большинстве случаев нелинейные формы связей для выполнения расчетов преобразуются в линейную форму.

Уравнение парной линейной корреляционной связи называется уравнением парной регрессии и имеет вид:

где у — среднее значение результативного признака > при определенном значении факторного признака х;

а — свободный член уравнения;

b — коэффициент регрессии, измеряющий среднее отношение отклонения результативного признака от его средней величины к отклонению факторного признака от его средней величины на одну единицу его измерения — вариация у, приходящаяся на единицу вариации х.

При интерпретации уравнения регрессии чрезвычайно важно помнить о трех вещах. В первую очередь, а является лишь оценкой a, а b —оценкой b. По этой причине вся интерпретация в действительности представляет собой лишь оценку. Во-вторых, уравнение регрессии отражает только общую тенденцию для выборки. При этом каждое отдельное наблюдение подвержено воздействию случайностей. В-третьих, верность интерпретации зависит от правильности спецификации уравнения.

Парная регрессия и корреляция

1. Парная регрессия и корреляция

1.1. Понятие регрессии

Парной регрессией называется уравнение связи двух переменных у и х

где у – зависимая переменная (результативный признак); х – независимая, объясняющая переменная (признак-фактор).

Различают линейные и нелинейные регрессии.

Линейная регрессия описывается уравнением: y = a + b × x +e .

Нелинейные регрессии делятся на два класса: регрессии, нелинейные относительно включенных в анализ объясняющих переменных, но линейные по оцениваемым параметрам, и регрессии, нелинейные по оцениваемым параметрам.

Примеры регрессий, нелинейных по объясняющим переменным, но ли-

нейных по оцениваемым параметрам:

· полиномы разных степеней

· равносторонняя гипербола:

Примеры регрессий, нелинейных по оцениваемым параметрам:

· степенная

· показательная

· экспоненциальная

Наиболее часто применяются следующие модели регрессий:

– прямой

– гиперболы

– параболы

– показательной функции

– степенная функция

1.2. Построение уравнения регрессии

Постановка задачи. По имеющимся данным n наблюдений за совместным

изменением двух параметров x и y <(xi,yi), i=1,2. n> необходимо определить

аналитическую зависимость ŷ=f(x), наилучшим образом описывающую данные наблюдений.

Построение уравнения регрессии осуществляется в два этапа (предполагает решение двух задач):

– спецификация модели (определение вида аналитической зависимости

– оценка параметров выбранной модели.

1.2.1. Спецификация модели

Парная регрессия применяется, если имеется доминирующий фактор, который и используется в качестве объясняющей переменной.

Применяется три основных метода выбора вида аналитической зависимости:

– графический (на основе анализа поля корреляций);

– аналитический, т. е. исходя из теории изучаемой взаимосвязи;

– экспериментальный, т. е. путем сравнения величины остаточной дисперсии Dост или средней ошибки аппроксимации , рассчитанных для различных

моделей регрессии (метод перебора).

1.2.2. Оценка параметров модели

Для оценки параметров регрессий, линейных по этим параметрам, используется метод наименьших квадратов (МНК). МНК позволяет получить такие оценки параметров, при которых сумма квадратов отклонений фактических значений результативного признака у от теоретических значений ŷx при тех же значениях фактора x минимальна, т. е.

В случае линейной регрессии параметры а и b находятся из следующей

системы нормальных уравнений метода МНК:

(1.1)

Можно воспользоваться готовыми формулами, которые вытекают из этой

(1.2)

Для нелинейных уравнений регрессии, приводимых к линейным с помощью преобразования (x, y) → (x’, y’), система нормальных уравнений имеет

вид (1.1) в преобразованных переменных x’, y’.

Коэффициент b при факторной переменной x имеет следующую интерпретацию: он показывает, на сколько изменится в среднем величина y при изменении фактора x на 1 единицу измерения.

Линеаризующее преобразование: x’ = 1/x; y’ = y.

Уравнения (1.1) и формулы (1.2) принимают вид

Линеаризующее преобразование: x’ = x; y’ = lny.

Модифицированная экспонента: , (0 K и со знаком «–» в противном случае.

Степенная функция:

Линеаризующее преобразование: x’ = ln x; y’ = ln y.

Показательная функция:

Линеаризующее преобразование: x’ = x; y’ = lny.

Логарифмическая функция:

Линеаризующее преобразование: x’ = ln x; y’ = y.

Парабола второго порядка:

Парабола второго порядка имеет 3 параметра a0, a1, a2, которые определяются из системы трех уравнений

1.3. Оценка тесноты связи

Тесноту связи изучаемых явлений оценивает линейный коэффициент

парной корреляции rxy для линейной регрессии (–1 ≤ r xy ≤ 1)

и индекс корреляции ρxy для нелинейной регрессии

Имеет место соотношение

Долю дисперсии, объясняемую регрессией, в общей дисперсии результативного признака у характеризует коэффициент детерминации r2xy (для линейной регрессии) или индекс детерминации (для нелинейной регрессии).

Коэффициент детерминации – квадрат коэффициента или индекса корреляции.

Для оценки качества построенной модели регрессии можно использовать

показатель (коэффициент, индекс) детерминации R2 либо среднюю ошибку аппроксимации.

Чем выше показатель детерминации или чем ниже средняя ошибка аппроксимации, тем лучше модель описывает исходные данные.

Средняя ошибка аппроксимации – среднее относительное отклонение

расчетных значений от фактических

Построенное уравнение регрессии считается удовлетворительным, если

значение не превышает 10–12 %.

1.4. Оценка значимости уравнения регрессии, его коэффициентов,

Оценка значимости всего уравнения регрессии в целом осуществляется с

помощью F-критерия Фишера.

F-критерий Фишера заключается в проверке гипотезы Но о статистической незначимости уравнения регрессии. Для этого выполняется сравнение

фактического Fфакт и критического (табличного) Fтабл значений F-критерия

Fфакт определяется из соотношения значений факторной и остаточной

дисперсий, рассчитанных на одну степень свободы

где n – число единиц совокупности; m – число параметров при переменных.

Для линейной регрессии m = 1 .

Для нелинейной регрессии вместо r 2 xy используется R2.

Fтабл – максимально возможное значение критерия под влиянием случайных факторов при степенях свободы k1 = m, k2 = n – m – 1 (для линейной регрессии m = 1) и уровне значимости α.

Уровень значимости α вероятность отвергнуть правильную гипотезу

при условии, что она верна. Обычно величина α принимается равной 0,05 или

Если Fтабл Fфакт, то гипотеза Но не отклоняется и признается статистическая незначимость, ненадежность уравнения регрессии.

Для оценки статистической значимости коэффициентов линейной регрессии и линейного коэффициента парной корреляции применяется

t-критерий Стьюдента и рассчитываются доверительные интервалы каждого

Согласно t-критерию выдвигается гипотеза Н0 о случайной природе показателей, т. е. о незначимом их отличии от нуля. Далее рассчитываются фактические значения критерия tфакт для оцениваемых коэффициентов регрессии и коэффициента корреляции путем сопоставления их значений с величиной стандартной ошибки

Стандартные ошибки параметров линейной регрессии и коэффициента

корреляции определяются по формулам

Сравнивая фактическое и критическое (табличное) значения t-статистики

tтабл и tфакт принимают или отвергают гипотезу Но.

tтабл – максимально возможное значение критерия под влиянием случайных факторов при данной степени свободы k = n–2 и уровне значимости α.

Связь между F-критерием Фишера (при k1 = 1; m =1) и t-критерием Стьюдента выражается равенством

Если tтабл tфакт, то гипотеза Но не отклоняется и признается случайная природа формирования а, b или .

Значимость коэффициента детерминации R2 (индекса корреляции) определяется с помощью F-критерия Фишера. Фактическое значение критерия Fфакт определяется по формуле

Fтабл определяется из таблицы при степенях свободы k1 = 1, k2 = n–2 и при

заданном уровне значимости α. Если Fтабл


источники:

http://helpiks.org/8-36188.html

http://pandia.ru/text/78/146/82802.php