Основы корреляционного анализа. Примеры анализа прямолинейной связи при парной корреляции
Исследование объективно существующих связей между явлениями — важнейшая задача статистики. В процессе статистического исследования зависимостей выявляются причинно-следственные отношения между явлениями. Причинно-следственные отношения — это такая связь явлений и процессов, когда изменение одного из них — причины ведет к изменению другого — следствия.
Признаки явлений и процессов по их значению для изучения взаимосвязи делятся на два класса. Признаки, обуславливающие изменения других, связанных с ними признаков, называют факторными, или просто факторами. Признаки, изменяющиеся под действием факторных признаков, называют результативными.
В статистике различают функциональные и стохастические (вероятностные) связи явлений и процессов:
- Функциональной называют такую связь, при которой определенному значению факторного признака соответствует одно значение результативного.
- Если причинная зависимость проявляется не в каждом отдельном случае, а в общем, среднем при большом числе наблюдений, то такая зависимость называется стохастической (вероятностной). Частным случаем стохастической связи является корреляционная связь.
Кроме того, связи между явлениями и их признаками классифицируются по степени тесноты, направлению и аналитическому выражению.
По направлению выделяют связь прямую и обратную:
- Прямая связь — это такая связь, при которой с увеличением (уменьшением) значений факторного признака происходит увеличение (уменьшение) значений результативного. Так, например, рост производительности труда способствует увеличению уровня рентабельности производства.
- В случае обратной связи значения результативного признака изменяются под воздействием факторного, но в противоположном направлении по сравнению с изменением факторного признака. Так с увеличением уровня фондоотдачи снижается себестоимость единицы производимой продукции.
По аналитическому выражению выделяют связи прямолинейные (или просто линейные) и нелинейные:
- Если статистическая связь между явлениями может быть приблизительно выражена уравнением прямой линии, то ее называют линейной связью вида: у=а+bх.
- Если же связь может быть выражена уравнением какой-либо кривой линии (параболы, гиперболы и др.), то такую связь называют нелинейной (криволинейной) связью.
Теснота связи показывает меру влияния факторного признака на общую вариацию результативного признака. Классификация связи по степени тесноты представлена в таблице 1.
Величина коэффициента корреляции | Характер связи |
---|---|
До ±3 | Практически отсутствует |
От ±3 до ±0,5 | Слабая |
От ±0,5 до ±0,7 | Умеренная |
От ±0,7 до ±1,0 | Сильная |
Для выявления наличия связи, ее характера и направления в статистике используются следующие методы: приведения параллельных данных, аналитических группировок, графический, корреляции. Основным методом изучения статистической взаимосвязи является статистическое моделирование связи на основе корреляционного и регрессионного анализа.
Корреляция — это статистическая зависимость между случайными величинами, не имеющая строго функционального характера, при которой изменение одной из случайных величин приводит к изменению математического ожидания другой. В статистике принято различать следующие виды корреляции:
- парная корреляция — связь между двумя признаками (результативным и факторным, или двумя факторными);
- частная корреляция — зависимость между результативным и одним факторным признаками при фиксированном значении других факторных признаков;
- множественная корреляция — зависимость результативного и двух или более факторных признаков, включенных в исследование.
Задачей корреляционного анализа является количественное определение тесноты связи между двумя признаками (при парной связи) и между результативным и множеством факторных признаков (при многофакторной связи).
Теснота связи количественно выражается величиной коэффициентов корреляции, которые давая количественную характеристику тесноты связи между признаками, позволяют определять «полезность» факторных признаков при построении уравнения множественной регрессии.
Корреляция взаимосвязана с регрессией, поскольку первая оценивает силу (тесноту) статистической связи, вторая исследует ее форму.
Регрессионный анализ заключается в определении аналитического выражения связи в виде уравнения регрессии.
Регрессией называется зависимость среднего значения случайной величины результативного признака от величины факторного, а уравнением регрессии – уравнение описывающее корреляционную зависимость между результативным признаком и одним или несколькими факторными.
Формулы корреляционно-регрессионного анализа для прямолинейной связи при парной корреляции представлены в таблице 2.
Показатель | Обозначение и формула | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
Уравнение прямой при парной корреляции | yx = a +bx, где b — коэффициент регрессии | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Система нормальных уравнений способом наименьших квадратов для определения коэффициентов a и b | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Линейный коэффициент корреляции для определения тесноты связи, его интерпретация: r = 0 – связь отсутствует; 0 2012 © Лана Забродская. При копировании материалов сайта ссылка на источник обязательна Тема 11 Причинность, регрессия, корреляцияПричинность, регрессия, корреляция Исследование объективно существующих связей между социально-экономическими явлениями и процессами является важнейшей задачей теории статистики. В процессе статистического исследования зависимостей вскрываются причинно-следственные отношения между явлениями, что позволяет выявлять факторы (признаки), оказывающие основное влияние на вариацию изучаемых явлений и процессов. Причинно-следственные отношения ‑ это такая связь явлений и процессов, когда изменение одного из них ‑ причины ведет к изменению другого ‑ следствия. Финансово-экономические процессы представляют собой результат одновременного воздействия большого числа причин. Следовательно, при изучении этих процессов необходимо выявлять главные, основные причины, абстрагируясь от второстепенных. В основе первого этапа статистического изучения связи лежит качественный анализ, связанный с анализом природы социального или экономического явления методами экономической теории, социологии, конкретной экономики. Второй этап – построение модели связи, базируется на методах статистики: группировках, средних величинах, и так далее. Третий, последний этап ‑ интерпретация результатов, вновь связан с качественными особенностями изучаемого явления. Статистика разработала множество методов изучения связей. Выбор метода изучения связи зависит от познавательной цели и задач исследования. Признаки по их сущности и значению для изучения взаимосвязи делятся на два класса. Признаки, обуславливающие изменения других, связанных с ними признаков, называются факторными, или просто факторами. Признаки, изменяющиеся под действием факторных признаков, называются результативными. В статистике различают функциональную и стохастическую зависимости. Функциональной называют такую связь, при которой определенному значению факторного признака соответствует одно и только одно значение результативного признака. Если причинная зависимость проявляется не в каждом отдельном случае, а в общем, среднем, при большом числе наблюдений, то такая зависимость называется стохастической. Частным случаем стохастической связи является корреляционная связь, при которой изменение среднего значения результативного признака обусловлено изменением факторных признаков. Связи между явлениями и их признаками классифицируются по степени тесноты, направлению и аналитическому выражению. Таблица 11.1. ‑ Количественные критерии оценки тесноты связи Величина показателя связи По направлению выделяют связь прямую и обратную. Прямая ‑ это связь, при которой с увеличением или с уменьшением значений факторного признака происходит увеличение или уменьшение значений результативного признака. Пример. Так, рост объемов производства способствует увеличению прибыли предприятия. В случае обратной связи значения результативного признака изменяются под воздействием факторного, но в противоположном направлении по сравнению с изменением факторного признака, то есть обратная ‑ это связь, при которой с увеличением или с уменьшением значений одного признака происходит уменьшение или увеличение значений другого признака. Пример. Так, снижение себестоимости единицы производимой продукции влечет за собой рост рентабельности. По аналитическому выражению выделяют связи прямолинейные (или просто линейные) и нелинейные. Если статистическая связь между явлениями может быть приблизительно выражена уравнением прямой линии, то ее называют линейной связью вида: Если же связь может быть выражена уравнением какой-либо кривой, то такую связь называют нелинейной или криволинейной, например: Для выявления наличия связи, ее характера и направления в статистике используются методы: приведения параллельных данных; графический; аналитических группировок; корреляции, регрессии. Метод приведения параллельных данных основан на сопоставлении двух или нескольких рядов статистических величин. Такое сопоставление позволяет установить наличие связи и получить представление о ее характере. Графически взаимосвязь двух признаков изображается с помощью поля корреляции. В системе координат на оси абсцисс откладываются значения факторного признака, а на оси ординат ‑ результативного. Каждое пересечение линий, проводимых через эти оси, обозначаются точкой. При отсутствии тесных связей имеет место беспорядочное расположение точек на графике. Чем сильнее связь между признаками, тем теснее будут группироваться точки вокруг определенной линии, выражающей форму связи. В статистике принято различать следующие виды зависимостей:
Корреляционный анализ имеет своей задачей количественное определение тесноты и направления связи между двумя признаками (при парной связи) и между результативным и множеством факторных признаков (при многофакторной связи). Теснота связи количественно выражается величиной коэффициентов корреляции, которые, давая количественную характеристику тесноты связи между признаками, позволяют определять «полезность» факторных признаков при построении уравнения множественной регрессии. Знаки при коэффициентах корреляции характеризуют направление связи между признаками. Регрессия тесно связана с корреляцией и позволяет исследовать аналитическое выражение взаимосвязи между признаками. Регрессионный анализ заключается в определении аналитического выражения связи, в котором изменение одной величины (называемой зависимой или результативным признаком), обусловлено влиянием одной или нескольких независимых величин (факторных признаков). Одной из проблем построения уравнений регрессии является их размерность, то есть определение числа факторных признаков, включаемых в модель. Их число должно быть оптимальным. Сокращение размерности за счет исключения второстепенных, несущественных факторов позволяет получить модель, быстрее и качественнее реализуемую. В то же время, построение модели малой размерности может привести к тому, что она будет недостаточно полно описывать исследуемое явление или процесс. При построении моделей регрессии должны соблюдаться требования:
Соблюдение данных требований позволяет построить модель, наилучшим образом описывающую реальные социально-экономические явления и процессы. Парная регрессия на основе метода наименьших квадратов позволяет получить аналитическое выражение связи между двумя признаками: результативным и факторным. Определить тип уравнения можно, исследуя зависимость графически, однако существуют более общие указания, позволяющие выявить уравнение связи, не прибегая к графическому изображению. Если результативный и факторный признаки возрастают одинаково, то это свидетельствует о том, что связь между ними линейная, а при обратной связи ‑ гиперболическая. Если результативный признак увеличивается в арифметической прогрессии, а факторный значительно быстрее, то используется параболическая или степенная регрессия. Оценка параметров уравнений регрессии ( и — в уравнении параболы второго порядка) осуществляется методом наименьших квадратов, в основе которого лежит предположение о независимости наблюдений исследуемой совокупности и нахождении параметров модели , при которых минимизируется сумма квадратов отклонений эмпирических (фактических) значений результативного признака от теоретических, полученных по выбранному уравнению регрессии: Система нормальных уравнений для нахождения параметров линейной парной регрессии методом наименьших квадратов имеет следующий вид: где п ‑ объем исследуемой совокупности (число единиц наблюдения). В уравнениях регрессии параметр ао показывает усредненное влияние на результативный признак неучтенных в уравнении факторных признаков. Коэффициент регрессии а1 показывает, на сколько в среднем изменяется значение результативного признака при увеличении факторного признака на единицу собственного измерения. xi – теоретические значения результативного признака; yi – наблюдаемые значения факторного признака. Пример. Имеются данные по 10 однотипным предприятиям о выпуске продукции (х) в тыс.ед. и о расходе условного топлива (у) в тоннах (графы 1 и 2 табл. 17). Требуется найти уравнение зависимости расхода топлива от выпуска продукции (или уравнение регрессии у по х) и измерить тесноту зависимости между ними. Для этого представим данные в табл. 11.2 (вместе с расчетными столбцами). Таблица 11.2 – Расчет показателей для нахождения уравнения регрессии
Необходимые для решения суммы рассчитаны выше в таблице. Подставим их в уравнение и решим систему. Получив искомое уравнение регрессии можно утверждать, что с увеличение выпуска продукции на тыс. ед., расход топлива возрастет в среднем на 0,547 тонны. * Если параметры уравнения найдены верно, то Измерение тесноты (силы) и направления связи является важной задачей изучения и количественного измерения взаимосвязи социально-экономических явлений. Оценка тесноты связи между признаками предполагает определение меры соответствия вариации результативного признака и одного (при изучении парных зависимостей) или нескольких (множественных зависимостей) факторных признаков. Линейный коэффициент корреляции (К. Пирсона) характеризует тесноту и направление связи между двумя коррелируемыми признаками в случае наличия между ними линейной зависимости. В теории разработаны и на практике применяются различные модификации формулы расчета данного коэффициента. Для измерения тесноты зависимости между у и х применяют линейный коэффициент корреляции, который может быть рассчитан по любой из нижеприведенных формул: Таблица 11.3 – Оценка линейного коэффициента корреляции
|