Корреляционная связь может быть представлена уравнением вида

Тема 11 Причинность, регрессия, корреляция

Причинность, регрессия, корреляция

Исследование объективно существующих связей между социально-экономически­ми явлениями и процессами является важнейшей задачей теории статистики. В процессе статистического исследования зависимостей вскрываются причинно-следственные отношения между явлениями, что позволяет выявлять факторы (признаки), оказывающие основное влияние на вариацию изучаемых явлений и процессов. Причинно-следственные отношения ‑ это такая связь явлений и процессов, когда изменение одного из них ‑ причины ведет к изменению другого ‑ следствия.

Финансово-экономические процессы представляют собой результат одновременно­го воздействия большого числа причин. Следовательно, при изучении этих процессов необходимо выявлять главные, основные причины, абстрагируясь от второстепенных.

В основе первого этапа статистического изучения связи лежит качественный анализ, связанный с анализом природы социального или экономического явления методами экономической теории, социологии, конкретной экономики.

Второй этап – построение модели связи, базируется на методах статистики: группировках, средних величинах, и так далее.

Третий, последний этап ‑ интерпретация результатов, вновь связан с качественны­ми особенностями изучаемого явления. Статистика разработала множество методов изучения связей. Выбор метода изучения связи зависит от познавательной цели и задач ис­следования.

Признаки по их сущности и значению для изучения взаимосвязи делятся на два класса.

Признаки, обуславливающие изменения других, связанных с ними признаков, называются факторными, или просто факторами.

Признаки, изменяющиеся под действием факторных признаков, называются результативными.

В статистике различают функциональную и стохастическую зависимости.

Функ­циональной называют такую связь, при которой определенному значению факторного признака соответствует одно и только одно значение результативного признака.

Если причинная зависимость проявляется не в каждом отдельном случае, а в общем, среднем, при большом числе наблюдений, то такая зависимость называется стохастической. Частным случаем стохастической связи является корреляционная связь, при которой изменение среднего значения результативного признака обусловлено изменением факторных признаков.

Связи между явлениями и их признаками классифицируются по степени тесноты, направлению и аналитическому выражению.

Таблица 11.1. ‑ Количественные критерии оценки тесноты связи

Величина показателя связи

По направлению выделяют связь прямую и обратную.

Прямая ‑ это связь, при которой с увеличением или с уменьшением значений факторного признака происходит увеличение или уменьшение значений результативного признака.

Пример. Так, рост объемов про­изводства способствует увеличению прибыли предприятия.

В случае обратной связи значения результативного признака изменяются под воздействием факторного, но в противоположном направлении по сравнению с изменением факторного признака, то есть обратная ‑ это связь, при которой с увеличением или с уменьшением значений одного признака происходит уменьшение или увеличение значений другого признака.

Пример. Так, снижение себестоимости единицы производимой продукции влечет за собой рост рентабельности.

По аналитическому выражению выделяют связи прямолинейные (или просто линейные) и нелинейные.

Если статистическая связь между явлениями может быть приблизительно выражена уравнением прямой линии, то ее называют линейной связью вида:

Если же связь может быть выражена уравнением какой-либо кривой, то такую связь называют нелинейной или криволинейной, например:

Для выявления наличия связи, ее характера и направления в статистике использу­ются методы: приведения параллельных данных; графический; аналитических группировок; корреляции, регрессии.

Метод приведения параллельных данных основан на сопоставлении двух или нескольких рядов статистических величин. Такое сопоставление позволяет установить наличие связи и получить представление о ее характере.

Графически взаимосвязь двух признаков изображается с помощью поля корреляции. В системе координат на оси абсцисс откладываются значения факторного признака, а на оси ординат ‑ результативного. Каждое пересечение линий, проводимых через эти оси, обозначаются точкой. При отсутствии тесных связей имеет место беспорядочное распо­ложение точек на графике. Чем сильнее связь между признаками, тем теснее будут груп­пироваться точки вокруг определенной линии, выражающей форму связи.

В статистике принято различать следующие виды зависимостей:

  1. Парная корреляция ‑ связь между двумя признаками (результативным и факторным, или двумя факторными).
  2. Частная корреляция ‑ зависимость между результативным и одним факторным признаками при фиксированном значении других факторных признаков.
  3. Множественная корреляция ‑ зависимость результативного и двух или более факторных признаков, включенных в исследование.

Корреляционный анализ имеет своей задачей количественное определение тесноты и направления связи между двумя признаками (при парной связи) и между результа­тивным и множеством факторных признаков (при многофакторной связи).

Теснота связи количественно выражается величиной коэффициентов корреляции, которые, давая количественную характеристику тесноты связи между признаками, позволяют определять «полезность» факторных признаков при построении уравнения множест­венной регрессии. Знаки при коэффициентах корреляции характеризуют направление связи между признаками.

Регрессия тесно связана с корреляцией и позволяет исследовать аналитическое выражение взаимосвязи между признаками.

Регрессионный анализ заключается в определении аналитического выражения связи, в котором изменение одной величины (называемой зависимой или результативным признаком), обусловлено влиянием одной или нескольких независимых величин (факторных признаков).

Одной из проблем построения уравнений регрессии является их размерность, то есть определение числа факторных признаков, включаемых в модель. Их число должно быть оптимальным. Сокращение размерности за счет исключения второстепенных, несущественных факторов позволяет получить модель, быстрее и качественнее реализуемую. В то же время, построение модели малой размерности может привести к тому, что она будет недостаточно полно описывать исследуемое явление или процесс.

При построении моделей регрессии должны соблюдаться требования:

  1. Совокупность исследуемых исходных данных должна быть однородной и математически описываться непрерывными функциями.
  2. Возможность описания моделируемого явления одним или несколькими уравнениями причинно-следственных связей.
  3. Все факторные признаки должны иметь количественное (числовое) выражение.
  4. Наличие достаточно большого объема исследуемой совокупности (в последующих примерах в целях упрощения изложения материала это условие нарушено, т.е. объем очень мал).
  5. Причинно-следственные связи между явлениями и процессами должны описываться линейной или приводимой к линейной форме зависимостью.
  6. Отсутствие количественных ограничений на параметры модели связи.
  7. Постоянство территориальной и временной структуры изучаемой совокупности.

Соблюдение данных требований позволяет построить модель, наилучшим образом описывающую реальные социально-экономические явления и процессы.

Парная регрессия на основе метода наименьших квадратов позволяет получить аналитическое выражение связи между двумя признаками: результативным и факторным.

Определить тип уравнения можно, исследуя зависимость графически, однако существуют более общие указания, позволяющие выявить уравнение связи, не прибегая к графическому изображению. Если результативный и факторный признаки возрастают одинаково, то это свидетельствует о том, что связь между ними линейная, а при обратной связи ‑ гиперболическая. Если результативный признак увеличивается в арифметической прогрессии, а факторный значительно быстрее, то используется параболическая или степенная регрессия.

Оценка параметров уравнений регрессии ( и — в уравнении параболы второго порядка) осуществляется методом наименьших квадратов, в основе которого лежит предположение о независимости наблюдений исследуемой совокупности и нахождении параметров модели , при которых минимизируется сумма квадратов отклонений эмпирических (фактических) значений результативного признака от теоретических, полученных по выбранному уравнению регрессии:

Система нормальных уравнений для нахождения параметров линейной парной регрессии методом наименьших квадратов имеет следующий вид:

где п ‑ объем исследуемой совокупности (число единиц наблюдения).

В уравнениях регрессии параметр ао показывает усредненное влияние на результа­тивный признак неучтенных в уравнении факторных признаков. Коэффициент регрессии а1 показывает, на сколько в среднем изменяется значение результативного признака при увеличении факторного признака на единицу собственного измерения. xi – теоретические значения результативного признака; yi – наблюдаемые значения факторного признака.

Пример. Имеются данные по 10 однотипным предприятиям о выпуске продукции (х) в тыс.ед. и о расходе условного топлива (у) в тоннах (графы 1 и 2 табл. 17).

Требуется найти уравнение зависимости расхода топлива от выпуска продукции (или уравнение регрессии у по х) и измерить тесноту зависимости между ними. Для этого представим данные в табл. 11.2 (вместе с расчетными столбцами).

Таблица 11.2 – Расчет показателей для нахождения уравнения регрессии

№ п/пВыпуск продукции, xi,тыс.ед.Расход топлива, yi, тонн
1542520163,9
2643624164,4
3866448365,5
4856440255,5
510710070496,6
610810080646,6
7148196112648,8
8201040020010012,1
9201240024014412,1
10241657638425614,3
∑ *125801961121877080

Необходимые для решения суммы рассчитаны выше в таблице. Подставим их в уравнение и решим систему.

Получив искомое уравнение регрессии можно утверждать, что с увеличение выпуска продукции на тыс. ед., расход топлива возрастет в среднем на 0,547 тонны.

* Если параметры уравнения найдены верно, то

Измерение тесноты (силы) и направления связи является важной задачей изучения и количественного измерения взаимосвязи социально-экономических явлений. Оценка тесноты связи между признаками предполагает определение меры соответствия вариации результативного признака и одного (при изучении парных зависимостей) или нескольких (множественных зависимостей) факторных признаков.

Линейный коэффициент корреляции (К. Пирсона) характеризует тесноту и направление связи между двумя коррелируемыми признаками в случае наличия между ними линейной зависимости.

В теории разработаны и на практике применяются различные модификации формулы расчета данного коэффициента.

Для измерения тесноты зависимости между у и х применяют линейный коэффициент корреляции, который может быть рассчитан по любой из нижеприведенных формул:

Таблица 11.3 – Оценка линейного коэффициента корреляции

Значение линейного коэффициента связиХарактеристика связиИнтерпретация связи
г = 0отсутствует
0

Линейный коэффициент корреляции может принимать по модулю значения от 0 до 1 (знак + при прямой зависимости и знак – при обратной зависимости).

Найденный коэффициент корреляции означает, что характер связи между исследуемыми признаками прямой.

По степени тесноты связи между признаками (одним из критериев оценки служит коэффициент корреляции) различают связи:

Следовательно, 0,7≤0,96≤ 1 , значит, связь в данном примере сильная (с увеличением выпуска продукции увеличивается расход топлива).

Термин “корреляция” впервые применил французский палеонтолог Ж. Кювье, который вывел “закон корреляции частей и органов животных” (этот закон позволяет восстанавливать по найденным частям тела облик всего животного). В статистику указанный термин ввел в 1886 году английский биолог и статистик Френсис Гальтон (не просто связь – relation, а “как бы связь” – co-relation). Однако точную формулу для подсчёта коэффициента корреляции разработал его ученик – математик и биолог – Карл Пирсон (1857 – 1936).

Корреляционным называется исследование, проводимое для подтверждения или опровержения гипотезы о статистической связи между несколькими (двумя и более) переменными. В психологии переменными могут выступать психические свойства, процессы, состояния и др.

Контрольные задания.

По данным статистических сборников постройте таблицу: по 10 однотипным предприятиям с данными о численности персонала, выпуске продукции, расходах; данных о прожиточном минимуме и средней заработной плате и т.п.; найдите уравнение зависимости (или уравнение регрессии) и измерьте тесноту связи между показателями.

Корреляция — определение и вычисление с примерами решения

Содержание:

Понятие о корреляции:

Марксистская философия учит, что каждое явление природы и общества не возникает само по себе, отдельно от других, а находится в связи с другими явлениями, причем каждое из них представляет собой единство составляющих его частей и свойств. Для того чтобы познать какое-либо явление, необходимо изучить его не только во всех сложных взаимоотношениях с окружающими явлениями-факторами, но также во взаимосвязи всех его сторон.

Если всеобщая связь и взаимозависимость явлений составляют один из наиболее общих законов, то основной задачей науки является изучение этой взаимосвязи.

В математической статистике взаимосвязь явлений изучается методом корреляции. Термин корреляция происходит от английского слова correlation — соотношение, соответствие. Особенность изучения связи явлений методом корреляции состоит в том, что нельзя изолировать влияние посторонних факторов либо потому, что эти факторы неизвестны, либо потому, что их изоляция невозможна. Поэтому метод корреляции применяется для того, чтобы при сложном взаимодействии посторонних влияний выяснить, какова была бы зависимость между результатом фактором, если бы посторонние факторы не изменялись и своим изменением не искажали основную зависимость. При этом небольшое число наблюдений не дает возможности обнаружить закономерность связи.

Первая задача корреляции заключается в выявлении на основе наблюдения над большим количеством фактов того, как изменяется в среднем результативный признак в связи с изменением данного фактора. Это изменение предполагает условие неизменности ряда других факторов, хотя искажающее влияние этих других факторов на самом деле имеет место. Вторая задача заключается в определении степени влияния искажающих факторов.

Первая задача решается нахождением уравнения связи.

Вторая задача решается при помощи различных показателей тесноты связи.

Такими показателями являются меры тесноты связи, найденные разными исследователями, а также коэффициент корреляции и корреляционное отношение.

Результативный и факториальный признаки

При изучении влияния одних признаков явлений на другие из цепи признаков, характеризующих данное явление, выделяются два признака — факториальный и результативный. Необходимо установить, какой из признаков является факториальным и какой результативным. В этом помогает прежде всего логический анализ.

Пример. Себестоимость промышленной продукции отдельного предприятия зависит от многих факторов, в том числе от объема продукции на данном предприятии. Себестоимость продукции выступает в этом случае как результативный признак, а объем продукции — как факториальный.

Другой пример. Чтобы судить о преимуществах крупных предприятий перед мелкими, рассмотрим, как увеличивается производительность труда рабочих крупных предприятий, и выявим зависимость производительности труда от увеличения размеров предприятия.

Таблица!

Группировка магазинов Министерства торговли по числу рабочих мест на 1 января 1960 г.1

Группы магазинов по числу рабочих мест Число магазинов Товарооборот в расчете на одного работника за квартал (в тыс. руб.)

Всего 68 375 117

Из них

с числом рабочих мест:

  • с 1 19 893 109
  • с 2 18 030 108
  • с 3—4 16 508 108
  • с 5—7 8 321 111
  • с 8—10 2 868 118
  • с 11 — 15 1 559 122
  • с 16 и более 1 196 139
  • J

Группировка показывает прямую зависимость производительности труда торговых работников, выражающуюся в товарообороте, приходящегося на одного работника, от размера магазина. Признак группировки — число рабочих мест — является факториальным, товарооборот — результативным признаком.

От размеров производства зависит также производительность оборудования, о чем свидетельствует следующая таблица:

Из таблицы ясно видна связь между размерами печей и их производительностью. Эта связь прямая: чем крупнее печь, тем она производительнее.

Однако зависимость результативного признака (суточного съема стали) от факториального носит не обязательный характер. Если в общей массе мы наблюдаем эту связь, то в отдельных группах бывают и отступления от общей закономерности. Такие отступления—характерная особенность статистической связи вообще, о которой будет рассказано ниже.

Группировки позволяют выявить и зависимость нескольких результативных признаков от одного факториального. Рассмотрим табл. 3.

В этой таблице мы видим зависимость двух результативных признаков: товарооборота на одного работника и товарных запасов—от размеров магазинов. Зависимость товарооборота от размеров магазина прямая, а зависимость товарных остатков от размеров магазина — обратная. В первом случае она растет с ростом размеров магазина, во втором уменьшается. Однако то и другое благоприятно.

Графическое изображение связи

Графическое изображение изучаемых явлений позволяет не только установить наличие или отсутствие связи между ними, но и изучить характер этой связи, иначе говоря изучить форму связи и ее тесноту.

Имея перед собой числовые характеристики факториального и результативного признаков одного и того же явления, можно каждую пару чисел изобразить в виде точки на плоскости. Для этого на плоскости берем две взаимно перпендикулярные линии и образуем систему координат. В этой системе по оси абсцисс откладываем значения факториального признака, а по оси ординат— значения результативного признака. Каждая пара чисел дает при этом точку на плоскости координатного поля.

Возьмем, например, группировку магазинов по числу рабочих мест, данную на стр. 239, и будем откладывать число рабочих мест по горизонтальной оси (оси Ох), а товарооборот в расчете на одного работника — по вертикальной оси (оси Оу). Будем иметь ряд точек, соединив которые получим ломаную линию, которая называется ломаной регрессии (см. график 1).

Как видно из графика, с ростом числа рабочих мест в магазине растет и товарооборот, приходящийся на одного работника, что говорит о связи между этими признаками, причем связи прямой. График подчеркивает эту зависимость ходом ломаной линии из нижнего угла в верхний правый угол.

Такого же рода зависимость будем наблюдать на графике 2, изучая связь между величиной мартеновских печей по площади пода и среднесуточным съемом стали с 1 пода. Как и в предыдущем примере, факториальный признак — величину площади пода — будем откладывать на оси абсцисс, а результативный — среднесуточный съем стали с 1 пода — на оси ординат.

Здесь также ясно выраженная прямая зависимость между результативным и факториальным признаками.

По-другому будет выглядеть график зависимости товарных запасов от размера товарооборота магазина.

Здесь мы наблюдаем ярко выраженную обратную связь между признаками: падение товарных запасов сопровождается ростом размера магазина по товарообороту.

Графический метод наглядно иллюстрирует зависимость, выявленную группировкой. Недостаток графического метода изучения связи заключается в том, что он позволяет выявить связь лишь между двумя признаками.

Функциональные и статистические связи

До сих пор говорилось о связях между явлениями и их признаками без объяснения формы и степени этих связей. В приведенных примерах связи носят логически обоснованный характер, но числовое выражение этих связей говорит о том, что они проявляются не всегда одинаково. В определенных случаях имеются отступления от наблюдаемых общих закономерностей. В приведенной на стр. 240 таблице о среднесуточном съеме стали с 1 пода печи наблюдается зависимость съема стали от размера печи по площади пода, но эта зависимость за 1955 г. искажена показателями 5-й группы, где съем стали значительно ниже, чем в 4-й группе. Если бы рассматривалась при этом каждая печь в отдельности, то это несоответствие установленному правилу зависимости проявлялось бы неоднократно. Но средние величины съема стали, вычисленные на основании данных довольно большого числа печей в группе, говорят о явно выраженной зависимости. Связи между явлениями, или их признаками. проявляющиеся в изменении в зависимости от одного признака характеристик распределения (из которых главная — средняя) другого признака, называются связями статистическими.

Статистические связи характеризуются тем, что в них результативный признак не полностью определяется влиянием признака факториального. Это влияние проявляется лишь в среднем, а в отдельных случаях получаются результаты, даже противоречащие установленной связи.

В отличие от статистических связей связи функциональные характеризуются тем, что при таких связях факториальный признак полностью определяет величину результативного признака.

Функциональные связи почти не встречаются в явлениях общественной жизни, отличающихся сложностью и многообразием существующих и проявляющихся взаимосвязей. Но во многих явлениях в основе статистических связей лежат функциональные связи. Связь функциональная может показывать зависимость между результативным признаком и несколькими аргументами. Так, площадь прямоугольника зависит от длины его двух сторон, путь, проходимый телом, зависит от скорости его движения и времени движения и т. д.

Уравнение связи

Наблюдая статистическую связь между двумя признаками, математическая статистика стремится придать этой связи форму функциональной, т. е. связи, выражаемой при помощи математической функции.

На помощь приходит ее графическое изображение при отыскании нужной функции связи. При этом необходимо стремиться найти такую функцию, которая давала бы наименьшее отклонение от полученных при наблюдении значений их признаков, которая выражала бы основную зависимость, проявляющуюся в эмпирическом материале. Уравнение этой функции будет уравнением связи между результативным и факториальным признаками.

Уравнение связи находится с помощью способа наименьших квадратов, который требует, чтобы сумма квадратов отклонений эмпирических значений от значений, получаемых на основании уравнения связи, была минимальной.

Применение способа наименьших квадратов позволяет находить параметры уравнения связи при помощи решения системы так называемых нормальных уравнений, различных для связи каждого вида.

Чтобы отметить, что зависимость между двумя признаками выражается в среднем, значения результативного признака, найденные по уравнению связи, обозначаются

Зная уравнение связи, можно вычислить заранее среднее значение результативного признака, когда значение факториального признака известно. Таким образом, уравнение связи является методом обобщения наблюдаемых статистических связей, методом их изучения.

Применение той или иной функции в качестве уравнения связи разграничивает связи по их форме: линейную связь и криволинейную связь (параболическую, гиперболическую и др.).

Рассмотрим уравнения связи для зависимостей от одного признака при разных формах связи (линейной, криволинейной параболической, гиперболической) и для множественной связи.

Линейная зависимость

Уравнение связи как уравнение прямой применяется в случае равномерного нарастания результативного признака с увеличением признака факториального. Такая зависимость будет зависимостью линейной (прямолинейной).

Параметры уравнения прямой линии находятся путем решения системы нормальных уравнений, получаемых по способу наименьших квадратов:

где n — число полученных при наблюдении пар взаимосвязанных величин; — сумма значений факториального признака;

— сумма квадратов значений факториального признака;

— сумма значений результативного признака; — сумма произведений значений факториального признака на значения результативного признака.

Примером расчета параметров уравнения и средних значений результативного признака может служить следующая таблица, являющаяся результатом группировки по факториальному признаку и подсчета средних по результативному признаку.

Группировка предприятий по стоимости основных средств и подсчет сумм необходимы для уравнения связи.

Из таблицы находим: 132,0. Строим систему двух уравнений с двумя неизвестными:

Поделив каждый член в обоих уравнениях на коэффициенты при получим:

Вычтем из второго уравнения первое: Подставив значения в первое уравнение найдем

Уравнение связи примет вид: Подставив в это уравнение соответствующие х, получим значения результативного признака, отражающие среднюю зависимость у от х в виде корреляционной зависимости.

Заметим, что суммы, исчисленные по уравнению и фактические, равны между собой. Изображение фактических и вычисленных значений на графике 4 показывает, что уравнение связи отображает наблюденную зависимость в среднем.

Параболическая зависимость

Параболическая зависимость, выражаемая уравнением параболы 2-го порядка имеет место при ускоренном возрастании или убывании результативного признака в сочетании с равномерным возрастанием факториального признака.

Параметры уравнения параболы вычисляются путем решения системы 3 нормальных уравнений:

Возьмем для примера зависимость месячного выпуска продукции (у) от величины стоимости основных средств (х). Оба показателя округлены до миллионов рублей. Расчеты необходимых сумм приведем в таблице 5.

По данным таблицы, составляем систему уравнений:

После деления всех уравнений на коэффициенты при получим:

Вычтя из второго уравнения первое и из третьего второе, получим два новых уравнения с двумя неизвестными:

Полученные уравнения снова разделим на коэффициенты при

Следовательно,

Запишем уравнение параболы, выражающей связь между х и у.

Графическое сопоставление опытных данных и данных расчета (см. график 5) показывает почти полное совпадение хода обеих линий, что говорит о хорошем воспроизведении опытных данных расчетными средними значениями результативного признака.

В практике изучения связи между признаками, кроме параболы 2-го порядка, применяются параболы и более высоких порядков. Чем выше порядок параболы, тем точнее он воспроизводит опытные данные.

Если уравнение связи представляет собой параболу 3-го порядка то система нормальных уравнений примет вид:

Имея соответствующие хну, можем составить Дополнительную расчетную таблицу по следующей схеме:

которая используется для нахождения нужных сумм. Решив систему 4 уравнений, найдем параметры и, следовательно, уравнение связи.

Уравнение гиперболы

Обратная связь указывает на убывание результативного признака при возрастании факториального. Такова линейная связь при отрицательном значении В ряде других случаев обратная связь может быть выражена уравнением гиперболы

Параметры уравнения гиперболы находятся из системы нормальных уравнений:

где — сумма величин, обратных значениям факториального признака, а — сумма их квадратов.

Примером расчета обратной связи по гиперболе может служить следующая таблица:

Составив по данным таблицы систему уравнений и разделив каждый член обоих уравнений на коэффициенты при а, получим:

Находим вычитанием из второго уравнения первого величину

Подставив вместо его значение, получим

Запишем уравнение связи в общем виде затем, подставив каждое значение х в уравнение, находим по любой строке таблицы. Строим ломаную по парам х и у и кривую по х и . Ломаная и кривая очень близки друг к другу.

Корреляционная таблица

При большом объеме наблюдений, когда число взаимосвязанных пар велико, парные данные легко могут быть расположены в корреляционной таблице, являющейся наиболее удобной формой представления значительного количества пар чисел.

В корреляционной таблице один признак располагается в строках, а другой — в колонка таблицы. Число, расположенное в клетке на пересечении графы и колонки, показывает, как часто встречается данное значение результативного признака в сочетании с данным значением факториального признака.

Для простоты расчета возьмем небольшое число наблюдений на 20 предприятиях за средней месячной выработкой продукции на одного рабочего (тыс. руб. — у) и за стоимостью основных производственных средств (млн. руб. — х).

В обычной парной таблице эти сведения располагаются так:

Сведем эти данные в корреляционную таблицу.

Итоги строк у показывают частоту признака итоги граф х — частоту признака Числа, стоящие в клетках корреляционной таблицы, являются частотами, относящимися к обоим признакам и обозначаются

Корреляционная таблица даже при поверхностном знакомстве дает общее представление о прямой и обратной связи. Если частоты расположены по диагонали вниз направо, то связь между признаками прямая (при увеличивающихся значениях признака в строках и графах). Если же частоты расположены по диагонали вверх направо, то связь обратная.

Для предварительного суждения о связи по корреляционной таблице можно для каждого столбца рассчитать средние значения Так, в первом столбце х = 9,9, а имеет лишь одно значение, равное 0,8. Найдем среднее значение для второго столбца. Оно будет равно:


Следовательно, при Выпишем все значения х и соответствующие им

Зависимость, выраженная в таблице, более ярко и убедительно выступит в «ломаной регрессии», когда каждую пару чисел нанесем на график (см. график 7).

По корреляционной таблице можно вести расчеты параметров уравнения связи, как уравнения прямой, так и уравнений параболы и гиперболы. При этом необходимо учитывать, что сочетание каждой пары значений может встречаться не один, а несколько раз. Сами значения хну необходимо взвешивать, т. е. умножать на соответствующие частоты. Для самого признака х частота будет обозначаться для признака Частоту сочетаний обозначим

Ввиду сказанного мы можем систему нормальных уравнений написать так, чтобы были учтены веса. Тогда для линейной зависимости система нормальных уравнений примет вид:

где N — число произведенных наблюдений (число пар). В приведенной корреляционной таблице N = 20. будет суммой произведений соответствующих х на их частоты. В данной таблице эта сумма составит:

9,9 +10,0 • 4 +10,1 • 4 + 10,2 • 4 +10,3 • 1 +10,4 • 3 +10,5 • 3 = 204.

—сумма произведений у на соответствующие частоты. В нашем примере она равна:

включает сумму произведений всех х на у и на для тех клеток корреляционной таблицы, в которых записаны частоты. Рассчитаем суммы произведений для 1-й и 2-й строки

  • Для 1 -и строки:
  • Для 2-й строки:

Нетрудно заметить, что в каждой строке у повторяется столько раз, сколько раз мы его суммируем, а, следовательно, у можно вынести за скобку.

  • Для 1-й строки: 0,8 (9,9 • 1 +10,0 • 2) =23,92.
  • Для 2-й строки:

Следовательно, сумма произведений может быть записана при постоянном у, как Заметим, что сумма произведений может быть записана и рассчитана как произведение

Продолжим расчет для последующих строк.

  • Для 3-й строки
  • Для 4-й строки
  • Для 5-й строки
  • Для 6-й строки

Общая сумма по всем строкам

Система нормальных уравнений может быть записана по результатам подсчета в таком виде:

Для расчета параметров уравнения линейной связи делим каждое из уравнений на коэффициенты при

Уравнение связи определяет среднюю зависимость выработки рабочего от стоимости основных средств. Вычислительная работа облегчается, если в самой корреляционной таблице путем записи дополнительных граф и строк производить нужные подсчеты для решения системы уравнений.

Число наблюдений N может быть подсчитано и по столбцу как его сумма. Она равна итогу по строке Для определения необходимо ввести новую строку Итог этой строки и дает искомую сумму.

Следующая дополнительная строка представляет возможность определить Далее, и может быть определена на основе расчета двух дополнительных граф:

В корреляционной таблице (см. табл. 8) в последних строках дается расчет для построения ломаной регрессии — для построения прямой (см. график 7).

Корреляционная таблица позволяет вычислять уравнение связи для любой формы: прямой, параболы, гиперболы и др. Однако в подобной таблице видна зависимость результативного признака лишь от одного факториального.

Зависимость результативного признака от двух или более факториальных признаков носит название множественной связи.

Множественная связь

Исследование зависимости результативного признака от двух или нескольких факториальных признаков возможно при помощи уравнения множественной связи.

В простейшем уравнении множественной связи предполагается, что зависимость между признаками линейная. Сначала рассмотрим линейную зависимость результативного признака (у) от двух факториальных (х, z). Уравнение связи в этом случае выразится формулой Параметры этого уравнения находятся при решении системы нормальных уравнений, получаемых для способа наименьших квадратов

где п — число одновременных наблюдений по трем признакам;

—суммы соответствующих значений по этим признакам.

Все расчеты удобно сосредоточить в специальной таблице, как это делается в приводимом ниже примере.

Рассмотрим зависимость средней урожайности ячменя (у) на равных участках от количества внесенных минеральных удобрений (х) и количества выпавших в период цветения осадков (z).

Средняя урожайность исчислялась по участкам с равным количеством внесенных удобрений и с равным количеством выпавших осадков.

Пользуясь данными таблицы, составляем систему трех уравнений:

Поделив все члены уравнений на коэффициенты при получим:

Вычитая из второго уравнения сначала первое, а затем третье, получим 2 уравнения с двумя неизвестными:

Делим каждый член обоих уравнений на коэффициенты при

Уравнение связи, определяющее зависимость результативного признака (у) от двух факториальных

Вычислив по этому уравнению при соответствующих х и z величины замечаем, что суммы опытных данных (y) и расчетных данных совпадают, а отдельные значения их мало отличаются друг от друга.

Найдем уравнение связи между урожайностью пшеницы на Безенчукской опытной станции и тремя факторами (х, z, v).

Статистические данные, полученные в результате наблюдения, и расчеты представлены в табл. 10, откуда возьмем необходимые данные для составления системы нормальных уравнений:

Следовательно,, корреляционное уравнение будет:

Расширив число факториальных признаков, можно найти уравнение множественной связи для 4, 5, 6 и т. д. признаков. При этом необходимо брать только такие признаки, которые оказывают существенное влияние на величину результативного признака, ибо учет несущественных, второстепенных признаков лишь увеличивает расчетную работу при нахождении уравнения связи, а не приближает к более полному изучению связи.

Если число факториальных признаков возрастает, возрастает и число членов уравнения связи. Так, для трех факториальных признаков линейное уравнение связи будет записано формулой:

где параметры уравнения находятся путем решения системы четырех нормальных уравнений:


Построив соответствующую таблицу, получим в ней необходимые суммарные данные для приведенной системы уравнений (см. табл. 10).

Мерой существенности влияния того или иного факториального признака на результативный являются показатели тесноты связи.

В настоящем издании мы рассмотрим эмпирические меры тесноты связи, полученные разными исследователями, и меры тесноты связи, основанные на измерении вариации.

Эмпирические меры тесноты связи

Эмпирические меры тесноты связи позволяют оценить степень связи между явлениями или факторами, находящимися в зависимости один от другого. Эмпирические меры получены различными исследователями, занимавшимися статистической обработкой фактического материала. Они получены ранее, чем был открыт метод корреляции. Практическое пользование эмпирическими показателями довольно удобно.

К эмпирическим мерам тесноты относятся:

  • а) коэффициент ассоциации:
  • б) коэффициенты взаимной напряженности;
  • в) коэффициент Фехнера;
  • Г) коэффициент корреляции рангов;

Рассмотрим каждый из них.

а) Коэффициент ассоциации. Коэффициент ассоциации как мера тесноты связи применяется для изучения связи двух качественных признаков, состоящих только из двух групп. Для его вычисления строится четырехклеточная таблица корреляции, которая выражает связь между двумя явлениями, каждое из которых, в свою очередь, должно быть альтернативным, т. е. состоящим только из двух видов, качественно отличных друг от друга. Например, при изучении зависимости урожая от количества внесенных в почву удобрений выделяем по урожайности и по количеству внесенных удобрений лишь по две группы. При этом условии можно построить следующую четырехклеточную таблицу.

Числа, стоящие на пересечении строк и граф — a,b,c,d, показывают, сколько участков встречается с тем и другим количеством удобрений, внесенным в почву, с той и другой урожайностью.

Мера тесноты связи — коэффициент ассоциации — исчисляется по формуле:

Заполнив клетки конкретными числовыми данными, получим следующую четырехклеточную таблицу, где числа, стоящие в клетках, — гектары посевов.

Коэффициент ассоциации равен:
что говорит о достаточно тесной прямой связи между урожайностью и степенью удобрения почв.

Коэффициент ассоциации может иметь и отрицательные значения, когда ad

При копировании любых материалов с сайта evkova.org обязательна активная ссылка на сайт www.evkova.org

Сайт создан коллективом преподавателей на некоммерческой основе для дополнительного образования молодежи

Сайт пишется, поддерживается и управляется коллективом преподавателей

Whatsapp и логотип whatsapp являются товарными знаками корпорации WhatsApp LLC.

Cайт носит информационный характер и ни при каких условиях не является публичной офертой, которая определяется положениями статьи 437 Гражданского кодекса РФ. Анна Евкова не оказывает никаких услуг.

Корреляционная связь может быть представлена уравнением вида

Параметры корреляционного уравнения, а также корреляционное отношение и коэффициент корреляции определяются обычно из выборки, следовательно, полученные показатели не являются точными оценками. [c.324]

По приведенным данным оценка регрессионной зависимости Рц(руп), о которой говорилось выше, может быть представлена в виде корреляционного уравнения, исходя из какой-либо установленной формы статистической связи для всего выделенного интервала времени в 26 лет. Построение регрессий для более коротких временных периодов было бы ненадежным именно из-за небольшого объема выборки (малая выборка). [c.334]

Теснота или сила связи между себестоимостью и каждым из параметров, характеризующая разброс всей совокупности фактических сведений относительно линии, вычисленной по корреляционному уравнению, выражается коэффициентом корреляции [c.33]

Корреляционное уравнение при линейной форме связи может быть также найдено следующим путем [c.34]

После замены значений и у на соответствующие параметры машины (см. стр. 40) получаем корреляционное уравнение для нахождения S [c.43]

Параметры корреляционного уравнения могут быть получены также на основе метода парных корреляций (путем использования коэффициентов парной корреляции) [16]. [c.44]

Рассмотрим пример составления корреляционного уравнения при линейном характере зависимости [типа формулы (1.20)] на основе использования коэффициентов парной корреляции. Исходные данные по параметрам конических шестерен для нахождения зависимости между ними и трудоемкостью обработки (при одинаковых требованиях к точности -представлены в табл. 1.18. Отклонения от средней величины параметров конических шестерен приведены в табл. 1.19. [c.79]

Для линейной парной корреляционной зависимости теснота или сила связи между себестоимостью и анализируемым параметром, характеризующая разброс всей совокупности фактических значений относительно линии, вычисленной по корреляционному уравнению, определяется коэффициентом корреляции г [c.123]

Целью корреляционного анализа является установление вида этой функции, т.е. отыскивание такого корреляционного уравнения (оно еще называется уравнением регрессии), которое наилучшим образом соответствует характеру изучаемой связи. [c.134]

Рассматриваемые связи математически описываются корреляционными уравнениями (другое название — уравнение регрессии). Напр,, простейшим корреляционным уравнением связи между двумя переменными является уравнение прямой вида у — в + Ъх, При функциональной связи такая прямая точно соответствовала бы всем значениям зависимой переменной. Если представить такую связь графически, то она проходила бы через все наблюдаемые точки у. При корреляции же соответствие, как указано, соблюдается лишь приблизительно, в общем, и точки наблюдений расположены не по прямой, а в виде «облачка», более или менее вытянутого в некотором направлении. Поэтому приходится специальными приемами находить ту линию, которая наилучшим образом отражает корреляционную зависимость, т.е. направление «облачка» (рис, К.1), Распространенный способ решения этой задачи — [c.155]

Особенности технологии и организации производства у про-, изводителя обусловливают те или иные физико-химические и геометрические свойства изделий, часто называемые производственным качеством изделий. Эти свойства в свою очередь определяют качество продукции для потребителя (производительность, надежность, долговечность и др.). Статистические методы анализа связи дают возможность построить корреляционные уравнения, факторными показателями в которых являются физико-химические и геометрические свойства изделий, а результативными показателями — показатели качества продукции для потребителя. На основе этих корреляционных уравнений связи можно, во-первых, на стадии выпуска готового изделия по результатам измерения его физико-химических свойств определить показатели его качества у потребителя и, во-вторых, прогнозировать изменение потребительского качества изделий при целенаправленном воздействии на параметры их производственного качества. [c.73]

Для прямолинейных форм зависимостей тесноту связи принято определять коэффициентом корреляции г, показывающим пропорциональность в изменении величин у и х. При линейной форме связи для корреляционного уравнения применяют формулу [c.114]

Данные таблиц, характеризующих структуры управления, выражены с помощью аппарата математической статистики, который учитывает число должностных категорий, важность и степень ответственности принимаемых решений на базе экспертных оценок. Сложность производственной структуры вычисляется по корреляционным уравнениям, и для простоты расчетов производственная структура считается неизменной на уровне средней по объединению. [c.152]

Первоначальная важнейшая задача корреляционного метода — определение вида корреляционного уравнения (уравнения регрессии). Простейшим видом такого уравнения, характеризующим взаимосвязь между двумя параметрами, может быть уравнение прямой (рис. 7.1) [c.231]

Решение корреляционных уравнений для множественной регрессии [c.149]

Корреляционная таблица для расчета параметров уравнения [c.10]

Многофакторная корреляционная модель дает возможность не только выразить количественно влияние факторов на изучаемый показатель, но и предсказать значение функции и, следовательно, управлять анализируемым показателем. Результаты такого анализа предназначены для разработки плановых заданий. Использование этого метода предполагает предварительное установление формы связи показателей и формирующих их факторов, расчет показателей достоверности, а также пределов, в которых может быть использовано уравнение регрессии. [c.102]

Корреляционный анализ состоит в установлении корреляционных связей между отдельными факторами исследуемого процесса, причем корреляционная связь выявляет характер изменения одной величины при изменении другой. С этой целью при помощи методов множественной корреляции выводят уравнение, дающее зависимость планируемой величины от каждого из рассматриваемых факторов. Коэффициенты и степени при величинах показателей характеризуют влияние последних на планируемую величину. При анализе такого уравнения полезно выявить факторы, влияние которых незначительно, и исключить их из рассмотрения. [c.152]

Выражения зависимостей по нефтедобывающим объединениям, полученные с применением корреляционно-регрессионного метода, содержат в себе изменения организационно-технических условий и прогресс техники в период времени, который учитывался в расчетах. Использование электронно-вычислительной техники позволило выполнить несколько вариантов решений уравнений связи по факторам. [c.25]

Для этого отыскивались уравнения регрессии для линейной, гиперболической и параболической второго порядка форм связи(подробнее вопрос о форме связи изложен ниже). При этом использовались расчеты парных корреляционно-регрессионных зависимостей между суточной загрузкой оборудования и расходом в отдельности топлива, воды, электроэнергии и пара, приходящиеся на единицу целевой продукции. [c.99]

Примером параметрической формулы для определения цены может быть уравнение, связывающее цену универсального токарного станка с его техническими параметрами. В его основу положена корреляционная зависимость себестоимости станка (С) от названных параметров [11]. [c.200]

Например, для предприятий станкоинструментальной промышленности с помощью корреляционного анализа было получено следующее уравнение зависимости специалистов (включая руководителей) и вспомогательного технического персонала [c.265]

Определение влияния отдельных факторов на производительность труда на основе парной корреляционной модели (вид I) позволяет установить связь между исследуемым фактором и производительностью труда при условии, что влияние всех остальных факторов является несущественным. Однако полученное при этом абсолютное значение выработки не точно, поскольку не учтено влияние всех других факторов. Такое уравнение может быть использовано для предварительного определения порядка изменения уровня производительности труда или для анализа воздействия только этого, отдельно взятого фактора на конечный результат. Например, уравнение зависимости между производительностью труда одного рабочего и уровнем сборности имеет вид [c.261]

Характер корреляционных зависимостей определяется уравнениями регрессии, показывающими закон изменения изучаемого показателя при изменении аргумента. Достоверность расчетов в корреляционном анализе зависит от количества наблюдений, от так называемого объема выборки. Увеличение объема выборки повышает надежность результатов корреляционного анализа. [c.396]

Расчет себестоимости на основе корреляционных зависимостей между себестоимостью и какими-либо параметрами изделия можно выразить либо в виде линейного уравнения [c.68]

Преимущество данного метода состоит в том, что он не зависит от субъективных оценок лица, строящего график нормативной сметы. Для метода наименьших квадратов, а также многих других математических методов имеются стандартные программы для ЭВМ. Подробное объяснение применения корреляционного анализа и построений уравнений регрессии, а также примеры их применения можно найти в любом учебнике по математической статистике. [c.212]

Решение задач многофакторного корреляционного анализа производится на ПЭВМ по типовым программам. Сначала формируется матрица исходных данных, в первой графе которой записывается порядковый номер наблюдения, по второй — величина результативного показателя (У), а в следующих — данные по факторным показателям (х.). Эти сведения вводятся в ПЭВМ, и рассчитывается уравнение множественной регрессии, которое в нашей задаче получило следующее выражение [c.69]

В частности, должен быть привлечен разносторонний статистический материал о динамике факторов, формирующих народный доход и его компоненты, т. е. производственных фондов, трудовых, сельскохозяйственных ресурсов. Необходимо затем построить корреляционные уравнения и производственные функции, связывающие народный доход с этими факторами, т. е. получить сильно агрегированную математико-статнстическую модель, по которой при знании будущего движения определяющих факторов можно было бы прогнозировать не формально, а на основе установленных экономических связей будущее движение народного дохода. Но для таких построений в настоящее время нет еще необходимых публикаций однородных и непрерывных рядов экономических показателей за достаточно длительный срок. [c.160]

Столь значительные максимальные отклонения расчетных величин К и М от проектных при определении их как функции 5 аргументов объясняются тем, что роль таких аргументов, как численность газоснабжаемого населения и максимально-часовой расход газа на промышленные нужды, характеризуемая соответствующими степенными показателями, была определена при преобладании наиболее типичного для сельских районов относительно равномерного по их территории расселения населения и размещения промышленных предприятий (по переработке сельскохозяйственного сырья, производству местных строительных материалов, ремонту сельскохозяйственных машин и т. п.). Только в этих условиях корреляционные уравнения зависимости К и М от 5 аргументов обеспечивают высокую точность расчетов. [c.344]

Рассмотрим пример составления корреляционного уравнения линейного тица методом Гаусса. [c.40]

Теснота или сила связи между логарифмами параметров Л/эд и d, характеризующая разброс всей совокупности логарифмов фактических значений относительно значений, вычисленных по корреляционному уравнению, равна 0,95, что свидетельствует о значительной взаимосвязи этих параметров. Отсюда следует, что в математическую модель себестоимости станков токарной группы мощность электропривда вводить не следует, так как она соответствующим образом может быть представлена максимальным диаметром обрабатываемого изделия. [c.128]

Для определения достоверности найденной корреляционной зависимости вычислялись среднеквадратичная погрешность коэффициентов корреляции оог и отношение г 1аог, которое не должно быть менее 2,6, если зависимость достоверна. Таким образом, для уточнения технических условий на физико-механические показатели резиновых смесей следует задаться физико-механическими показателями готовой продукции, а по уравнениям регрессии вычислить аналогичные показатели резиновых смесей. Так, найденная корреляционная- зависимость позволяет повысить точность и надежность определения показателей качества продукции без дополнительных затрат. [c.97]

Несмотря на кажущуюся надежность уравнения регрессии для всей выборочной совокупности НГДУ, использовать его для практических целей нельзя, так как проверка на нормальность распределения у показала, что р=1,043 значительно больше табличного значения, что свидетельствует о ненормальном распределении у. Поэтому необходимо рассмотреть вопрос о правомерности использования данной совокупности НГДУ для корреляционного и регрессионного анализа. Для этого проведено попарное сравнение дисперсий о2 отдельных групп НГДУ. [c.88]

Для сопоставления разработанной методики регистрации скорости реакции с методом определения скорости по накоплению L-лактата из ячейки рН-стата через определенные промежутки времени отбирали аликвоты реакционной смеси, в которых определяли концентрацию L-лактата с помощью цитохрома В2. На рис. 2 приведен корреляционный график для двух методов, представляющий собой прямую с коэффициентом корреляции г=0,981 и отвечающую уравнению у=(1,18 1,13) + (0,951 0,083) х, где у и х — скорости реакции, определенные соответственно методом по-тенциометрического титрования на рН-стате и по накоплению L-лактата. Тангенс угла наклона прямой близок к 1, следовательно, разработанный потенциометрический метод представляет собой метод прямой регистрации скорости реакции яблочно-молочнокислого брожения. [c.24]


источники:

http://www.evkova.org/korrelyatsiya

http://economy-ru.info/info/19964/