Уравнение связи построенное в результате корреляционного анализа

Метод корреляционного анализа: пример. Корреляционный анализ — это…

Понятие о корреляционном анализе

Существует множество определений термина. Исходя из вышеизложенного, можно сказать, что корреляционный анализ — это метод, применяющийся с целью проверки гипотезы о статистической значимости двух и более переменных, если исследователь их может измерять, но не изменять.

Есть и другие определения рассматриваемого понятия. Корреляционный анализ — это метод обработки статистических данных, заключающийся в изучении коэффициентов корреляции между переменными. При этом сравниваются коэффициенты корреляции между одной парой или множеством пар признаков, для установления между ними статистических взаимосвязей. Корреляционный анализ — это метод по изучению статистической зависимости между случайными величинами с необязательным наличием строгого функционального характера, при которой динамика одной случайной величины приводит к динамике математического ожидания другой.

Задачи корреляционного анализа

Исходя из приведенных выше определений, можно сформулировать следующие задачи описываемого метода: получить информацию об одной из искомых переменных с помощью другой; определить тесноту связи между исследуемыми переменными.

Корреляционный анализ предполагает определение зависимости между изучаемыми признаками, в связи с чем задачи корреляционного анализа можно дополнить следующими:

  • выявление факторов, оказывающих наибольшее влияние на результативный признак;
  • выявление неизученных ранее причин связей;
  • построение корреляционной модели с ее параметрическим анализом;
  • исследование значимости параметров связи и их интервальная оценка.

Условия использования метода

Результативные факторы зависят от одного до нескольких факторов. Метод корреляционного анализа может применяться в том случае, если имеется большое количество наблюдений о величине результативных и факторных показателей (факторов), при этом исследуемые факторы должны быть количественными и отражаться в конкретных источниках. Первое может определяться нормальным законом — в этом случае результатом корреляционного анализа выступают коэффициенты корреляции Пирсона, либо, в случае, если признаки не подчиняются этому закону, используется коэффициент ранговой корреляции Спирмена.

Оценка тесноты связи

Теснота корреляционной связи определяется по коэффициенту корреляции (r): сильная — r = ±0,7 до ±1, средняя — r = ±0,3 до ±0,699, слабая — r = 0 до ±0,299. Данная классификация не является строгой. На рисунке показана несколько иная схема.

Правила отбора факторов корреляционного анализа

При применении данного метода необходимо определиться с факторами, оказывающими влияние на результативные показатели. Их отбирают с учетом того, что между показателями должны присутствовать причинно-следственные связи. В случае создания многофакторной корреляционной модели отбирают те из них, которые оказывают существенное влияние на результирующий показатель, при этом взаимозависимые факторы с коэффициентом парной корреляции более 0,85 в корреляционную модель предпочтительно не включать, как и такие, у которых связь с результативным параметром носит непрямолинейный или функциональный характер.

Отображение результатов

Результаты корреляционного анализа могут быть представлены в текстовом и графическом видах. В первом случае они представляются как коэффициент корреляции, во втором — в виде диаграммы разброса.

При отсутствии корреляции между параметрами точки на диаграмме расположены хаотично, средняя степень связи характеризуется большей степенью упорядоченности и характеризуется более-менее равномерной удаленностью нанесенных отметок от медианы. Сильная связь стремится к прямой и при r=1 точечный график представляет собой ровную линию. Обратная корреляция отличается направленностью графика из левого верхнего в нижний правый, прямая — из нижнего левого в верхний правый угол.

Трехмерное представление диаграммы разброса (рассеивания)

Помимо традиционного 2D-представления диаграммы разброса в настоящее время используется 3D-отображение графического представления корреляционного анализа.

Также используется матрица диаграммы рассеивания, которая отображает все парные графики на одном рисунке в матричном формате. Для n переменных матрица содержит n строк и n столбцов. Диаграмма, расположенная на пересечении i-ой строки и j-ого столбца, представляет собой график переменных Xi по сравнению с Xj. Таким образом, каждая строка и столбец являются одним измерением, отдельная ячейка отображает диаграмму рассеивания двух измерений.

Ссылки

  • Discriminant Correlation Analysis (DCA) Haghighat M., Abdel-Mottaleb M., Alhalabi W.
    Discriminant Correlation Analysis: Real-Time Feature Level Fusion for Multimodal Biometric Recognition. IEEE Transactions on Information Forensics and Security]. — 2020. — Т. 11(9). (MATLAB)
  • Hardoon D., Szedmak S., Shawe-Taylor J.
    Canonical Correlation Analysis: An Overview with Application to Learning Methods // Neural Computation. — 2004. — Т. 16, вып. 12. — P. 2639–2664. — DOI:10.1162/0899766042321814. — PMID 15516276.
  • A note on the ordinal canonical-correlation analysis of two sets of ranking scores (Приведена программа на языке FORTRAN)- Journal of Quantitative Economics 7(2), 2009, pp. 173–199
  • Representation-Constrained Canonical Correlation Analysis: A Hybridization of Canonical Correlation and Principal Component Analyses (Приведена программа на языке FORTRAN)- Journal of Applied Economic Sciences 4(1), 2009, стр. 115–124
    Для улучшения этой статьи желательно:
    • Проверить качество перевода с иностранного языка.
    • Исправить статью согласно стилистическим правилам Википедии.
    • Проверить статью на грамматические и орфографические ошибки.

    Пример применения метода корреляционного анализа

    В Великобритании было предпринято любопытное исследование. Оно посвящено связи курения с раком легких, и проводилось путем корреляционного анализа. Это наблюдение представлено ниже.
    Исходные данные для корреляционного анализа

    Профессиональная группакурениесмертность
    Фермеры, лесники и рыбаки7784
    Шахтеры и работники карьеров137116
    Производители газа, кокса и химических веществ117123
    Изготовители стекла и керамики94128
    Работники печей, кузнечных, литейных и прокатных станов116155
    Работники электротехники и электроники102101
    Инженерные и смежные профессии111118
    Деревообрабатывающие производства93113
    Кожевенники88104
    Текстильные рабочие10288
    Изготовители рабочей одежды91104
    Работники пищевой, питьевой и табачной промышленности104129
    Производители бумаги и печати10786
    Производители других продуктов11296
    Строители113144
    Художники и декораторы110139
    Водители стационарных двигателей, кранов и т. д.125113
    Рабочие, не включенные в другие места133146
    Работники транспорта и связи115128
    Складские рабочие, кладовщики, упаковщики и работники разливочных машин105115
    Канцелярские работники8779
    Продавцы9185
    Работники службы спорта и отдыха100120
    Администраторы и менеджеры7660
    Профессионалы, технические работники и художники6651

    Начинаем корреляционный анализ. Решение лучше начинать для наглядности с графического метода, для чего построим диаграмму рассеивания (разброса).

    Она демонстрирует прямую связь. Однако на основании только графического метода сделать однозначный вывод сложно. Поэтому продолжим выполнять корреляционный анализ. Пример расчета коэффициента корреляции представлен ниже.

    С помощью программных средств (на примере MS Excel будет описано далее) определяем коэффициент корреляции, который составляет 0,716, что означает сильную связь между исследуемыми параметрами. Определим статистическую достоверность полученного значения по соответствующей таблице, для чего нам нужно вычесть из 25 пар значений 2, в результате чего получим 23 и по этой строке в таблице найдем r критическое для p=0,01 (поскольку это медицинские данные, здесь используется более строгая зависимость, в остальных случаях достаточно p=0,05), которое составляет 0,51 для данного корреляционного анализа. Пример продемонстрировал, что r расчетное больше r критического, значение коэффициента корреляции считается статистически достоверным.

    Литература

    • Wolfgang Härdle, Léopold Simar.
      Canonical Correlation Analysis // Applied Multivariate Statistical Analysis. — 2007. — ISBN 978-3-540-72243-4. — DOI:10.1007/978-3-540-72244-1_14.
    • Knapp T. R.
      Canonical correlation analysis: A general parametric significance-testing system // Psychological Bulletin. — 1978. — Т. 85, вып. 2. — DOI:10.1037/0033-2909.85.2.410.
    • Kanti V. Mardia, J. T. Kent, J. M. Bibby.
      Multivariate Analysis. — Academic Press, 1979.
    • Hotelling H.
      Relations Between Two Sets of Variates // Biometrika. — 1936. — Т. 28, вып. 3–4. — DOI:10.1093/biomet/28.3-4.321.
    • Hsu D., Kakade S. M., Zhang T.
      A spectral algorithm for learning Hidden Markov Models // Journal of Computer and System Sciences. — 2012. — Т. 78, вып. 5. — DOI:10.1016/j.jcss.2011.12.025. — arXiv:0811.4413.
    • Huang S. Y., Lee M. H., Hsiao C. K.
      Nonlinear measures of association with kernel canonical correlation analysis and applications // Journal of Statistical Planning and Inference. — 2009. — Т. 139, вып. 7. — DOI:10.1016/j.jspi.2008.10.011.
    • Sieranoja S., Sahidullah Md, Kinnunen T., Komulainen J., Hadid A.
      Audiovisual Synchrony Detection with Optimized Audio Features // IEEE 3rd Int. Conference on Signal and Image Processing (ICSIP 2018). — 2020. — Июль.
    • Tofallis C.
      Model Building with Multiple Dependent Variables and Constraints // Journal of the Royal Statistical Society, Series D. — 1999. — Т. 48, вып. 3. — DOI:10.1111/1467-9884.00195. — arXiv:1109.0725.
    • Degani A., Shafto M., Olson L.
      Canonical Correlation Analysis: Use of Composite Heliographs for Representing Multiple Patterns // Diagrammatic Representation and Inference. — 2006. — Т. 4045. — (Lecture Notes in Computer Science). — ISBN 978-3-540-35623-3. — DOI:10.1007/11783183_11.
    • Jendoubi T., Strimmer K.
      A whitening approach to probabilistic canonical correlation analysis for omics data integration. — 2020.

    Использование ПО при проведении корреляционного анализа

    Описываемый вид статистической обработки данных может осуществляться с помощью программного обеспечения, в частности, MS Excel. Корреляционный анализ в Excel предполагает вычисление следующих парамет­ров с использованием функций:

    1. Коэффициент корреляции определяется с помощью функции КОРРЕЛ [CORREL](массив1; массив2). Массив1,2 — ячейка интервала значений результативных и факторных переменных.

    Линейный коэффициент корреляции также называется коэффициентом корреляции Пирсона, в связи с чем, начиная с Excel 2007, можно использовать функцию ПИРСОН (PEARSON) с теми же массивами.

    Графическое отображение корреляционного анализа в Excel производится с помощью панели «Диаграммы» с выбором «Точечная диаграмма».

    После указания исходных данных получаем график.

    2. Оценка значимости коэффициента парной корреляции с использованием t-критерия Стьюдента. Рассчитанное значение t-критерия сравнивается с табличной (критической) величиной данного показателя из соответствующей таблицы значений рассматриваемого параметра с учетом заданного уровня значимости и числа степеней свободы. Эта оценка осуществляется с использованием функции СТЬЮДРАСПОБР (вероятность; степени_свободы).

    3. Матрица коэффициентов парной корреляции. Анализ осуществляется с помощью средства «Анализ данных», в котором выбирается «Корреляция». Статистическую оценку коэффициентов парной корреляции осуществляют при сравнении его абсолютной величины с табличным (критическим) значением. При превышении расчетного коэффициента парной корреляции над таковым критическим можно говорить, с учетом заданной степени вероятности, что нулевая гипотеза о значимости линейной связи не отвергается.

    Как рассчитать коэффициент корреляции

    Коэффициенты Пирсона и Спирмена можно рассчитать вручную. Это может понадобиться при углубленном изучении статистических методов.

    Однако в большинстве случаев при решении прикладных задач, в том числе и в психологии, можно проводить расчеты с помощью специальных программ.

    Расчет с помощью электронных таблиц Microsoft Excel

    Вернемся опять к примеру со студентами и рассмотрим данные об уровне их интеллекта и длине прыжка с места. Занесем эти данные (два столбца) в таблицу Excel.

    Переместив курсор в пустую ячейку, нажмем опцию «Вставить функцию» и выберем «КОРРЕЛ» из раздела «Статистические».

    Формат этой функции предполагает выделение двух массивов данных: КОРРЕЛ (массив 1; массив»). Выделяем соответственно столбик с IQ и длиной прыжков.

    Далее нажимаем галочку (то есть, рассчитать) и получаем значение , в нашем случае 0,038. Как видим, коэффициент не равен нулю, хотя и очень близок к нему.

    В таблицах Excel реализована формула расчета только коэффициента Пирсона.

    Расчет с помощью программы STATISTICA

    Заносим данные по интеллекту и длине прыжка в поле исходных данных. Далее выбираем опцию «Непараметрические критерии», «Спирмена». Выделяем параметры для расчета и получаем следующий результат.

    Как видно, расчет дал результат 0,024, что отличается от результата по Пирсону – 0,038, полученной выше с помощью Excel. Однако различия незначительны.

    Уравнение связи построенное в результате корреляционного анализа

    406. Убытки от списания безнадежных долгов и от стихийных бедствий учитываются в составе результатов от:
    внереализационных операций

    407. Увеличение задолженности в структуре капитала:
    повышает рентабельность собственного капитала

    408. Удельная фактическая трудоемкость (ТЕ) в сопоставимых с планом условиях может быть представлена в виде следующего алгоритма

    409. Удельный вес каждой части совокупности в секторной диаграмме характеризуется величиной
    центрального угла

    410. Умение быстро и четко проводить анализ, принимать управленческие решения и претворять их в жизнь характеризует анализ хозяйственной деятельности как:
    оперативный

    411. Уменьшение объема производства продукции в связи с недопоставкой материалов (DК) определяется по формуле

    412. Упущенные возможности повышения эффективности производства относительно плана или достижений науки и передового опыта за прошедшие промежутки времени являются резервами
    неиспользованными

    413. Уравнение связи, построенное в результате корреляционного анализа, носит название уравнения
    регрессии

    414. Уровень затрат на рубль товарной продукции (УЗ) определяется следующим образом:

    415. Ускорение оборачиваемости материальных оборотных средств
    уменьшает потребность в них

    416. Ускорение оборачиваемости оборотных средств означает:
    экономию оборотных средств

    417. Уставный и добавочный капитал в сумме составляют капитал:
    вложенный

    418. Установить характер нарушений нормального хода экономических процессов на основе типичных признаков, характерных только для данного нарушения, позволяет анализ
    диагностический

    419. Установление взаимосвязи исследуемого показателя с факторными производится в виде конкретного математического уравнения в процессе
    моделирования

    420. Устранение воздействия на величину результативного показателя всех факторов, кроме одного, достигается путем
    элиминирования

    Метод корреляционного анализа: пример. Корреляционный анализ — это.

    В научных исследованиях часто возникает необходимость в нахождении связи между результативными и факторными переменными (урожайностью какой-либо культуры и количеством осадков, ростом и весом человека в однородных группах по полу и возрасту, частотой пульса и температурой тела и т.д.).

    Вторые представляют собой признаки, способствующие изменению таковых, связанных с ними (первыми).

    Понятие о корреляционном анализе

    Существует множество определений термина. Исходя из вышеизложенного, можно сказать, что корреляционный анализ — это метод, применяющийся с целью проверки гипотезы о статистической значимости двух и более переменных, если исследователь их может измерять, но не изменять.

    Есть и другие определения рассматриваемого понятия. Корреляционный анализ — это метод обработки статистических данных, заключающийся в изучении коэффициентов корреляции между переменными. При этом сравниваются коэффициенты корреляции между одной парой или множеством пар признаков, для установления между ними статистических взаимосвязей. Корреляционный анализ — это метод по изучению статистической зависимости между случайными величинами с необязательным наличием строгого функционального характера, при которой динамика одной случайной величины приводит к динамике математического ожидания другой.

    Понятие о ложности корреляции

    При проведении корреляционного анализа необходимо учитывать, что его можно провести по отношению к любой совокупности признаков, зачастую абсурдных по отношению друг к другу. Порой они не имеют никакой причинной связи друг с другом.

    В этом случае говорят о ложной корреляции.

    Задачи корреляционного анализа

    Исходя из приведенных выше определений, можно сформулировать следующие задачи описываемого метода: получить информацию об одной из искомых переменных с помощью другой; определить тесноту связи между исследуемыми переменными.

    Корреляционный анализ предполагает определение зависимости между изучаемыми признаками, в связи с чем задачи корреляционного анализа можно дополнить следующими:

    • выявление факторов, оказывающих наибольшее влияние на результативный признак;
    • выявление неизученных ранее причин связей;
    • построение корреляционной модели с ее параметрическим анализом;
    • исследование значимости параметров связи и их интервальная оценка.

    Связь корреляционного анализа с регрессионным

    Условия использования метода

    Результативные факторы зависят от одного до нескольких факторов. Метод корреляционного анализа может применяться в том случае, если имеется большое количество наблюдений о величине результативных и факторных показателей (факторов), при этом исследуемые факторы должны быть количественными и отражаться в конкретных источниках. Первое может определяться нормальным законом — в этом случае результатом корреляционного анализа выступают коэффициенты корреляции Пирсона, либо, в случае, если признаки не подчиняются этому закону, используется коэффициент ранговой корреляции Спирмена.

    Правила отбора факторов корреляционного анализа

    При применении данного метода необходимо определиться с факторами, оказывающими влияние на результативные показатели. Их отбирают с учетом того, что между показателями должны присутствовать причинно-следственные связи. В случае создания многофакторной корреляционной модели отбирают те из них, которые оказывают существенное влияние на результирующий показатель, при этом взаимозависимые факторы с коэффициентом парной корреляции более 0,85 в корреляционную модель предпочтительно не включать, как и такие, у которых связь с результативным параметром носит непрямолинейный или функциональный характер.

    Отображение результатов

    Результаты корреляционного анализа могут быть представлены в текстовом и графическом видах. В первом случае они представляются как коэффициент корреляции, во втором — в виде диаграммы разброса.

    При отсутствии корреляции между параметрами точки на диаграмме расположены хаотично, средняя степень связи характеризуется большей степенью упорядоченности и характеризуется более-менее равномерной удаленностью нанесенных отметок от медианы. Сильная связь стремится к прямой и при r=1 точечный график представляет собой ровную линию. Обратная корреляция отличается направленностью графика из левого верхнего в нижний правый, прямая — из нижнего левого в верхний правый угол.

    Трехмерное представление диаграммы разброса (рассеивания)

    Помимо традиционного 2D-представления диаграммы разброса в настоящее время используется 3D-отображение графического представления корреляционного анализа.

    Также используется матрица диаграммы рассеивания, которая отображает все парные графики на одном рисунке в матричном формате. Для n переменных матрица содержит n строк и n столбцов. Диаграмма, расположенная на пересечении i-ой строки и j-ого столбца, представляет собой график переменных Xi по сравнению с Xj. Таким образом, каждая строка и столбец являются одним измерением, отдельная ячейка отображает диаграмму рассеивания двух измерений.

    Оценка тесноты связи

    Теснота корреляционной связи определяется по коэффициенту корреляции (r): сильная — r = ±0,7 до ±1, средняя — r = ±0,3 до ±0,699, слабая — r = 0 до ±0,299. Данная классификация не является строгой. На рисунке показана несколько иная схема.

    Пример применения метода корреляционного анализа

    В Великобритании было предпринято любопытное исследование. Оно посвящено связи курения с раком легких, и проводилось путем корреляционного анализа. Это наблюдение представлено ниже.

    Исходные данные для корреляционного анализа

    Фермеры, лесники и рыбаки

    Шахтеры и работники карьеров

    Производители газа, кокса и химических веществ

    Изготовители стекла и керамики

    Работники печей, кузнечных, литейных и прокатных станов

    Работники электротехники и электроники

    Инженерные и смежные профессии

    Изготовители рабочей одежды

    Работники пищевой, питьевой и табачной промышленности

    Производители бумаги и печати

    Производители других продуктов

    Художники и декораторы

    Водители стационарных двигателей, кранов и т. д.

    Рабочие, не включенные в другие места

    Работники транспорта и связи

    Складские рабочие, кладовщики, упаковщики и работники разливочных машин

    Работники службы спорта и отдыха

    Администраторы и менеджеры

    Профессионалы, технические работники и художники

    Начинаем корреляционный анализ. Решение лучше начинать для наглядности с графического метода, для чего построим диаграмму рассеивания (разброса).

    Она демонстрирует прямую связь. Однако на основании только графического метода сделать однозначный вывод сложно. Поэтому продолжим выполнять корреляционный анализ. Пример расчета коэффициента корреляции представлен ниже.

    С помощью программных средств (на примере MS Excel будет описано далее) определяем коэффициент корреляции, который составляет 0,716, что означает сильную связь между исследуемыми параметрами. Определим статистическую достоверность полученного значения по соответствующей таблице, для чего нам нужно вычесть из 25 пар значений 2, в результате чего получим 23 и по этой строке в таблице найдем r критическое для p=0,01 (поскольку это медицинские данные, здесь используется более строгая зависимость, в остальных случаях достаточно p=0,05), которое составляет 0,51 для данного корреляционного анализа. Пример продемонстрировал, что r расчетное больше r критического, значение коэффициента корреляции считается статистически достоверным.

    Использование ПО при проведении корреляционного анализа

    Описываемый вид статистической обработки данных может осуществляться с помощью программного обеспечения, в частности, MS Excel. Корреляционный анализ в Excel предполагает вычисление следующих парамет­ров с использованием функций:

    1. Коэффициент корреляции определяется с помощью функции КОРРЕЛ [CORREL](массив1; массив2). Массив1,2 — ячейка интервала значений результативных и факторных переменных.

    Линейный коэффициент корреляции также называется коэффициентом корреляции Пирсона, в связи с чем, начиная с Excel 2007, можно использовать функцию ПИРСОН (PEARSON) с теми же массивами.

    Графическое отображение корреляционного анализа в Excel производится с помощью панели «Диаграммы» с выбором «Точечная диаграмма».

    После указания исходных данных получаем график.

    2. Оценка значимости коэффициента парной корреляции с использованием t-критерия Стьюдента. Рассчитанное значение t-критерия сравнивается с табличной (критической) величиной данного показателя из соответствующей таблицы значений рассматриваемого параметра с учетом заданного уровня значимости и числа степеней свободы. Эта оценка осуществляется с использованием функции СТЬЮДРАСПОБР (вероятность; степени_свободы).

    3. Матрица коэффициентов парной корреляции. Анализ осуществляется с помощью средства «Анализ данных», в котором выбирается «Корреляция». Статистическую оценку коэффициентов парной корреляции осуществляют при сравнении его абсолютной величины с табличным (критическим) значением. При превышении расчетного коэффициента парной корреляции над таковым критическим можно говорить, с учетом заданной степени вероятности, что нулевая гипотеза о значимости линейной связи не отвергается.

    В заключение

    Использование в научных исследованиях метода корреляционного анализа позволяет определить связь между различными факторами и результативными показателями. При этом необходимо учитывать, что высокий коэффициент корреляции можно получить и из абсурдной пары или множества данных, в связи с чем данный вид анализа нужно осуществлять на достаточно большом массиве данных.

    После получения расчетного значения r его желательно сравнить с r критическим для подтверждения статистической достоверности определенной величины. Корреляционный анализ может осуществляться вручную с использованием формул, либо с помощью программных средств, в частности MS Excel. Здесь же можно построить диаграмму разброса (рассеивания) с целью наглядного представления о связи между изучаемыми факторами корреляционного анализа и результативным признаком.


    источники:

    http://oltest.ru/tests/ekonomika/ekonomicheskiy_analiz/voprosy/28/

    http://fb.ru/article/341341/metod-korrelyatsionnogo-analiza-primer-korrelyatsionnyiy-analiz—eto