Элементы теории корреляции коэффициент корреляции уравнение регрессии

Элементы теории корреляции. План: I. Понятие корреляционной зависимости: 1) Коэффициент корелляции 2) Проверка гипотезы о значимости выборочного коэффициента. — презентация

Презентация была опубликована 8 лет назад пользователемmgavm.ru

Похожие презентации

Презентация на тему: » Элементы теории корреляции. План: I. Понятие корреляционной зависимости: 1) Коэффициент корелляции 2) Проверка гипотезы о значимости выборочного коэффициента.» — Транскрипт:

1 Элементы теории корреляции

2 План: I. Понятие корреляционной зависимости: 1) Коэффициент корелляции 2) Проверка гипотезы о значимости выборочного коэффициента корелляции. II. Регрессия: 1) Линейная регрессия 2) Уравнения регрессии

3 Понятие корреляционной зависимости Процессы, сопровождающие жизнедеятельность биологических организмов животного и растительного происхождения, формируются под влиянием большого числа факторов. Эти факторы можно разделить на: основные, определяющие главные характеристики процессы; второстепенные, обуславливающие разброс характеристик. Такие процессы называются стохастическими (вероятностными или случайными).

4 Корреляционная связь является частным случаем стохастической связи. При этом каждому значению признака (случайной величины) Х соответствует множество значение признаков У, то есть их распределение. Х называют факторным признаком, У – результативным.

5 Корреляционный анализ решает следующие задачи: установление характера зависимости результативного признака от факторного; изучение степени тесноты зависимости; выявление неизвестных причинных зависимостей. Первая задача решается путем выбора типа уравнения, которое называется корреляционным.

6 Зависимость может быть: 1.линейной, 2.параболической, 3.гиперболической, 4.логарифмической, 5.степенной, 6.показательной.

7 1.Экспериментальные данные (наблюдения) представляют в виде корреляционной таблицы 2.Наносят на координатную плоскость точки, откладывая по оси абсцисс значение факторного признака, а по оси ординат — результативного признака. Алгоритм определения линейной корреляции:

8 Множество точек, полученных таким образом, называется корреляционным полем или корреляционным «облачком». По форме расположения точек приближенно определяют характер зависимости. 3.Вычисляют параметр уравнения линейной регрессии

9 Линейная корреляционная зависимость (корреляция) между признаками Х и У выражается уравнением вида: У = bx + a. Такое уравнение называется уравнением регрессии У на Х, а соответствующая прямая – выборочной линией регрессии. В этом случае одинаковые приращения любого значения факторного признака Х вызывают одинаковые изменения результативного признака У.

10 Если результативный признак У имеет неодинаковые изменения, регрессия называется криволинейной (параболической, степенной и т.д.). Линейная регрессия У на Х показывает, как в среднем изменяется у при изменении Х. Если при увеличении Х увеличивается и У, то корреляция и регрессия называются положительными, если У уменьшается – отрицательными (обратными).

11 Формула для вычисления параметра уравнения линейной регрессии: где — выборочный коэффициент регрессии.

12 Из системы нормальных уравнений для линейной зависимости, полученной методом наименьших квадратов, можно вывести формулу коэффициента регрессии:

0 – связь между признаками положительна. Если 0 – связь между признаками положительна. Если 13 Коэффициент показывает, насколько изменится У при изменении Х на единицу. Если > 0 – связь между признаками положительна. Если 0 – связь между признаками положительна. Если 0 – связь между признаками положительна. Если 0 – связь между признаками положительна. Если 0 – связь между признаками положительна. Если

14 4.Строят график уравнения регрессии на фоне корреляционного поля.

15 Вторая задача корреляционного анализа решается путем вычисления коэффициента корреляции. Коэффициент корреляции – это мера интенсивности линейной связи между признаками. Вычисляют по формуле:

16 или, где- выборочные средние квадратические отклонения Х и У.

17 Учитывая приведенную формулу, уравнение регрессии можно представить в виде: Коэффициент корреляции – безразмерная величина.

18 Свойства коэффициента корреляции: 1. 2.Если r = 1, то зависимость между признаками Х и У является функциональной 3.Если r = 0, то признаки Х и У не связаны линейной корреляционной зависимостью, но зависимость может иметь криволинейный характер.

19 С увеличениемсвязь между признаками Х и У становится теснее. При- зависимость между признаками слабая, при- средняя, при — сильная. Если r положителен, то связь между признаками прямая, если отрицателен – обратная.

20 Коэффициент корреляции, возведенный в квадрат, называется коэффициентом детерминации r².

21 Он показывает долю (или проценты если r²·100) изменений, которые вызваны факторным признаком. Коэффициент детерминации r² является прямым способом выражения зависимости одного признака от другого. Если известно, что У находится в причинной связи с Х, то r² — это доля вариаций У, обусловленная влиянием Х.

22 В выражении «36% колебаний удойности коров вызвано колебанием времени кормления». 36% — значение коэффициента детерминации. Регрессионный анализ проводится по выборочным данным, поэтому значимость выборочного коэффициента корреляции следует проверять.

23 Стандартную ошибку коэффициента корреляции находят по формуле, где n — объем выборки. С увеличением n уменьшается и возрастает точность определения r.

Корреляции для начинающих

Апдейт для тех, кто сочтет статью полезной и занесет в избранное. Есть приличный шанс, что пост уйдет в минуса, и я буду вынужден унести его в черновики. Сохраняйте копию!

Краткий и несложный материал для неспециалистов, рассказывающий в наглядной форме о различных методах поиска регрессионных зависимостей. Это все и близко не академично, зато надеюсь что понятно. Прокатит как мини-методичка по обработке данных для студентов естественнонаучных специальностей, которые математику знают плохо, впрочем как и автор. Расчеты в Матлабе, подготовка данных в Экселе — так уж повелось в нашей местности

Введение

Зачем это вообще надо? В науке и около нее очень часто возникает задача предсказания какого-то неизвестного параметра объекта исходя из известных параметров этого объекта (предикторов) и большого набора похожих объектов, так называемой учебной выборки. Пример. Вот мы выбираем на базаре яблоко. Его можно описать такими предикторами: красность, вес, количество червяков. Но как потребителей нас интересует вкус, измеренный в попугаях по пятибалльной шкале. Из жизненного опыта нам известно, что вкус с приличной точностью равен 5*красность+2*вес-7*количество червяков. Вот про поиск такого рода зависимостей мы и побеседуем. Чтобы обучение пошло легче, попробуем предсказать вес девушки исходя из ее 90/60/90 и роста.

Исходные данные

В качестве объекта исследования возьму данные о параметрах фигуры девушек месяца Плейбоя. Источник — www.wired.com/special_multimedia/2009/st_infoporn_1702, слегка облагородил и перевел из дюймов в сантиметры. Вспоминается анекдот про то, что 34 дюйма — это как два семнадцатидюймовых монитора. Также отделил записи с неполной информацией. При работе с реальными объектами их можно использовать, но сейчас они нам только мешают. Зато их можно использовать для проверки адекватности полученных результатов. Все данные у нас непрерывные, то есть грубо говоря типа float. Они приведены к целым числам только чтобы не загромождать экран. Есть способы работы и с дискретными данными — в нашем примере это например может быть цвет кожи или национальность, которые принимают одно из фиксированного набора значений. Это больше имеет отношение к методам классификации и принятия решений, что тянет еще на один мануал. Data.xls В файле два листа. На первом собственно данные, на втором — отсеянные неполные данные и набор для проверки нашей модели.

Обозначения

W — вес реальный
W_p — вес, предсказанный нашей моделью
S — бюст
T — талия
B — бедра
L — рост
E — ошибка модели

Как оценить качество модели?

Задача нашего упражнения — получить некую модель, которая описывает какой-либо объект. Способ получения и принцип работы конкретной модели нас пока не волнует. Это просто функция f(S, T, B, L), которая выдает вес девушки. Как понять, какая функция хорошая и качественная, а какая не очень? Для этого используется так называемая fitness function. Самая классическая и часто используемая — это сумма квадратов разницы предсказанного и реального значения. В нашем случае это будет сумма (W_p — W)^2 для всех точек. Собственно, отсюда и пошло название «метод наименьших квадратов». Критерий не лучший и не единственный, но вполне приемлемый как метод по умолчанию. Его особенность в том, что он чувствителен по отношению к выбросам и тем самым, считает такие модели менее качественными. Есть еще всякие методы наименьших модулей итд, но сейчас нам это пока не надо.

Простая линейная регрессия

Самый простой случай. У нас одна переменная-предиктор и одна зависимая переменная. В нашем случае это может быть например рост и вес. Нам надо построить уравнение W_p = a*L+b, т.е. найти коэффициенты a и b. Если мы проведем этот расчет для каждого образца, то W_p будет максимально совпадать с W для того же образца. То есть у нас для каждой девушки будет такое уравнение:
W_p_i = a*L_i+b
E_i = (W_p-W)^2

Общая ошибка в таком случае составит sum(E_i). В результате, для оптимальных значений a и b sum(E_i) будет минимальным. Как же найти уравнение?

Матлаб

Для упрощения очень рекомендую поставить плагин для Excel под названием Exlink. Он в папке matlab/toolbox/exlink. Очень облегчает пересылку данных между программами. После установки плагина появляется еще одно меню с очевидным названием, и автоматически запускается Матлаб. Переброс информации из Экселя в Матлаб запускается командой «Send data to MATLAB», обратно, соответственно, — «Get data from MATLAB». Пересылаем в Матлаб числа из столбца L и отдельно из W, без заголовков. Переменные назовем так же. Функция расчета линейной регрессии — polyfit(x,y,1). Единица показывает степень аппроксимационного полинома. У нас он линейный, поэтому единица. Получаем наконец-то коэффициенты регрессии: regr=polyfit(L,W,1) . a мы можем получить как regr(1), b — как regr(2). То есть мы можем получить наши значения W_p: W_p=L*repr(1)+repr(2) . Вернем их назад в Эксель.

Графичек


Мда, негусто. Это график W_p(W). Формула на графике показывает связь W_p и W. В идеале там будет W_p = W*1 + 0. Вылезла дискретизация исходных данных — облако точек клетчатое. Коэффициент корреляции ни в дугу — данные слабо коррелированы между собой, т.е. наша модель плохо описывает связь веса и роста. По графику это видно как точки, расположенные в форме слабо вытянутого вдоль прямой облака. Хорошая модель даст облако растянутое в узкую полосу, еще более плохая — просто хаотичный набор точек или круглое облако. Модель необходимо дополнить. Про коэффициент корреляции стоит рассказать отдельно, потому что его часто используют абсолютно неправильно.

Расчет в матричном виде

Можно и без всяких полифитов справиться с построением регрессии, если слегка дополнить столбец с величинами роста еще одним столбцом, заполненным единицами: L(:,2)=1 . Двойка показывает номер столбца, в который пишутся единицы. Тогда коэффициенты регрессии можно будет найти по такой формуле: repr=inv(L’*L)*L’*W . И обратно, найти W_p: W_p=L*repr . Когда осознаешь магию матриц, пользоваться функциями становится неприкольно. Единичный столбец нужен для расчета свободного члена регрессии, то есть просто слагаемого без умножения на параметр. Если его не добавлять, то в регрессии будет всего один член: W_p=a*L. Достаточно очевидно, что она будет хуже по качеству, чем регрессия с двумя слагаемыми. В целом, избавляться от свободного члена надо только в том случае, если он точно не нужен. По умолчанию он все-таки присутствует.

Мультилинейная регрессия

В русскоязычной литературе прошлых лет упоминается как ММНК — метод множественных наименьших квадратов. Это расширение метода наименьших квадратов для нескольких предикторов. То есть у нас в дело идет не только рост, но и все остальные, так сказать, горизонтальные размеры. Подготовка данных точно такая же: обе матрицы в матлаб, добавление столбца единиц, расчет по той же самой формуле. Для любителей функций есть b = regress(y,X) . Эта функция также требует добавления столбца единиц. Повторяем расчет по формуле из раздела про матрицы, пересылаем в Эксель, смотрим.

Попытка номер два


А так получше, но все равно не очень. Как видим, клетчатость осталась только по горизонтали. Никуда не денешься, исходные веса были целыми числами в фунтах. То есть после конверсии в килограммы они ложатся на сетку с шагом около 0.5. Итого финальный вид нашей модели:

W_p = 0.2271*S + 0.1851*T + 0.3125*B + 0.3949*L — 72.9132

Объемы в сантиметрах, вес в кг. Поскольку у нас все величины кроме роста в одних единицах измерения и примерно одного порядка по величине (кроме талии), то мы можем оценить их вклады в общий вес. Рассуждения примерно в таком духе: коэффициент при талии самый маленький, равно как и сами величины в сантиметрах. Значит, вклад этого параметра в вес минимален. У бюста и особенно у бедер он больше, т.е. сантиметр на талии дает меньшую прибавку к массе, чем на груди. А больше всего на вес влияет объем задницы. Впрочем, это знает любой интересующийся вопросом мужчина. То есть как минимум, наша модель реальной жизни не противоречит.

Валидация модели

Название громкое, но попробуем получить хотя бы ориентировочные веса тех девушек, для которых есть полный набор размеров, но нет веса. Их 7: с мая по июнь 1956 года, июль 1957, март 1987, август 1988. Находим предсказанные по модели веса: W_p=X*repr

Что ж, по крайней мере в текстовом виде выглядит правдоподобно. А насколько это соответствует реальности — решать вам

Применимость

Если вкратце — полученная модель годится для объектов, подобных нашему набору данных. То есть по полученным корреляциям не стоит считать параметры фигур женщин с весом 80+, возрастом, сильно отличающимся от среднего по больнице итд. В реальных применениях можно считать, что модель пригодна, если параметры изучаемого объекта не слишком отличаются от средних значений этих же параметров для исходного набора данных. Могут возникнуть (и возникнут) проблемы, если у нас предикторы сильно коррелированы между собой. То есть, например это рост и длина ног. Тогда коэффициенты для соответствующих величин в уравнении регрессии будут определены с малой точностью. В таком случае надо выбросить один из параметров, или воспользоваться методом главных компонент для снижения количества предикторов. Если у нас малая выборка и/или много предикторов, то мы рискуем попасть в переопределенность модели. То есть если мы возьмем 604 параметра для нашей выборки (а в таблице всего 604 девушки), то сможем аналитически получить уравнение с 604+1 слагаемым, которое абсолютно точно опишет то, что мы в него забросили. Но предсказательная сила у него будет весьма невелика. Наконец, далеко не все объекты можно описать мультилинейной зависимостью. Бывают и логарифмические, и степенные, и всякие сложные. Их поиск — это уже совсем другой вопрос.


источники:

http://habr.com/ru/post/172043/