Уравнение прямой средней квадратической регрессии

Корреляционная таблица

Пример 1 . По данной корреляционной таблице построить прямые регрессии с X на Y и с Y на X . Найти соответствующие коэффициенты регрессии и коэффициент корреляции между X и Y .

y/x152025303540
10022
12043103
140250710
160143
18011

Решение:
Уравнение линейной регрессии с y на x будем искать по формуле

а уравнение регрессии с x на y, использовав формулу:

где x x , y — выборочные средние величин x и y, σx, σy — выборочные среднеквадратические отклонения.
Находим выборочные средние:
x = (15(1 + 1) + 20(2 + 4 + 1) + 25(4 + 50) + 30(3 + 7 + 3) + 35(2 + 10 + 10) + 40(2 + 3))/103 = 27.961
y = (100(2 + 2) + 120(4 + 3 + 10 + 3) + 140(2 + 50 + 7 + 10) + 160(1 + 4 + 3) + 180(1 + 1))/103 = 136.893
Выборочные дисперсии:
σ 2 x = (15 2 (1 + 1) + 20 2 (2 + 4 + 1) + 25 2 (4 + 50) + 30 2 (3 + 7 + 3) + 35 2 (2 + 10 + 10) + 40 2 (2 + 3))/103 — 27.961 2 = 30.31
σ 2 y = (100 2 (2 + 2) + 120 2 (4 + 3 + 10 + 3) + 140 2 (2 + 50 + 7 + 10) + 160 2 (1 + 4 + 3) + 180 2 (1 + 1))/103 — 136.893 2 = 192.29
Откуда получаем среднеквадратические отклонения:
и
Определим коэффициент корреляции:

где ковариация равна:
Cov(x,y) = (35•100•2 + 40•100•2 + 25•120•4 + 30•120•3 + 35•120•10 + 40•120•3 + 20•140•2 + 25•140•50 + 30•140•7 + 35•140•10 + 15•160•1 + 20•160•4 + 30•160•3 + 15•180•1 + 20•180•1)/103 — 27.961 • 136.893 = -50.02
Запишем уравнение линий регрессии y(x):

и уравнение x(y):

Построим найденные уравнения регрессии на чертеже, из которого сделаем следующие вывод:
1) обе линии проходят через точку с координатами (27.961; 136.893)
2) все точки расположены близко к линиям регрессии.

Пример 2 . По данным корреляционной таблицы найти условные средние y и x . Оценить тесноту линейной связи между признаками x и y и составить уравнения линейной регрессии y по x и x по y . Сделать чертеж, нанеся его на него условные средние и найденные прямые регрессии. Оценить силу связи между признаками с помощью корреляционного отношения.
Корреляционная таблица:

X / Y246810
154200
206330
300123
500001

Уравнение линейной регрессии с y на x имеет вид:

Уравнение линейной регрессии с x на y имеет вид:

найдем необходимые числовые характеристики.
Выборочные средние:
x = (2(5) + 4(4 + 6) + 6(2 + 3 + 1) + 8(3 + 2) + 10(3 + 1) + )/30 = 5.53
y = (2(5) + 4(4 + 6) + 6(2 + 3 + 1) + 8(3 + 2) + 10(3 + 1) + )/30 = 1.93
Дисперсии:
σ 2 x = (2 2 (5) + 4 2 (4 + 6) + 6 2 (2 + 3 + 1) + 8 2 (3 + 2) + 10 2 (3 + 1))/30 — 5.53 2 = 6.58
σ 2 y = (1 2 (5 + 4 + 2) + 2 2 (6 + 3 + 3) + 3 2 (1 + 2 + 3) + 5 2 (1))/30 — 1.93 2 = 0.86
Откуда получаем среднеквадратические отклонения:
σx = 2.57 и σy = 0.93
и ковариация:
Cov(x,y) = (2•1•5 + 4•1•4 + 6•1•2 + 4•2•6 + 6•2•3 + 8•2•3 + 6•3•1 + 8•3•2 + 10•3•3 + 10•5•1)/30 — 5.53 • 1.93 = 1.84
Определим коэффициент корреляции:


Запишем уравнения линий регрессии y(x):

и вычисляя, получаем:
yx = 0.28 x + 0.39
Запишем уравнения линий регрессии x(y):

и вычисляя, получаем:
xy = 2.13 y + 1.42
Если построить точки, определяемые таблицей и линии регрессии, увидим, что обе линии проходят через точку с координатами (5.53; 1.93) и точки расположены близко к линиям регрессии.
Значимость коэффициента корреляции.

По таблице Стьюдента с уровнем значимости α=0.05 и степенями свободы k=30-m-1 = 28 находим tкрит:
tкрит (n-m-1;α/2) = (28;0.025) = 2.048
где m = 1 — количество объясняющих переменных.
Если tнабл > tкритич, то полученное значение коэффициента корреляции признается значимым (нулевая гипотеза, утверждающая равенство нулю коэффициента корреляции, отвергается).
Поскольку tнабл > tкрит, то отклоняем гипотезу о равенстве 0 коэффициента корреляции. Другими словами, коэффициент корреляции статистически — значим.

Пример 3 . Распределение 50 предприятий пищевой промышленности по степени автоматизации производства Х (%) и росту производительности труда Y (%) представлено в таблице. Необходимо:
1. Вычислить групповые средние i и j x y, построить эмпирические линии регрессии.
2. Предполагая, что между переменными Х и Y существует линейная корреляционная зависимость:
а) найти уравнения прямых регрессии, построить их графики на одном чертеже с эмпирическими линиями регрессии и дать экономическую интерпретацию полученных уравнений;
б) вычислить коэффициент корреляции; на уровне значимости α= 0,05 оценить его значимость и сделать вывод о тесноте и направлении связи между переменными Х и Y;
в) используя соответствующее уравнение регрессии, оценить рост производительности труда при степени автоматизации производства 43%.
Скачать решение

Пример . По корреляционной таблице рассчитать ковариацию и коэффициент корреляции, построить прямые регрессии.

Пример 4 . Найти выборочное уравнение прямой Y регрессии Y на X по данной корреляционной таблице.
Решение находим с помощью калькулятора.
Скачать
Пример №4

Пример 5 . С целью анализа взаимного влияния прибыли предприятия и его издержек выборочно были проведены наблюдения за этими показателями в течение ряда месяцев: X — величина месячной прибыли в тыс. руб., Y — месячные издержки в процентах к объему продаж.
Результаты выборки сгруппированы и представлены в виде корреляционной таблицы, где указаны значения признаков X и Y и количество месяцев, за которые наблюдались соответствующие пары значений названных признаков.
Решение.
Пример №5
Пример №6
Пример №7

Пример 6 . Данные наблюдений над двумерной случайной величиной (X, Y) представлены в корреляционной таблице. Методом наименьших квадратов найти выборочное уравнение прямой регрессии Y на X. Построить график уравнения регрессии и показать точки (x;y)б рассчитанные по таблице данных.
Решение.
Скачать решение

Пример 7 . Дана корреляционная таблица для величин X и Y, X- срок службы колеса вагона в годах, а Y — усредненное значение износа по толщине обода колеса в миллиметрах. Определить коэффициент корреляции и уравнения регрессий.

X / Y02712172227323742
03600000000
125108448200000
230506021550000
311133321323100
4055131372000
500121263210
60101002101
70011000100

Решение.
Скачать решение

Пример 8 . По заданной корреляционной таблице определить групповые средние количественных признаков X и Y. Построить эмпирические и теоретические линии регрессии. Предполагая, что между переменными X и Y существует линейная зависимость:

  1. Вычислить выборочный коэффициент корреляции и проанализировать степень тесноты и направления связи между переменными.
  2. Определить линии регрессии и построить их графики.

Скачать

29. Линейная регрессия

Рассмотрим двумерную случайную величину (X, Y), где X и Y – зависимые случайные величины.

Представим приближенно одну случайную величину как функцию другой. Точное соответствие невозможно. Будем считать, что эта функция линейная.

Для определения этой функции остается только найти постоянные величины a и b.

Определение. Функция G(X) называется Наилучшим приближением случайной величины Y в смысле метода наименьших квадратов, если математическое ожидание

принимает наименьшее возможное значение. Также функция G(X) называется Среднеквадратической регрессией Y на X.

Теорема. Линейная средняя квадратическая регрессия Y На Х вычисляется по формуле:

В этой формуле Mx=M(X), My=M(Y), коэффициент корреляции величин Х И Y.

Величина называется Коэффициентом регрессии Y На Х.

Прямая, уравнение которой

,

Называется Прямой сренеквадратической регрессии Y На Х.

Величина называется Остаточной дисперсией Случайной величины Y относительно случайной величины Х. Эта величина характеризует величину ошибки, образующейся при замене случайной величины Y линейной функцией G(X)=aХ + B.

Видно, что если R=±1, то остаточная дисперсия равна нулю, и, следовательно, ошибка равна нулю и случайная величина Y точно представляется линейной функцией от случайной величины Х.

Прямая среднеквадратичной регрессии Х на Y определяется аналогично по формуле:

Прямые среднеквадратичной регрессии пересекаются в точке (Тх, ту), которую называют Центром совместного распределения Случайных величин Х И Y.

РЕГРЕССИОННЫЙ АНАЛИЗ

В практических исследованиях возникает необходимость аппроксимировать (описать приблизительно) диаграмму рассеяния математическим уравнением . То есть зависимость между переменными величинами Y и Х можно выразить аналитически с помощью формул и уравнений и графически в виде геометрического места точек в системе прямоугольных координат. График корреляционной зависимости строится по уравнениям функции и , которые называются регрессией (термин “регрессия” происходит от лат. regressio — движение назад). Здесь и — средние арифметические из числовых значений зависимых переменных Y и X .
Для выражения регрессии служат эмпирические и теоретические ряды, их графики — линии регрессии , а также корреляционные уравнения (уравнения регрессии) и коэффициент линейной регрессии.
Показатели регрессии выражают корреляционную связь двусторонне, учитывая изменение средней величины признака Y при изменении значений x i признака X , и, наоборот, показывают изменение средней величины признака Х по измененным значениям y i признака Y . Исключение составляют временные ряды, или ряды динамики, показывающие изменение признаков во времени. Регрессия таких рядов является односторонней.
Ряды регрессии , особенно их графики, дают наглядное представление о форме и тесноте корреляционной связи между признаками, в чем и заключается их ценность. Форма связи между показателями, влияющими на уровень спортивного результата и общей физической подготовки занимающихся физической культурой и спортом, может быть разнообразной. И поэтому задача состоит в том, чтобы любую форму корреляционной связи выразить уравнением определенной функции (линейной, параболической и т.д.), что позволяет получать нужную информацию о корреляции между переменными величинами Y и X , предвидеть возможные изменения признака Y на основе известных изменений X , связанного с Y корреляционно.

Линии регрессии, как показано, пересекаются в точке 0 ( ), соответствующей средним арифметическим значениям корреляционно связанных друг с другом признаков Y и X . Линия АВ, проходящая через эту точку, изображает полную (функциональную) зависимость между переменными вели-чинами Y и X , когда коэффициент корреляции r = 1 . Чем сильнее связь между Y и X , тем ближе линии регрессии к АВ, и, наоборот, чем слабее связь между варьирующими признаками, тем более удаленными оказываются линии регрессии от АВ. При отсутствии связи между признаками, когда r = 0 , линии регрессии оказываются под прямым углом (90°) по отношению друг к другу.
Уравнение регрессии тем лучше описывает зависимость, чем меньше рассеяние диаграммы, чем больше теснота взаимосвязи. Уравнение прямой линии пригодно для описания только линейных зависимостей. В случае не-линейных зависимостей математическая запись может отображаться уравнениями параболы, гиперболы и др.
Необходимо также сделать одно важное замечание о значении показателей, характеризующих взаимосвязь признаков (коэффициентов корреляции, регрессии и т. п.). Все они дают лишь количественную меру связи, но ничего не говорят о причинах зависимости. Определить эти причины — дело самого исследователя.

Значение этой оценки, если r = , равно нулю и, если r = 0 , максимально. Остаточное среднее квадратическое отклонение характеризует колеблемость Y относительно линии регрессии по Х в прямом уравнении регрессии и, наоборот, в обратном случае. А, следовательно, чем меньше вели-чина относительной погрешности уравнения регрессии, тем точнее будет оно осуществлять прогноз значений одного показателя по заранее известным значениям другого.

Эта формула ценна тем, что, во-первых, может быть использована для нахождения неизвестной величины коэффициента корреляции по известным значениям коэффициента регрессии b y/x и b x/y , а во-вторых, позволяет контролировать правильность расчета коэффициента корреляции, если известны величины b y/x и b x/y . Знак выборочного коэффициента корреляции совпадает со знаком выборочных коэффициентов регрессии, что следует из формулы (2.3). Если зависимость между признаками функциональная, то b y/x = 1 / b x/y и, следовательно, r = 1 . И, наоборот, при полном отсутствии взаимосвязи между признаками b y/x = 0, b x/y = 0 , и r = 0 .

Эти уравнения удобны для определения параметров при отыскивании эмпирических уравнений регрессии в практической работе для точности прогнозирования результатов.


источники:

http://matica.org.ua/metodichki-i-knigi-po-matematike/kurs-vysshei-matematiki-4/29-lineinaia-regressiia

http://masters.donntu.org/2005/kita/tokarev/library/regress.htm