Построить линейное уравнение связи между признаками

Построение линейной модели регрессии по данным эксперимента

п.1. Результативные и факторные признаки

Инвестиции в проект

Затраты на рекламу

По характеру зависимости признаков различают:

  • Функциональную зависимость , когда каждому определенному значению факторного признака x соответствует одно и только одно значение результативного признака \(y=f(x)\).
  • Статистическую зависимость , когда каждому определенному значению факторного признака x соответствует некоторое распределение \(F_Y(y|x)\) вероятностей значений результативного признака.

Например:
Функциональные зависимости: \(y(x)=x^2+3,\ S(R)=\pi R^2,\ V(a)=a^3\)
Статистические зависимости: средний балл успеваемости в зависимости от потраченного на учебу времени, рост в зависимости от возраста, количество осадков в зависимости от времени года и т.п.

Линейная модель парной регрессии

Например:
Прогноз погоды, автоматическая диагностика заболевания по результатам обследования, распознавание отпечатка на сканере и т.п.
В принципе, все сегодняшние компьютерные «чудеса» по поиску, обучению и распознаванию основаны на статистических моделях.

Рассмотрим саму простую модель: построение прямой \(Y=aX+b\) на основе полученных данных. Такая модель называется линейной моделью парной регрессии .

Пусть Y — случайная величина, значения которой требуется определить в зависимости от факторной переменной X.
Пусть в результате измерений двух случайных величин X и Y был получен набор точек \(\left\<(x_i;y_i)\right\>,\ x_i\in X,\ y_i\in Y\).
Пусть \(y*=y*(x)\) — оценка значений величины Y на данном наборе \(x_i\). Тогда для каждого значения x случайной величиной является ошибка оценки: $$ \varepsilon (x)=y*(x)-Y $$ Например, если полученный набор точек при размещении на графике имеет вид:

тогда разумно будет выдвинуть гипотезу, что для генеральной совокупности \(Y=aX+b\).
А для нашей выборки: \(y_i=ax_i+b+\varepsilon_i,\ i=\overline<1,k>\)
т.к., каждая точка выборки может немного отклоняться от прямой.

Наша задача: на данном наборе точек \(\left\<(x_i;y_i)\right\>\) найти параметры прямой a и b и построить эту прямую так, чтобы отклонения \(\varepsilon_i\) были как можно меньше.

п.3. Метод наименьших квадратов, вывод системы нормальных уравнений

Идея метода наименьших квадратов (МНК) состоит в том, чтобы найти такие значения a и b, для которых сумма квадратов всех отклонений \(\sum \varepsilon_i^2\rightarrow\ min\) будет минимальной.
Т.к. \(y_i=ax_i+b+\varepsilon_i\), сумма квадратов отклонений: $$ \sum_^k \varepsilon_i^2=\sum_^k (y_i-ax_i-b)^2\rightarrow min $$ Изучая производные, мы уже решали задачи на поиск экстремума (см. §50 данного справочника).
В данном случае нас интересует «двойной» экстремум, по двум переменным: $$ S(a,b)=\sum_^k (y_i-ax_i-b)^2 $$ Сначала берем производную по a, считая b постоянной, и приравниваем её к 0: \begin \frac<\partial S(a,b)><\partial a>=\frac<\partial><\partial a>\sum_^k (y_i-ax_i-b)^2=\sum_^k \frac<\partial><\partial a>(y_i-ax_i-b)^2=\\ =\sum_^k 2(y_i-ax_i-b)\cdot (-x_i)=-2\sum_^k x_i(y_i-ax_i-b)=0 \end Теперь то же самое делаем для b: \begin \frac<\partial S(a,b)><\partial b>=\frac<\partial><\partial b>\sum_^k (y_i-ax_i-b)^2=\sum_^k \frac<\partial><\partial b>(y_i-ax_i-b)^2=\\ =\sum_^k 2(y_i-ax_i-b)\cdot (-1)=-2\sum_^k (y_i-ax_i-b)=0 \end Получаем систему: \begin \begin \sum_^k x_i(y_i-ax_i-b)=0\\ \sum_^k (y_i-ax_i-b)=0 \end \\ \begin \sum_^k x_iy_i-a\sum_^k x_i^2-b\sum_^k x_i=0\\ \sum_^k y_i-a\sum_^k x_i-b\sum_^k 1=0 \end \end Переставим уравнения местами и запишем в удобном для решения виде.

Система нормальных уравнений для параметров парной линейной регрессии $$ \begin a\sum_^k x_i+bk=\sum_^k y_i\\ a\sum_^k x_i^2+b\sum_^k x_i=\sum_^k x_iy_i \end $$

Наши неизвестные – это a и b. И получена нами система двух линейных уравнений с двумя неизвестными, которую мы решаем методом Крамера (см. §48 справочника для 7 класса). \begin \triangle = \begin \sum_^k x_i & k\\ \sum_^k x_i^2 & \sum_^k x_i \end,\ \ \triangle_a = \begin \sum_^k y_i & k\\ \sum_^k x_iy_i & \sum_^k x_i \end,\ \ \triangle_b = \begin \sum_^k x_i & \sum_^k y_i\\ \sum_^k x_i^2 & \sum_^k x_iy_i \end \\ a=\frac<\triangle_a><\triangle>,\ \ b=\frac<\triangle_b> <\triangle>\end
Например:
Найдем и построим прямую регрессии для набора точек, представленных на графике выше. Общее число точек k=10.
Расчетная таблица:

\(i\)\(x_i\)\(y_i\)\(x_i^2\)\(x_iy_i\)
103,8600
20,53,250,251,625
314,1414,14
41,54,932,257,395
525,22410,44
62,57,016,2517,525
736,8920,4
83,57,7912,2527,265
949,181636,72
104,59,7720,2543,965
22,561,9571,25169,475

Получаем: \begin \sum_^k x_i=22,2;\ \sum_^k x_i^2=71,25;\ \sum_^k x_iy_i=169,475;\ \sum_^k y_i=61,95\\ \triangle = \begin 22,2 & 10\\ 71,25 & 22,2 \end=22,2^2-10\cdot 71,25=-206,25\\ \triangle_a = \begin 61,95 & 10\\ 169,475 & 22,2 \end=61,95\cdot 22,2-10\cdot 169,475=-300,875\\ \triangle_b = \begin 22,2 & 61,95\\ 71,25 & 169,475 \end=22,2\cdot 169,475-61,95\cdot 71,25=-600,75 \\ a=\frac<\triangle_a><\triangle>=\frac<-300,875><-206,25>\approx 1,46,\ \ b=\frac<\triangle_b><\triangle>=\frac<-600,75><-206,25>\approx 2,91 \end

Уравнение прямой регрессии: $$ Y=1,46\cdot X+2,91 $$

п.4. Оценка тесноты связи

Найденное уравнение регрессии всегда дополняют расчетом показателя тесноты связи.
Введем следующие средние величины: $$ \overline=\frac1k\sum_^k x_i,\ \ \overline=\frac1k\sum_^k y_i,\ \ \overline=\frac1k\sum_^k x_i^2,\ \ \overline=\frac1k\sum_^k y_i^2,\ \ \overline=\frac1k\sum_^k x_iy_i $$ Дисперсия каждой из случайных величин x и y: $$ D_x=\overline-(\overline)^2,\ \ D_y=\overline-(\overline)^2 $$ СКО каждой из случайных величин: $$ \sigma_x=\sqrt<\overline-(\overline)^2>,\ \ \sigma_y=\sqrt<\overline-(\overline)^2>,\ \ $$

Значения линейного коэффициента корреляции находится в интервале $$ -1\leq r_\leq 1 $$ Чем ближе \(|r_|\) к единице, тем сильнее линейная связь между x и y.
Отрицательные значения \(|r_|\) соответствуют обратной связи: убывающей прямой с отрицательным угловым коэффициентом.

Для оценки тесноты связи на практике пользуются шкалой Чеддока :

Задача №1 Построение уравнения регрессии

Имеются следующие данные разных стран об индексе розничных цен на продукты питания (х) и об индексе промышленного производства (у).

Индекс розничных цен на продукты питания (х)Индекс промышленного производства (у)
110070
210579
310885
411384
511885
611885
711096
811599
9119100
1011898
1112099
12124102
13129105
14132112

Требуется:

1. Для характеристики зависимости у от х рассчитать параметры следующих функций:

В) равносторонней гиперболы.

2. Для каждой модели рассчитать показатели: тесноты связи и среднюю ошибку аппроксимации.

3. Оценить статистическую значимость параметров регрессии и корреляции.

4. Выполнить прогноз значения индекса промышленного производства у при прогнозном значении индекса розничных цен на продукты питания х=138.

Решение:

1. Для расчёта параметров линейной регрессии

Решаем систему нормальных уравнений относительно a и b:

Построим таблицу расчётных данных, как показано в таблице 1.

Таблица 1 Расчетные данные для оценки линейной регрессии

№ п/пхухуx 2y 2
110070700010000490074,263400,060906
210579829511025624179,925270,011712
310885918011664722583,322380,019737
411384949212769705688,984250,059336
5118851003013924722594,646110,113484
6118851003013924722594,646110,113484
7110961056012100921685,587130,108467
8115991138513225980191,249000,078293
911910011900141611000095,778490,042215
10118981156413924960494,646110,034223
11120991188014400980196,910860,021102
12124102126481537610404101,44040,005487
13129105135451664111025107,10220,020021
14132112147841742412544110,49930,013399
Итого:162912991522931905571222671299,0010,701866
Среднее значение:116,357192,7857110878,0713611,218733,357хх
8,498811,1431ххххх
72,23124,17ххххх

Среднее значение определим по формуле:

Cреднее квадратическое отклонение рассчитаем по формуле:

и занесём полученный результат в таблицу 1.

Возведя в квадрат полученное значение получим дисперсию:

Параметры уравнения можно определить также и по формулам:

Таким образом, уравнение регрессии:

Следовательно, с увеличением индекса розничных цен на продукты питания на 1, индекс промышленного производства увеличивается в среднем на 1,13.

Рассчитаем линейный коэффициент парной корреляции:

Связь прямая, достаточно тесная.

Определим коэффициент детерминации:

Вариация результата на 74,59% объясняется вариацией фактора х.

Подставляя в уравнение регрессии фактические значения х, определим теоретические (расчётные) значения .

,

следовательно, параметры уравнения определены правильно.

Рассчитаем среднюю ошибку аппроксимации – среднее отклонение расчётных значений от фактических:

В среднем расчётные значения отклоняются от фактических на 5,01%.

Оценку качества уравнения регрессии проведём с помощью F-теста.

F-тест состоит в проверке гипотезы Н0 о статистической незначимости уравнения регрессии и показателя тесноты связи. Для этого выполняется сравнение фактического Fфакт и критического (табличного) Fтабл значений F-критерия Фишера.

Fфакт определяется по формуле:

где n – число единиц совокупности;

m – число параметров при переменных х.

Таким образом, Н0 – гипотеза о случайной природе оцениваемых характеристик отклоняется и признаётся их статистическая значимость и надёжность.

Полученные оценки уравнения регрессии позволяют использовать его для прогноза.

Если прогнозное значение индекса розничных цен на продукты питания х = 138, тогда прогнозное значение индекса промышленного производства составит:

2. Степенная регрессия имеет вид:

Для определения параметров производят логарифмиро­вание степенной функции:

Для определения параметров логарифмической функции строят систему нормальных уравнений по способу наи­меньших квадратов:

Построим таблицу расчётных данных, как показано в таблице 2.

Таблица 2 Расчетные данные для оценки степенной регрессии

№п/пхуlg xlg ylg x*lg y(lg x) 2(lg y) 2
1100702,0000001,8450983,6901964,0000003,404387
2105792,0211891,8976273,8354644,0852063,600989
3108852,0334241,9294193,9233264,1348123,722657
4113842,0530781,9242793,9506964,2151313,702851
5118852,0718821,9294193,9975284,2926953,722657
6118852,0718821,9294193,9975284,2926953,722657
7110962,0413931,9822714,0465944,1672843,929399
8115992,0606981,9956354,1124014,2464763,982560
91191002,0755472,0000004,1510944,3078954,000000
10118982,0718821,9912264,1255854,2926953,964981
11120992,0791811,9956354,1492874,3229953,982560
121241022,0934222,0086004,2048474,3824144,034475
131291052,1105902,0211894,2659014,4545894,085206
141321122,1205742,0492184,3455184,4968344,199295
Итого1629129928,9047427,4990456,7959759,6917254,05467
Среднее значение116,357192,785712,0646241,9642174,0568554,2636943,861048
8,498811,14310,0319450,053853ххх
72,23124,170,0010210,0029ххх

Продолжение таблицы 2 Расчетные данные для оценки степенной регрессии

№п/пху
11007074,1644817,342920,059493519,1886
21057979,620570,3851120,007855190,0458
31088582,951804,1951330,02409660,61728
41138488,5976821,138660,05473477,1887
51188594,3584087,579610,11009960,61728
61188594,3584087,579610,11009960,61728
71109685,19619116,72230,1125410,33166
81159990,8883465,799010,08193638,6174
911910095,5240820,033840,04475952,04598
101189894,3584013,261270,03715927,18882
111209996,694235,3165630,02329138,6174
12124102101,41910,3374670,00569584,90314
13129105107,42325,8720990,023078149,1889
14132112111,07720,851630,00824369,1889
Итого162912991296,632446,41520,7030741738,357
Среднее значение116,357192,78571хххх
8,498811,1431хххх
72,23124,17хххх

Решая систему нормальных уравнений, определяем параметры логарифмической функции.

Получим линейное уравнение:

Выполнив его потенцирование, получим:

Подставляя в данное уравнение фактические значения х, получаем теоретические значения результата . По ним рассчитаем показатели: тесноты связи – индекс корреляции и среднюю ошибку аппроксимации.

Связь достаточно тесная.

В среднем расчётные значения отклоняются от фактических на 5,02%.

Таким образом, Н0 – гипотеза о случайной природе оцениваемых характеристик отклоняется и признаётся их статистическая значимость и надёжность.

Полученные оценки уравнения регрессии позволяют использовать его для прогноза. Если прогнозное значение индекса розничных цен на продукты питания х = 138, тогда прогнозное значение индекса промышленного производства составит:

3. Уравнение равносторонней гиперболы

Для определения параметров этого уравнения используется система нормальных уравнений:

Произведем замену переменных

и получим следующую систему нормальных уравнений:

Решая систему нормальных уравнений, определяем параметры гиперболы.

Составим таблицу расчётных данных, как показано в таблице 3.

Таблица 3 Расчетные данные для оценки гиперболической зависимости

№п/пхуzyz
1100700,0100000000,7000000,00010004900
2105790,0095238100,7523810,00009076241
3108850,0092592590,7870370,00008577225
4113840,0088495580,7433630,00007837056
5118850,0084745760,7203390,00007187225
6118850,0084745760,7203390,00007187225
7110960,0090909090,8727270,00008269216
8115990,0086956520,8608700,00007569801
91191000,0084033610,8403360,000070610000
10118980,0084745760,8305080,00007189604
11120990,0083333330,8250000,00006949801
121241020,0080645160,8225810,000065010404
131291050,0077519380,8139530,000060111025
141321120,0075757580,8484850,000057412544
Итого:162912990,12097182311,137920,0010510122267
Среднее значение:116,357192,785710,0086408440,7955660,00007518733,357
8,498811,14310,000640820ххх
72,23124,170,000000411ххх

Продолжение таблицы 3 Расчетные данные для оценки гиперболической зависимости

№п/пху
11007072,32620,0332315,411206519,1886
21057979,494050,0062540,244083190,0458
31088583,476190,0179272,32201260,61728
41138489,643210,06718131,8458577,1887
51188595,287610,121031105,834960,61728
61188595,287610,121031105,834960,61728
71109686,010270,1040699,7946510,33166
81159991,959870,07111249,5634438,6174
911910096,359570,03640413,2527252,04598
101189895,287610,0276777,35705927,18882
111209997,413670,0160242,51645338,6174
12124102101,460,0052940,29156584,90314
13129105106,16510,0110961,357478149,1889
14132112108,81710,02841910,1311369,1889
Итого:162912991298,9880,666742435,75751738,357
Среднее значение:116,357192,78571хххх
8,498811,1431хххх
72,23124,17хххх

Значения параметров регрессии a и b составили:

Связь достаточно тесная.

В среднем расчётные значения отклоняются от фактических на 4,76%.

Таким образом, Н0 – гипотеза о случайной природе оцениваемых характеристик отклоняется и признаётся их статистическая значимость и надёжность.

Полученные оценки уравнения регрессии позволяют использовать его для прогноза. Если прогнозное значение индекса розничных цен на продукты питания х = 138, тогда прогнозное значение индекса промышленного производства составит:

По уравнению равносторонней гиперболы получена наибольшая оценка тесноты связи по сравнению с линейной и степенной регрессиями. Средняя ошибка аппроксимации остаётся на допустимом уровне.

Основы корреляционного анализа. Примеры анализа прямолинейной связи при парной корреляции

Исследование объективно существующих связей между явлениями — важнейшая задача статистики. В процессе статистического исследования зависимостей выявляются причинно-следственные отношения между явлениями. Причинно-следственные отношения — это такая связь явлений и процессов, когда изменение одного из них — причины ведет к изменению другого — следствия.

Признаки явлений и процессов по их значению для изучения взаимосвязи делятся на два класса. Признаки, обуславливающие изменения других, связанных с ними признаков, называют факторными, или просто факторами. Признаки, изменяющиеся под действием факторных признаков, называют результативными.

В статистике различают функциональные и стохастические (вероятностные) связи явлений и процессов:

  • Функциональной называют такую связь, при которой определенному значению факторного признака соответствует одно значение результативного.
  • Если причинная зависимость проявляется не в каждом отдельном случае, а в общем, среднем при большом числе наблюдений, то такая зависимость называется стохастической (вероятностной). Частным случаем стохастической связи является корреляционная связь.

Кроме того, связи между явлениями и их признаками классифицируются по степени тесноты, направлению и аналитическому выражению.

По направлению выделяют связь прямую и обратную:

  • Прямая связь — это такая связь, при которой с увеличением (уменьшением) значений факторного признака происходит увеличение (уменьшение) значений результативного. Так, например, рост производительности труда способствует увеличению уровня рентабельности производства.
  • В случае обратной связи значения результативного признака изменяются под воздействием факторного, но в противоположном направлении по сравнению с изменением факторного признака. Так с увеличением уровня фондоотдачи снижается себестоимость единицы производимой продукции.

По аналитическому выражению выделяют связи прямолинейные (или просто линейные) и нелинейные:

  • Если статистическая связь между явлениями может быть приблизительно выражена уравнением прямой линии, то ее называют линейной связью вида: у=а+bх.
  • Если же связь может быть выражена уравнением какой-либо кривой линии (параболы, гиперболы и др.), то такую связь называют нелинейной (криволинейной) связью.

Теснота связи показывает меру влияния факторного признака на общую вариацию результативного признака. Классификация связи по степени тесноты представлена в таблице 1.

Таблица 1 — Количественные критерии оценки тесноты связи

Величина коэффициента корреляцииХарактер связи
До ±3Практически отсутствует
От ±3 до ±0,5Слабая
От ±0,5 до ±0,7Умеренная
От ±0,7 до ±1,0Сильная

Для выявления наличия связи, ее характера и направления в статистике используются следующие методы: приведения параллельных данных, аналитических группировок, графический, корреляции. Основным методом изучения статистической взаимосвязи является статистическое моделирование связи на основе корреляционного и регрессионного анализа.

Корреляция — это статистическая зависимость между случайными величинами, не имеющая строго функционального характера, при которой изменение одной из случайных величин приводит к изменению математического ожидания другой. В статистике принято различать следующие виды корреляции:

  • парная корреляция — связь между двумя признаками (результативным и факторным, или двумя факторными);
  • частная корреляция — зависимость между результативным и одним факторным признаками при фиксированном значении других факторных признаков;
  • множественная корреляция — зависимость результативного и двух или более факторных признаков, включенных в исследование.

Задачей корреляционного анализа является количественное определение тесноты связи между двумя признаками (при парной связи) и между результативным и множеством факторных признаков (при многофакторной связи).

Теснота связи количественно выражается величиной коэффициентов корреляции, которые давая количественную характеристику тесноты связи между признаками, позволяют определять «полезность» факторных признаков при построении уравнения множественной регрессии.

Корреляция взаимосвязана с регрессией, поскольку первая оценивает силу (тесноту) статистической связи, вторая исследует ее форму.

Регрессионный анализ заключается в определении аналитического выражения связи в виде уравнения регрессии.

Регрессией называется зависимость среднего значения случайной величины результативного признака от величины факторного, а уравнением регрессии – уравнение описывающее корреляционную зависимость между результативным признаком и одним или несколькими факторными.

Формулы корреляционно-регрессионного анализа для прямолинейной связи при парной корреляции представлены в таблице 2.

Таблица 2 — Формулы корреляционно-регрессионного анализа для прямолинейной связи при парной корреляции

ПоказательОбозначение и формула
Уравнение прямой при парной корреляцииyx = a +bx, где b — коэффициент регрессии
Система нормальных уравнений способом наименьших квадратов для определения коэффициентов a и b
Линейный коэффициент корреляции для определения тесноты связи,
его интерпретация:
r = 0 – связь отсутствует;
0

2012 © Лана Забродская. При копировании материалов сайта ссылка на источник обязательна


источники:

http://ecson.ru/economics/econometrics/zadacha-1.postroenie-regressii-raschyot-korrelyatsii-oshibki-approximatsii-otsenka-znachimosti-i-prognoz.html

http://www.ekonomika-st.ru/drugie/metodi/metodi-statistika-1-8.html