Метод наименьших квадратов регрессия
Метод наименьших квадратов (МНК) заключается в том, что сумма квадратов отклонений значений y от полученного уравнения регрессии — минимальное. Уравнение линейной регрессии имеет вид
y=ax+b
a, b – коэффициенты линейного уравнения регрессии;
x – независимая переменная;
y – зависимая переменная.
Нахождения коэффициентов уравнения линейной регрессии через метод наименьших квадратов:
частные производные функции приравниваем к нулю
отсюда получаем систему линейных уравнений
Формулы определения коэффициентов уравнения линейной регрессии:
Также запишем уравнение регрессии для квадратной нелинейной функции:
Система линейных уравнений регрессии полинома n-ого порядка:
Формула коэффициента детерминации R 2 :
Формула средней ошибки аппроксимации для уравнения линейной регрессии (оценка качества модели):
Чем меньше ε, тем лучше. Рекомендованный показатель ε
Формула среднеквадратической погрешности:
Для примера, проведём расчет для получения линейного уравнения регрессии аппроксимации функции, заданной в табличном виде:
x | y |
3 | 4 |
4 | 7 |
6 | 11 |
7 | 16 |
9 | 18 |
11 | 22 |
13 | 24 |
15 | 27 |
16 | 30 |
19 | 33 |
Решение
Расчеты значений суммы, произведения x и у приведены в таблицы.
Расчет коэффициентов линейной регрессии:
при этом средняя ошибка аппроксимации равна:
ε=11,168%
Получаем уравнение линейной регрессии с помощью метода наименьших квадратов:
y=1,7871x+0,79
График функции линейной зависимости y=1,7871x+0,79 и табличные значения, в виде точек
Коэффициент корреляции равен 0,988
Коэффициента детерминации равен 0,976
Насколько публикация полезна?
Нажмите на звезду, чтобы оценить!
Средняя оценка 4.4 / 5. Количество оценок: 12
Как найти уравнение регрессии методом наименьших квадратов
При различных значениях а и b можно построить бесконечное число зависимостей вида yx=a+bx т.е на координатной плоскости имеется бесконечное количество прямых, нам же необходима такая зависимость, которая соответствует наблюдаемым значениям наилучшим образом. Таким образом, задача сводится к подбору наилучших коэффициентов.
Линейную функцию a+bx ищем, исходя лишь из некоторого количества имеющихся наблюдений. Для нахождения функции с наилучшим соответствием наблюдаемым значениям используем метод наименьших квадратов.
Обозначим: Yi — значение, вычисленное по уравнению Yi=a+bxi. yi — измеренное значение, εi=yi-Yi — разность между измеренными и вычисленными по уравнению значениям, εi=yi-a-bxi.
В методе наименьших квадратов требуется, чтобы εi, разность между измеренными yi и вычисленными по уравнению значениям Yi, была минимальной. Следовательно, находим коэффициенты а и b так, чтобы сумма квадратов отклонений наблюдаемых значений от значений на прямой линии регрессии оказалась наименьшей:
Исследуя на экстремум эту функцию аргументов а и с помощью производных, можно доказать, что функция принимает минимальное значение, если коэффициенты а и b являются решениями системы:
Если разделить обе части нормальных уравнений на n, то получим:
Учитывая, что (3)
Получим , отсюда , подставляя значение a в первое уравнение, получим:
При этом b называют коэффициентом регрессии; a называют свободным членом уравнения регрессии и вычисляют по формуле:
Полученная прямая является оценкой для теоретической линии регрессии. Имеем:
Итак, является уравнением линейной регрессии.
Регрессия может быть прямой (b>0) и обратной (b 2 =4+0+1+4+16=25
xiyi=-2•0.5+0•1+1•1.5+2•2+4•3=16.5
yi=0.5+1+1.5+2+3=8
и нормальная система (2) имеет вид
Решая эту систему, получим: b=0.425, a=1.175. Поэтому y=1.175+0.425x.
Пример 2. Имеется выборка из 10 наблюдений экономических показателей (X) и (Y).
xi | 180 | 172 | 173 | 169 | 175 | 170 | 179 | 170 | 167 | 174 |
yi | 186 | 180 | 176 | 171 | 182 | 166 | 182 | 172 | 169 | 177 |
Требуется найти выборочное уравнение регрессии Y на X. Построить выборочную линию регрессии Y на X.
Решение. 1. Проведем упорядочивание данных по значениям xi и yi. Получаем новую таблицу:
xi | 167 | 169 | 170 | 170 | 172 | 173 | 174 | 175 | 179 | 180 |
yi | 169 | 171 | 166 | 172 | 180 | 176 | 177 | 182 | 182 | 186 |
Для упрощения вычислений составим расчетную таблицу, в которую занесем необходимые численные значения.
xi | yi | xi 2 | xiyi |
167 | 169 | 27889 | 28223 |
169 | 171 | 28561 | 28899 |
170 | 166 | 28900 | 28220 |
170 | 172 | 28900 | 29240 |
172 | 180 | 29584 | 30960 |
173 | 176 | 29929 | 30448 |
174 | 177 | 30276 | 30798 |
175 | 182 | 30625 | 31850 |
179 | 182 | 32041 | 32578 |
180 | 186 | 32400 | 33480 |
∑xi=1729 | ∑yi=1761 | ∑xi 2 299105 | ∑xiyi=304696 |
x=172.9 | y=176.1 | xi 2 =29910.5 | xy=30469.6 |
Согласно формуле (4), вычисляем коэффициента регрессии
Таким образом, выборочное уравнение регрессии имеет вид y=-59.34+1.3804x.
Нанесем на координатной плоскости точки (xi; yi) и отметим прямую регрессии.
На рис.4 видно, как располагаются наблюдаемые значения относительно линии регрессии. Для численной оценки отклонений yi от Yi, где yi наблюдаемые, а Yi определяемые регрессией значения, составим таблицу:
xi | yi | Yi | Yi-yi |
167 | 169 | 168.055 | -0.945 |
169 | 171 | 170.778 | -0.222 |
170 | 166 | 172.140 | 6.140 |
170 | 172 | 172.140 | 0.140 |
172 | 180 | 174.863 | -5.137 |
173 | 176 | 176.225 | 0.225 |
174 | 177 | 177.587 | 0.587 |
175 | 182 | 178.949 | -3.051 |
179 | 182 | 184.395 | 2.395 |
180 | 186 | 185.757 | -0.243 |
Значения Yi вычислены согласно уравнению регрессии.
Заметное отклонение некоторых наблюдаемых значений от линии регрессии объясняется малым числом наблюдений. При исследовании степени линейной зависимости Y от X число наблюдений учитывается. Сила зависимости определяется величиной коэффициента корреляции.
Решения задач: метод наименьших квадратов
Метод наименьших квадратов применяется для решения различных математических задач и основан на минимизации суммы квадратов отклонений функций от исходных переменных. Мы рассмотриваем его приложение к математической статистике в простейшем случае, когда нужно найти зависимость (парную линейную регрессию) между двумя переменными, заданными выборочными данным. В этом случае речь идет об отклонениях теоретических значений от экспериментальных.
Краткая инструкция по методу наименьших квадратов для чайников: определяем вид предполагаемой зависимости (чаще всего берется линейная регрессия вида $y(x)=ax+b$), выписываем систему уравнений для нахождения параметров $a, b$. По экспериментальным данным проводим вычисления и подставляем значения в систему, решаем систему любым удобным методом (для размерности 2-3 можно и вручную). Получается искомое уравнение.
Иногда дополнительно к нахождению уравнения регрессии требуется: найти остаточную дисперсию, сделать прогноз значений, найти значение коэффициента корреляции, проверить качество аппроксимации и значимость модели. Примеры решений вы найдете ниже. Удачи в изучении!
Примеры решений МНК
Пример 1. Методом наименьших квадратов для данных, представленных в таблице, найти линейную зависимость
Пример 2. Прибыль фирмы за некоторый период деятельности по годам приведена ниже:
Год 1 2 3 4 5
Прибыль 3,9 4,9 3,4 1,4 1,9
1) Составьте линейную зависимость прибыли по годам деятельности фирмы.
2) Определите ожидаемую прибыль для 6-го года деятельности. Сделайте чертеж.
Пример 3. Экспериментальные данные о значениях переменных х и y приведены в таблице:
1 2 4 6 8
3 2 1 0,5 0
В результате их выравнивания получена функция Используя метод наименьших квадратов, аппроксимировать эти данные линейной зависимостью (найти параметры а и b). Выяснить, какая из двух линий лучше (в смысле метода наименьших квадратов) выравнивает экспериментальные данные. Сделать чертеж.
Пример 4. Данные наблюдений над случайной двумерной величиной (Х, Y) представлены в корреляционной таблице. Методом наименьших квадратов найти выборочное уравнение прямой регрессии Y на X.
Пример 5. Считая, что зависимость между переменными x и y имеет вид $y=ax^2+bx+c$, найти оценки параметров a, b и c методом наименьших квадратов по выборке:
x 7 31 61 99 129 178 209
y 13 10 9 10 12 20 26
Пример 6. Проводится анализ взаимосвязи количества населения (X) и количества практикующих врачей (Y) в регионе.
Годы 81 82 83 84 85 86 87 88 89 90
X, млн. чел. 10 10,3 10,4 10,55 10,6 10,7 10,75 10,9 10,9 11
Y, тыс. чел. 12,1 12,6 13 13,8 14,9 16 18 20 21 22
Оцените по МНК коэффициенты линейного уравнения регрессии $y=b_0+b_1x$.
Существенно ли отличаются от нуля найденные коэффициенты?
Проверьте значимость полученного уравнения при $\alpha = 0,01$.
Если количество населения в 1995 году составит 11,5 млн. чел., каково ожидаемое количество врачей? Рассчитайте 99%-й доверительный интервал для данного прогноза.
Рассчитайте коэффициент детерминации
http://testent.ru/publ/studenty/vysshaja_matematika/linejnaja_regressija_ispolzovanie_metoda_naimenshikh_kvadratov_mnk/35-1-0-1149
http://www.matburo.ru/ex_ms.php?p1=msmnk