Метод наименьших квадратов регрессия
Метод наименьших квадратов (МНК) заключается в том, что сумма квадратов отклонений значений y от полученного уравнения регрессии — минимальное. Уравнение линейной регрессии имеет вид
y=ax+b
a, b – коэффициенты линейного уравнения регрессии;
x – независимая переменная;
y – зависимая переменная.
Нахождения коэффициентов уравнения линейной регрессии через метод наименьших квадратов:
частные производные функции приравниваем к нулю
отсюда получаем систему линейных уравнений
Формулы определения коэффициентов уравнения линейной регрессии:
Также запишем уравнение регрессии для квадратной нелинейной функции:
Система линейных уравнений регрессии полинома n-ого порядка:
Формула коэффициента детерминации R 2 :
Формула средней ошибки аппроксимации для уравнения линейной регрессии (оценка качества модели):
Чем меньше ε, тем лучше. Рекомендованный показатель ε
Формула среднеквадратической погрешности:
Для примера, проведём расчет для получения линейного уравнения регрессии аппроксимации функции, заданной в табличном виде:
x | y |
3 | 4 |
4 | 7 |
6 | 11 |
7 | 16 |
9 | 18 |
11 | 22 |
13 | 24 |
15 | 27 |
16 | 30 |
19 | 33 |
Решение
Расчеты значений суммы, произведения x и у приведены в таблицы.
Расчет коэффициентов линейной регрессии:
при этом средняя ошибка аппроксимации равна:
ε=11,168%
Получаем уравнение линейной регрессии с помощью метода наименьших квадратов:
y=1,7871x+0,79
График функции линейной зависимости y=1,7871x+0,79 и табличные значения, в виде точек
Коэффициент корреляции равен 0,988
Коэффициента детерминации равен 0,976
МНК и регрессионный анализ Онлайн + графики
Данный онлайн-сервис позволяет найти с помощью метода наименьших квадратов уравнения линейной, квадратичной, гиперболической, степенной, логарифмической, показательной, экспоненциальной регрессии и др., коэффициенты и индексы корреляции и детерминации. Показываются диаграмма рассеяние и график уравнения регрессии. Также калькулятор делает оценку значимости параметров уравнения регрессии с помощью F-критерия Фишера, t-критерия Стьюдента и критерия Дарбина-Уотсона.
Можно задать уровень значимости и указать, до какого знака после запятой округлять расчётные величины.
Примечание: дробные числа записывайте через точку, а не запятую.
Степенная регрессия
Квадратичная регрессия
Кубическая регрессия
Показательная регрессия
Логарифмическая регрессия
Экспоненциальная регрессия
Округлять до
-го
знака после запятой.
Расчет параметров уравнения регрессии. Метод наименьших квадратов
Простейшим видом уравнения регрессии является парная линейная зависимость.
где y – зависимая переменная (признак-результат),
x – независимая переменная (признак-фактор).
В качестве уравнения регрессии могут быть выбраны различные математические функции: чаще всего исследуется линейная зависимость, парабола, гипербола, степная функция. Но исследование начинается с линейной зависимости, так как результаты поддаются содержательной интерпретации.
При нанесении на поле корреляции точек, координаты которых соответствуют значениям зависимых и независимых переменных выявляется тенденция связи между ними.
Смысл построения уравнения регрессии состоит в описании тенденции зависимости признака-результата от признака-фактора.
Если линия регрессии проходит через все точки поля корреляции, то эта функциональная связь. Так как всегда присутствует ошибка, поэтому нет функциональной связи.
Наличие ошибки связано с тем что:
§ не все факторы, влияющие на результат, учитываются в уравнении регрессии;
§ может быть неправильно выбрано уравнение регрессии или форма связи.
Уравнение регрессии описывает изменения условного среднего значения признака-результата под влиянием конкретных значений признака-фактора, то есть это аналитическая форма тенденции зависимости между изучаемыми признаками. Уравнение регрессии строится на основе фактических значений признаков, и для его использования нужно рассчитать параметры уравнения а и b. Определение значений параметров, как правило, выполняется с использованием методов наименьших квадратов (МНК).
Суть метода состоит в том, что удается минимизировать сумму квадратов отклонений фактических значений признака-результата от теоретических, рассчитанных на основе уравнения регрессии, что оценивает степень аппроксимации поля корреляции уравнением регрессии.
Задача состоит в решении задачи на экстремум, то есть найти при каких значениях параметров а и в функции S достигает минимума.
Проводя дифференцирование, приравниваем частные производные к нулю и , получаем систему уравнений. Решая ее, находим значения параметров а и в.
Параметр в в уравнении регрессии называется коэффициентом регрессии и характеризует на сколько единиц своего измерения изменится признак-результат при изменении признака-фактора на единицу своего измерения. Знак при коэффициенте регрессии характеризует направленность зависимости (прямая или обратная). Параметр а в уравнении регрессии содержательно не интерпретируется, а характеризует лишь расположение линии на графике.
Данное уравнение показывает тенденцию зависимости заработной платы (у) от прожиточного минимума (х). Коэффициент в (в данном случае равный 0,92) характеризует следующее: при увеличении на 1 рубль потребительской корзины заработная плата возрастает на 92 копейки
Множественная регрессия.
Уравнение множественной регрессии – аналитическая форма зависимости признака-результата от двух или более признаков-факторов.
в — коэффициент регрессии
В уравнении множественной регрессии их называют условно чистыми коэффициентами. Их можно назвать чистыми коэффициентами, если бы в уравнении регрессии удалось включить все факторы определяющие результат..
Это невозможно пор нескольким причинам:
§ Ограниченный объем совокупности (число факторов должно 5-6 раз, идеально в 10 раз, меньше объема совокупности).
§ Не по всем факторам имеются данные.
§ Не все факторы имеют количественную оценку.
§ Не знаем о факторах, которые реально влияют на результат.
Интерпретация коэффициентов множественной регрессии аналогична интерпретации коэффициентов парной регрессии.
Коэффициент регрессии во множественном уравнении регрессии не равен коэффициенту регрессии в парном уравнении регрессии (при оценке влияния одного итого же фактора), так как в уравнении множественной регрессии величина коэффициента рассчитывается в условиях элиминирования влияния ряда факторов, включенных в уравнение.
39. Факторный анализ: этапы, идея МГК.
Совокупность методов, которые на основе объективно существующих корреляционных взаимосвязей признаков (или объектов) позволяют выявлять скрытые обобщающие характеристики структуры изучаемых объектов и их свойств.
Цели Факторного анализа
1)сокращение числа переменных (data reduction)
2) определение структуры взаимосвязей между переменными (classify data)
1 этап: Построение матрицы попарных корреляций
2 этап : Выделение факторов -Метод главных компонент (МГК)
3 этап: Вращение матрицы факторных нагрузок
Варимакс (Varimax) – для столбцов – минимизируется число переменных
Квартимакс (Quartimax) – для строк – минимизирует число факторов
Эквамакс (Equamax) – комбинация методов Варимакс и Квартимакс
http://mathhelpplanet.com/static.php?p=onlayn-mnk-i-regressionniy-analiz
http://allrefrs.ru/1-15318.html