Уравнение линейной модели множественной регрессии имеет вид

Множественная линейная регрессия. Улучшение модели регрессии

Понятие множественной линейной регрессии

Множественная линейная регрессия — выраженная в виде прямой зависимость среднего значения величины Y от двух или более других величин X 1 , X 2 , . X m . Величину Y принято называть зависимой или результирующей переменной, а величины X 1 , X 2 , . X m — независимыми или объясняющими переменными.

В случае множественной линейной регрессии зависимость результирующей переменной одновременно от нескольких объясняющих переменных описывает уравнение или модель

,

где — коэффициенты функции линейной регрессии генеральной совокупности,

— случайная ошибка.

Функция множественной линейной регрессии для выборки имеет следующий вид:

,

где — коэффициенты модели регрессии выборки,

— ошибка.

Уравнение множественной линейной регрессии и метод наименьших квадратов

Коэффициенты модели множественной линейной регресии, так же, как и для парной линейной регрессии, находят при помощи метода наименьших квадратов.

Разумеется, мы будем изучать построение модели множественной регрессии и её оценивание с использованием программных средств. Но на экзамене часто требуется привести формулы МНК-оценки (то есть оценки по методу наименьших квадратов) коэффициентов уравнения множественной линейной регрессии в скалярном и в матричном видах.

МНК-оценка коэффиентов уравнения множественной регрессии в скалярном виде

Метод наименьших квадратов позволяет найти такие значения коэффициентов, что сумма квадратов отклонений будет минимальной. Для нахождения коэффициентов решается система нормальных уравнений

Решение системы можно получить, например, методом Крамера:

.

Определитель системы записывается так:

МНК-оценка коэффиентов уравнения множественной регрессии в матричном виде

Данные наблюдений и коэффициенты уравнения множественной регрессии можно представить в виде следующих матриц:

Формула коэффициентов множественной линейной регрессии в матричном виде следующая:

,

где — матрица, транспонированная к матрице X,

— матрица, обратная к матрице .

Решая это уравнение, мы получим матрицу-столбец b, элементы которой и есть коэффициенты уравнения множественной линейной регрессии, для нахождения которых и был изобретён метод наименьших квадратов.

Построение наилучшей (наиболее качественной) модели множественной линейной регрессии

Пусть при обработке данных некоторой выборки в пакете программных средств STATISTICA получена первоначальная модель множественной линейной регрессии. Предстоит проанализировать полученную модель и в случае необходимости улучшить её.

Качество модели множественной линейной регрессии оценивается по тем же показателям качества, что и в случае модели парной линейной регрессии: коэффициент детерминации , F-статистика (статистика Фишера), сумма квадратов остатков RSS, стандартная ошибка регрессии (SEE). В случае множественной регрессии следует использовать также скорректированный коэффициент детерминации (adjusted ), который применяется при исключении или добавлении в модель наблюдений или переменных.

Важный показатель качества модели линейной регрессии — проверка на выполнение требований Гаусса-Маркова к остаткам. В качественной модели линейной регрессии выполняются все условия Гаусса-Маркова:

  • условие 1: математическое ожидание остатков равно нулю для всех наблюдений ( ε(e i ) = 0 );
  • условие 2: теоретическая дисперсия остатков постоянна (равна константе) для всех наблюдений ( σ²(e i ) = σ²(e i ), i = 1, . n );
  • условие 3: отсутствие систематической связи между остатками в любых двух наблюдениях;
  • условие 4: отсутствие зависимости между остатками и объясняющими (независимыми) переменными.

В случае выполнения требований Гаусса-Маркова оценка коэффициентов модели, полученная методом наименьших квадратов является

Затем необходимо провести анализ значимости отдельных переменных модели множественной линейной регрессии с помощью критерия Стьюдента.

В случае наличия резко выделяющихся наблюдений (выбросов) нужно последовательно по одному исключить их из модели и проанализировать наличие незначимых переменных в модели и, в случае необходимости исключить их из модели по одному.

В исследованиях поведения человека, как и во многих других, чтобы они претендовали на объективность, важно не только установить зависимость между факторами, но и получить все необходимые статистические показатели для результата проверки соответствующей гипотезы.

Кроме того, требуется на основе тех же данных построить две нелинейные модели регрессии — с квадратами двух наиболее значимых переменных и с логарифмами тех же наиболее значимых переменных. Они также будут сравниваться с линейными моделями, полученных на разных шагах.

Также требуется построить модели с применением пошаговых процедур включения (FORWARD STEPWISE) и исключения (BACKWARD STEPWISE).

Все полученные модели множественной регрессии нужно сравнить и выбрать из них наилучшую (наиболее качественную). Теперь разберём перечисленные выше шаги последовательно и на примере.

Оценка качества модели множественной линейной регрессии в целом

Пример. Задание 1. Получено следующее уравнение множественной линейной регрессии:

и следующие показатели качества описываемой этим уравнением модели:

adj.RSSSEEFp-level
0,4260,2792,8351,6842,8920,008

Сделать вывод о качестве модели в целом.

Ответ. По всем показателям модель некачественная. Значение не стремится к единице, а значение скорректированного ещё более низкое. Значение RSS, напротив, высокое, а p-level — низкое.

Для анализа на выполнение условий Гаусса-Маркова воспользуемся диаграммой рассеивания наблюдений (для увеличения рисунка щёлкнуть по нему левой кнопкой мыши):

Результаты проверки графика показывают: условие равенства нулю математического ожидания остатков выполняется, а условие на постоянство дисперсии — не выполняется. Достаточно невыполнения хотя бы одного условия Гаусса-Маркова, чтобы заключить, что оценка коэффициентов модели линейной регрессии не является несмещённой, эффективной и состоятельной.

Анализ значимости коэффициентов модели множественной линейной регрессии

С помощью критерия Стьюдента проверяется гипотеза о том, что соответствующий коэффициент незначимо отличается от нуля, и соответственно, переменная при этом коэффициенте имеет незначимое влияние на зависимую переменную. В свою очередь, в колонке p-level выводится вероятность того, что основная гипотеза будет принята. Если значение p-level больше уровня значимости α, то основная гипотеза принимается, иначе – отвергается. В нашем примере установлен уровень значимости α=0,05.

Пример. Задание 2. Получены следующие значения критерия Стьюдента (t) и p-level, соответствующие переменным уравнения множественной линейной регрессии:

Перем.Знач. коэф.tp-level
X10,1292,3860,022
X2-0,286-2,4390,019
X3-0,037-0,2380,813
X40,151,9280,061
X50,3280,5480,587
X6-0,391-0,5030,618
X7-0,673-0,8980,375
X8-0,006-0,070,944
X9-1,937-2,7940,008
X10-1,233-1,8630,07

Сделать вывод о значимости коэффициентов модели.

Ответ. В построенной модели присутствуют коэффициенты, которые незначимо отличаются от нуля. В целом же у переменной X8 коэффициент самый близкий к нулю, а у переменной X9 — самое высокое значение коэффициента. Коэффициенты модели линейной регрессии можно ранжировать по мере убывания незначимости с возрастанием значения t-критерия Стьюдента.

Исключение резко выделяющихся наблюдений

Пример. Задание 3. Выявлены несколько резко выделяющихся наблюдений (выбросов, то есть наблюдений с нетипичными значениями): 10, 3, 4 (соответствуют строкам исходной таблицы данных). Эти наблюдения следует последовательно исключить из модели и по мере исключения заполнить таблицу с показателями качества модели. Исключили наблюдение 10 — заполнили значение показателей, далее исключили наблюдение 3 — заполнили и так далее. По мере исключения STATISTICA будет выдавать переменные, которые остаются значимыми в модели множественной линейной регрессии — они будут выделены красном цветом. Те, что не будут выделены красным цветом — незначимые переменные и их также нужно внести в соответствующую ячейку таблицы. По завершении исключения выбросов записать уравнение конечной множественной линейной регрессии.

adj.SEEFp- levelнезнач. пер.
100,4112,552,6550,015X3, X4, X5, X6, X7, X8, X10
30,212,582,2490,036X3, X4, X5, X6, X7, X8, X10
40,162,611,8780,082X3, X4, X5, X6, X7, X8, X10

Уравнение конечной множественной линейной регрессии:

Случается однако, когда после исключения некоторого наблюдения исключение последующих наблюдений приводит к ухудшению показателей качества модели. Причина в том, что с исключением слишком большого числа наблюдений выборка теряет информативность. Поэтому в таких случаях следует вовремя остановиться.

Исключение незначимых переменных из модели

Пример. Задание 4. По мере исключения из модели множественной линейной регрессии переменных с незначимыми коэффициентами (получены при выполнении предыдущего задания, занесены в последнюю колонку таблицы) заполнить таблицу с показателями качества модели. Последняя колонка, обозначенная звёздочкой — список переменных, имеющих значимое влияние на зависимую переменную. Эти переменные STATISTICA будет выдавать выделенными красным цветом. По завершении исключения незначимых переменных записать уравнение конечной множественной линейной регрессии.

Искл. пер.adj.SEEFp- level*
X30,181,712,1190,053X4, X5, X6, X7, X8, X10
X40,1451,7451,9740,077X5, X6, X7, X8, X10
X50,1632,3682,2820,048X6, X7, X8, X10
X60,1712,3552,5860,033X7, X8, X10
X70,1672,2232,8420,027X8, X10
X80,1841,7053,5990,013X10

Когда осталась одна переменная, имеющая значимое влияние на зависимую переменную, больше не исключаем переменные, иначе получится, что в модели все переменные незначимы.

Уравнение конечной множественной линейной регрессии после исключения незначимых переменных:

Переменные X1 и X2 в задании 3 не вошли в список незначимых переменных, поэтому они вошли в уравнение конечной множественной линейной регрессии «автоматически».

Нелинейные модели для сравнения

Пример. Задание 5. Построить две нелинейные модели регрессии — с квадратами двух наиболее значимых переменных и с логарифмами тех же наиболее значимых переменных.

Так как в наблюдениях переменных X9 и X10 имеется 0, а натуральный логарифм от 0 вычислить невозможно, то берутся следующие по значимости переменные: X1 и X2.

Полученное уравнение нелинейной регрессии с квадратами двух наиболее значимых переменных:

Показатели качества первой модели нелинейной регрессии:

adj.RSSSEEFp-level
0,170,134159,91,8454,80,0127

Вывод: модель некачественная, так как RSS и SEE принимают высокие значения, p-level стремится к нулю, коэффициент детерминации незначимо отличается от нуля.

Полученное уравнение нелинейной регрессии с логарифмами двух наиболее значимых переменных:

Показатели качества второй модели нелинейной регрессии:

adj.RSSSEEFp-level
0,1820,148157,4311,835,2450

Вывод: модель некачественная, так как RSS и SEE принимают высокие значения, p-level стремится к нулю, коэффициент детерминации незначимо отличается от нуля.

Применение пошаговых алгоритмов включения и исключения переменных

Пример. Задание 6. Настроить пакет STATISTICA для применения пошаговых процедур включения (FORWARD STEPWISE) и исключения (BACKWARD STEPWISE). Для этого в диалоговом окне MULTIPLE REGRESSION указать Advanced Options (stepwise or ridge regression). В поле Method выбрать либо Forward Stepwise (алгоритм пошагового включения), либо Backward Stepwise (алгоритм пошагового исключения). Необходимо настроить следующие параметры:

  • в окне Tolerance необходимо установить критическое значение для уровня толерантности (оставить предложенное по умолчанию);
  • в окне F-remove необходимо установить критическое значение для статистики исключения (оставить предложенное по умолчанию);
  • в окне Display Results необходимо установить режим At each step (результаты выводятся на каждом шаге процедуры).

Построить, как описано выше, модели множественной линейной регрессии автоматически.

В результате применения пошагового алгоритма включения получено следующее уравнение множественной линейной регрессии:

Показатели качества модели нелинейной регрессии, полученной с применением пошаговой процедуры включения:

adj.RSSSEEFp-level
0,410,343113,671,616,110,002

В результате применения пошагового алгоритма исключения получено следующее уравнение множественной линейной регрессии:

Показатели качества модели нелинейной регрессии, полученной с применением пошаговой процедуры исключения:

adj.RSSSEEFp-level
0,220,186150,281,796,610

Выбор самой качественной модели множественной линейной регрессии

Пример. Задание 7. Сравнить модели, полученные на предыдущих шагах и определить самую качественную.

МодельРучнаяКв. перем.Лог. перем.forward stepwisebackward stepwise
0,2550,170,1820,410,22
adj.0,1840,1340,1480,3430,186
RSS122,01159,9157,43113,67150,28
SEE1,7051,8451,831,611,79
F3,5994,85,2456,116,61
p-level0,0130,012700,0020

Самая качественная модель множественной линейной регрессии — модель, построенная методом FORWARD STEPWISE (пошаговое включение переменных), так как коэффициент детерминации у неё самый высокий, а RSS и SEE наименьшие в сравнении значений оценок качества других регрессионных моделей.

Множественная линейная регрессия (MLR)

Опубликовано 29.06.2021 · Обновлено 16.12.2021

Что такое Множественная линейная регрессия (MLR)?

Множественная линейная регрессия (MLR), также известная просто как множественная регрессия, – это статистический метод, который использует несколько независимых переменных для прогнозирования результата переменной ответа. Цель множественной линейной регрессии (MLR) – смоделировать линейную связь между независимыми (независимыми) переменными и ответной (зависимой) переменной.

По сути, множественная регрессия – это расширение обычной регрессии методом наименьших квадратов (МНК), которая включает более одной независимой переменной.

Формула и расчет множественной линейной регрессии

где для i=n наблюдений:
yi=зависимая переменная
xi=объясняющие переменные
β0=y-интерцепт (постоянный член)
βp=коэффициенты наклона для каждой объясняющей переменной
ϵ=член ошибки модели (также известный как остатки)

Основные выводы

  • Множественная линейная регрессия (МЛР), также известная как множественная регрессия, – это статистический метод, который использует несколько объясняющих переменных для прогнозирования результата переменной ответа.
  • Множественная регрессия является расширением линейной (OLS) регрессии, в которой используется только одна объясняющая переменная.
  • MLR широко используется в эконометрике и финансовом анализе.
    О чем может рассказать множественная линейная регрессия (MLR)

Простая линейная регрессия – это функция, которая позволяет аналитику или статистику делать прогнозы относительно одной переменной на основе информации, которая известна о другой переменной. Линейная регрессия может быть использована только при наличии двух непрерывных переменных – независимой переменной и зависимой переменной. Независимая переменная – это параметр, который используется для расчета зависимой переменной или результата. Модель множественной регрессии распространяется на несколько объясняющих переменных.

Модель множественной регрессии основана на следующих предположениях:

Между зависимыми переменными и независимыми переменными существует линейная связь.
Независимые переменные не слишком сильно коррелируют друг с другом.
Наблюдения yi выбираются независимо и случайно из популяции.
Остатки должны быть нормально распределены со средним значением 0 и дисперсией σ.

Коэффициент детерминации (R-квадрат) – это статистическая метрика, которая используется для измерения того, насколько вариация результата может быть объяснена вариацией независимых переменных. R2 всегда увеличивается по мере добавления большего количества предикторов в модель MLR, даже если эти предикторы могут быть не связаны с переменной исхода.

Таким образом, R2 сам по себе не может быть использован для определения того, какие предикторы следует включить в модель, а какие исключить. R2 может быть только между 0 и 1, где 0 означает, что результат не может быть предсказан ни одной из независимых переменных, а 1 означает, что результат может быть безошибочно предсказан по независимым переменным.1

При интерпретации результатов множественной регрессии бета-коэффициенты действительны при постоянстве всех остальных переменных (“при прочих равных”). Результаты множественной регрессии могут быть представлены горизонтально в виде уравнения или вертикально в виде таблицы.2

Пример использования множественной линейной регрессии (MLR)

Например, аналитик может захотеть узнать, как движение рынка влияет на цену ExxonMobil (XOM). В этом случае линейное уравнение будет содержать значение индекса S&P 500 в качестве независимой переменной, или предиктора, и цену XOM в качестве зависимой переменной.

В действительности существует множество факторов, которые предсказывают исход события. Например, движение цены ExxonMobil зависит не только от общих показателей рынка. Другие факторы, такие как цена на нефть, процентные ставки и движение цен на нефтяные фьючерсы, могут влиять на цену XOM и цены акций других нефтяных компаний. Чтобы понять взаимосвязь, в которой присутствует более двух переменных, используется множественная линейная регрессия.

Множественная линейная регрессия (MLR) используется для определения математической взаимосвязи между рядом случайных переменных. Другими словами, MLR изучает, как несколько независимых переменных связаны с одной зависимой переменной. После определения того, что каждый из независимых факторов предсказывает зависимую переменную, информация о нескольких переменных может быть использована для создания точного прогноза об уровне их влияния на итоговую переменную. Модель создает зависимость в виде прямой (линейной) линии, которая наилучшим образом аппроксимирует все отдельные точки данных.3

Обращаясь к уравнению MLR, приведенному выше, в нашем примере:

yi = зависимая переменная – цена XOM
xi1 = процентные ставки
xi2 = цена на нефть
xi3 = значение индекса S&P 500
xi4 = цена нефтяных фьючерсов
B0 = y-интерцепт в нулевой момент времени
B1 = коэффициент регрессии, измеряющий изменение зависимой переменной на единицу при изменении xi1 – изменение цены XOM при изменении процентных ставок
B2 = коэффициент, измеряющий изменение зависимой переменной на единицу при изменении xi2 – изменение цены XOM при изменении цен на нефть

Оценки по методу наименьших квадратов, B0, B1, B2…Bp, обычно рассчитываются с помощью статистического программного обеспечения. В регрессионную модель можно включить любое количество переменных, в которой каждая независимая переменная обозначается номером – 1,2, 3, 4…p. Модель множественной регрессии позволяет аналитику предсказать результат на основе информации, полученной от нескольких объясняющих переменных.

Тем не менее, модель не всегда идеально точна, поскольку каждая точка данных может незначительно отличаться от результата, предсказанного моделью. Остаточное значение E, которое представляет собой разницу между фактическим и прогнозируемым результатом, включается в модель для учета таких незначительных изменений.

Предположим, что мы запустили нашу регрессионную модель цены XOM через программу статистических вычислений, которая выдает такой результат:

Аналитик интерпретирует этот результат так: если другие переменные остаются неизменными, то цена XOM увеличится на 7,8%, если цена на нефть на рынках вырастет на 1%. Модель также показывает, что цена XOM снизится на 1,5% после повышения процентных ставок на 1%. R2 показывает, что 86,5% изменений в цене акций Exxon Mobil можно объяснить изменениями в процентной ставке, цене на нефть, нефтяных фьючерсах и индексе S&P 500.

Разница между линейной и множественной регрессией

Обычная линейная квадратичная регрессия (OLS) сравнивает реакцию зависимой переменной на изменение некоторых объясняющих переменных. Однако редко бывает так, что зависимая переменная объясняется только одной переменной. В этом случае аналитик использует множественную регрессию, которая пытается объяснить зависимую переменную с помощью более чем одной независимой переменной. Множественная регрессия может быть линейной и нелинейной.

Множественная регрессия основана на предположении, что между зависимой и независимой переменными существует линейная связь. Также предполагается отсутствие значительной корреляции между независимыми переменными.

Уравнение множественной линейной регрессии

Вы будете перенаправлены на Автор24

Линейная регрессия – это модель, применяемая в статистике для отслеживания зависимости изменения одной переменной от изменения другой переменной или их группы.

Место статистики в экономике

Статистика – это научная дисциплина, которое осуществляет изучение больших массивов данных, исследует количественную сторону массовых явлений в обществе.

Использование инструментов статистического анализа широко применяется в теоретической и практической экономике. Статистические данные наиболее точно способны описать процессы и явления в хозяйственной структуре страны с учетом динамики их изменения и воздействия внешних и внутренних факторов. Информация, полученная с помощью статистических вычислений, широко применяется для принятия управленческих решений и осуществления процесса экономического регулирования на государственном уровне.

Главным предметом изучения статистики являются массовые явления в обществе, оцениваемые с качественной стороны. Для исследования подобных явлений статистика пользуется следующими инструментами:

  1. Статистической совокупностью, описывающей исследуемое множество объектов. По своей структуре она может быть однородной и неоднородной.
  2. Статистическим признаком, определяющим характеристики объектов. Признаки могут быть дискретными, непрерывными, атрибутивными, альтернативными.
  3. Статистическими показателями, дающими количественную оценку исследуемым явлениям.

Экономическая статистика призвана решать определенный набор задач. Прежде всего, она обеспечивает сбор и предоставление информации государственным органам управления. С ее помощью принимаются решения, влияющие на рост экономических показателей и экономическое развитие страны в целом. Экономическая статистика позволяет оценить результативность принятых управленческих решений.

Линейная регрессия

Экономическая среда характеризуется своей многофакторностью. Достаточно часто возникает потребность в оценке изменения поведения объекта под влиянием множества факторов. Для этого случая пользуются методом линейной регрессии.

Готовые работы на аналогичную тему

Линейная регрессия – это модель, которую применяют в статистике для отслеживания зависимости изменения одной переменной от другой или группы других переменных. Эта модель достаточно часто применяется в эконометрике. Она является наиболее изученной с точки зрения возникновения ошибок, а также вероятности воздействия различных факторов. Оценки нелинейных регрессий так же производятся на основе линейных. Более важное значение при линейности играют параметры, а не факторы модели.

Регрессионная модель включает в себя параметры самой модели, вероятную ошибку, количество влияющих факторов. Коэффициенты функции показывают влияние изменения одной переменной или совокупности переменных на исследуемую величину под влиянием одного фактора и неизменности других факторов.

Линейная регрессия может содержать константы, либо рассматриваться без них. В этом случае фактор влияния приравнивается к единице, либо рассматривается в качестве обычного фактора. В классическом виде линейная регрессия предполагает дисперсия постоянна или одинакова, а автокорреляция ошибок полностью отсутствует. Под автокорреляцией понимается взаимосвязь некоторого количества статистических величин от них же со сдвигом на один шаг.

Уравнение множественной линейной регрессии

Уравнение множественной линейной регрессии применяется в случае, если необходимо проанализировать две и более независимых переменных. Ее уравнение имеет следующий вид:

$Y = b_0 + b_1 x_1 + b_2 x _2 + ⋯ + b_n x_n$

Вычисление $b_n$ осуществляется с помощью метода наименьших квадратов, который предполагает экспериментальный подход при вычислении параметров моделей, содержащих случайные ошибки. В отличие от простой линейной регрессии, множественная использует гиперплоскость. Из-за того, что в модели множественной регрессии используется несколько входных величин, увеличивается диапазон объясненной дисперсии. То есть, устойчивость модели растет при добавлении новых параметров для исследования.

Однако, множественная линейная регрессия имеет ряд проблем:

  1. Вероятность возникновения мультиколлениарности, которая повышает диапазон ошибок, даже при небольших изменениях входных данных.
  2. Важно правильно подобрать анализируемое множество, в противном случае, будет достаточно сложно объяснить дисперсию зависимой.

Уравнение множественной линейной регрессии может использоваться для выражения зависимости между достаточно сложными показателями. Это возможно потому, что даже сложные зависимости можно приблизить к линейным.


источники:

http://nesrakonk.ru/mlr/

http://spravochnick.ru/ekonometrika/uravnenie_mnozhestvennoy_lineynoy_regressii/