Уравнения множественной регрессии понятия и классификация

Понятие множественной регрессии

Множественной регрессией называют уравнение связи с несколькими не-зависимыми переменными:

ŷ = f (x1,x2. xp).(3.1)
Переменная у называется зависимой, объясняемой или результативным

признаком.х12, …,хp независимые, объясняющие переменные или фак-торные признаки (факторы).

Соответствующая регрессионная модель имеет вид

y = f (x1,x2. xp) +ε,(3.2)

где ε ошибка модели, являющаяся случайной величиной.

Множественная регрессия применяется в ситуациях, когда из множества факторов, влияющих на результативный признак, нельзя выделить один доми-нирующий фактор и необходимо учитывать влияние нескольких факторов. На-пример, объем выпуска продукции определяется величиной основных и обо-ротных средств, численностью персонала, уровнем менеджмента и т. д., уро-вень спроса зависит не только от цены, но и от имеющихся у населения денеж-ных средств.

Основная цель множественной регрессии – построить модель с нескольки-ми факторами и определить при этом влияние каждого фактора в отдельности, а также их совместное воздействие на изучаемый показатель.

Постановка задачи множественной регрессии: по имеющимся данным n наблюдений (табл. 3.1) за совместным изменением p+1 параметра yиxj и ((yi,

xj,i); j=1, 2, . p; i=1, 2, . n)необходимо определить аналитическую зависи-мость ŷ= f(x1,x2. xp), наилучшим образом описывающую данные наблюдений.

yx1x2xp
y1x11x21xp1
y2x12x22xp2
nynx1nx2nxpn

Каждая строка таблицы содержит p+1 число и представляет собой резуль-тат одного наблюдения. Наблюдения различаются условиями их проведения.

Вопрос о том, какую зависимость следует считать наилучшей, решается на основе какого-либо критерия. В качестве такого критерия обычно используется минимум суммы квадратов отклонений расчетных или модельных значений ре-зультативного показателя ŷi=f(x1i,x2i. xpi) от наблюдаемых значений yi

Как и в случае парной регрессии, построение уравнения множественной регрессии предполагает решение двух задач (или, другими словами, осуществ-ляется в два этапа):

1) спецификация модели;

2) оценка параметров выбранной модели.

В свою очередь, спецификация модели включает в себя решение двух задач:

– отборpфакторовxj, подлежащих включению в модель;

Отбор факторов при построении множественной регрессии

Требования к факторам

Процесс отбора факторов в достаточно сложных ситуациях является ите-рационной процедурой, предполагающей, в частности, построение уравнений регрессии, и включает два этапа. Первоначально отбор факторов осуществляет-ся на основе качественных соображений, исходя из представлений о природе взаимосвязи моделируемого показателя с другими экономическими показате-лями. На следующем этапе отобранные факторы подвергаются проверке на ста-тистическую значимость. Окончательное решение о включении фактора в мо-дель основывается на количественной оценке степени влияния фактора на изу-чаемый показатель.

К факторам, включаемым в модель, предъявляются следующие требования:

1. Факторы не должны быть взаимно коррелированы и, тем более, нахо-диться в точной функциональной связи. Наличие высокой степени коррелиро-ванности между факторами может привести к неустойчивости и ненадежности оценок коэффициентов регрессии, а также к невозможности выделить изоли-рованное влияние факторов на результативный показатель.

2. Включение фактора в модель должно приводить к существенному уве-личению доли объясненной части в общей вариации зависимой переменной. Так как данная величина характеризуется таким показателем, как коэффициент детерминации R 2 , включение фактора в модель должно приводить к заметному изменению последнего. Формальная проверка существенности вклада фактора

в модель выполняется с помощью оценки значимости соответствующего част-ного коэффициента корреляции либо значимости коэффициента в уравнении регрессии.

Если необходимо учесть влияние качественного фактора (не имеющего количественной оценки), то в модель включается соответствующая ему «фик-тивная» переменная, имеющая конечное количество формально численных зна-чений, соответствующих градациям качественного фактора. Например, если нужно учесть влияние уровня образования (на размер заработной платы), то в уравнение регрессии можно включить переменную z, принимающую значения

z = 0 при начальном образовании, 1 при среднем, 2 при высшем.

Если для какого-либо показателя, который представляется важным для данного исследования, отсутствуют исходные данные, либо сам показатель четко не определен, то может быть полезно включить в модель некоторый ее «заменитель». Например, в качестве показателя качества образования можноиспользовать число преподавателей или расходы на одного студента. Такой подход основан на том факте, что неучет существенного показателя приводит к

смещенным оценкам параметров. Например, производственная функция Кобба-Дугласа, построенная по данным экономики США за период 1949 1978 гг., по-строенная с учетом времени в качестве замещающей переменной для показате-ля технического прогресса имеет вид [4]

logŶ = 1,03 + 0,17 logK + 0,93 logL + 0,024t , (2,33) (0,66) (0,17) 0,016)

а без учета имеет вид

logŶ = 4,50+ 1,19 logK + 0,77 logL, (0,57) (0,10) (0,15)

где Y индекс объема выпуска частного сектора; K – индекс затрат капитала;L индекс затрат труда; t – время, равное единице в 1948 г. и т. д. Без учета за-мещающей переменной коэффициент при logK неправдоподобно велик.

При отборе факторов в модель следует, по возможности, стремиться к ми-нимизации количества факторов, так как неоправданное их увеличение приво-дит к затруднениям в интерпретации модели и снижению достоверности ре-зультатов.

Мультиколлинеарность

Под мультиколлинеарностью понимается высокая взаимная коррелиро-ванность объясняющих переменных. Следствием мультиколлинеарности явля-ется линейная зависимость между столбцами наблюдений xij в таблице 3.1 или между столбцами матрицы X(3.11). В результате, матрица X′X становится пло-хо обусловленной, что приводит к неустойчивости оценок коэффициентов рег-рессии, когда незначительные изменения данных наблюдений приводят к зна-чительным изменениям оценок.

Проверка наличия мультиколлинеарности основывается на анализе матри-цы парных корреляций между факторами

r x x r x x
r x2 x1 r x2 x2
R
.
.
r x p x1 r x p x2

. r x xp
. r x xrxx1
. .
.
. r x p x1
r x p x p

r x x. r x xp
. r x x
(3.3)
.. .
r x p x2.

Коэффициенты парной корреляции rxixj между объясняющими переменны-

ми используются для выявления дублирующих факторов. Линейная зависи-мость между объясняющими переменными xi и xj считается установленной, ес-ли выполняется условие rxixj0,8 , а сами факторы называются явно коллине-

арными (эмпирическое правило). Один из факторов должен быть исключен из модели. Предпочтение при этом отдается тому фактору, который при доста-точно тесной связи с результатом имеет наименьшую тесноту связи с другими факторами.

Наряду с парной коллинеарностью может иметь место линейная зависи-мость между боле, чем двумя переменными. Для оценки мультиколлинеарности факторов в этом случае может использоваться величину определителя Det R

матрицы парных коэффициентов корреляции rxixj между факторами либо ее

минимального собственного значения.

Чем ближе к нулю определитель (минимальное собственное значение) матрицы межфакторной корреляции, тем сильнее мультиколлинеарность между факторами и тем ненадежнее результаты множественной регрессии.

Для оценки статистической значимости мультиколлинеарности факторов

n 11
может быть использован тот факт, что величина(2m 5) lg DetRимеет
приближенное распределение 2с df 1 p( p 1)степенями свободы.
т. е.DetR
Выдвигается гипотеза H0 о независимости переменных,1.
Еслифактическое значениеχ 2превосходиттабличное(критическое)
отклоняется и мультиколлинеарность счита-
факттабл(df,a) , то гипотезаН0

Для выявления мультиколлинеарности факторов можно использовать ко-

эффициенты множественной детерминации R 2|xx. x; R 2|x x. x… , полученные
xpxp
1 3

по уравнениям регрессии, в которых качестве зависимой переменной рассмат-ривается один из факторов. Чем ближе значение коэффициента детерминации к единице, тем сильнее проявляется мультиколлинеарность факторов. Согласно эмпирическому правилу, при значении коэффициента множественной детерми-

ной. Оставляя в уравнении регрессии факторы с минимальной величиной ко-эффициента множественной детерминации, можно исключить мультиколлине-арность факторов.

Для преодоления явления линейной зависимости между факторами ис-пользуются такие способы, как:

исключение одного из коррелирующих факторов; переход с помощью линейного преобразования к новым некоррелирую-

щим независимым переменным. Например, переход к главным компонентам вектора исходных объясняющих переменных (что позволяет также уменьшить количество рассматриваемых факторов), переход к последовательным разно-

переход к смещенным оценкам, имеющим меньшую дисперсию. В част-ности, при использовании «ридж-регрессии» применяются смещенные оценки

(п. 3.4), гдеτнекоторое положи-
вектора параметров bτ(X X Ep1)X Y

тельной число,Ep+1 единичная матрица порядка p+1. Такое преобразование увеличивает определитель матрицы системы нормальных уравнений и повыша-ет устойчивость результатов (снижает дисперсию оценок, которые становятся смещенными).

Другие аспекты вопроса отбора факторов рассмотрены в п. 1.5.

Следует также учитывать ограничение, накладываемое на количество фак-торов, имеющимся числом наблюдений. Количество наблюдений должно пре-вышать количество факторов более чем в 6-7 раз.

Уравнения множественной регрессии понятия и классификация

Вид множественной линейной модели регрессионного анализа: Y = b0 + b1xi1 + . + bjxij + . + bkxik + ei где ei — случайные ошибки наблюдения, независимые между собой, имеют нулевую среднюю и дисперсию s.

Назначение множественной регрессии : анализ связи между несколькими независимыми переменными и зависимой переменной.

Экономический смысл параметров множественной регрессии
Коэффициент множественной регрессии bj показывает, на какую величину в среднем изменится результативный признак Y, если переменную Xj увеличить на единицу измерения, т. е. является нормативным коэффициентом.

Матричная запись множественной линейной модели регрессионного анализа: Y = Xb + e где Y — случайный вектор — столбец размерности (n x 1) наблюдаемых значений результативного признака (y1, y2. yn);
X — матрица размерности [n x (k+1)] наблюдаемых значений аргументов;
b — вектор — столбец размерности [(k+1) x 1] неизвестных, подлежащих оценке параметров (коэффициентов регрессии) модели;
e — случайный вектор — столбец размерности (n x 1) ошибок наблюдений (остатков).

На практике рекомендуется, чтобы n превышало k не менее, чем в три раза.

Задачи регрессионного анализа
Основная задача регрессионного анализа заключается в нахождении по выборке объемом n оценки неизвестных коэффициентов регрессии b0, b1. bk. Задачи регрессионного анализа состоят в том, чтобы по имеющимся статистическим данным для переменных Xi и Y:

  • получить наилучшие оценки неизвестных параметров b0, b1. bk;
  • проверить статистические гипотезы о параметрах модели;
  • проверить, достаточно ли хорошо модель согласуется со статистическими данными (адекватность модели данным наблюдений).

Построение моделей множественной регрессии состоит из следующих этапов:

  1. выбор формы связи (уравнения регрессии);
  2. определение параметров выбранного уравнения;
  3. анализ качества уравнения и поверка адекватности уравнения эмпирическим данным, совершенствование уравнения.

Множественная регрессия:

  • Множественная регрессия с одной переменной
  • Множественная регрессия с двумя переменными
  • Множественная регрессия с тремя переменными

Пример решения нахождения модели множественной регрессии

Модель множественной регрессии вида Y = b 0 +b 1 X 1 + b 2 X 2 ;
1) Найтинеизвестные b 0 , b 1 ,b 2 можно, решим систему трехлинейных уравнений с тремя неизвестными b 0 ,b 1 ,b 2 :

Для решения системы можете воспользоваться решение системы методом Крамера
2) Или использовав формулы

Для этого строим таблицу вида:

Yx 1x 2(y-y ср ) 2(x 1 -x 1ср ) 2(x 2 -x 2ср ) 2(y-y ср )(x 1 -x 1ср )(y-y ср )(x 2 -x 2ср )(x 1 -x 1ср )(x 2 -x 2ср )

Выборочные дисперсии эмпирических коэффициентов множественной регрессии можно определить следующим образом:

Здесь z’ jj — j-тый диагональный элемент матрицы Z -1 =(X T X) -1 .

Приэтом:

где m — количество объясняющихпеременных модели.
В частности, для уравнения множественной регрессии Y = b 0 + b 1 X 1 + b 2 X 2 с двумя объясняющими переменными используются следующие формулы:


Или

или
,,.
Здесьr 12 — выборочный коэффициент корреляции между объясняющимипеременными X 1 и X 2 ; Sb j — стандартная ошибкакоэффициента регрессии; S — стандартная ошибка множественной регрессии (несмещенная оценка).
По аналогии с парной регрессией после определения точечных оценокb j коэффициентов β j (j=1,2,…,m) теоретического уравнения множественной регрессии могут быть рассчитаны интервальные оценки указанных коэффициентов.

Доверительный интервал, накрывающий с надежностью (1- α ) неизвестное значение параметра β j, определяется как

Регрессия: понятие, виды и уравнение

Содержание статьи:

  • Уравнение регрессии
  • Линейное уравнение
  • Нелинейное уравнение
  • Виды регрессии
  • Парная регрессия
  • Множественная регрессия

Регрессия. Многие из нас слышали это слово, но немногие знают, что же это такое на самом деле. Попробуем разобраться. Регрессия — это зависимость между определёнными переменными, с помощью которой можно спрогнозировать будущее поведение данных переменных. Причём, под переменными подразумеваются всевозможные периодические явления вплоть до человеческого поведения.

Уравнение регрессии

Зачастую, регрессия подаётся в виде простого уравнения, которое раскрывает зависимость и силу связи между двумя группами числовых переменных, одна из которых называется зависимой (эндогенной), а вторая — независимой (экзогенной или фактором). Если есть группа взаимосвязанных показателей, то зависимая переменная выбирается логическими размышлениями, а остальные выступают независимыми. То есть, если у нас есть расстояние между городами и затраты на путешествие, то вполне ясно, что затраты будут зависеть от расстояния. Уравнения бывают двух видов: линейные и нелинейные (это уже чистая математика). Стоит рассмотреть каждый из видов.

Линейное уравнение

Линейное уравнение иллюстрирует строго линейную связь между переменными, то есть в нём отсутствуют степени, дроби, тригонометрические функции. Решается стандартными математическими способами.

Нелинейное уравнение

Логично предположить, что в нелинейный класс уравнений входит всё то, что не вошло в линейный. Решаются такие уравнения сведением к линейному типу, а дальше – по накатанной дорожке.

Виды регрессии

Регрессия бывает двух видов: парная (линейная и нелинейная) и множественная (линейная и нелинейная). Разница между ними в виде уравнения и количестве независимых переменных. Логично, что парная регрессия — это когда одна зависимая переменная и одна независимая, в множественной — независимых переменных несколько. В природе имеет место исключительно множественная регрессия, так как нельзя ограничить внешнее влияние на какое-то явление строго одним фактором. Рассмотрим оба вида регрессий детальнее.

Парная регрессия

Парная (её ещё называют двухфакторной) модель проста в использовании, так как у нас всего две переменные: эндогенная и экзогенная, а значит будет просто решить уравнение и провести анализ. А это значит, что и применять на практике такую модель очень легко.

Множественная регрессия

Множественная (многофакторная) модель намного сложнее, так как мы имеем уравнение с большим количеством переменных, для решения которого существуют определённые математические способы (метод наименьших квадратов например).

Итоги

Немного разобравшись в этой теме, приходишь к выводу, что регрессия очень необходимое понятие, помогающее предугадать поведение многих явлений. Его используют в экономике, психологии, химии, биологии, метеорологии и во многих других науках, причём существует множество программ, которые проводят все необходимые расчёты автоматически и сами выводят результаты и графики для анализа. Пользователю остаётся только считать результаты и правильно расшифровать их. А уж найти им применение вообще не проблема. Поэтому, я считаю, что необходимо иметь хотя бы малейшее понятие о том, что же такое эта пресловутая регрессия и где её использовать.

Видео про линейную регрессию и корреляцию:


источники:

http://www.semestr.ru/ks306

http://tutknow.ru/astronomy/378-regressiya-ponyatie-vidy-i-uravnenie.html