Уравнения множественной регрессии понятия и классификация

Понятие множественной регрессии

Множественной регрессией называют уравнение связи с несколькими не-зависимыми переменными:

ŷ = f (x₁,x₂. x_p).	(3.1)
Переменная у называется зависимой, объясняемой или результативным

признаком.х₁,х₂, …,х_p– независимые, объясняющие переменные или фак-торные признаки (факторы).

Соответствующая регрессионная модель имеет вид

y = f (x₁,x₂. x_p) +ε,

(3.2)

где ε ошибка модели, являющаяся случайной величиной.

Множественная регрессия применяется в ситуациях, когда из множества факторов, влияющих на результативный признак, нельзя выделить один доми-нирующий фактор и необходимо учитывать влияние нескольких факторов. На-пример, объем выпуска продукции определяется величиной основных и обо-ротных средств, численностью персонала, уровнем менеджмента и т. д., уро-вень спроса зависит не только от цены, но и от имеющихся у населения денеж-ных средств.

Основная цель множественной регрессии – построить модель с нескольки-ми факторами и определить при этом влияние каждого фактора в отдельности, а также их совместное воздействие на изучаемый показатель.

Постановка задачи множественной регрессии: по имеющимся данным n наблюдений (табл. 3.1) за совместным изменением p+1 параметра yиx_j и ((y_i,

x_j,i); j=1, 2, . p; i=1, 2, . n)необходимо определить аналитическую зависи-мость ŷ= f(x₁,x₂. x_p), наилучшим образом описывающую данные наблюдений.

y	x1	x2	…	xp
y1	x11	x21	…	xp1
y2	x12	x22	…	xp2
…	…	…	…	…	…
n	yn	x1n	x2n	…	xpn

Каждая строка таблицы содержит p+1 число и представляет собой резуль-тат одного наблюдения. Наблюдения различаются условиями их проведения.

Вопрос о том, какую зависимость следует считать наилучшей, решается на основе какого-либо критерия. В качестве такого критерия обычно используется минимум суммы квадратов отклонений расчетных или модельных значений ре-зультативного показателя ŷ_i=f(x_1i,x_2i. x_pi) от наблюдаемых значений y_i

Как и в случае парной регрессии, построение уравнения множественной регрессии предполагает решение двух задач (или, другими словами, осуществ-ляется в два этапа):

1) спецификация модели;

2) оценка параметров выбранной модели.

В свою очередь, спецификация модели включает в себя решение двух задач:

– отборpфакторовx_j, подлежащих включению в модель;

Отбор факторов при построении множественной регрессии

Требования к факторам

Процесс отбора факторов в достаточно сложных ситуациях является ите-рационной процедурой, предполагающей, в частности, построение уравнений регрессии, и включает два этапа. Первоначально отбор факторов осуществляет-ся на основе качественных соображений, исходя из представлений о природе взаимосвязи моделируемого показателя с другими экономическими показате-лями. На следующем этапе отобранные факторы подвергаются проверке на ста-тистическую значимость. Окончательное решение о включении фактора в мо-дель основывается на количественной оценке степени влияния фактора на изу-чаемый показатель.

К факторам, включаемым в модель, предъявляются следующие требования:

1. Факторы не должны быть взаимно коррелированы и, тем более, нахо-диться в точной функциональной связи. Наличие высокой степени коррелиро-ванности между факторами может привести к неустойчивости и ненадежности оценок коэффициентов регрессии, а также к невозможности выделить изоли-рованное влияние факторов на результативный показатель.

2. Включение фактора в модель должно приводить к существенному уве-личению доли объясненной части в общей вариации зависимой переменной. Так как данная величина характеризуется таким показателем, как коэффициент детерминации R 2 , включение фактора в модель должно приводить к заметному изменению последнего. Формальная проверка существенности вклада фактора

в модель выполняется с помощью оценки значимости соответствующего част-ного коэффициента корреляции либо значимости коэффициента в уравнении регрессии.

Если необходимо учесть влияние качественного фактора (не имеющего количественной оценки), то в модель включается соответствующая ему «фик-тивная» переменная, имеющая конечное количество формально численных зна-чений, соответствующих градациям качественного фактора. Например, если нужно учесть влияние уровня образования (на размер заработной платы), то в уравнение регрессии можно включить переменную z, принимающую значения

z = 0 при начальном образовании, 1 при среднем, 2 при высшем.

Если для какого-либо показателя, который представляется важным для данного исследования, отсутствуют исходные данные, либо сам показатель четко не определен, то может быть полезно включить в модель некоторый ее «заменитель». Например, в качестве показателя качества образования можноиспользовать число преподавателей или расходы на одного студента. Такой подход основан на том факте, что неучет существенного показателя приводит к

смещенным оценкам параметров. Например, производственная функция Кобба-Дугласа, построенная по данным экономики США за период 1949 1978 гг., по-строенная с учетом времени в качестве замещающей переменной для показате-ля технического прогресса имеет вид [4]

logŶ = 1,03 + 0,17 logK + 0,93 logL + 0,024t , (2,33) (0,66) (0,17) 0,016)

а без учета имеет вид

logŶ = 4,50+ 1,19 logK + 0,77 logL, (0,57) (0,10) (0,15)

где Y индекс объема выпуска частного сектора; K – индекс затрат капитала;L индекс затрат труда; t – время, равное единице в 1948 г. и т. д. Без учета за-мещающей переменной коэффициент при logK неправдоподобно велик.

При отборе факторов в модель следует, по возможности, стремиться к ми-нимизации количества факторов, так как неоправданное их увеличение приво-дит к затруднениям в интерпретации модели и снижению достоверности ре-зультатов.

Мультиколлинеарность

Под мультиколлинеарностью понимается высокая взаимная коррелиро-ванность объясняющих переменных. Следствием мультиколлинеарности явля-ется линейная зависимость между столбцами наблюдений x_ij в таблице 3.1 или между столбцами матрицы X(3.11). В результате, матрица X′X становится пло-хо обусловленной, что приводит к неустойчивости оценок коэффициентов рег-рессии, когда незначительные изменения данных наблюдений приводят к зна-чительным изменениям оценок.

Проверка наличия мультиколлинеарности основывается на анализе матри-цы парных корреляций между факторами

r x x	r x x
r x₂ x1	r x₂ x₂
R
.
.
r x _p x₁	r x _p x₂

.	r x x	p
.	r x x	r_x	x1
. .
.
.	r x _p x₁
r x _p x _p

r x x	.	r x x	p
.	r x x
(3.3)
.	. .
r x _p x₂	.

Коэффициенты парной корреляции r_x_i_x_j между объясняющими переменны-

ми используются для выявления дублирующих факторов. Линейная зависи-мость между объясняющими переменными x_i и x_j считается установленной, ес-ли выполняется условие r_x_i_x_j0,8 , а сами факторы называются явно коллине-

арными (эмпирическое правило). Один из факторов должен быть исключен из модели. Предпочтение при этом отдается тому фактору, который при доста-точно тесной связи с результатом имеет наименьшую тесноту связи с другими факторами.

Наряду с парной коллинеарностью может иметь место линейная зависи-мость между боле, чем двумя переменными. Для оценки мультиколлинеарности факторов в этом случае может использоваться величину определителя Det R

матрицы парных коэффициентов корреляции r_x_i_x_j между факторами либо ее

минимального собственного значения.

Чем ближе к нулю определитель (минимальное собственное значение) матрицы межфакторной корреляции, тем сильнее мультиколлинеарность между факторами и тем ненадежнее результаты множественной регрессии.

Для оценки статистической значимости мультиколлинеарности факторов

n 1	1
может быть использован тот факт, что величина	(2m 5) lg DetRимеет
приближенное распределение 2	с df	1 p( p 1)степенями свободы.
т. е.Det	R
Выдвигается гипотеза H₀ о независимости переменных,	1.
Если	фактическое значение	χ 2	превосходит	табличное	(критическое)
отклоняется и мультиколлинеарность счита-
факт	_табл_(df,a) , то гипотезаН0

Для выявления мультиколлинеарности факторов можно использовать ко-

эффициенты множественной детерминации R 2	\|x	x	. x	; R 2	\|x x	. x	… , полученные
x	p	x	p
1 3

по уравнениям регрессии, в которых качестве зависимой переменной рассмат-ривается один из факторов. Чем ближе значение коэффициента детерминации к единице, тем сильнее проявляется мультиколлинеарность факторов. Согласно эмпирическому правилу, при значении коэффициента множественной детерми-

ной. Оставляя в уравнении регрессии факторы с минимальной величиной ко-эффициента множественной детерминации, можно исключить мультиколлине-арность факторов.

Для преодоления явления линейной зависимости между факторами ис-пользуются такие способы, как:

исключение одного из коррелирующих факторов; переход с помощью линейного преобразования к новым некоррелирую-

щим независимым переменным. Например, переход к главным компонентам вектора исходных объясняющих переменных (что позволяет также уменьшить количество рассматриваемых факторов), переход к последовательным разно-

переход к смещенным оценкам, имеющим меньшую дисперсию. В част-ности, при использовании «ридж-регрессии» применяются смещенные оценки

(п. 3.4), гдеτнекоторое положи-
вектора параметров b_τ(X X E_p₁)	X Y

тельной число,E_p₊₁ единичная матрица порядка p+1. Такое преобразование увеличивает определитель матрицы системы нормальных уравнений и повыша-ет устойчивость результатов (снижает дисперсию оценок, которые становятся смещенными).

Другие аспекты вопроса отбора факторов рассмотрены в п. 1.5.

Следует также учитывать ограничение, накладываемое на количество фак-торов, имеющимся числом наблюдений. Количество наблюдений должно пре-вышать количество факторов более чем в 6-7 раз.

Уравнения множественной регрессии понятия и классификация

Вид множественной линейной модели регрессионного анализа: Y = b₀ + b₁x_i1 + . + b_jx_ij + . + b_kx_ik + e_i где e_i — случайные ошибки наблюдения, независимые между собой, имеют нулевую среднюю и дисперсию s.

Назначение множественной регрессии : анализ связи между несколькими независимыми переменными и зависимой переменной.

Экономический смысл параметров множественной регрессии
Коэффициент множественной регрессии b_j показывает, на какую величину в среднем изменится результативный признак Y, если переменную X_j увеличить на единицу измерения, т. е. является нормативным коэффициентом.

Матричная запись множественной линейной модели регрессионного анализа: Y = Xb + e где Y — случайный вектор — столбец размерности (n x 1) наблюдаемых значений результативного признака (y₁, y₂. y_n);
X — матрица размерности [n x (k+1)] наблюдаемых значений аргументов;
b — вектор — столбец размерности [(k+1) x 1] неизвестных, подлежащих оценке параметров (коэффициентов регрессии) модели;
e — случайный вектор — столбец размерности (n x 1) ошибок наблюдений (остатков).

На практике рекомендуется, чтобы n превышало k не менее, чем в три раза.

Задачи регрессионного анализа
Основная задача регрессионного анализа заключается в нахождении по выборке объемом n оценки неизвестных коэффициентов регрессии b₀, b₁. b_k. Задачи регрессионного анализа состоят в том, чтобы по имеющимся статистическим данным для переменных X_i и Y:

получить наилучшие оценки неизвестных параметров b₀, b₁. b_k;
проверить статистические гипотезы о параметрах модели;
проверить, достаточно ли хорошо модель согласуется со статистическими данными (адекватность модели данным наблюдений).

Построение моделей множественной регрессии состоит из следующих этапов:

выбор формы связи (уравнения регрессии);
определение параметров выбранного уравнения;
анализ качества уравнения и поверка адекватности уравнения эмпирическим данным, совершенствование уравнения.

Множественная регрессия:

Множественная регрессия с одной переменной
Множественная регрессия с двумя переменными
Множественная регрессия с тремя переменными

Пример решения нахождения модели множественной регрессии

Модель множественной регрессии вида Y = b 0 +b 1 X 1 + b 2 X 2 ;
1) Найтинеизвестные b 0 , b 1 ,b 2 можно, решим систему трехлинейных уравнений с тремя неизвестными b 0 ,b 1 ,b 2 :

Для решения системы можете воспользоваться решение системы методом Крамера
2) Или использовав формулы

Для этого строим таблицу вида:

x 1

x 2

(y-y ср ) 2

(x 1 -x 1ср ) 2

(x 2 -x 2ср ) 2

(y-y ср )(x 1 -x 1ср )

(y-y ср )(x 2 -x 2ср )

(x 1 -x 1ср )(x 2 -x 2ср )

Выборочные дисперсии эмпирических коэффициентов множественной регрессии можно определить следующим образом:

Здесь z’ jj — j-тый диагональный элемент матрицы Z -1 =(X T X) -1 .

Приэтом:

где m — количество объясняющихпеременных модели.
В частности, для уравнения множественной регрессии Y = b 0 + b 1 X 1 + b 2 X 2 с двумя объясняющими переменными используются следующие формулы:

Или

или
,,.
Здесьr 12 — выборочный коэффициент корреляции между объясняющимипеременными X 1 и X 2 ; Sb j — стандартная ошибкакоэффициента регрессии; S — стандартная ошибка множественной регрессии (несмещенная оценка).
По аналогии с парной регрессией после определения точечных оценокb j коэффициентов β j (j=1,2,…,m) теоретического уравнения множественной регрессии могут быть рассчитаны интервальные оценки указанных коэффициентов.

Доверительный интервал, накрывающий с надежностью (1- α ) неизвестное значение параметра β j, определяется как

Регрессия: понятие, виды и уравнение

Содержание статьи:

Уравнение регрессии
Линейное уравнение
Нелинейное уравнение
Виды регрессии
Парная регрессия
Множественная регрессия

Регрессия. Многие из нас слышали это слово, но немногие знают, что же это такое на самом деле. Попробуем разобраться. Регрессия — это зависимость между определёнными переменными, с помощью которой можно спрогнозировать будущее поведение данных переменных. Причём, под переменными подразумеваются всевозможные периодические явления вплоть до человеческого поведения.

Уравнение регрессии

Зачастую, регрессия подаётся в виде простого уравнения, которое раскрывает зависимость и силу связи между двумя группами числовых переменных, одна из которых называется зависимой (эндогенной), а вторая — независимой (экзогенной или фактором). Если есть группа взаимосвязанных показателей, то зависимая переменная выбирается логическими размышлениями, а остальные выступают независимыми. То есть, если у нас есть расстояние между городами и затраты на путешествие, то вполне ясно, что затраты будут зависеть от расстояния. Уравнения бывают двух видов: линейные и нелинейные (это уже чистая математика). Стоит рассмотреть каждый из видов.

Линейное уравнение

Линейное уравнение иллюстрирует строго линейную связь между переменными, то есть в нём отсутствуют степени, дроби, тригонометрические функции. Решается стандартными математическими способами.

Нелинейное уравнение

Логично предположить, что в нелинейный класс уравнений входит всё то, что не вошло в линейный. Решаются такие уравнения сведением к линейному типу, а дальше – по накатанной дорожке.

Виды регрессии

Регрессия бывает двух видов: парная (линейная и нелинейная) и множественная (линейная и нелинейная). Разница между ними в виде уравнения и количестве независимых переменных. Логично, что парная регрессия — это когда одна зависимая переменная и одна независимая, в множественной — независимых переменных несколько. В природе имеет место исключительно множественная регрессия, так как нельзя ограничить внешнее влияние на какое-то явление строго одним фактором. Рассмотрим оба вида регрессий детальнее.

Парная регрессия

Парная (её ещё называют двухфакторной) модель проста в использовании, так как у нас всего две переменные: эндогенная и экзогенная, а значит будет просто решить уравнение и провести анализ. А это значит, что и применять на практике такую модель очень легко.

Множественная регрессия

Множественная (многофакторная) модель намного сложнее, так как мы имеем уравнение с большим количеством переменных, для решения которого существуют определённые математические способы (метод наименьших квадратов например).

Итоги

Немного разобравшись в этой теме, приходишь к выводу, что регрессия очень необходимое понятие, помогающее предугадать поведение многих явлений. Его используют в экономике, психологии, химии, биологии, метеорологии и во многих других науках, причём существует множество программ, которые проводят все необходимые расчёты автоматически и сами выводят результаты и графики для анализа. Пользователю остаётся только считать результаты и правильно расшифровать их. А уж найти им применение вообще не проблема. Поэтому, я считаю, что необходимо иметь хотя бы малейшее понятие о том, что же такое эта пресловутая регрессия и где её использовать.

Видео про линейную регрессию и корреляцию:

источники:

http://www.semestr.ru/ks306

http://tutknow.ru/astronomy/378-regressiya-ponyatie-vidy-i-uravnenie.html