Понятие множественной регрессии
Множественной регрессией называют уравнение связи с несколькими не-зависимыми переменными:
ŷ = f (x1,x2. xp). | (3.1) |
Переменная у называется зависимой, объясняемой или результативным |
признаком.х1,х2, …,хp– независимые, объясняющие переменные или фак-торные признаки (факторы).
Соответствующая регрессионная модель имеет вид
y = f (x1,x2. xp) +ε, | (3.2) |
где ε ошибка модели, являющаяся случайной величиной.
Множественная регрессия применяется в ситуациях, когда из множества факторов, влияющих на результативный признак, нельзя выделить один доми-нирующий фактор и необходимо учитывать влияние нескольких факторов. На-пример, объем выпуска продукции определяется величиной основных и обо-ротных средств, численностью персонала, уровнем менеджмента и т. д., уро-вень спроса зависит не только от цены, но и от имеющихся у населения денеж-ных средств.
Основная цель множественной регрессии – построить модель с нескольки-ми факторами и определить при этом влияние каждого фактора в отдельности, а также их совместное воздействие на изучаемый показатель.
Постановка задачи множественной регрессии: по имеющимся данным n наблюдений (табл. 3.1) за совместным изменением p+1 параметра yиxj и ((yi,
xj,i); j=1, 2, . p; i=1, 2, . n)необходимо определить аналитическую зависи-мость ŷ= f(x1,x2. xp), наилучшим образом описывающую данные наблюдений.
y | x1 | x2 | … | xp | |
y1 | x11 | x21 | … | xp1 | |
y2 | x12 | x22 | … | xp2 | |
… | … | … | … | … | … |
n | yn | x1n | x2n | … | xpn |
Каждая строка таблицы содержит p+1 число и представляет собой резуль-тат одного наблюдения. Наблюдения различаются условиями их проведения.
Вопрос о том, какую зависимость следует считать наилучшей, решается на основе какого-либо критерия. В качестве такого критерия обычно используется минимум суммы квадратов отклонений расчетных или модельных значений ре-зультативного показателя ŷi=f(x1i,x2i. xpi) от наблюдаемых значений yi
Как и в случае парной регрессии, построение уравнения множественной регрессии предполагает решение двух задач (или, другими словами, осуществ-ляется в два этапа):
1) спецификация модели;
2) оценка параметров выбранной модели.
В свою очередь, спецификация модели включает в себя решение двух задач:
– отборpфакторовxj, подлежащих включению в модель;
Отбор факторов при построении множественной регрессии
Требования к факторам
Процесс отбора факторов в достаточно сложных ситуациях является ите-рационной процедурой, предполагающей, в частности, построение уравнений регрессии, и включает два этапа. Первоначально отбор факторов осуществляет-ся на основе качественных соображений, исходя из представлений о природе взаимосвязи моделируемого показателя с другими экономическими показате-лями. На следующем этапе отобранные факторы подвергаются проверке на ста-тистическую значимость. Окончательное решение о включении фактора в мо-дель основывается на количественной оценке степени влияния фактора на изу-чаемый показатель.
К факторам, включаемым в модель, предъявляются следующие требования:
1. Факторы не должны быть взаимно коррелированы и, тем более, нахо-диться в точной функциональной связи. Наличие высокой степени коррелиро-ванности между факторами может привести к неустойчивости и ненадежности оценок коэффициентов регрессии, а также к невозможности выделить изоли-рованное влияние факторов на результативный показатель.
2. Включение фактора в модель должно приводить к существенному уве-личению доли объясненной части в общей вариации зависимой переменной. Так как данная величина характеризуется таким показателем, как коэффициент детерминации R 2 , включение фактора в модель должно приводить к заметному изменению последнего. Формальная проверка существенности вклада фактора
в модель выполняется с помощью оценки значимости соответствующего част-ного коэффициента корреляции либо значимости коэффициента в уравнении регрессии.
Если необходимо учесть влияние качественного фактора (не имеющего количественной оценки), то в модель включается соответствующая ему «фик-тивная» переменная, имеющая конечное количество формально численных зна-чений, соответствующих градациям качественного фактора. Например, если нужно учесть влияние уровня образования (на размер заработной платы), то в уравнение регрессии можно включить переменную z, принимающую значения
z = 0 при начальном образовании, 1 при среднем, 2 при высшем.
Если для какого-либо показателя, который представляется важным для данного исследования, отсутствуют исходные данные, либо сам показатель четко не определен, то может быть полезно включить в модель некоторый ее «заменитель». Например, в качестве показателя качества образования можноиспользовать число преподавателей или расходы на одного студента. Такой подход основан на том факте, что неучет существенного показателя приводит к
смещенным оценкам параметров. Например, производственная функция Кобба-Дугласа, построенная по данным экономики США за период 1949 1978 гг., по-строенная с учетом времени в качестве замещающей переменной для показате-ля технического прогресса имеет вид [4]
logŶ = 1,03 + 0,17 logK + 0,93 logL + 0,024t , (2,33) (0,66) (0,17) 0,016)
а без учета имеет вид
logŶ = 4,50+ 1,19 logK + 0,77 logL, (0,57) (0,10) (0,15)
где Y индекс объема выпуска частного сектора; K – индекс затрат капитала;L индекс затрат труда; t – время, равное единице в 1948 г. и т. д. Без учета за-мещающей переменной коэффициент при logK неправдоподобно велик.
При отборе факторов в модель следует, по возможности, стремиться к ми-нимизации количества факторов, так как неоправданное их увеличение приво-дит к затруднениям в интерпретации модели и снижению достоверности ре-зультатов.
Мультиколлинеарность
Под мультиколлинеарностью понимается высокая взаимная коррелиро-ванность объясняющих переменных. Следствием мультиколлинеарности явля-ется линейная зависимость между столбцами наблюдений xij в таблице 3.1 или между столбцами матрицы X(3.11). В результате, матрица X′X становится пло-хо обусловленной, что приводит к неустойчивости оценок коэффициентов рег-рессии, когда незначительные изменения данных наблюдений приводят к зна-чительным изменениям оценок.
Проверка наличия мультиколлинеарности основывается на анализе матри-цы парных корреляций между факторами
r x x | r x x |
r x2 x1 | r x2 x2 |
R | |
. | |
. | |
r x p x1 | r x p x2 |
. | r x x | p | |
. | r x x | rx | x1 |
. . | |||
. | |||
. | r x p x1 | ||
r x p x p |
r x x | . | r x x | p |
. | r x x | ||
(3.3) | |||
. | . . | ||
r x p x2 | . |
Коэффициенты парной корреляции rxixj между объясняющими переменны-
ми используются для выявления дублирующих факторов. Линейная зависи-мость между объясняющими переменными xi и xj считается установленной, ес-ли выполняется условие rxixj0,8 , а сами факторы называются явно коллине-
арными (эмпирическое правило). Один из факторов должен быть исключен из модели. Предпочтение при этом отдается тому фактору, который при доста-точно тесной связи с результатом имеет наименьшую тесноту связи с другими факторами.
Наряду с парной коллинеарностью может иметь место линейная зависи-мость между боле, чем двумя переменными. Для оценки мультиколлинеарности факторов в этом случае может использоваться величину определителя Det R
матрицы парных коэффициентов корреляции rxixj между факторами либо ее
минимального собственного значения.
Чем ближе к нулю определитель (минимальное собственное значение) матрицы межфакторной корреляции, тем сильнее мультиколлинеарность между факторами и тем ненадежнее результаты множественной регрессии.
Для оценки статистической значимости мультиколлинеарности факторов
n 1 | 1 | ||||
может быть использован тот факт, что величина | (2m 5) lg DetRимеет | ||||
приближенное распределение 2 | с df | 1 p( p 1)степенями свободы. | |||
т. е.Det | R | ||||
Выдвигается гипотеза H0 о независимости переменных, | 1. | ||||
Если | фактическое значение | χ 2 | превосходит | табличное | (критическое) |
отклоняется и мультиколлинеарность счита- | |||||
факт | табл(df,a) , то гипотезаН0 |
Для выявления мультиколлинеарности факторов можно использовать ко-
эффициенты множественной детерминации R 2 | |x | x | . x | ; R 2 | |x x | . x | … , полученные |
x | p | x | p | ||||
1 3 |
по уравнениям регрессии, в которых качестве зависимой переменной рассмат-ривается один из факторов. Чем ближе значение коэффициента детерминации к единице, тем сильнее проявляется мультиколлинеарность факторов. Согласно эмпирическому правилу, при значении коэффициента множественной детерми-
ной. Оставляя в уравнении регрессии факторы с минимальной величиной ко-эффициента множественной детерминации, можно исключить мультиколлине-арность факторов.
Для преодоления явления линейной зависимости между факторами ис-пользуются такие способы, как:
исключение одного из коррелирующих факторов; переход с помощью линейного преобразования к новым некоррелирую-
щим независимым переменным. Например, переход к главным компонентам вектора исходных объясняющих переменных (что позволяет также уменьшить количество рассматриваемых факторов), переход к последовательным разно-
переход к смещенным оценкам, имеющим меньшую дисперсию. В част-ности, при использовании «ридж-регрессии» применяются смещенные оценки
(п. 3.4), гдеτнекоторое положи- | |
вектора параметров bτ(X X Ep1) | X Y |
тельной число,Ep+1 единичная матрица порядка p+1. Такое преобразование увеличивает определитель матрицы системы нормальных уравнений и повыша-ет устойчивость результатов (снижает дисперсию оценок, которые становятся смещенными).
Другие аспекты вопроса отбора факторов рассмотрены в п. 1.5.
Следует также учитывать ограничение, накладываемое на количество фак-торов, имеющимся числом наблюдений. Количество наблюдений должно пре-вышать количество факторов более чем в 6-7 раз.
Уравнения множественной регрессии понятия и классификация
Вид множественной линейной модели регрессионного анализа: Y = b0 + b1xi1 + . + bjxij + . + bkxik + ei где ei — случайные ошибки наблюдения, независимые между собой, имеют нулевую среднюю и дисперсию s.
Назначение множественной регрессии : анализ связи между несколькими независимыми переменными и зависимой переменной.
Экономический смысл параметров множественной регрессии
Коэффициент множественной регрессии bj показывает, на какую величину в среднем изменится результативный признак Y, если переменную Xj увеличить на единицу измерения, т. е. является нормативным коэффициентом.
Матричная запись множественной линейной модели регрессионного анализа: Y = Xb + e где Y — случайный вектор — столбец размерности (n x 1) наблюдаемых значений результативного признака (y1, y2. yn);
X — матрица размерности [n x (k+1)] наблюдаемых значений аргументов;
b — вектор — столбец размерности [(k+1) x 1] неизвестных, подлежащих оценке параметров (коэффициентов регрессии) модели;
e — случайный вектор — столбец размерности (n x 1) ошибок наблюдений (остатков).
На практике рекомендуется, чтобы n превышало k не менее, чем в три раза.
Задачи регрессионного анализа
Основная задача регрессионного анализа заключается в нахождении по выборке объемом n оценки неизвестных коэффициентов регрессии b0, b1. bk. Задачи регрессионного анализа состоят в том, чтобы по имеющимся статистическим данным для переменных Xi и Y:
- получить наилучшие оценки неизвестных параметров b0, b1. bk;
- проверить статистические гипотезы о параметрах модели;
- проверить, достаточно ли хорошо модель согласуется со статистическими данными (адекватность модели данным наблюдений).
Построение моделей множественной регрессии состоит из следующих этапов:
- выбор формы связи (уравнения регрессии);
- определение параметров выбранного уравнения;
- анализ качества уравнения и поверка адекватности уравнения эмпирическим данным, совершенствование уравнения.
Множественная регрессия:
- Множественная регрессия с одной переменной
- Множественная регрессия с двумя переменными
- Множественная регрессия с тремя переменными
Пример решения нахождения модели множественной регрессии
Модель множественной регрессии вида Y = b 0 +b 1 X 1 + b 2 X 2 ;
1) Найтинеизвестные b 0 , b 1 ,b 2 можно, решим систему трехлинейных уравнений с тремя неизвестными b 0 ,b 1 ,b 2 :
Для решения системы можете воспользоваться решение системы методом Крамера
2) Или использовав формулы
Для этого строим таблицу вида:
Y | x 1 | x 2 | (y-y ср ) 2 | (x 1 -x 1ср ) 2 | (x 2 -x 2ср ) 2 | (y-y ср )(x 1 -x 1ср ) | (y-y ср )(x 2 -x 2ср ) | (x 1 -x 1ср )(x 2 -x 2ср ) |
Выборочные дисперсии эмпирических коэффициентов множественной регрессии можно определить следующим образом:
Здесь z’ jj — j-тый диагональный элемент матрицы Z -1 =(X T X) -1 .
Приэтом:
где m — количество объясняющихпеременных модели.
В частности, для уравнения множественной регрессии Y = b 0 + b 1 X 1 + b 2 X 2 с двумя объясняющими переменными используются следующие формулы:
Или
или
,,.
Здесьr 12 — выборочный коэффициент корреляции между объясняющимипеременными X 1 и X 2 ; Sb j — стандартная ошибкакоэффициента регрессии; S — стандартная ошибка множественной регрессии (несмещенная оценка).
По аналогии с парной регрессией после определения точечных оценокb j коэффициентов β j (j=1,2,…,m) теоретического уравнения множественной регрессии могут быть рассчитаны интервальные оценки указанных коэффициентов.
Доверительный интервал, накрывающий с надежностью (1- α ) неизвестное значение параметра β j, определяется как
Регрессия: понятие, виды и уравнение
Содержание статьи:
- Уравнение регрессии
- Линейное уравнение
- Нелинейное уравнение
- Виды регрессии
- Парная регрессия
- Множественная регрессия
Регрессия. Многие из нас слышали это слово, но немногие знают, что же это такое на самом деле. Попробуем разобраться. Регрессия — это зависимость между определёнными переменными, с помощью которой можно спрогнозировать будущее поведение данных переменных. Причём, под переменными подразумеваются всевозможные периодические явления вплоть до человеческого поведения.
Уравнение регрессии
Зачастую, регрессия подаётся в виде простого уравнения, которое раскрывает зависимость и силу связи между двумя группами числовых переменных, одна из которых называется зависимой (эндогенной), а вторая — независимой (экзогенной или фактором). Если есть группа взаимосвязанных показателей, то зависимая переменная выбирается логическими размышлениями, а остальные выступают независимыми. То есть, если у нас есть расстояние между городами и затраты на путешествие, то вполне ясно, что затраты будут зависеть от расстояния. Уравнения бывают двух видов: линейные и нелинейные (это уже чистая математика). Стоит рассмотреть каждый из видов.
Линейное уравнение
Линейное уравнение иллюстрирует строго линейную связь между переменными, то есть в нём отсутствуют степени, дроби, тригонометрические функции. Решается стандартными математическими способами.
Нелинейное уравнение
Логично предположить, что в нелинейный класс уравнений входит всё то, что не вошло в линейный. Решаются такие уравнения сведением к линейному типу, а дальше – по накатанной дорожке.
Виды регрессии
Регрессия бывает двух видов: парная (линейная и нелинейная) и множественная (линейная и нелинейная). Разница между ними в виде уравнения и количестве независимых переменных. Логично, что парная регрессия — это когда одна зависимая переменная и одна независимая, в множественной — независимых переменных несколько. В природе имеет место исключительно множественная регрессия, так как нельзя ограничить внешнее влияние на какое-то явление строго одним фактором. Рассмотрим оба вида регрессий детальнее.
Парная регрессия
Парная (её ещё называют двухфакторной) модель проста в использовании, так как у нас всего две переменные: эндогенная и экзогенная, а значит будет просто решить уравнение и провести анализ. А это значит, что и применять на практике такую модель очень легко.
Множественная регрессия
Множественная (многофакторная) модель намного сложнее, так как мы имеем уравнение с большим количеством переменных, для решения которого существуют определённые математические способы (метод наименьших квадратов например).
Итоги
Немного разобравшись в этой теме, приходишь к выводу, что регрессия очень необходимое понятие, помогающее предугадать поведение многих явлений. Его используют в экономике, психологии, химии, биологии, метеорологии и во многих других науках, причём существует множество программ, которые проводят все необходимые расчёты автоматически и сами выводят результаты и графики для анализа. Пользователю остаётся только считать результаты и правильно расшифровать их. А уж найти им применение вообще не проблема. Поэтому, я считаю, что необходимо иметь хотя бы малейшее понятие о том, что же такое эта пресловутая регрессия и где её использовать.
Видео про линейную регрессию и корреляцию:
http://www.semestr.ru/ks306
http://tutknow.ru/astronomy/378-regressiya-ponyatie-vidy-i-uravnenie.html