Требования к факторам включаемым в уравнение регрессии

Требования к отбору факторов

Несмотря на то, что парная линейная регрессия легко интерпретируется, в действительности она встречается очень редко, поэтому более широкое применение получила множественная регрессия. Парная регрессия может дать хороший результат при моделировании, если влиянием других факторов, воздействующих на объект исследования, можно пренебречь. Но поведение отдельных экономическихпеременных контролировать нельзя, т.е. равенство всех прочих условий для оценки влияния одного исследуемого фактора обеспечить не удается. В этом случае следует попытаться выявить влияние других факторов, введя их в модель. Естественным продолжением парной линейной регрессии является множественная линейная регрессионная модель с р переменными:

Каждый фактор x_i представляет собой набор из п наблюдений по одному и тому же признаку. Коэффициенты b_i — это частные производные у по факторам x_i:

при условии, что все остальные факторы постоянны.

Главная цель множественного регрессионного анализа заключается в построении модели с большим числом факторов и определении при этом влияния каждого из них в отдельности, а также их совокупности на моделируемый показатель.

Модель линейной множественной регрессии, для которой выполняются условия Гаусса — Маркова, называется нормальной линейной множественной регрессией. Приступая к построению множественной регрессии, исследователь в самом начале сталкивается с проблемами отбора факторов, которые будут учитываться в регрессионном уравнении, и выбором его вида. При отборе факторов существуют определенные правила, выполнение которых необходимо, иначе оценки параметров уравнения и оно само будут недостоверными и не отразят истинную связь результативного признака с факторными.

Факторы должны отвечать следующим требованиям:

1.Факторы должны быть количественно измеряемы. Если модель необходимо включить качественный фактор, не имеющий количественной меры, то ему нужно придать количественную определенность (например, в модели урожайности качество почвы задается в виде баллов; в модели стоимости объектов недвижимости учитывается место ее нахождения: районы могут быть проранжированы), наличию или отсутствию какого-либо признака также должно придаваться числовое значение (например, мужчина — 0, женщина — 1).

2. Каждый фактор должен быть достаточно тесно связан с результатом (т.е. коэффициент парной линейной корреляции между каждым включаемым в модель фактором и результатом должен отличаться от нуля, причем на достаточно большую величину, что требуется для подтверждения наличия связи).

3.Факторы не должны быть тесно связаны между собой и тем более находиться в строгой функциональной связи (не должны коррелировать друг с другом).

Если между факторами существует высокая корреляция, то нельзя определить непосредственно влияние каждого из них на результативный показатель, и параметры уравнения регрессии оказываются неинтерпретируемыми.

Отбор факторов для включения в модель обычно осуществляется в два этапа: на первом подбираются факторы в зависимости от экономической сущности проблемы (т.е. набор факторов определяется непосредственно самим исследователем), а на втором на основе матрицы парных коэффициентов корреляцииустанавливается теснота связи для параметров регрессии.

Считается, что две переменные явно коллинеарны, т.е. линейно зависимы друг от друга, если rx_ix_j≥0,7. Если факторы явно коллинеарны, то они дублируют друг друга, и один из них рекомендуется исключать из регрессии. Особенность исключения фактора состоит в том, что предпочтение отдается не более тесно связанному с результатом, а тому, который при достаточно тесной связи с результатом имеет наименьшую тесноту связи с другими факторами, включаемыми в модель. В требовании проявляется специфика множественной регрессии как метода исследования совокупного воздействия факторов в условиях их независимости друг от друга.

Однако матрица парных коэффициентов корреляции позволяет проследить лишь явную связь между факторами (попарно). Намного сложнее установить так называемую мультuколлuнеарность факторов, когда более чем два из них связаны между собой нестрогой линейной зависимостью. В связи с этим наибольшие трудности встречаются, когда необходимо выявить совокупное воздействие нескольких факторов друг на друга. Если при исследовании модели приходится сталкиваться с мультиколлинеарностью, то это означает, что некоторые из включаемых в модель факторов всегда будут действовать вместе.

На практике о наличии мультиколлинеарности судят по определителю матрицы парной межфакторной корреляции.

Предположим, что модель имеет следующий вид:

Построим для нее матрицу парной межфакторной корреляции и найдем ее определитель:

r_х1х1 r_х1х2 r_х1х3

Если факторы вообще не коррелируют между собой, то определитель данной матрицы равняется единице, так как в этом случае:

и матрица единична, поскольку все недиагональные элементы равны нулю:

1 0 0

Det ІRІ = 0 1 0 = 1.

Если же наоборот, между факторами существует полная линейная зависимость и все коэффициенты корреляции равны единице, то определитель такой матрицы равен нулю:

1 1 1

Det ІRІ = 1 1 1 = 0.

Можно сделать вывод, что чем ближе к нулю определитель матрицы межфакторной корреляции, тем сильнее мультиколлинеарность факторов и ненадежнее результаты множественной регрессии. И наоборот, чем ближе к единице определитель матрицы межфакторной корреляции, тем меньше мультиколлинеарность факторов.

При наличии явной мультиколлинеарности в модель следует включать не все факторы, а только те, которые в меньшей степени влияют на мультиколлинеарность (при условии, что качество модели снижается при этом незначительно). В наибольшей степени «ответственным» за мультиколлинеарность будет тот признак, который теснее связан с другими факторами модели (имеет более высокие по модулю значения коэффициентов парной линейной корреляции).

При отборе факторов также рекомендуется соблюдать следующее правило: число включаемых в модель факторов должно быть в шесть-семь раз меньше объема совокупности, по которой строится регрессия.

Дата добавления: 2015-10-05 ; просмотров: 1086 ; ЗАКАЗАТЬ НАПИСАНИЕ РАБОТЫ

R — значит регрессия

Статистика в последнее время получила мощную PR поддержку со стороны более новых и шумных дисциплин — Машинного Обучения и Больших Данных. Тем, кто стремится оседлать эту волну необходимо подружится с уравнениями регрессии. Желательно при этом не только усвоить 2-3 приемчика и сдать экзамен, а уметь решать проблемы из повседневной жизни: найти зависимость между переменными, а в идеале — уметь отличить сигнал от шума.

Для этой цели мы будем использовать язык программирования и среду разработки R, который как нельзя лучше приспособлен к таким задачам. Заодно, проверим от чего зависят рейтинг Хабрапоста на статистике собственных статей.

Введение в регрессионный анализ

Если имеется корреляционная зависимость между переменными y и x , возникает необходимость определить функциональную связь между двумя величинами. Зависимость среднего значения называется регрессией y по x .

Основу регрессионного анализа составляет метод наименьших квадратов (МНК), в соответствии с которым в качестве уравнения регресии берется функция такая, что сумма квадратов разностей минимальна.

Карл Гаусс открыл, или точнее воссоздал, МНК в возрасте 18 лет, однако впервые результаты были опубликованы Лежандром в 1805 г. По непроверенным данным метод был известен еще в древнем Китае, откуда он перекочевал в Японию и только затем попал в Европу. Европейцы не стали делать из этого секрета и успешно запустили в производство, обнаружив с его помощью траекторию карликовой планеты Церес в 1801 г.

Вид функции , как правило, определен заранее, а с помощью МНК подбираются оптимальные значения неизвестных параметров. Метрикой рассеяния значений вокруг регрессии является дисперсия.

k — число коэффициентов в системе уравнений регрессии.

Чаще всего используется модель линейной регрессии, а все нелинейные зависимости приводят к линейному виду с помощью алгебраических ухищрений, различных преобразования переменных y и x .

Линейная регрессия

Уравнения линейной регрессии можно записать в виде

В матричном виде это выгладит

y — зависимая переменная;
x — независимая переменная;
β — коэффициенты, которые необходимо найти с помощью МНК;
ε — погрешность, необъяснимая ошибка и отклонение от линейной зависимости;

Случайная величина может быть интерпретирована как сумма из двух слагаемых:

— полная дисперсия (TSS).
— объясненная часть дисперсии (ESS).
— остаточная часть дисперсии (RSS).

Еще одно ключевое понятие — коэффициент корреляции R 2 .

Ограничения линейной регрессии

Для того, чтобы использовать модель линейной регрессии необходимы некоторые допущения относительно распределения и свойств переменных.

Линейность, собственно. Увеличение, или уменьшение вектора независимых переменных в k раз, приводит к изменению зависимой переменной также в k раз.
Матрица коэффициентов обладает полным рангом, то есть векторы независимых переменных линейно независимы.
Экзогенность независимых переменных — . Это требование означает, что математическое ожидание погрешности никоим образом нельзя объяснить с помощью независимых переменных.
Однородность дисперсии и отсутствие автокорреляции. Каждая ε_i обладает одинаковой и конечной дисперсией σ 2 и не коррелирует с другой ε_i. Это ощутимо ограничивает применимость модели линейной регрессии, необходимо удостовериться в том, что условия соблюдены, иначе обнаруженная взаимосвязь переменных будет неверно интерпретирована.

Как обнаружить, что перечисленные выше условия не соблюдены? Ну, во первых довольно часто это видно невооруженным глазом на графике.

Неоднородность дисперсии

При возрастании дисперсии с ростом независимой переменной имеем график в форме воронки.

Нелинейную регрессии в некоторых случая также модно увидеть на графике довольно наглядно.

Тем не менее есть и вполне строгие формальные способы определить соблюдены ли условия линейной регрессии, или нарушены.

Автокорреляция проверяется статистикой Дарбина-Уотсона (0 ≤ d ≤ 4). Если автокорреляции нет, то значения критерия d≈2, при позитивной автокорреляции d≈0, при отрицательной — d≈4.
Неоднородность дисперсии — Тест Уайта, , при \chi<^2>_<\alpha;m-1>$» data-tex=»inline»/> нулевая гипотеза отвергается и констатируется наличие неоднородной дисперсии. Используя ту же можно еще применить тест Бройша-Пагана.
Мультиколлинеарность — нарушения условия об отсутствии взаимной линейной зависимости между независимыми переменными. Для проверки часто используют VIF-ы (Variance Inflation Factor).

В этой формуле — коэффициент взаимной детерминации между и остальными факторами. Если хотя бы один из VIF-ов > 10, вполне резонно предположить наличие мультиколлинеарности.

Почему нам так важно соблюдение всех выше перечисленных условий? Все дело в Теореме Гаусса-Маркова, согласно которой оценка МНК является точной и эффективной лишь при соблюдении этих ограничений.

Как преодолеть эти ограничения

Нарушения одной или нескольких ограничений еще не приговор.

Нелинейность регрессии может быть преодолена преобразованием переменных, например через функцию натурального логарифма ln .
Таким же способом возможно решить проблему неоднородной дисперсии, с помощью ln , или sqrt преобразований зависимой переменной, либо же используя взвешенный МНК.
Для устранения проблемы мультиколлинеарности применяется метод исключения переменных. Суть его в том, что высоко коррелированные объясняющие переменные устраняются из регрессии, и она заново оценивается. Критерием отбора переменных, подлежащих исключению, является коэффициент корреляции. Есть еще один способ решения данной проблемы, который заключается в замене переменных, которым присуща мультиколлинеарность, их линейной комбинацией. Этим весь список не исчерпывается, есть еще пошаговая регрессия и другие методы.

К сожалению, не все нарушения условий и дефекты линейной регрессии можно устранить с помощью натурального логарифма. Если имеет место автокорреляция возмущений к примеру, то лучше отступить на шаг назад и построить новую и лучшую модель.

Линейная регрессия плюсов на Хабре

Итак, довольно теоретического багажа и можно строить саму модель.
Мне давно было любопытно от чего зависит та самая зелененькая цифра, что указывает на рейтинг поста на Хабре. Собрав всю доступную статистику собственных постов, я решил прогнать ее через модель линейно регрессии.

Загружает данные из tsv файла.

points — Рейтинг статьи
reads — Число просмотров.
comm — Число комментариев.
faves — Добавлено в закладки.
fb — Поделились в социальных сетях (fb + vk).
bytes — Длина в байтах.

Вопреки моим ожиданиям наибольшая отдача не от количества просмотров статьи, а от комментариев и публикаций в социальных сетях. Я также полагал, что число просмотров и комментариев будет иметь более сильную корреляцию, однако зависимость вполне умеренная — нет надобности исключать ни одну из независимых переменных.

Теперь собственно сама модель, используем функцию lm .

В первой строке мы задаем параметры линейной регрессии. Строка points

. определяет зависимую переменную points и все остальные переменные в качестве регрессоров. Можно определить одну единственную независимую переменную через points

reads , набор переменных — points

Перейдем теперь к расшифровке полученных результатов.

Intercept — Если у нас модель представлена в виде , то тогда — точка пересечения прямой с осью координат, или intercept .
R-squared — Коэффициент детерминации указывает насколько тесной является связь между факторами регрессии и зависимой переменной, это соотношение объясненных сумм квадратов возмущений, к необъясненным. Чем ближе к 1, тем ярче выражена зависимость.
Adjusted R-squared — Проблема с в том, что он по любому растет с числом факторов, поэтому высокое значение данного коэффициента может быть обманчивым, когда в модели присутствует множество факторов. Для того, чтобы изъять из коэффициента корреляции данное свойство был придуман скорректированный коэффициент детерминации .
F-statistic — Используется для оценки значимости модели регрессии в целом, является соотношением объяснимой дисперсии, к необъяснимой. Если модель линейной регрессии построена удачно, то она объясняет значительную часть дисперсии, оставляя в знаменателе малую часть. Чем больше значение параметра — тем лучше.
t value — Критерий, основанный на t распределении Стьюдента . Значение параметра в линейной регрессии указывает на значимость фактора, принято считать, что при t > 2 фактор является значимым для модели.
p value — Это вероятность истинности нуль гипотезы, которая гласит, что независимые переменные не объясняют динамику зависимой переменной. Если значение p value ниже порогового уровня (.05 или .01 для самых взыскательных), то нуль гипотеза ложная. Чем ниже — тем лучше.

Можно попытаться несколько улучшить модель, сглаживая нелинейные факторы: комментарии и посты в социальных сетях. Заменим значения переменных fb и comm их степенями.

Проверим значения параметров линейной регрессии.

Как видим в целом отзывчивость модели возросла, параметры подтянулись и стали более шелковистыми , F-статистика выросла, так же как и скорректированный коэффициент детерминации .

Проверим, соблюдены ли условия применимости модели линейной регрессии? Тест Дарбина-Уотсона проверяет наличие автокорреляции возмущений.

И напоследок проверка неоднородности дисперсии с помощью теста Бройша-Пагана.

В заключение

Конечно наша модель линейной регрессии рейтинга Хабра-топиков получилось не самой удачной. Нам удалось объяснить не более, чем половину вариативности данных. Факторы надо чинить, чтобы избавляться от неоднородной дисперсии, с автокорреляцией тоже непонятно. Вообще данных маловато для сколь-нибудь серьезной оценки.

Но с другой стороны, это и хорошо. Иначе любой наспех написанный тролль-пост на Хабре автоматически набирал бы высокий рейтинг, а это к счастью не так.

Уравнение множественной регрессии

Назначение сервиса . С помощью онлайн-калькулятора можно найти следующие показатели:

уравнение множественной регрессии, матрица парных коэффициентов корреляции, средние коэффициенты эластичности для линейной регрессии;
множественный коэффициент детерминации, доверительные интервалы для индивидуального и среднего значения результативного признака;

Кроме этого проводится проверка на автокорреляцию остатков и гетероскедастичность.

Шаг №1
Шаг №2
Видеоинструкция
Оформление Word

Отбор факторов обычно осуществляется в два этапа:

теоретический анализ взаимосвязи результата и круга факторов, которые оказывают на него существенное влияние;
количественная оценка взаимосвязи факторов с результатом. При линейной форме связи между признаками данный этап сводится к анализу корреляционной матрицы (матрицы парных линейных коэффициентов корреляции). Научно обоснованное решение задач подобного вида также осуществляется с помощью дисперсионного анализа — однофакторного, если проверяется существенность влияния того или иного фактора на рассматриваемый признак, или многофакторного в случае изучения влияния на него комбинации факторов.

Факторы, включаемые во множественную регрессию, должны отвечать следующим требованиям:

Они должны быть количественно измеримы. Если необходимо включить в модель качественный фактор, не имеющий количественного измерения, то ему нужно придать количественную определенность.
Каждый фактор должен быть достаточно тесно связан с результатом (т.е. коэффициент парной линейной корреляции между фактором и результатом должен быть существенным).
Факторы не должны быть сильно коррелированы друг с другом, тем более находиться в строгой функциональной связи (т.е. они не должны быть интеркоррелированы). Разновидностью интеркоррелированности факторов является мультиколлинеарность — тесная линейная связь между факторами.

Пример . Постройте регрессионную модель с 2-мя объясняющими переменными (множественная регрессия). Определите теоретическое уравнение множественной регрессии. Оцените адекватность построенной модели.
Решение.
К исходной матрице X добавим единичный столбец, получив новую матрицу X

1	5	14.5
1	12	18
1	6	12
1	7	13
1	8	14

Матрица Y

Транспонируем матрицу X, получаем X T :

1	1	1	1	1
5	12	6	7	8
14.5	18	12	13	14

Умножаем матрицы, X T X =

5	38	71,5
38	318	563,5
71,5	563,5	1043,25

В матрице, (X T X) число 5, лежащее на пересечении 1-й строки и 1-го столбца, получено как сумма произведений элементов 1-й строки матрицы X T и 1-го столбца матрицы X

Умножаем матрицы, X T Y =

563

1032,5

Находим обратную матрицу (X T X) -1

13.99	0.64	-1.3
0.64	0.1	-0.0988
-1.3	-0.0988	0.14

Вектор оценок коэффициентов регрессии равен

(X T X) -1 X T Y = y(x) =

13,99	0,64	-1,3
0,64	0,1	-0,0988
-1,3	-0,0988	0,14

563

1032,5

34,66

1,97

-2,45

Получили оценку уравнения регрессии: Y = 34.66 + 1.97X₁-2.45X₂
Оценка значимости уравнения множественной регрессии осуществляется путем проверки гипотезы о равенстве нулю коэффициент детерминации рассчитанного по данным генеральной совокупности. Для ее проверки используют F-критерий Фишера.
R 2 = 1 — s 2 _e/∑(y_i — y_ср) 2 = 1 — 33.18/77.2 = 0.57
F = R 2 /(1 — R 2 )*(n — m -1)/m = 0.57/(1 — 0.57)*(5-2-1)/2 = 1.33
Табличное значение при степенях свободы k₁ = 2 и k₂ = n-m-1 = 5 — 2 -1 = 2, Fkp(2;2) = 19
Поскольку фактическое значение F = 1.33 Пример №2 . Приведены данные за 15 лет по темпам прироста заработной платы Y (%), производительности труда X₁ (%), а также по уровню инфляции X₂ (%).

Год	1	2	3	4	5	6	7	8	9	10	11	12	13	14	15
X₁	3,5	2,8	6,3	4,5	3,1	1,5	7,6	6,7	4,2	2,7	4,5	3,5	5,0	2,3	2,8
X₂	4,5	3,0	3,1	3,8	3,8	1,1	2,3	3,6	7,5	8,0	3,9	4,7	6,1	6,9	3,5
Y	9,0	6,0	8,9	9,0	7,1	3,2	6,5	9,1	14,6	11,9	9,2	8,8	12,0	12,5	5,7

Решение. Подготовим данные для вставки из MS Excel (как транспонировать таблицу для сервиса см. Задание №2) .

Включаем в отчет: Проверка общего качества уравнения множественной регрессии (F-статистика. Критерий Фишера, Проверка на наличие автокорреляции),

После нажатия на кнопку Дале получаем готовое решение.
Уравнение регрессии (оценка уравнения регрессии):
Y = 0.2706 + 0.5257X₁ + 1.4798X₂
Скачать.

Качество построенного уравнения регрессии проверяется с помощью критерия Фишера (п. 6 отчета).

Пример №3 .
В таблице представлены данные о ВВП, объемах потребления и инвестициях некоторых стран.

ВВП	16331,97	16763,35	17492,22	18473,83	19187,64	20066,25	21281,78	22326,86	23125,90
Потребление в текущих ценах	771,92	814,28	735,60	788,54	853,62	900,39	999,55	1076,37	1117,51
Инвестиции в текущих ценах	176,64	173,15	151,96	171,62	192,26	198,71	227,17	259,07	259,85

Решение:
Для проверки полученных расчетов используем инструменты Microsoft Excel «Анализ данных» (см. пример).

Пример №4 . На основе данных, приведенных в Приложении и соответствующих Вашему варианту (таблица 2), требуется:

Построить уравнение множественной регрессии. При этом признак-результат и один из факторов остаются теми же, что и в первом задании. Выберите дополнительно еще один фактор из приложения 1 (границы наблюдения должны совпадать с границами наблюдения признака-результата, соответствующего Вашему варианту). При выборе фактора нужно руководствоваться его экономическим содержанием или другими подходами. Пояснить смысл параметров уравнения.
Рассчитать частные коэффициенты эластичности. Сделать вывод.
Определить стандартизованные коэффициенты регрессии (b-коэффициенты). Сделать вывод.
Определить парные и частные коэффициенты корреляции, а также множественный коэффициент корреляции; сделать выводы.
Оценить значимость параметров уравнения регрессии с помощью t-критерия Стьюдента, а также значимость уравнения регрессии в целом с помощью общего F-критерия Фишера. Предложить окончательную модель (уравнение регрессии). Сделать выводы.

Решение. Определим вектор оценок коэффициентов регрессии. Согласно методу наименьших квадратов, вектор получается из выражения:
s = (X T X) -1 X T Y
Матрица X

1	3.9	10
1	3.9	14
1	3.7	15
1	4	16
1	3.8	17
1	4.8	19
1	5.4	19
1	4.4	20
1	5.3	20
1	6.8	20
1	6	21
1	6.4	22
1	6.8	22
1	7.2	25
1	8	28
1	8.2	29
1	8.1	30
1	8.5	31
1	9.6	32
1	9	36

Матрица Y

7
7
7
7
7
7
8
8
8
10
9
11
9
11
12
12
12
12
14
14

Матрица X T

1	1	1	1	1	1	1	1	1	1	1	1	1	1	1	1	1	1	1	1
3.9	3.9	3.7	4	3.8	4.8	5.4	4.4	5.3	6.8	6	6.4	6.8	7.2	8	8.2	8.1	8.5	9.6	9
10	14	15	16	17	19	19	20	20	20	21	22	22	25	28	29	30	31	32	36

Умножаем матрицы, (X T X)

Умножаем матрицы, (X T Y)

Находим определитель det(X T X) T = 139940.08
Находим обратную матрицу (X T X) -1

Уравнение регрессии
Y = 1.8353 + 0.9459X ₁ + 0.0856X ₂
Для несмещенной оценки дисперсии проделаем следующие вычисления:
Несмещенная ошибка e = Y — X*s

0.62
0.28
0.38
0.01
0.11
-1
-0.57
0.29
-0.56
0.02
-0.31
1.23
-1.15
0.21
0.2
-0.07
-0.07
-0.53
0.34
0.57

se 2 = (Y — X*s) T (Y — X*s)
Несмещенная оценка дисперсии равна

Оценка среднеквадратичного отклонения равна

Найдем оценку ковариационной матрицы вектора k = σ*(X T X) -1

k(x) = 0.36

0,619	-0,0262	-0,0183
-0,0262	0,126	-0,0338
-0,0183	-0,0338	0,0102

0,222	-0,00939	-0,00654
-0,00939	0,0452	-0,0121
-0,00654	-0,0121	0,00366

Дисперсии параметров модели определяются соотношением S 2 _i = K_ii, т.е. это элементы, лежащие на главной диагонали
С целью расширения возможностей содержательного анализа модели регрессии используются частные коэффициенты эластичности, которые определяются по формуле

Тесноту совместного влияния факторов на результат оценивает индекс множественной корреляции (от 0 до 1)

Связь между признаком Y факторами X сильная
Частные коэффициенты (или индексы) корреляции, измеряющие влияние на у фактора х_i при неизменном уровне других факторов определяются по стандартной формуле линейного коэффициента корреляции — последовательно берутся пары yx1,yx2. , x1x2, x1x3.. и так далее и для каждой пары находится коэффициент корреляции

Коэффициент детерминации
R 2 = 0.97 2 = 0.95, т.е. в 95% случаев изменения х приводят к изменению y. Другими словами — точность подбора уравнения регрессии — высокая

Значимость коэффициента корреляции

По таблице Стьюдента находим Tтабл: T_табл (n-m-1;a) = (17;0.05) = 1.74
Поскольку Tнабл Fkp, то коэффициент детерминации статистически значим и уравнение регрессии статистически надежно

Построение парной регрессионной модели

Рекомендации к решению контрольной работы.

Статистические данные по экономике можно получить на странице Россия в цифрах.
После определения зависимой и объясняющих переменных можно воспользоваться сервисом Множественная регрессия. Регрессионную модель с 2-мя объясняющими переменными можно построить используя матричный метод нахождения параметров уравнения регрессии или метод Крамера для нахождения параметров уравнения регрессии.

Пример №3 . Исследуется зависимость размера дивидендов y акций группы компаний от доходности акций x₁, дохода компании x₂ и объема инвестиций в расширение и модернизацию производства x₃. Исходные данные представлены выборкой объема n=50.

Тема I. Парная линейная регрессия
Постройте парные линейные регрессии — зависимости признака y от факторов x₁, x₂, x₃ взятых по отдельности. Для каждой объясняющей переменной:

Постройте диаграмму рассеяния (поле корреляции). При построении выберите тип диаграммы «Точечная» (без отрезков, соединяющих точки).
Вычислите коэффициенты уравнения выборочной парной линейной регрессии (для вычисления коэффициентов регрессии воспользуйтесь встроенной функцией ЛИНЕЙН (функция находится в категории «Статистические») или надстройкой Пакет Анализа), коэффициент детерминации, коэффициент корреляции (функция КОРЕЛЛ), среднюю ошибку аппроксимации.
Запишите полученное уравнение выборочной регрессии. Дайте интерпретацию найденным в предыдущем пункте значениям.
Постройте на поле корреляции прямую линию выборочной регрессии по точкам .
Постройте диаграмму остатков.
Проверьте статистическую значимость коэффициентов регрессии по критерию Стьюдента (табличное значение определите с помощью функции СТЬЮДРАСПОБР) и всего уравнения в целом по критерию Фишера (табличное значение F_табл определите с помощью функции FРАСПОБР).
Постройте доверительные интервалы для коэффициентов регрессии. Дайте им интерпретацию.
Постройте прогноз для значения фактора, на 50% превышающего его среднее значение.
Постройте доверительный интервал прогноза. Дайте ему экономическую интерпретацию.
Оцените полученные результаты — сделайте выводы о качестве построенной модели, влиянии рассматриваемого фактора на показатель.

Тема II. Множественная линейная регрессия
1. Постройте выборочную множественную линейную регрессию показателя на все указанные факторы. Запишите полученное уравнение, дайте ему экономическую интерпретацию.
2. Определите коэффициент детерминации, дайте ему интерпретацию. Вычислите среднюю абсолютную ошибку аппроксимации и дайте ей интерпретацию.
3. Проверьте статистическую значимость каждого из коэффициентов и всего уравнения в целом.
4. Постройте диаграмму остатков.
5. Постройте доверительные интервалы коэффициентов. Для статистически значимых коэффициентов дайте интерпретации доверительных интервалов.
6. Постройте точечный прогноз значения показателя y при значениях факторов, на 50% превышающих их средние значения.
7. Постройте доверительный интервал прогноза, дайте ему экономическую интерпретацию.
8. Постройте матрицу коэффициентов выборочной корреляции между показателем и факторами. Сделайте вывод о наличии проблемы мультиколлинеарности.
9. Оцените полученные результаты — сделайте выводы о качестве построенной модели, влиянии рассматриваемых факторов на показатель.

источники:

http://habr.com/ru/post/350668/

http://math.semestr.ru/regress/corel.php