Из приведенных уравнений регрессионных моделей линейны по переменным

Задача №4. Построение регрессионной модели с использованием фиктивной переменной

Исследовать зависимость между результатами зимней (Х) и летней (У) сессий.
В таблице приведена средняя оценка, полученная по итогам сессии, а также указана принадлежность студента к группе А или Б.

№ п/пхуГруппа
13,74,8Б
23,53,5Б
34,35Б
434Б
54,64,2Б
64,64,1Б
73,84,8А
83,63,5Б
93,34,4Б
103,93Б
114,73,7Б
124,64,4Б
134,63,8Б
143,33,1Б
154,33,6Б
163,14,8А
173,23А
184,24,8А
193,33,4Б
203,54,2А

1. Построить линейную регрессионную модель У по Х.
2. Проверить значимость коэффициентов уравнения и самого уравнения регрессии.
3. Построить регрессионную модель У по Х с использованием фиктивной переменной «группа».
4. Проверить значимость коэффициентов уравнения и самого уравнения регрессии.
5. Вычислить коэффициенты детерминации для обычной модели и модели с фиктивной переменной.

Решение:

1. Для расчёта параметров а и b линейной регрессии

необходимо решить систему нормальных уравнений относительно a и b:

Число наблюдений n = 20.

Построим таблицу исходных и расчётных данных.

Таблица 1 Расчетные данные для оценки линейной регрессии

№ п/пхух 2у 2х*уГруппаz
13,74,813,6923,0417,763,9730,6840,024Б1
23,53,512,2512,2512,253,9310,1860,126Б1
34,3518,492521,54,0980,8140,198Б1
434916123,8270,0300,731Б1
54,64,221,1617,6419,324,1600,0020,555Б1
64,64,121,1616,8118,864,1600,0040,555Б1
73,84,814,4423,0418,243,9940,6500,003А0
83,63,512,9612,2512,63,9520,2040,065Б1
93,34,410,8919,3614,523,8890,2610,308Б1
103,9315,21911,74,0141,0290,002Б1
114,73,722,0913,6917,394,1810,2320,714Б1
124,64,421,1619,3620,244,1600,0570,555Б1
134,63,821,1614,4417,484,1600,1300,555Б1
143,33,110,899,6110,233,8890,6230,308Б1
154,33,618,4912,9615,484,0980,2480,198Б1
163,14,89,6123,0414,883,8480,9070,570А0
173,2310,2499,63,8680,7540,429А0
184,24,817,6423,420,164,0770,5230,119А0
193,33,410,8911,5611,223,8890,2390,308Б1
203,54,212,2517,6414,73,9300,0720,126А0
Итого:77,180,1303,67328,73310,1380,17,6496,45х15
Среднее:3,8554,00515,18416,436515,5065ххххх
0,3220,396хххххххх
0,5680,630хххххххх

Среднее значение определим по формуле:

Среднее квадратическое отклонение рассчитаем по формуле:

Возведя в квадрат полученное значение, получим дисперсию:

Параметры уравнения можно определить также и по формулам:

Таким образом, уравнение регрессии имеет вид:

Следовательно, с повышением средней оценки, полученной по итогам зимней сессии, на один балл, средняя оценка по итогам летней сессии увеличивается в среднем на 0,2085.

2. Рассчитаем линейный коэффициент парной корреляции:

Связь очень слабая, практически отсутствует.

Определим коэффициент детерминации:

Вариация результата на 3,53% объясняется вариацией фактора х. На долю других, не учтённых в модели факторов, приходится 96,47%. Подставляя в уравнение регрессии фактические значения х, определим теоретические (расчётные) значения .
Так как , следовательно, параметры уравнения определены верно.

3. Проверим значимость коэффициентов уравнения и самого уравнения регрессии.

Оценку качества уравнения регрессии проведём с помощью F-критерия Фишера.
F-критерий состоит в проверке гипотезы Н0 о статистической незначимости уравнения регрессии и показателя тесноты связи. Для этого выполняется сравнение фактического Fфакт и критического (табличного) Fтабл значений F-критерия Фишера.
Fфакт определяется по формуле:

где n – число единиц совокупности;
m – число параметров при переменных х.

Таким образом, Н0 – гипотеза о случайной природе оцениваемых характеристик принимается и признаётся их статистическая незначимость и ненадёжность.

4. Оценку статистической значимости коэффициентов регрессии проведём с помощью t-статистики Стьюдента и путём расчёта доверительного интервала каждого из показателей.

Выдвигаем гипотезу Н0 о статистически незначимом отличии показателей от нуля: a = b = rxy = 0.
tтабл = 2,1 для числа степеней свободы df = n – 2 = 18 и α = 0,05 .

Фактические значения t-статистики определим по формулам:

t-критерий для коэффициента корреляции можно рассчитать двумя способами:

1)

– случайная ошибка коэффициента корреляции.

Сравним фактические значения t-статистики с табличными значениями.

Так как фактическое значение t-критерия для коэффициента а превышает табличное, следовательно, гипотезу о несущественности коэффициента а можно отклонить.

Величина t-критерия для коэффициента регрессии меньше табличного и совпадает с величиной tr.
Следовательно, полученная линейная зависимость является недостоверной.

5. По 20 наблюдениям уравнение линейной регрессии (без учёта принадлежности студента к группе А или Б) составило:

Введём в уравнение регрессии фиктивную переменную z для отражения принадлежности студента к группе, а именно: z = 1, для группы Б и z = 0 для группы А. Уравнение регрессии примет вид:
уxz = a + b*x + c*z + ɛ
Применяя метод наименьших квадратов для оценки параметров данного уравнения, получим следующую систему нормальных уравнений:

В виду того, что z принимает лишь два значения (1 и 0), Σz = n1 = 15 (число студентов группы Б), Σх*z =Σх1 =59,3 (сумма х по группе Б), Σz2 =Σz =15, Σy*z =Σy1 =58,5 (сумма у по группе Б).

Тогда система нормальных уравнений примет вид:

Решая её, получим уравнение регрессии:

6. Найдём индекс детерминации для данной модели по формуле:

Добавление в регрессию фиктивной переменной существенно улучшило результат модели: доля объяснённой вариации выросла с 3,53% () до 16,6% ( Rухz 2 = 0,166 ). Но, не смотря на это, связь между признаками остаётся слабой.

7. Значимость уравнения множественной регрессии в целом, так же как и в парной регрессии, оценивается с помощью F-критерия Фишера:

Так как фактическое значение F-критерия меньше табличного, то уравнение статистически не значимо.

8. Оценка значимости коэффициентов регрессии производится, как и в парной регрессии по t-критерию Стьюдента, по формуле:

где bi – величина параметра регрессии (в наших обозначениях это a, b и с)

a = 3,129; b = 0,335; с = — 0,5516;

Величина t-статистики коэффициентов регрессии b и c меньше табличного tтабл.=2,1 при уровне значимости α 0,05, что свидетельствует о случайной природе взаимосвязи, о статистической ненадёжности всего уравнения.

Таким образом, уравнение в целом незначимо и ненадёжно и не может использоваться в дальнейшем для анализа и прогноза.

R — значит регрессия

Статистика в последнее время получила мощную PR поддержку со стороны более новых и шумных дисциплин — Машинного Обучения и Больших Данных. Тем, кто стремится оседлать эту волну необходимо подружится с уравнениями регрессии. Желательно при этом не только усвоить 2-3 приемчика и сдать экзамен, а уметь решать проблемы из повседневной жизни: найти зависимость между переменными, а в идеале — уметь отличить сигнал от шума.

Для этой цели мы будем использовать язык программирования и среду разработки R, который как нельзя лучше приспособлен к таким задачам. Заодно, проверим от чего зависят рейтинг Хабрапоста на статистике собственных статей.

Введение в регрессионный анализ

Если имеется корреляционная зависимость между переменными y и x , возникает необходимость определить функциональную связь между двумя величинами. Зависимость среднего значения называется регрессией y по x .

Основу регрессионного анализа составляет метод наименьших квадратов (МНК), в соответствии с которым в качестве уравнения регресии берется функция такая, что сумма квадратов разностей минимальна.

Карл Гаусс открыл, или точнее воссоздал, МНК в возрасте 18 лет, однако впервые результаты были опубликованы Лежандром в 1805 г. По непроверенным данным метод был известен еще в древнем Китае, откуда он перекочевал в Японию и только затем попал в Европу. Европейцы не стали делать из этого секрета и успешно запустили в производство, обнаружив с его помощью траекторию карликовой планеты Церес в 1801 г.

Вид функции , как правило, определен заранее, а с помощью МНК подбираются оптимальные значения неизвестных параметров. Метрикой рассеяния значений вокруг регрессии является дисперсия.

  • k — число коэффициентов в системе уравнений регрессии.

Чаще всего используется модель линейной регрессии, а все нелинейные зависимости приводят к линейному виду с помощью алгебраических ухищрений, различных преобразования переменных y и x .

Линейная регрессия

Уравнения линейной регрессии можно записать в виде

В матричном виде это выгладит

  • y — зависимая переменная;
  • x — независимая переменная;
  • β — коэффициенты, которые необходимо найти с помощью МНК;
  • ε — погрешность, необъяснимая ошибка и отклонение от линейной зависимости;

Случайная величина может быть интерпретирована как сумма из двух слагаемых:

  • полная дисперсия (TSS).
  • объясненная часть дисперсии (ESS).
  • остаточная часть дисперсии (RSS).

Еще одно ключевое понятие — коэффициент корреляции R 2 .

Ограничения линейной регрессии

Для того, чтобы использовать модель линейной регрессии необходимы некоторые допущения относительно распределения и свойств переменных.

  1. Линейность, собственно. Увеличение, или уменьшение вектора независимых переменных в k раз, приводит к изменению зависимой переменной также в k раз.
  2. Матрица коэффициентов обладает полным рангом, то есть векторы независимых переменных линейно независимы.
  3. Экзогенность независимых переменных. Это требование означает, что математическое ожидание погрешности никоим образом нельзя объяснить с помощью независимых переменных.
  4. Однородность дисперсии и отсутствие автокорреляции. Каждая εi обладает одинаковой и конечной дисперсией σ 2 и не коррелирует с другой εi. Это ощутимо ограничивает применимость модели линейной регрессии, необходимо удостовериться в том, что условия соблюдены, иначе обнаруженная взаимосвязь переменных будет неверно интерпретирована.

Как обнаружить, что перечисленные выше условия не соблюдены? Ну, во первых довольно часто это видно невооруженным глазом на графике.

Неоднородность дисперсии

При возрастании дисперсии с ростом независимой переменной имеем график в форме воронки.

Нелинейную регрессии в некоторых случая также модно увидеть на графике довольно наглядно.

Тем не менее есть и вполне строгие формальные способы определить соблюдены ли условия линейной регрессии, или нарушены.

  • Автокорреляция проверяется статистикой Дарбина-Уотсона (0 ≤ d ≤ 4). Если автокорреляции нет, то значения критерия d≈2, при позитивной автокорреляции d≈0, при отрицательной — d≈4.
  • Неоднородность дисперсии — Тест Уайта, , при \chi<^2>_<\alpha;m-1>$» data-tex=»inline»/> нулевая гипотеза отвергается и констатируется наличие неоднородной дисперсии. Используя ту же можно еще применить тест Бройша-Пагана.
  • Мультиколлинеарность — нарушения условия об отсутствии взаимной линейной зависимости между независимыми переменными. Для проверки часто используют VIF-ы (Variance Inflation Factor).

В этой формуле — коэффициент взаимной детерминации между и остальными факторами. Если хотя бы один из VIF-ов > 10, вполне резонно предположить наличие мультиколлинеарности.

Почему нам так важно соблюдение всех выше перечисленных условий? Все дело в Теореме Гаусса-Маркова, согласно которой оценка МНК является точной и эффективной лишь при соблюдении этих ограничений.

Как преодолеть эти ограничения

Нарушения одной или нескольких ограничений еще не приговор.

  1. Нелинейность регрессии может быть преодолена преобразованием переменных, например через функцию натурального логарифма ln .
  2. Таким же способом возможно решить проблему неоднородной дисперсии, с помощью ln , или sqrt преобразований зависимой переменной, либо же используя взвешенный МНК.
  3. Для устранения проблемы мультиколлинеарности применяется метод исключения переменных. Суть его в том, что высоко коррелированные объясняющие переменные устраняются из регрессии, и она заново оценивается. Критерием отбора переменных, подлежащих исключению, является коэффициент корреляции. Есть еще один способ решения данной проблемы, который заключается в замене переменных, которым присуща мультиколлинеарность, их линейной комбинацией. Этим весь список не исчерпывается, есть еще пошаговая регрессия и другие методы.

К сожалению, не все нарушения условий и дефекты линейной регрессии можно устранить с помощью натурального логарифма. Если имеет место автокорреляция возмущений к примеру, то лучше отступить на шаг назад и построить новую и лучшую модель.

Линейная регрессия плюсов на Хабре

Итак, довольно теоретического багажа и можно строить саму модель.
Мне давно было любопытно от чего зависит та самая зелененькая цифра, что указывает на рейтинг поста на Хабре. Собрав всю доступную статистику собственных постов, я решил прогнать ее через модель линейно регрессии.

Загружает данные из tsv файла.

  • points — Рейтинг статьи
  • reads — Число просмотров.
  • comm — Число комментариев.
  • faves — Добавлено в закладки.
  • fb — Поделились в социальных сетях (fb + vk).
  • bytes — Длина в байтах.

Вопреки моим ожиданиям наибольшая отдача не от количества просмотров статьи, а от комментариев и публикаций в социальных сетях. Я также полагал, что число просмотров и комментариев будет иметь более сильную корреляцию, однако зависимость вполне умеренная — нет надобности исключать ни одну из независимых переменных.

Теперь собственно сама модель, используем функцию lm .

В первой строке мы задаем параметры линейной регрессии. Строка points

. определяет зависимую переменную points и все остальные переменные в качестве регрессоров. Можно определить одну единственную независимую переменную через points

reads , набор переменных — points

Перейдем теперь к расшифровке полученных результатов.

  • Intercept — Если у нас модель представлена в виде , то тогда — точка пересечения прямой с осью координат, или intercept .
  • R-squared — Коэффициент детерминации указывает насколько тесной является связь между факторами регрессии и зависимой переменной, это соотношение объясненных сумм квадратов возмущений, к необъясненным. Чем ближе к 1, тем ярче выражена зависимость.
  • Adjusted R-squared — Проблема с в том, что он по любому растет с числом факторов, поэтому высокое значение данного коэффициента может быть обманчивым, когда в модели присутствует множество факторов. Для того, чтобы изъять из коэффициента корреляции данное свойство был придуман скорректированный коэффициент детерминации .
  • F-statistic — Используется для оценки значимости модели регрессии в целом, является соотношением объяснимой дисперсии, к необъяснимой. Если модель линейной регрессии построена удачно, то она объясняет значительную часть дисперсии, оставляя в знаменателе малую часть. Чем больше значение параметра — тем лучше.
  • t value — Критерий, основанный на t распределении Стьюдента . Значение параметра в линейной регрессии указывает на значимость фактора, принято считать, что при t > 2 фактор является значимым для модели.
  • p value — Это вероятность истинности нуль гипотезы, которая гласит, что независимые переменные не объясняют динамику зависимой переменной. Если значение p value ниже порогового уровня (.05 или .01 для самых взыскательных), то нуль гипотеза ложная. Чем ниже — тем лучше.

Можно попытаться несколько улучшить модель, сглаживая нелинейные факторы: комментарии и посты в социальных сетях. Заменим значения переменных fb и comm их степенями.

Проверим значения параметров линейной регрессии.

Как видим в целом отзывчивость модели возросла, параметры подтянулись и стали более шелковистыми , F-статистика выросла, так же как и скорректированный коэффициент детерминации .

Проверим, соблюдены ли условия применимости модели линейной регрессии? Тест Дарбина-Уотсона проверяет наличие автокорреляции возмущений.

И напоследок проверка неоднородности дисперсии с помощью теста Бройша-Пагана.

В заключение

Конечно наша модель линейной регрессии рейтинга Хабра-топиков получилось не самой удачной. Нам удалось объяснить не более, чем половину вариативности данных. Факторы надо чинить, чтобы избавляться от неоднородной дисперсии, с автокорреляцией тоже непонятно. Вообще данных маловато для сколь-нибудь серьезной оценки.

Но с другой стороны, это и хорошо. Иначе любой наспех написанный тролль-пост на Хабре автоматически набирал бы высокий рейтинг, а это к счастью не так.

Эконометрика

ФЕДЕРАЛЬНОЕ АГЕНТСТВО ПО ОБРАЗОВАНИЮ

ГОСУДАРСТВЕННОЕ ОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ ВЫСШЕГО ПРОФЕССИОНАЛЬНОГО ОБРАЗОВАНИЯ

ВСЕРОССИЙСКИЙ ЗАОЧНЫЙ ФИНАНСОВО-ЭКОНОМИЧЕСКИЙ

Кафедра экономико-метематических моделей

Тема 4. Множественная регрессия.

Вопросы

1. Нелинейная регрессия. Нелинейные модели и их линеаризация.

Нелинейная регрессия

При рассмотрении зависимости экономических показателей на основе реальных статистических данных с использованием аппарата теории вероятности и математической статистики можно сделать выводы, что линейные зависимости встречаются не так часто. Линейные зависимости рассматриваются лишь как частный случай для удобства и наглядности рассмотрения протекаемого экономического процесса. Чаще встречаются модели которые отражают экономические процессы в виде нелинейной зависимости.

Если между экономическими явлениями существуют не­линейные соотношения, то они выражаются с помощью со­ответствующих нелинейных функций.

Различают два класса нелинейных регрессий:

    регрессии, нелинейные относительно включенных в анализ объясняющих пе­ременных, но линейные по оцениваемым параметрам: регрессии, нелинейные по оцениваемым параметрам.

Нелинейные регрессии по включаемым в нее объясня­ющим переменным, но линейные по оцениваемым пара­метрам

Данный класс нелинейных регрессий включает уравне­ния, в которых зависимая переменная линейно связана с параметрами. Примером могут служить:

полиномы разных степеней

(полином k-й степени)

и равносторонняя гипербола

.

При оценке параметров регрессий нелинейных по объясняю­щим переменным используется подход, именуе­мый «замена переменных». Суть его состоит в замене «нели­нейных» объясняющих переменных новыми «линейными» переменными и сведение нелинейной регрессии к линейной регрессии. К новой «преобразованной» регрессии может быть приме­нен обычный метод наименьших квадратов (МНК).

Полином любого порядка сводится к ли­нейной регрессии с ее методами оценивания параметров и проверки гипотез.

Среди нелинейной полиноминальной регрессии чаще всего используется парабола второй степени; в отдельных случаях — полином третьего порядка. Ограничение в ис­пользовании полиномов более высоких степеней связаны с требованием однородности исследуемой совокупности: чем выше порядок полинома, тем больше изгибов имеет кривая и, соответственно, менее однородна совокупность по резуль­тативному признаку.

Равносторонняя ги­пербола, для оценки параметров которой используется тот же подход «замены переменных» (1/x заменяют на переменную z) хорошо известна в эконометрике.

Она может быть использована, например, для характеристики связи удельных расходов сы­рья, материалов и топлива с объемом выпускаемой продукции. Также примером использования равносторонней ги­перболы являются кривые Филлипса и Энгеля..

Регрессии нелинейные по оцениваемым параметрам

К данному классу регрессий относятся уравнения, в которых зависимая переменная нелинейно связана с параметрами. Примером таких нелинейных регрессий являются функции:

• степенная — ;

• показательная — ;

• экспоненциальная —

Если нелинейная модель внутренне линейна, то она с по­мощью соответствующих преобразований может быть при­ведена к линейному виду (например, логарифмированием и заменой переменных). Если же нелинейная модель внут­ренне нелинейна, то она не может быть сведена к линейной функции и для оценки её параметров используются итеративные процедуры, успешность которых зависит от вида уравнений и особен­ностей применяемого итеративного подхода.

Примером нелинейной по параметрам регрессии внут­ренне линейной является степенная функция, которая ши­роко используется в эконометрических исследованиях при изучении спроса от цен: , где у — спрашиваемое количество; х — цена;

Данная модель нелинейна относительно оцениваемых параметров, т. к. включает параметры а и b неаддитивно. Однако ее можно считать внутренне линейной, ибо логариф­мирование данного уравнения по основанию е приводит его к линейному виду . Заменив пе­ременные и параметры, получим линейную регрессию, оцен­ки параметров которой а и b могут быть найдены МНК.

Ши­рокое использование степенной функции связано это с тем, что параметр b в ней имеет четкое экономическое истолко­вание, т. е. он является коэффициентом эластичности. Это значит, что величина коэффициента b показывает, на сколько процентов изменится в среднем результат, если фактор изменится на 1 %.

Коэффициент эластичности можно определять и при наличии других форм связи, но только для степенной функ­ции он представляет собой постоянную величину, равную па­раметру b.

По семи предприятиям легкой промышленности региона получена информация, характеризующая зависимость объема выпуска продукции (Y, млн. руб.) от объема капиталовложений ( Х, млн. руб. ).


источники:

http://habr.com/ru/post/350668/

http://pandia.ru/text/77/203/77731.php