В уравнении регрессии y abx

Уравнение нелинейной регрессии

Вместе с этим калькулятором также используют следующие:
Уравнение множественной регрессии

Виды нелинейной регрессии

ВидКласс нелинейных моделей
  1. Полиномальное уравнение регрессии:
    y = a + bx + cx 2 (см. метод выравнивания)
  2. Гиперболическое уравнение регрессии:
  3. Квадратичное уравнение регрессии:
Нелинейные относительно включенных в анализ объясняющих переменных, но линейные по оцениваемым параметрам
  1. Показательное уравнение регрессии:
  2. Экспоненциальное уравнение регрессии:
  3. Степенное уравнение регрессии:
  4. Полулогарифмическое уравнение регрессии: y = a + b lg(x)
Нелинейные по оцениваемым параметрам

Здесь ε — случайная ошибка (отклонение, возмущение), отражающая влияние всех неучтенных факторов.

Уравнению регрессии первого порядка — это уравнение парной линейной регрессии.

Уравнение регрессии второго порядка это полиномальное уравнение регрессии второго порядка: y = a + bx + cx 2 .

Уравнение регрессии третьего порядка соответственно полиномальное уравнение регрессии третьего порядка: y = a + bx + cx 2 + dx 3 .

Чтобы привести нелинейные зависимости к линейной используют методы линеаризации (см. метод выравнивания):

  1. Замена переменных.
  2. Логарифмирование обеих частей уравнения.
  3. Комбинированный.
y = f(x)ПреобразованиеМетод линеаризации
y = b x aY = ln(y); X = ln(x)Логарифмирование
y = b e axY = ln(y); X = xКомбинированный
y = 1/(ax+b)Y = 1/y; X = xЗамена переменных
y = x/(ax+b)Y = x/y; X = xЗамена переменных. Пример
y = aln(x)+bY = y; X = ln(x)Комбинированный
y = a + bx + cx 2x1 = x; x2 = x 2Замена переменных
y = a + bx + cx 2 + dx 3x1 = x; x2 = x 2 ; x3 = x 3Замена переменных
y = a + b/xx1 = 1/xЗамена переменных
y = a + sqrt(x)bx1 = sqrt(x)Замена переменных

Пример . По данным, взятым из соответствующей таблицы, выполнить следующие действия:

  1. Построить поле корреляции и сформулировать гипотезу о форме связи.
  2. Рассчитать параметры уравнений линейной, степенной, экспоненциальной, полулогарифмической, обратной, гиперболической парной регрессии.
  3. Оценить тесноту связи с помощью показателей корреляции и детерминации.
  4. Дать с помощью среднего (общего) коэффициента эластичности сравнительную оценку силы связи фактора с результатом.
  5. Оценить с помощью средней ошибки аппроксимации качество уравнений.
  6. Оценить с помощью F-критерия Фишера статистическую надежность результатов регрессионного моделирования. По значениям характеристик, рассчитанных в пп. 4, 5 и данном пункте, выбрать лучшее уравнение регрессии и дать его обоснование.
  7. Рассчитать прогнозное значение результата, если прогнозное значение фактора увеличится на 15% от его среднего уровня. Определить доверительный интервал прогноза для уровня значимости α=0,05 .
  8. Оценить полученные результаты, выводы оформить в аналитической записке.
ГодФактическое конечное потребление домашних хозяйств (в текущих ценах), млрд. руб. (1995 г. — трлн. руб.), yСреднедушевые денежные доходы населения (в месяц), руб. (1995 г. — тыс. руб.), х
1995872515,9
200038132281,1
200150143062
200264003947,2
200377085170,4
200498486410,3
2005124558111,9
20061528410196
20071892812602,7
20082369514940,6
20092515116856,9

Решение. В калькуляторе последовательно выбираем виды нелинейной регрессии. Получим таблицу следующего вида.
Экспоненциальное уравнение регрессии имеет вид y = a e bx
После линеаризации получим: ln(y) = ln(a) + bx
Получаем эмпирические коэффициенты регрессии: b = 0.000162, a = 7.8132
Уравнение регрессии: y = e 7.81321500 e 0.000162x = 2473.06858e 0.000162x

Степенное уравнение регрессии имеет вид y = a x b
После линеаризации получим: ln(y) = ln(a) + b ln(x)
Эмпирические коэффициенты регрессии: b = 0.9626, a = 0.7714
Уравнение регрессии: y = e 0.77143204 x 0.9626 = 2.16286x 0.9626

Гиперболическое уравнение регрессии имеет вид y = b/x + a + ε
После линеаризации получим: y=bx + a
Эмпирические коэффициенты регрессии: b = 21089190.1984, a = 4585.5706
Эмпирическое уравнение регрессии: y = 21089190.1984 / x + 4585.5706

Логарифмическое уравнение регрессии имеет вид y = b ln(x) + a + ε
Эмпирические коэффициенты регрессии: b = 7142.4505, a = -49694.9535
Уравнение регрессии: y = 7142.4505 ln(x) — 49694.9535

линейная регрессия и корреляция, ее применение в эконометрических исследованиях.

Лин регрессия сводится к нахождению уравнения вида y=a+bx+e графически вид: имеет широкое применения в связи с легкостью интерпретации ее параметров параметры a=

Уравн регрессии всегда дополняется показат тесноты связи. Для линейной функции таким показателем является выборочный линейный коэффициент корреляции, который рассчитывается по формуле:

Линейный коэффициент корреляции принимает значения от –1 до +1. Связи между признаками могут быть слабыми и сильными (тесными). Их критерии оцениваются по шкале Чеддока:

0.1 2 — Квадрат коэффициента корреляции называется коэффициентом детерминации, который показывает долю вариации результативного признака, объясненную вариацией факторного признака.(%)

8.предпосылки МНК

При оценке параметров применяется МНК при этом делаются определенные предпосылки касаемо случ составл e в модели y=a+bx+e e=уфакт-утеор при измен специфик могут меняться, поэтому в звдвчу регр анализа входит также исследование случ остатков e после постр уравн регр проводтся проверка наличия у случ остатков св-в: несмещенность( мат.ожидание =0, если несм.то их можно сравнивать) эффективность(характеризуются наименьшей дисперсией)состоятельность(увеличение точности с увел выборки)

Условия для получения несмещенных,эффективных,состоятельных оценок представляют собой предпосылки МНК:1) случ характер остатков (график зависимости остатков от теор значений, если случайны– мнк оправдан)

2)средняя величина остатков=0, не зависит от х( график зависимости e от х, если зависят модель не адекватна)

3)дисперсия остатков гомоскедастична(для каждого х остатки e имеют одинаковую дисперсию, можно увидеть из поля корреляции) 4)отсутствие автокорреляции остатков(значения остатков e распределены независимо друг от друга) для этого рассчитывается коэфф авткорр остатков если сильно отличен от 0 то оценки состоятельны и эффективны) при несоблюдении основных предпосылок необходимо менять спецификацию, добавлять и исключать факторы, преобразовывать данные для получения оценок коэфф регрессии которые обладают св-м несмещенности, имеют меньшее значение дисперсии остатков и обеспеч более эфф стат проверку

9.оценка существенности параметров линейной регрессии и корреляции t-критерий и его связь с F-критерием

Для оценки статистической значимости коэффициентов регрессии и корреляции рассчитываются t-критерий Стьюдента. Чтобы проверить, значимы ли параметры, т.е. значимо ли они отличаются от нуля, выдвигается гипотиза H0 и проверяется на основе сравнения табличного значенияс фактическим.Для расчета значимости параметра b и нахождения t-критерия рассчитывается его ст ошибка величина ошибки совместно с t-критерием стьюдента исп для проверки существенности коэфф регрессии b, где его величина сравнивается с его ст ошибкой т.е опред tфакт

сравнивается с tтабл если больше табличного значения tкрит (n-m-1;α/2) – то коэффициент регрессии/параметр b является существенным и значимым

Значимость коэфф корр на основе величины ошибки tr=tb=

10.Интервалы прогноза по линейному уравнению регрессии

В прогнозных расчетах по ур регрессии опред упредск путем подстановки х в уравнение, но точечный прогноз явно нереален поэтому рассчитывается ст ошибка упредск и интервальн оценка прогнозного значения у *

Подставив знач а в уравн регрессии видим что ст ошибка утеор зависит от ошибки уср и ошибки b

Эта формула ст ошибки при заданном значении xp характ ошибку полож линии регрессии величина ош мин, когда хср=хр и возр по мере того как удаляется от хср

Для упрогн интервал :

11. Нелинейная регрессия и корреляция

Если между эк явл существуют нелин соотн, то они выраж с помощью соотв нелинейных ф-й. Различают два класса нелинейных регрессий:1. Регрессии, нелинейные относительно включенных в анализ

объясняющих переменных, но линейные по оцениваемым параметрам,

– полиномы различных степеней yx = a + bx + cx 2 ,

равносторонняя гипербола – y=a+b/x

полулогарифм ф-ии y=a+b*lnx

2. Регрессии, нелинейные по оцениваемым параметрам, например

– экспоненциальная – y = e a + bx .

Регрессии нелин по вкл переменным приводятся к лин виду простой заменой переменных, а дальнейшая оценка параметров производится с помощью МНК. Парабола второй степени y = a + bx + cx 2 приводится к линейному виду с помощью замены:

x1 = x , x2 = x 2 . В результате приходим к двухфакторному уравнению

Равносторонняя гипербола y = a + b/x гипербола приводится к линейному уравнению простойзаменой: z = 1/x Аналог способом замены приводятся др функции Несколько иначе обстоит дело с регрессиями нелинейными пооцениваемым параметрам, которые делятся на два типа: нелинейные моделивнутренне линейные (приводятся к линейному и модели внутренне нелинейные (к линейному виду не приводятся).К внутренне линейным моделям относятся, например, Степенная Y(X)=A0*X1 A 1 *X2 A 2 *…*XK AK Показательная Y(X)=e A 0+ A 1* X 1+ A 2* X 2+…+ Ak * Xk обратная . Для оценки параметров функции линеаризируются путем логарифмирования и для МНК применяются уже преобразованные данные, после этого функция потенцируется. Для оценки тесноты связи нелинейной регрессии служит индекс корреляции: принимает значения от –1 до +1. Связи между признаками могут быть 0

R — значит регрессия

Статистика в последнее время получила мощную PR поддержку со стороны более новых и шумных дисциплин — Машинного Обучения и Больших Данных. Тем, кто стремится оседлать эту волну необходимо подружится с уравнениями регрессии. Желательно при этом не только усвоить 2-3 приемчика и сдать экзамен, а уметь решать проблемы из повседневной жизни: найти зависимость между переменными, а в идеале — уметь отличить сигнал от шума.

Для этой цели мы будем использовать язык программирования и среду разработки R, который как нельзя лучше приспособлен к таким задачам. Заодно, проверим от чего зависят рейтинг Хабрапоста на статистике собственных статей.

Введение в регрессионный анализ

Если имеется корреляционная зависимость между переменными y и x , возникает необходимость определить функциональную связь между двумя величинами. Зависимость среднего значения называется регрессией y по x .

Основу регрессионного анализа составляет метод наименьших квадратов (МНК), в соответствии с которым в качестве уравнения регресии берется функция такая, что сумма квадратов разностей минимальна.

Карл Гаусс открыл, или точнее воссоздал, МНК в возрасте 18 лет, однако впервые результаты были опубликованы Лежандром в 1805 г. По непроверенным данным метод был известен еще в древнем Китае, откуда он перекочевал в Японию и только затем попал в Европу. Европейцы не стали делать из этого секрета и успешно запустили в производство, обнаружив с его помощью траекторию карликовой планеты Церес в 1801 г.

Вид функции , как правило, определен заранее, а с помощью МНК подбираются оптимальные значения неизвестных параметров. Метрикой рассеяния значений вокруг регрессии является дисперсия.

  • k — число коэффициентов в системе уравнений регрессии.

Чаще всего используется модель линейной регрессии, а все нелинейные зависимости приводят к линейному виду с помощью алгебраических ухищрений, различных преобразования переменных y и x .

Линейная регрессия

Уравнения линейной регрессии можно записать в виде

В матричном виде это выгладит

  • y — зависимая переменная;
  • x — независимая переменная;
  • β — коэффициенты, которые необходимо найти с помощью МНК;
  • ε — погрешность, необъяснимая ошибка и отклонение от линейной зависимости;

Случайная величина может быть интерпретирована как сумма из двух слагаемых:

  • полная дисперсия (TSS).
  • объясненная часть дисперсии (ESS).
  • остаточная часть дисперсии (RSS).

Еще одно ключевое понятие — коэффициент корреляции R 2 .

Ограничения линейной регрессии

Для того, чтобы использовать модель линейной регрессии необходимы некоторые допущения относительно распределения и свойств переменных.

  1. Линейность, собственно. Увеличение, или уменьшение вектора независимых переменных в k раз, приводит к изменению зависимой переменной также в k раз.
  2. Матрица коэффициентов обладает полным рангом, то есть векторы независимых переменных линейно независимы.
  3. Экзогенность независимых переменных. Это требование означает, что математическое ожидание погрешности никоим образом нельзя объяснить с помощью независимых переменных.
  4. Однородность дисперсии и отсутствие автокорреляции. Каждая εi обладает одинаковой и конечной дисперсией σ 2 и не коррелирует с другой εi. Это ощутимо ограничивает применимость модели линейной регрессии, необходимо удостовериться в том, что условия соблюдены, иначе обнаруженная взаимосвязь переменных будет неверно интерпретирована.

Как обнаружить, что перечисленные выше условия не соблюдены? Ну, во первых довольно часто это видно невооруженным глазом на графике.

Неоднородность дисперсии

При возрастании дисперсии с ростом независимой переменной имеем график в форме воронки.

Нелинейную регрессии в некоторых случая также модно увидеть на графике довольно наглядно.

Тем не менее есть и вполне строгие формальные способы определить соблюдены ли условия линейной регрессии, или нарушены.

  • Автокорреляция проверяется статистикой Дарбина-Уотсона (0 ≤ d ≤ 4). Если автокорреляции нет, то значения критерия d≈2, при позитивной автокорреляции d≈0, при отрицательной — d≈4.
  • Неоднородность дисперсии — Тест Уайта, , при \chi<^2>_<\alpha;m-1>$» data-tex=»inline»/> нулевая гипотеза отвергается и констатируется наличие неоднородной дисперсии. Используя ту же можно еще применить тест Бройша-Пагана.
  • Мультиколлинеарность — нарушения условия об отсутствии взаимной линейной зависимости между независимыми переменными. Для проверки часто используют VIF-ы (Variance Inflation Factor).

В этой формуле — коэффициент взаимной детерминации между и остальными факторами. Если хотя бы один из VIF-ов > 10, вполне резонно предположить наличие мультиколлинеарности.

Почему нам так важно соблюдение всех выше перечисленных условий? Все дело в Теореме Гаусса-Маркова, согласно которой оценка МНК является точной и эффективной лишь при соблюдении этих ограничений.

Как преодолеть эти ограничения

Нарушения одной или нескольких ограничений еще не приговор.

  1. Нелинейность регрессии может быть преодолена преобразованием переменных, например через функцию натурального логарифма ln .
  2. Таким же способом возможно решить проблему неоднородной дисперсии, с помощью ln , или sqrt преобразований зависимой переменной, либо же используя взвешенный МНК.
  3. Для устранения проблемы мультиколлинеарности применяется метод исключения переменных. Суть его в том, что высоко коррелированные объясняющие переменные устраняются из регрессии, и она заново оценивается. Критерием отбора переменных, подлежащих исключению, является коэффициент корреляции. Есть еще один способ решения данной проблемы, который заключается в замене переменных, которым присуща мультиколлинеарность, их линейной комбинацией. Этим весь список не исчерпывается, есть еще пошаговая регрессия и другие методы.

К сожалению, не все нарушения условий и дефекты линейной регрессии можно устранить с помощью натурального логарифма. Если имеет место автокорреляция возмущений к примеру, то лучше отступить на шаг назад и построить новую и лучшую модель.

Линейная регрессия плюсов на Хабре

Итак, довольно теоретического багажа и можно строить саму модель.
Мне давно было любопытно от чего зависит та самая зелененькая цифра, что указывает на рейтинг поста на Хабре. Собрав всю доступную статистику собственных постов, я решил прогнать ее через модель линейно регрессии.

Загружает данные из tsv файла.

  • points — Рейтинг статьи
  • reads — Число просмотров.
  • comm — Число комментариев.
  • faves — Добавлено в закладки.
  • fb — Поделились в социальных сетях (fb + vk).
  • bytes — Длина в байтах.

Вопреки моим ожиданиям наибольшая отдача не от количества просмотров статьи, а от комментариев и публикаций в социальных сетях. Я также полагал, что число просмотров и комментариев будет иметь более сильную корреляцию, однако зависимость вполне умеренная — нет надобности исключать ни одну из независимых переменных.

Теперь собственно сама модель, используем функцию lm .

В первой строке мы задаем параметры линейной регрессии. Строка points

. определяет зависимую переменную points и все остальные переменные в качестве регрессоров. Можно определить одну единственную независимую переменную через points

reads , набор переменных — points

Перейдем теперь к расшифровке полученных результатов.

  • Intercept — Если у нас модель представлена в виде , то тогда — точка пересечения прямой с осью координат, или intercept .
  • R-squared — Коэффициент детерминации указывает насколько тесной является связь между факторами регрессии и зависимой переменной, это соотношение объясненных сумм квадратов возмущений, к необъясненным. Чем ближе к 1, тем ярче выражена зависимость.
  • Adjusted R-squared — Проблема с в том, что он по любому растет с числом факторов, поэтому высокое значение данного коэффициента может быть обманчивым, когда в модели присутствует множество факторов. Для того, чтобы изъять из коэффициента корреляции данное свойство был придуман скорректированный коэффициент детерминации .
  • F-statistic — Используется для оценки значимости модели регрессии в целом, является соотношением объяснимой дисперсии, к необъяснимой. Если модель линейной регрессии построена удачно, то она объясняет значительную часть дисперсии, оставляя в знаменателе малую часть. Чем больше значение параметра — тем лучше.
  • t value — Критерий, основанный на t распределении Стьюдента . Значение параметра в линейной регрессии указывает на значимость фактора, принято считать, что при t > 2 фактор является значимым для модели.
  • p value — Это вероятность истинности нуль гипотезы, которая гласит, что независимые переменные не объясняют динамику зависимой переменной. Если значение p value ниже порогового уровня (.05 или .01 для самых взыскательных), то нуль гипотеза ложная. Чем ниже — тем лучше.

Можно попытаться несколько улучшить модель, сглаживая нелинейные факторы: комментарии и посты в социальных сетях. Заменим значения переменных fb и comm их степенями.

Проверим значения параметров линейной регрессии.

Как видим в целом отзывчивость модели возросла, параметры подтянулись и стали более шелковистыми , F-статистика выросла, так же как и скорректированный коэффициент детерминации .

Проверим, соблюдены ли условия применимости модели линейной регрессии? Тест Дарбина-Уотсона проверяет наличие автокорреляции возмущений.

И напоследок проверка неоднородности дисперсии с помощью теста Бройша-Пагана.

В заключение

Конечно наша модель линейной регрессии рейтинга Хабра-топиков получилось не самой удачной. Нам удалось объяснить не более, чем половину вариативности данных. Факторы надо чинить, чтобы избавляться от неоднородной дисперсии, с автокорреляцией тоже непонятно. Вообще данных маловато для сколь-нибудь серьезной оценки.

Но с другой стороны, это и хорошо. Иначе любой наспех написанный тролль-пост на Хабре автоматически набирал бы высокий рейтинг, а это к счастью не так.


источники:

http://poisk-ru.ru/s47441t1.html

http://habr.com/ru/post/350668/