Линеаризация полиномиальных уравнений регрессии представлена

Линеаризация нелинейных моделей регрессии

Вы будете перенаправлены на Автор24

Понятие регрессии

Регрессия – это односторонняя зависимость, которая устанавливает соответствие между случайными величинам.

Сущность регрессии заключается в том, чтобы через математическое выражение установить связь между зависимой и независимыми переменными. Ее отличительной особенностью от функциональной зависимости является тот факт, что каждому значению независимой соответствует одно определенное значение зависимой. В регрессионной связи одной и той же величине могут соответствовать абсолютно разные величины.

Впервые регрессию стали использовать в конце девятнадцатого века. Она была применена для установления зависимости между параметрами человека. Регрессию смогли перенести на плоскость. Точки легли на одну прямую, поэтому ее назвали линейной.

Построение линейной регрессии подразумевает, что ошибок в ней нет. Тогда распределение величин происходит под влиянием нормального закона. То есть, среднее значение равно нулю, а отклонение постоянно.

Чтобы вычислить параметры модели часто применяют программное обеспечение. Оно позволяет обрабатывать большие массивы информации с минимальными ошибками. Существуют специальные методы, позволяющие проверить величину отклонения. Ошибки необходимы для того, чтобы находить доверительные интервалы и проверять выдвинутые в начале исследования гипотезы. Например, в статистике используется критерий Стьюдента, позволяющий сопоставить средние значения двух выборок.

Самое простое представление регрессии состоит из зависимости между соотношениями случайной и независимой величины. Этот подход необходим для установления функциональной связи, если величины не случайны. В практической деятельности коэффициенты неизвестны, поэтому их исследуют с помощью экспериментальных данных.

Нелинейные модели регрессии

Построение нелинейной регрессии осуществляется для того, чтобы провести анализ. В нем экспериментальные данные записываются в функциональную зависимость, описывающей нелинейную комбинацию, представляющую модель, которая зависит от одной или нескольких переменных. Чтобы приблизить полученные данные к практическим величинам используется метод последовательных приближений.

Готовые работы на аналогичную тему

Этот метод заключается в следующем. Исследователем определяются корни уравнения или системы уравнений для того, чтобы упростить решаемую задачу, либо определить неизвестные параметры.

Структура нелинейной регрессии состоит из независимых и зависимых переменных. Для каждой переменной устанавливается случайная величина со средним значением. Погрешность может появиться, но есть ее обрабатывать, то она выйдет за пределы модели. В случае, если переменные не свободны, то модель становится ошибочной, поэтому для исследования становится непригодной.

Вот некоторые примеры нелинейных функций:

  • Показательные.
  • Логарифмические.
  • Тригонометрические.
  • Степенные.
  • Функция Гаусса.
  • Кривые Лоуренца.

В некоторых случаях регрессионный анализ может быть сведен к линейному, но данный способ должен применяться с осторожностью. Чтобы получить наилучший вариант расчета применяются оптимизационные алгоритмы. На практике могут применяться оценочные значения совместно с методиками оптимизации. В результате надо найти глобальный минимум суммы квадратов.

Нелинейная регрессия чаще всего применяется, как статистика линейной. Это позволяет сместить статистику, поэтому полученные данные интерпретируются с осторожностью.

Линеаризация нелинейных моделей регрессии

Линеаризация – это преобразование. Оно осуществляется для того, чтобы упростить определенные модели и вычисления. Например, применение логарифма к обеим частям линейной регрессии позволяет оценить неизвестные параметры более простым способом.

Но использование нелинейного изменения уравнения требует осторожности. Это связано с тем, что данные будут изменяться. Поэтому появятся ошибки модели. Их интерпретация может привести к ошибочному суждению о гипотезе. Обычно в нелинейных уравнениях используется модель Гаусса для исследования ошибок, что необходимо учитывать при проверке.

В которых случаях применяется уравнение Лайнуивер – Берк, либо обобщенная линейная модель.

Чтобы уточнить построенную модель и снизить вероятность ошибок, независимая переменная разбивается на классы. Вследствие этого линейная регрессия разбивается посегментно. Она может дать результат, в котором будет видно, как ведет себя параметр в зависимом положении. Отображение изменений производится графически.

То есть сущность линеаризации заключается в том, что исследователь применяет особые методики для того, чтобы провести преобразования исходных данных. Это позволяет исследовать нелинейную зависимость. Переменные нелинейного уравнения преобразуются с помощью специальных методик в линейные. Это может привести к ошибкам, что необходимо учитывать в процессе преобразования уравнения. Метод может быть опасным, так как влияет на результат вычислений.

Сущность метода заключается в том, что нелинейные переменные заменяются линейными. Регрессия сводится к линейной. Такой подход часто используется для полиномов. Далее применяются известные и простые оценки исследования линейных регрессии. Но изменение полиномов должно так же проводиться с осторожностью. Чем выше порядок полинома, тем сложнее удержаться в рамках реалистичной интерпретации коэффициентов регрессии.

В логарифмических моделях составляется линейная модель с новыми переменными. Оценка результата происходит с помощью метода наименьших квадратов. Эта методика подходит для исследования кривых спроса и предложения, производственных функций, кривых освоения связи между трудоемкостью и производственными масштабами. Такой подход актуален при запуске новых видов продукции.

Методы линеаризации функции регрессии

Один из подходов оценки параметров нелинейных моделей состоит в линеаризации модели. Линеаризация модели заключается в том, что с помощью подходящих преобразований исходных переменных исследуемую зависимость представляют в виде линейного соотношения между преобразованными переменными. В рамках этого подхода различают два класса нелинейных регрессионных моделей, допускающих линеаризацию: а) модели, нелинейные относительно включенных в модель переменных, но линейных по оцениваемым параметрам; б) модели, нелинейные по оцениваемым параметрам.

Примером нелинейной регрессии, но линейной по оцениваемым параметрам, могут служить следующие функции: полиномы различных степеней, например

;

.

К нелинейным регрессионным моделям, нелинейным по оцениваемым параметрам, относятся: степенная функция

;

.

Нелинейная регрессионная модель с линейно включенными в нее параметрами не таит каких-либо сложностей в оценке ее параметров. Введение новых переменных позволяет свести её к линейной модели, для оценки параметров которой можно использовать обычный МНК. Так, например, если нужно оценить параметры регрессионной модели

,

то вводя новые переменные , , получим линейную модель

,

параметры которой находятся обычным МНК.

Следует, однако, отметить и недостаток такой замены переменных, связанный с тем, что оценки параметров получаются не из условия минимизации суммы квадратов отклонений для исходной переменной, а из условия минимизации суммы квадратов отклонений для новых переменных, что не одно и то же. К тому же такое преобразование искажает исходные предпосылки МНК, поскольку новые объясняющие переменные, вообще говоря, будут зависимыми. В связи с этим необходимо определенное уточнение полученных оценок.

Более сложной проблемой является нелинейность модели по параметрам, т.к. линеаризация достигается при помощи более сложных преобразований. Например, приведенную выше степенную модель при помощи логарифмического преобразования можно привести к линейному виду

.

К этой модели уже можно применить обычный МНК. Однако следует подчеркнуть, что критерии значимости и интервальные оценки параметров, применяемые для нормальной линейной регрессии, требуют, чтобы нормальный закон распределения в такой модели имел логарифм случайного отклонения (т.е. , а вовсе не e. Другими словами, случайное отклонение e должно иметь логарифмически нормальное распределение.

Заметим попутно, что к модели

,

рассматриваемой в качестве альтернативной к уже рассмотренной, изложенный метод исследования уже непригоден, т.к. ее нельзя привести к линейному виду. В этом случае можно использовать только численные методы нелинейной оптимизации.

Отметим ещё, что при построении нелинейных уравнений более остро, чем в линейном случае, стоит проблема правильной оценки формы зависимости между переменными. Неточности при выборе формы оцениваемой функции существенно сказываются на качестве отдельных параметров уравнений регрессии и, соответственно, на адекватности всей модели в целом (проблема спецификации).

§6.2. ОПИСАНИЕ ОСНОВНЫХ НЕЛИНЕЙНЫХ
РЕГРЕССИОННЫХ МОДЕЛЕЙ

Полиномиальная модель

(6.3)

называется полиномиальной моделью. Как показывает опыт, среди полиномиальных моделей чаще всего используется параболическая и кубическая модели. Ограничение использования полиномов более высоких степеней связана с требованием однородности исследуемой совокупности: чем выше порядок полинома, тем больше изгибов имеет кривая и соответственно менее однородна совокупность по результативному признаку.

(6.4)

может отражать зависимость между объемом выпуска и средними или предельными издержками; или между расходами на рекламу и прибыль и т.д. Параболическая модель целесообразна к применению, если для определенного интервала значений фактора меняется характер связи рассматриваемых признаков: прямая связь меняется на обратную и наоборот. Если же исходные данные не обнаруживают изменения направленности связи, то параметры параболической модели становятся трудно интерпретируемыми, поэтому форма связи заменяется другой нелинейной моделью (например, степенной).

При b1>0 и b2 0). Функция (6.7) может отражать также зависимость объёма выпуска Y от использования ресурса X (производственная функция), в которой 0

Полиномиальная регрессия

Дата публикации Oct 8, 2018

Это мой третий блог в серии машинного обучения. Этот блог требует предварительных знаний о линейной регрессии. Если вы не знаете о линейной регрессии или нуждаетесь в обновлении, просмотрите предыдущие статьи этой серии.

Линейная регрессия требует, чтобы отношение между зависимой переменной и независимой переменной было линейным. Что если распределение данных было более сложным, как показано на рисунке ниже? Можно ли использовать линейные модели для подбора нелинейных данных? Как мы можем создать кривую, которая лучше всего отражает данные, как показано ниже? Что ж, мы ответим на эти вопросы в этом блоге.

Оглавление

  • Почему полиномиальная регрессия
  • Переоснащение против Подгонка
  • Уклон против Различий компромиссов
  • Применение полиномиальной регрессии к бостонскому набору данных.

Почему полиномиальная регрессия?

Чтобы понять необходимость полиномиальной регрессии, давайте сначала сгенерируем случайный набор данных.

Сгенерированные данные выглядят как

Давайте применим модель линейной регрессии к этому набору данных.

Сюжет самой подходящей линии

Мы можем видеть, что прямая линия не может захватить шаблоны в данных. Это примерпод-фитинга, Вычисление RMSE и R²-показателя линейной линии дает:

Чтобы преодолеть несоответствие, нам нужно увеличить сложность модели.

Чтобы сгенерировать уравнение более высокого порядка, мы можем добавить мощности оригинальных функций в качестве новых. Линейная модель,

может быть преобразован в

Это все еще считаетсялинейная модельпоскольку коэффициенты / веса, связанные с признаками, все еще линейны. x² это только особенность. Однако кривая, которая нам подходитквадратныйв природе.

Для преобразования оригинальных функций в условия высшего порядка мы будем использовать PolynomialFeatures класс предоставлен scikit-learn , Далее мы обучаем модель с использованием линейной регрессии.

Подгонка модели линейной регрессии к преобразованным объектам дает график ниже.

Из графика совершенно ясно, что квадратичная кривая может соответствовать данным лучше, чем линейная линия. Вычисление RMSE и R²-балла квадратичного графика дает:

Мы можем видеть, что среднеквадратичное отклонение уменьшилось, а показатель R² увеличился по сравнению с линейной линией

Если мы попытаемся подогнать кубическую кривую (степень = 3) к набору данных, мы увидим, что он проходит через больше точек данных, чем квадратичный и линейный графики.

Метрика кубической кривой

Ниже приведено сравнение подгонки линейных, квадратичных и кубических кривых к набору данных.

Если мы продолжим увеличивать степень до 20, мы увидим, что кривая проходит через большее количество точек данных. Ниже приведено сравнение кривых для степени 3 и 20.

Для степени = 20 модель также фиксирует шум в данных. Это примернад-фитинга, Даже если эта модель проходит через большую часть данных, она не сможет обобщить невидимые данные.

Чтобы избежать перестройки, мы можем добавить больше обучающих выборок, чтобы алгоритм не распознавал шум в системе и мог стать более обобщенным.(Примечание: добавление дополнительных данных может быть проблемой, если данные сами по себе являются помехами).

Как выбрать оптимальную модель? Чтобы ответить на этот вопрос, нам нужно понять компромисс между компромиссом и дисперсией.

Компромисс против дисперсии

предвзятостьотносится к ошибке из-за упрощенных предположений модели при подборе данных. Высокое смещение означает, что модель не может захватить шаблоны в данных, и это приводит кпод-фитинга,

отклонениеотносится к ошибке из-за сложной модели, пытающейся соответствовать данным. Высокая дисперсия означает, что модель проходит через большинство точек данных, и это приводит кнад-фитингаданные.

На картинке ниже представлены результаты нашего обучения.

Из рисунка ниже мы можем наблюдать, что с увеличением сложности модели смещение уменьшается, а дисперсия увеличивается, и наоборот. В идеале модель машинного обучения должна иметьнизкая дисперсия и низкий уклон, Но практически невозможно иметь оба. Поэтому, чтобы получить хорошую модель, которая хорошо работает как на поездах, так и на невидимых данных,компромисссделан.

До сих пор мы рассмотрели большую часть теории полиномиальной регрессии. Теперь давайте реализуем эти концепции в наборе данных Boston Housing, который мы проанализировали впредыдущийблог.

Применение полиномиальной регрессии к набору данных Housing

Из рисунка ниже видно, что LSTAT имеет небольшое нелинейное изменение с целевой переменной MEDV , Мы преобразуем исходные функции в полиномы более высокой степени, прежде чем обучать модель

Давайте определим функцию, которая преобразует исходные элементы в полиномиальные элементы заданной степени, а затем применяет к ним линейную регрессию.

Далее мы вызываем вышеуказанную функцию со степенью 2.

Производительность модели с использованием полиномиальной регрессии:

Это лучше, чем мы достигли с помощью линейной регрессии впредыдущийблог.

Вот и все для этой истории. Это GithubСделки рЕПОсодержит весь код для этого блога, и можно найти полный блокнот Jupyter, используемый для набора данных жилья в БостонеВот,

Вывод

В этой серии машинного обучения мы рассмотрели линейную регрессию, полиномиальную регрессию и реализовали обе эти модели в наборе данных Boston Housing.

Мы расскажем о логистической регрессии в следующем блоге.


источники:

http://megaobuchalka.ru/9/33848.html

http://www.machinelearningmastery.ru/polynomial-regression-bbe8b9d97491/