Относительно количества факторов включенных в уравнение различают

Относительно количества факторов, включенных в уравнение регрессии, различают простую и множественную регрессию

Ваш ответ

решение вопроса

1. Математическое описание связи. Модель парной регрессии

1. Математическое описание связи. Модель парной регрессии. 6

1.1. Линейная регрессия сущность, оценка параметров. 11

1.2. Определение тесноты связи и оценка существенности

уравнения регрессии. 13

1.3. Виды нелинейных регрессионных моделей, расчет их

2. Множественная регрессия и корреляция. 20

Список использованной литературы. 25

Величины, характеризующие различные свойства объектов, могут быть независимыми или взаимосвязанными. Различают два вида зависимостей между величинами (факторами): функциональную и статистическую.

При функциональной зависимости двух величин значению одной из них обязательно соответствует одно или несколько точно определенных значений другой величины. Функциональная связь двух факторов возможна лишь при условии, что вторая величина зависит только от первой и не зависит ни от каких других величин. Функциональная связь одной величины с множеством других возможна, если эта величина зависит только от этого множества факторов. В реальных ситуациях существует бесконечно большое количество свойств самого объекта и внешней среды, влияющих друг на друга, поэтому такого рода связи не существуют, иначе говоря, функциональные связи являются математическими абстракциями. Их применение допустимо тогда, когда соответствующая величина в основном зависит от соответствующих факторов.

При исследовании многие параметры следует считать случайными, что исключает проявление однозначного соответствия значений. Воздействие общих факторов, наличие объективных закономерностей в поведении объектов приводят лишь к проявлению статистической зависимости. Статистической называют зависимость, при которой изменение одной из величин влечет изменение распределения других (другой), и эти другие величины принимают некоторые значения с определенными вероятностями. Функциональную зависимость в таком случае следует считать частным случаем статистической: значению одного фактора соответствуют значения других факторов с вероятностью, равной единице. Однако на практике такое рассмотрение функциональной связи применения не нашло.

Более важным частным случаем статистической зависимости является корреляционная зависимость, характеризующая взаимосвязь значений одних случайных величин со средним значением других, хотя в каждом отдельном случае любая взаимосвязанная величина может принимать различные значения.

Если же у взаимосвязанных величин вариацию имеет только одна переменная, а другая является детерминированной, то такую связь называют не корреляционной, а регрессионной . Например, при анализе скорости обмена с жесткими дисками можно оценивать регрессию этой характеристики на определенные модели, но не следует говорить о корреляции между моделью и скоростью.

При исследовании зависимости между одной величиной и такими характеристиками другой, как, например, моменты старших порядков (а не среднее значение), то эта связь будет называться статистической, а не корреляционной.

Корреляционная связь описывает следующие виды зависимостей:

причинную зависимость между значениями параметров, «зависимость» между следствиями общей причины.

Корреляционная зависимость определяется различными параметрами, среди которых наибольшее распространение получили показатели, характеризующие взаимосвязь двух случайных величин (парные показатели): корреляционный момент, коэффициент корреляции.

Одной из типовых задач обработки статистических данных является определение количественной зависимости показателей качества объекта от значений его параметров и характеристик внешней среды. Примером такой постановки задачи является установление зависимости между временем обработки запросов к базе данных и интенсивностью входного потока. Время обработки зависит от многих факторов, в том числе от размещения искомой информации на внешних носителях, сложности запроса. Следовательно, время обработки конкретного запроса можно считать случайной величиной.

Но вместе с тем, при увеличении интенсивности потока запросов следует ожидать возрастания его среднего значения, т.е. считать, что время обработки и интенсивность потока запросов связаны корреляционной зависимостью.

Постановка задачи регрессионного анализа формулируется следующим образом .

Имеется совокупность результатов наблюдений. Требуется: установить количественную взаимосвязь между показателем и факторами. В таком случае задача регрессионного анализа понимается как задача выявления такой функциональной зависимости y * = f(x₂ , x₃ , …, x_т ), которая наилучшим образом описывает имеющиеся экспериментальные данные.

— количество наблюдений достаточно для проявления статистических закономерностей относительно факторов и их взаимосвязей;

— обрабатываемые ЭД содержат некоторые ошибки (помехи), обусловленные погрешностями измерений, воздействием неучтенных случайных факторов;

— матрица результатов наблюдений является единственной информацией об изучаемом объекте, имеющейся в распоряжении перед началом исследования.

Функция f (x ₂ , x ₃ , …, x_т ), описывающая зависимость показателя от параметров, называется уравнением (функцией) регрессии. Термин «регрессия» (regression (лат.) – отступление, возврат к чему-либо) связан со спецификой одной из конкретных задач, решенных на стадии становления метода, и в настоящее время не отражает всей сущности метода, но продолжает применяться.

1. Математическое описание связи. Модель парной регрессии.

Любой показатель в статистике, экономике, математике и т.д. практически зависит от бесконечного количества факторов. Однако лишь ограниченное количество факторов действительно существенно воздействуют на исследуемый показатель. Доля влияния остальных факторов столь незначительна, что их игнорирование не может привести к существенным отклонениям в поведении исследуемого объекта. Выделение и учет в модели лишь ограниченного числа реально доминирующих факторов является важной задачей качественного анализа, прогнозирования и управления ситуаций.

Если в естественных науках большей частью имеют дело со строгими (функциональными) зависимостями, при которых, еще раз повторюсь, каждому значению одной переменной соответствует единственное значение другой, то между экономическими переменными, в большинстве случаев, таких зависимостей нет. Поэтому в экономике имеют дело с корреляционными зависимостями.

В зависимости от количества факторов, включенных в уравнение регрессии, принято различать простую (парную) и множественную регрессии.

Простая регрессия представляет собой регрессию между двумя переменными y и x , т.е. модель вида

где у – зависимая переменная (результативный признак);

х – независимая, или объясняющая, переменная, (признак – фактор).

Строится простая (парная) регрессия в случае, когда на результативный показатель, влияет единственный фактор.

Множественная регрессия соответственно представляет собой модель вида:

Рассмотрим простейшую линейную модель парной регрессии:

Величина y , рассматриваемая как зависимая переменная, состоит из двух составляющих: неслучайной составляющей, а+bх и случайного члена ε.

Случайная величина ε называется также возмущением. Она включает влияние не учтенных в модели факторов, случайных ошибок и особенностей измерения.

Причин существования случайной составляющей несколько.

1. Не включение объясняющих переменных. Соотношение между y и x является упрощением. В действительности существуют и другие факторы, влияющие на y , которые не учтены в (2.1). Влияние этих факторов приводит к тому, что наблюдаемые точки лежат вне прямой у = а+bх .

Часто встречаются факторы, которых следовало бы включить в регрессионное уравнение, но невозможно этого сделать в силу их количественной неизмеримости. Возможно, что существуют также и другие факторы, которые оказывают такое слабое влияние, что их в отдельности не целесообразно учитывать, а совокупное их влияние может быть уже существенным. Кроме того, могут быть факторы, которые являются существенными, но которые из-за отсутствия опыта таковыми не считаются. Совокупность всех этих составляющих и обозначено в (2.1) через ε.

2. Агрегирование переменных. Рассматриваемая зависимость (2.1) – это попытка объединить вместе некоторое число микроэкономических соотношений. Так как отдельные соотношения, имеют разные параметры, попытка объединить их является аппроксимацией. Наблюдаемое расхождение приписывается наличию случайного члена ε.

3. Выборочный характер исходных данных. Поскольку исследователи чаще всего имеет дело с выборочными данными при установлении связи между у и х , то возможны ошибки и в силу неоднородности данных в исходной статистической совокупности. Для получения хорошего результата обычно исключают из совокупности наблюдения с аномальными значениями исследуемых признаков. И в этом случае результаты регрессии представляют собой выборочные характеристики.

4. Неправильная функциональная спецификация. Функциональное соотношение между у и х математически может быть определено неправильно. Например, истинная зависимость может не являться линейной, а быть более сложной. Следует стремиться избегать возникновения этой проблемы, используя подходящую математическую формулу, но любая формула является лишь приближением истинной связи у и х и существующее расхождение вносит вклад в остаточный член.

5. Возможные ошибки измерения.

В парной регрессии выбор вида математической функции y_х =f(x) , может быть осуществлен графическим, аналитическим, экспериментальным методами.

Наиболее наглядным методом является графический. Он основан на поле корреляции.

Основные типы кривых, используемых при количественной оценке связей, представлены на рис. 1.

Кроме уже указанных используют также и другие типы кривых, например:

Значительный интерес представляет аналитический метод выбора типа уравнения регрессии, который основан на изучении материальной природы связи исследуемых признаков.

Пусть, например, изучается потребность предприятия в электроэнергии y в зависимости от объема выпускаемой продукции x .

Общее потребление электроэнергии y можно подразделить на две части:

— не связанное с производством продукции а ;

— непосредственно связанное с объемом выпускаемой продукции, пропорционально возрастающее с увеличением объема выпуска (b×x ).

Рис 1. Основные типы кривых, используемые при количественной оценке связей между двумя переменными

Тогда зависимость потребления электроэнергии от объема продукции можно выразить уравнением регрессии вида: y = a+bx

Если разделим обе части уравнения на величину объема выпускаемой продукции (х ), то получим выражение зависимости удельного расхода электроэнергии на единицу продукции (z = y/x ) от объема выпущенной продукции (х ) в виде уравнения гиперболы:

При обработке информации на компьютере выбор вида уравнения регрессии осуществляется экспериментальным методом, т.е. путем сравнения величины остаточной дисперсии D_ост , рассчитанный при разных моделях.

В реальных условиях, как правило, всегда имеет место некоторое отклонение точек результативного признака относительно линии регрессии, обусловленное, присутствием случайного члена ε.

Поэтому для уравнения регрессии вычисляется величина суммы отклонений (y-y_x ), где y – фактические значения результативного признака,

y_x – расчетные значения, полученные по уравнению регрессии.

Чем меньше величина D_ост , тем лучше уравнение регрессии описывает рассматриваемую корреляционную связь. Из разных математических функций выбирается та, для которой D_ост является min.

В случае, когда D_ост оказывается примерно одинаковой для нескольких функций, то предпочтение отдается более простым видам функций.

Обычно число наблюдений должно в 6-7 и более раз превышать число рассчитываемых параметров при переменной х .

1.1. Линейная регрессия сущность, оценка параметров

Линейная регрессия сводится к построению уравнения вида y=a+bx

Построение уравнения регрессии сводится в первую очередь к расчету его параметров — а и b . Они могут быть определены разными методами. Наиболее распространенным методом, является метод наименьших квадратов (МНК).

Допустим, что заданы n наблюдаемых значений результативного признака (у ) и признака-фактора (х ).

Следует отметить, что рассчитываются не истинные значения a и b , а только оценки, которые могут быть хорошими или плохими.

Возникает вопрос: существует ли способ достаточно точной оценки а и b алгебраическим путем?

Вначале на поле корреляции построим точки соответствующие наблюдаемым значениям х и у и прямую, выражающую линейную регрессию (рис.2).

Первым шагом является определение остатка для каждого наблюдения. Разность между фактическим и расчетным значением, соответствующим x_i , описывается как остаток в i-м приближении:

Рис.2 Точки рассеивания и прямая, выражающая линейную регрессию

Очевидно, что нужно построить такую линию регрессии, чтобы остатки были минимальными. Необходимо выбрать какой-то критерий подбора, который будет одновременно учитывать величину всех остатков.

Критерий минимизации суммы квадратов отклонений, фактических значений результативного признака (у ) от расчетных (теоретических) :

заложен в основу МНК.

Обозначим через S, тогда

Чтобы найти min (2.4), надо вычислить частные производные по каждому из параметров а и b и приравнять их к нулю:

Преобразуя систему (2.5), получаем следующую систему нормальных уравнений для оценки параметров a и b :

Решая систему (2.6), получим

(2.7)

где

Параметр b называется коэффициентом регрессии. Его величина показывает, насколько единиц изменится результат с изменением фактора на одну единицу.

Параметр a , вообще говоря, не имеет экономической интерпретации. Например, если a 0, то относительное изменение результата происходит медленнее, чем изменение фактора.

1.2. Определение тесноты связи и оценка существенности уравнения регрессии

Уравнение регрессии всегда дополняется показателем тесноты связи. При использовании линейной регрессии в качестве такового показателя выступает линейный коэффициент корреляции r_. Одна из формул линейного коэффициента корреляции имеет вид:

Коэффициент корреляции находится в пределах: — 1 0, то 0 2 характеризует долю дисперсии у , вызванную влиянием остальных, неучтенных в модели, факторов.

После того как построено уравнение линейной регрессии, проводится оценка значимости как уравнения в целом, так и отдельных ее параметров.

Оценка значимости уравнения регрессии в целом производится с помощью F-критерия Фишера.

С F-критерием тесно связана характеристика, называемая числом степеней свободы, которая применительно к исследуемой проблеме показывает, сколько независимых отклонений из n-возможных требуется для образования данной суммы квадратов.

Существует равенство между числом степеней свободы общей, факторной и остаточной суммы квадратов.

Число степеней свободы для факторной суммы квадратов равно 1, для общей суммы квадратов равно (n -1), для остаточной суммы квадратов составляет (n -2).

Разделив каждую сумму квадратов на соответствующее ей число степеней свободы, получаем дисперсию на одну степень свободы:

Сопоставляя факторную и остаточную дисперсию на одну степень свободы, получим величину F- отношения (F — критерий):

Величина F- критерия связана с коэффициентом детерминации r 2 :

F — критерий для проверки нулевой гипотезы H₀ : D_факт = D_ост .

Т.е. если нулевая гипотеза справедлива, то факторная и остаточная дисперсии не отличаются друг от друга. Это дает основание считать, что влияние объясняющей переменной х модели несущественно, а, следовательно, общее качество модели невысоко.

Английским статистиком Снедекором разработаны таблицы критических значений F – отношений при разных уровнях существенности нулевой гипотезы и различном числе степеней свободы. Табличное значение F – критерия – это максимальная величина отношения дисперсии, которая может иметь место при случайном их расхождении для данного уровня вероятности наличия нулевой гипотезы.

Если F_факт > F_табл , то нулевая гипотеза Н₀ об отсутствии связи признаков отклоняется и делается вывод о существенности этой связи.

получим линейную модель вида

Аналогично могут быть линеаризованы и другие виды нелинейных функций 1-й группы, производя соответствующие замены.

Для оценки параметров нелинейных функций первой группы можно использовать, обычный МНК, аналогично, как и в случае линейных функций.

Иначе обстоит дело с группой регрессионных, нелинейных функций по оцениваемым параметрам. Данную группу функций можно разбить на две подгруппы:

нелинейные модели внутренне линейные;

нелинейные модели внутренне нелинейные.

Рассмотрим степенную функцию

Она нелинейна относительно параметров а и b. Однако ее можно считать внутренне линейной, так как, прологарифмировав ее можно привести к линейному виду:

Следовательно, ее параметры могут быть найдены обычным МНК.

Если модель представить в виде:

то модель становится внутренне нелинейной, т.к. ее невозможно преобразовать в линейный вид.

Внутренне нелинейной будет и модель вида:

В исследованиях, часто к нелинейным относят модели, только внутренне нелинейные по оцениваемым параметрам, а все другие модели, которые легко преобразуются в линейный вид, относятся к группе линейных моделей.

Если, модель внутренне нелинейна по параметрам, то для оценки параметров используются итеративные методы, успешность которых зависит от вида функции и особенностей применяемого итеративного подхода.

2. Множественная регрессия и корреляция

На любой экономической показатель чаще всего оказывает влияние не один, а несколько факторов.

Парная (однофакторная) регрессия является частным случаем множественной регрессии. Схематически модель множественной регрессии записывается в виде: где y результативный экономический показатель, — показатели — факторы.

Множественная регрессия широко используется в решении проблем спроса, доходности акций, при изучении функций издержек производства, в макроэкономических расчетах и при решении других вопросов в различных экономических сферах. В настоящее время множественная регрессия – один из наиболее распространенных методов в математике и эконометрике.

Основная цель множественной регрессии — построить модель с большим числом факторов, определив при этом влияние каждого из них в отдельности, а также совокупное их воздействие на моделируемый показатель.

Построение уравнения множественной регрессии начинается с решения вопроса о спецификации модели (выбор факторов, вида уравнения и др.)

Факторы, включаемые в модель множественной регрессии, должны отвечать следующим требованиям:

— должны быть количественно измеримы;

— не должны быть интеркоррелированы или находится в функциональной зависимости;

— в одну модель нельзя включать совокупный фактор и образующие его частные факторы, что может привести к неоправданному увеличенному их влияние на зависимый показатель, к искажению реальной действительности;

— количество включаемых в модель факторов не должно превышать одной трети числа наблюдений в выборке.

Отбор факторов обычно осуществляется в две стадии: на первой подбираются факторы, исходя из сущности проблемы; на второй – на основе матрицы показателей корреляции определяют t — статистики для параметров регрессии.

Коэффициенты интеркорреляции (т.е. корреляции между объясняющими переменными) позволяют исключать из модели дублирующие факторы. Считается, что две переменные явно коллинеарны, т.е. находятся между собой в линейной зависимости, если .

Из двух явно коллинеарных факторов, уравнения регрессии — рекомендуется исключить один. Предпочтение при этом отдается тому фактору, который при достаточно тесной связи с результатом имеет наименьшую тесноту связи с другими факторами.

Рассмотрим пример. Для зависимости y = f(x₁ ,x₂ ,x₃ ) задана матрица парных коэффициентов корреляции:

02. Понятие корреляции и регрессии. Цели и задачи корреляционно-регрессионного анализа

Сложность экономических процессов и явлений состоит в том, что любой результат (показатель, зависимая переменная) зависит от причин (факторов, независимых переменных). Для экономических систем характерно, что число причин или условий, практически может быть неограниченно большим. Для изучения причинно-следственных связей используется аппарат Корреляционно-регрессионного анализа.

Корреляционный анализ используется для изучения связей между показателями, имеющих стохастический характер. Известно, что уровень каждого экономического показателя формируется под влиянием множества факторов и условий и в зависимости от сочетания этих условий меняется величина показателя. У стохастического характера связей между показателями наблюдается явление, когда одному и тому же значению одного из показателей соотвествует несколько значений другого показателя.

Корреляционно-регрессионный анализ используется для достижения следующих целей:

1. Выявить степень взаимосвязи между исследуемыми показателями, что позволит выбрать наиболее существенные факторы.

2. Выявить закон изменения результирующих показателей под влиянием выбранных факторов.

Корреляция — термин, происходящий от английского Correlation — соотношение, соответствие, взаимосвязь, взаимозависимость.

Корреляционная связь — такая связь, при которой на величину исследуемого показателя оказывают влияние множество факторов, действующих в различных направлениях одновременно или последовательно.

Регрессия (regression) — линия, вид зависимости исследуемого показателя от факторов (фактора).

Регрессионная связь — связь между одной зависимой переменной и несколькими другими, называемыми независимыми переменными, выраженная с помощью математической модели, т. е. уравнения регрессии.

Простая регрессия представляет собой модель, где среднее значение зависимой (объясняемой) переменной у рассматривается как функция одной независимой (объясняющей) переменной х, т. е. модель вида .

Множественная регрессия представляет собой модель, где среднее значение зависимой (объясняемой) переменной у рассматривается как функция нескольких независимых (объясняющих) переменных , , …, т. е. это модель вида .

Корреляционно-регрессионный анализ (КРА) используется для выполнения следующих видов работ:

— разработка нормативов затрат труда, ресурсов на выполнение производственных заданий, численности работников и т. д.; — анализ функционирования системы и выявление резервов: позволяет установить набор факторов, оказывающих существенное влияние на показатель, измерить силу влияния факторов на показатель; — прогнозирование работы системы: расчет значений моделируемого показателя на перспективу.

источники:

http://www.zinref.ru/000_uchebniki/04600_raznie_3/783_lekcii_raznie_17/388.htm

http://matica.org.ua/metodichki-i-knigi-po-matematike/ekonometrika-m-a-krivtcova/2-poniatie-korreliatcii-i-regressii-tceli-i-zadachi-korreliatcionno-regressionnogo-analiza