Уравнением регрессии объяснено дисперсии результативного признака

Объясненная и необъясненная дисперсия результирующего показателя.

Цель регрессионного анализа состоит в том, чтобы объяснить поведение переменной Ув зависимости от изменения выбранных факторов X1, Х2,…, Хn. В парном регрессионном анализе мы пытаемся объяснить поведение Упутем определения регрессионной зависимости У от фактораX. Для этой цели используется метод дисперсионного анализа.

Замечание: В математической статистике дисперсионный анализ рассматривается как самостоятельный метод статистического анализа. Мы же будем применять его как вспомогательное средство для изучения качества регрессионной модели.

Согласно основной идеи дисперсионного анализа общую сумму квадратов отклонений переменной у от среднего значения ӯ можно разложить на 2 части: объясненную и необъясненную:

— общая сумма квадратов отклонений (TSS ),

— объясненная или регрессионная сумма квадратов (ESS ),

— необъясненная или остаточная сумма квадратов (RSS ).

Общая сумма квадратов отклонений значения результативного показателя от среднего значения вызвано множеством причин. Условно разделим всю совокупность на 2 группы: влияние изучаемого фактораX и влияние прочих факторов. Если фактор X не влияет наУ, то линия регрессии параллельна оси ОХ (ŷ=ӯ), тогда вся дисперсия результативного показателя обусловлена воздействием прочих факторов. TSS= RSS.

Если же прочие факторы не влияют на результат, тоУ связан с X функционально и остаточная сумма квадратов отклонений отсутствует. TSS=ESS.

Поскольку не все точки корреляционного поля лежат на линии регрессии, то всегда имеется их разброс, обусловленный влиянием как фактора X, так и воздействием прочих причин. Пригодность линии регрессии для прогноза зависит от того какая часть общего отклонения показывается У приходится на объясненную часть. Очевидно, что если ESS>RSS, то уравнение регрессии статистически значимо и фактор X оказывает существенное влияние на результативный показательУ.

Любая сумма квадратов отклонений связана с числом степеней свободы. Число степеней свободы fзависит от объема выборки n и от числа определенных по этой выборке параметров к (для линейной модели к=2, т.к. ŷ =а+bх) можно показать, что для общей TSS число степеней свободы f1=n-1, для объясненной ESS — f2=к-1, для необъясненной RSS – f3=n-к.

Разделив по членено каждое слагаемое равенства (4.1) на соответствующую ей степень свободы, получим средний квадрат отклонений или дисперсию на одну степень свободы.

и является несмещенными оценками дисперсии результирующего показателя обусловленных соответственно объясненной переменной х и под воздействием неучтенных случайных факторов.

Определение дисперсии на одну степень свободы приводит их к сравнимому виду и это используется в дальнейшем для проверки значимости влияния фактора х на результирующий показатель. (проверка фактора регрессии): для этого определяют:

(4.2)

Величина F называется F-критерием (отношение) Фишера.

Проверка статистических гипотез.

Статистической гипотезой H называется предположение относительно параметров или виды распределения случайной величины.

Нулевой (основной) называют выдвинутую гипотезу H0, альтернативной гипотезе H1, которая противоречит основной.

Проверку статистической гипотезы выполняют на основе результатов выборки. Поскольку выборка имеет ограниченный объем, то применяется возможность того, что будет отвергнута правильная нулевая гипотеза называемая уровнем значимости.

a = 5% (0,05) – это означает, что в 5 случаях из 100 верная гипотеза будет отвергнута.

Статистическим критерием (F или t) называется случайная величина, которая служит для проверки нулевой гипотезы. В качестве статистического критерия выбирается такая случайная величина точная или приближенная распределение, которой известно.

Наблюдаемым значением (Fнабл или tнабл) называется значение критерия вычисленного по данным выборки.

Множество значений критерия разбивают на 2 непересекающихся области: критическая и область принятия решений.

Критической областью называется совокупность значений критерии, при которой гипотеза H0 отвергается.

Область принятия решений – это совокупность значений критерия, при которых гипотеза H0 принимается.

Критическими точками называются точки отделяющие критическую область от области принятия решений, и обозначается (Fкр, tкр).

Критические точки определяются по таблицам известного распределения выборочного критерия при заданном уровне значимости a и числе степеней свободы f.

Сравнивая наблюдаемые значения критерия с критическими точками можно принять или отвергнуть нулевую гипотезу.

Пусть нулевая гипотеза состоит в том, что утверждается отсутствие связи между переменными.

Английский статистик Снедекор разработал статистические таблицы значений F – критерия при различных уровнях значимости a и различных степенях свободы f2 и f3.

если Fрас>Fтаб, то H0 отклоняется связь между Х и У существенна;

если Fрас tкр, то H0 отклоняется, т.е. коэффициент данный значим.

Замечание: В эконометрических исследования проверку гипотез осуществляют при 5% и 1% уровне значимости.

Если H0 отклоняется при 1% уровне значимости, то она автоматически отклоняется и при 5% уровне; если H0 принимается при 5% уровне, то она принимается и при 1% уровне; если при 5% уровне гипотезы отклоняются, а при 1% принимается, то результаты проверки гипотез проводятся при обеих уровнях значимости.

В ряде прикладных задач требуется оценить значимость коэффициента корреляции r; для этого проверяется H0 о равенстве нулю теоретического коэффициента корреляции ρ=0. При этом исходят из того, что при отсутствии корреляционной связи статистика: (5.2) имеет t-распределение Стьюдента с n-2 степенями свободы. Коэффициента корреляции r значим на уровне a, если , где tкр – это табличное значение t-критерия при уровне значимости a и числе степеней свободы f=n-2.

§ 1.2. Коэффициент корреляции.

Для оценки тесноты корреляционной зависимости используют выборочный коэффициент корреляции r или r(х,у).

где

В этом уравнении (2.1) величина показывает насколько величин dу изменится в среднем у, когда х увеличится dх. Величина r является показателем тесноты линейной связи между х и уи называется выборочным коэффициентом корреляции.

У

Если r>0 (b>0), то корреляционная связь между переменными называются прямой, т.е. при увеличении значения переменной Х увеличивается значение условной средней переменной У.

|следующая лекция ==>
Ценообразование на рынке земли|Понятие и история формирования экономики общественного сектора

Дата добавления: 2016-01-16 ; просмотров: 6466 ; ЗАКАЗАТЬ НАПИСАНИЕ РАБОТЫ

Оценка качества подбора уравнения

#Коэффициент детерминации рассчитывается для оценки качества…

+подбора уравнения регрессии

-параметров уравнения регрессии

-факторов, не включенных в уравнение регрессии

#Общая дисперсия служит для оценки влияния …

+как учтенных факторов, так и случайных воздействий

-учтенных явно в модели факторов

-величины постоянной составляющей в уравнении

#Остаточная дисперсия служит для оценки влияния …

-как учтенных факторов, так и случайных воздействий

-учтенных явно в модели факторов

-величины постоянной составляющей в уравнении

#Факторная дисперсия служит для оценки влияния …

+учтенных явно в модели факторов

-как учтенных факторов, так и случайных воздействий

-величины постоянной составляющей в уравнении

#Значение коэффициента детерминации составило 0,9, следовательно …

+уравнением регрессии объяснено 90% дисперсии результативного признака

-уравнением регрессии объяснено 10% дисперсии результативного признака

-доля дисперсии результативного признака, объясненная регрессией, в общей дисперсии результативного признака составила 0,1

-доля дисперсии факторного признака, объясненная регрессией, в общей дисперсии факторного признака составила 0,9

#Для уравнения зависимости выручки от величины оборотных средств получено значение коэффициента детерминации, равное 0,7. Следовательно, ________ процентов дисперсии обусловлено случайными факторами

#Случайными воздействиями обусловлено 12% дисперсии результативного признака, следовательно, значение коэффициента детерминации составило …

#Качество подбора уравнения оценивает коэффициент …

#Значение коэффициента детерминации рассчитывается как отношение дисперсии результативного признака, объясненной регрессией, к ______ дисперсии результативного признака

#Расчет значения коэффициента детерминации не позволяет оценить …

+существенность коэффициента регрессии

-качество подбора уравнения регрессии

-долю факторной дисперсии результативного признака в общей дисперсии результативного признака

-долю остаточной дисперсии результативного признака в общей дисперсии результативного признака

#При расчете значения коэффициента детерминации используется отношение …

-параметров уравнения регрессии

Корреляция подразумевает наличие связи между …

-результатом и случайными факторами

#Графическое изображение наблюдений на декартовой плоскости координат называется полем …

#В качестве показателя тесноты связи для линейного уравнения парной регрессии используется …

+линейный коэффициент корреляции

-множественный коэффициент линейной корреляции

-линейный коэффициент детерминации

-линейный коэффициент регрессии

#Если значение коэффициента корреляции равно единице, то связь между результатом и фактором …

#Значение коэффициента корреляции может находится в отрезке …

#Значение коэффициента корреляции равно 0,9. Следовательно, значение коэффициента детерминации составит …

#Значение линейного коэффициента корреляции характеризует тесноту _____ связи

#Значение коэффициента корреляции равно –1. Следовательно …

#Значение коэффициента корреляции не характеризует …

+статистическую значимость уравнения

-корень из значения коэффициента детерминации

#Исследуется зависимость, которая характеризуется линейным уравнением множественной корреляции. Для уравнения рассчитано значение тесноты связи результативной переменной с набором факторов. В качестве этого показателя был использован множественный коэффициент …

#Для уравнения у = 3,14 + 2х +e значение коэффициента корреляции составило 2. Следовательно …

+значение коэффициента корреляции рассчитано с ошибкой

-теснота связи в 2 раза сильнее, чем для функциональной связи

-при увеличении фактора на единицу значение результата увеличивается в 2 раза

#Число степеней свободы связано с …

+числом единиц совокупности

-видом уравнения регрессии

-числом определяемых по совокупности констант

-характером исследуемых переменных

#Статистические гипотезы используются для оценки…

+значимости уравнения регрессии в целом

-тесноты связи между результатом и фактором

-автокорреляции в остатках

-тесноты связи между результатом и случайными факторами

#Если расчетное значение критерия Фишера меньше табличного значения, то гипотеза о статистической незначимости уравнения …

#Совокупность значений критерия, при которых принимается нулевая гипотеза называется областью ________ гипотезы

#Расчетное значение критерия Фишера определяется как отношение …

-результата к фактору

#Критические значения критерия Фишера определяются по …

+уровню значимости и степеням свободы факторной и остаточной дисперсий

-степеням свободы факторной и остаточной дисперсий

-уровню значимости и степени свободы общей дисперсии

#Оценка значимости уравнения в целом осуществляется по критерию …

#Расчетное значение критерия Фишера определяется как …

+отношение факторной дисперсии к остаточной, рассчитанных на одну степень свободы

-разность факторной дисперсии и остаточной, рассчитанных на одну степень свободы

-отношение факторной дисперсии к остаточной

-сумма факторной дисперсии и остаточной, рассчитанных на одну степень свободы

#Табличное значение критерия Фишера служат для …

+проверки статистической гипотезы о равенстве факторной и остаточной дисперсий

-проверки статистической гипотезы о равенстве двух математических ожиданий

-проверки статистической гипотезы о равенстве дисперсии некоторой гипотетической величине

-проверки статистической гипотезы о равенстве математического ожидания некоторой гипотетической величине

#При оценке статистической значимости уравнения и существенности связи осуществляется проверка …

-существенности коэффициента корреляции

-существенности коэффициента детерминации

#Критерий Фишера используется для оценки значимости …

#Критические значения критерия Стьюдента определяются по…

+уровню значимости и одной степени свободы

-двум степеням свободы

-трем и более степеням свободы

#Оценка значимости параметров уравнения регрессии осуществляется по критерию …

#Критерий Стьюдента предназначен для определения значимости …

+каждого коэффициента регрессии

-каждого коэффициента корреляции

-построенного уравнения в целом

#Критическое значение критерия Стьюдента определяет …

+максимально возможную величину, допускающую принятие гипотезы о несущественности параметра

-минимально возможную величину, допускающую принятие гипотезы о несущественности параметра

-максимально возможную величину, допускающую принятие гипотезы о существенности параметра

-минимально возможную величину, допускающую принятие гипотезы о равенстве нулю значения параметра

#Для существенного параметра расчетное значение критерия Стьюдента …

+больше табличного значения критерия

-меньше табличного значения критерия

-не больше табличного значения критерия Стьюдента

#Если коэффициент регрессии является несущественным, то его значение приравнивается к …

+нулю и соответствующий фактор не включается в модель

-к единице и не влияет на результат

-к нулю и соответствующий фактор включается в модель

-к табличному значению и соответствующий фактор не включается в модель

#Доверительный интервал характеризует …

+интервал значений параметра, куда с заданной вероятностью попадает истинное значение параметра

-интервал значений результата, куда с заданной вероятностью попадает истинное значение параметра

-интервал значений фактора, куда с заданной вероятностью попадает истинное значение параметра

-интервал значений коэффициента корреляции, куда с заданной вероятностью попадает истинное значение параметра

#Стандартная ошибка рассчитывается для проверки существенности …

#Параметр является существенным, если …

+доверительный интервал не проходит через ноль

-расчетное значение критерия Стьюдента меньше табличного значения

-стандартная ошибка превышает половину значения самого параметра

-доверительный интервал проходит через ноль

#Включение фактора в модель целесообразно, если коэффициент регрессии при этом факторе является…

#Если доверительный интервал для параметра проходит через точку ноль, следовательно …

+параметр является несущественным

-значение параметра может принимать как отрицательные, так и положительные значения

-параметр является существенным

-параметр признается статистически значимым

Парная регрессия и корреляция

1. Парная регрессия и корреляция

1.1. Понятие регрессии

Парной регрессией называется уравнение связи двух переменных у и х

где у – зависимая переменная (результативный признак); х – независимая, объясняющая переменная (признак-фактор).

Различают линейные и нелинейные регрессии.

Линейная регрессия описывается уравнением: y = a + b × x +e .

Нелинейные регрессии делятся на два класса: регрессии, нелинейные относительно включенных в анализ объясняющих переменных, но линейные по оцениваемым параметрам, и регрессии, нелинейные по оцениваемым параметрам.

Примеры регрессий, нелинейных по объясняющим переменным, но ли-

нейных по оцениваемым параметрам:

· полиномы разных степеней

· равносторонняя гипербола:

Примеры регрессий, нелинейных по оцениваемым параметрам:

· степенная

· показательная

· экспоненциальная

Наиболее часто применяются следующие модели регрессий:

– прямой

– гиперболы

– параболы

– показательной функции

– степенная функция

1.2. Построение уравнения регрессии

Постановка задачи. По имеющимся данным n наблюдений за совместным

изменением двух параметров x и y <(xi,yi), i=1,2. n> необходимо определить

аналитическую зависимость ŷ=f(x), наилучшим образом описывающую данные наблюдений.

Построение уравнения регрессии осуществляется в два этапа (предполагает решение двух задач):

– спецификация модели (определение вида аналитической зависимости

– оценка параметров выбранной модели.

1.2.1. Спецификация модели

Парная регрессия применяется, если имеется доминирующий фактор, который и используется в качестве объясняющей переменной.

Применяется три основных метода выбора вида аналитической зависимости:

– графический (на основе анализа поля корреляций);

– аналитический, т. е. исходя из теории изучаемой взаимосвязи;

– экспериментальный, т. е. путем сравнения величины остаточной дисперсии Dост или средней ошибки аппроксимации , рассчитанных для различных

моделей регрессии (метод перебора).

1.2.2. Оценка параметров модели

Для оценки параметров регрессий, линейных по этим параметрам, используется метод наименьших квадратов (МНК). МНК позволяет получить такие оценки параметров, при которых сумма квадратов отклонений фактических значений результативного признака у от теоретических значений ŷx при тех же значениях фактора x минимальна, т. е.

В случае линейной регрессии параметры а и b находятся из следующей

системы нормальных уравнений метода МНК:

(1.1)

Можно воспользоваться готовыми формулами, которые вытекают из этой

(1.2)

Для нелинейных уравнений регрессии, приводимых к линейным с помощью преобразования (x, y) → (x’, y’), система нормальных уравнений имеет

вид (1.1) в преобразованных переменных x’, y’.

Коэффициент b при факторной переменной x имеет следующую интерпретацию: он показывает, на сколько изменится в среднем величина y при изменении фактора x на 1 единицу измерения.

Линеаризующее преобразование: x’ = 1/x; y’ = y.

Уравнения (1.1) и формулы (1.2) принимают вид

Линеаризующее преобразование: x’ = x; y’ = lny.

Модифицированная экспонента: , (0 K и со знаком «–» в противном случае.

Степенная функция:

Линеаризующее преобразование: x’ = ln x; y’ = ln y.

Показательная функция:

Линеаризующее преобразование: x’ = x; y’ = lny.

Логарифмическая функция:

Линеаризующее преобразование: x’ = ln x; y’ = y.

Парабола второго порядка:

Парабола второго порядка имеет 3 параметра a0, a1, a2, которые определяются из системы трех уравнений

1.3. Оценка тесноты связи

Тесноту связи изучаемых явлений оценивает линейный коэффициент

парной корреляции rxy для линейной регрессии (–1 ≤ r xy ≤ 1)

и индекс корреляции ρxy для нелинейной регрессии

Имеет место соотношение

Долю дисперсии, объясняемую регрессией, в общей дисперсии результативного признака у характеризует коэффициент детерминации r2xy (для линейной регрессии) или индекс детерминации (для нелинейной регрессии).

Коэффициент детерминации – квадрат коэффициента или индекса корреляции.

Для оценки качества построенной модели регрессии можно использовать

показатель (коэффициент, индекс) детерминации R2 либо среднюю ошибку аппроксимации.

Чем выше показатель детерминации или чем ниже средняя ошибка аппроксимации, тем лучше модель описывает исходные данные.

Средняя ошибка аппроксимации – среднее относительное отклонение

расчетных значений от фактических

Построенное уравнение регрессии считается удовлетворительным, если

значение не превышает 10–12 %.

1.4. Оценка значимости уравнения регрессии, его коэффициентов,

Оценка значимости всего уравнения регрессии в целом осуществляется с

помощью F-критерия Фишера.

F-критерий Фишера заключается в проверке гипотезы Но о статистической незначимости уравнения регрессии. Для этого выполняется сравнение

фактического Fфакт и критического (табличного) Fтабл значений F-критерия

Fфакт определяется из соотношения значений факторной и остаточной

дисперсий, рассчитанных на одну степень свободы

где n – число единиц совокупности; m – число параметров при переменных.

Для линейной регрессии m = 1 .

Для нелинейной регрессии вместо r 2 xy используется R2.

Fтабл – максимально возможное значение критерия под влиянием случайных факторов при степенях свободы k1 = m, k2 = n – m – 1 (для линейной регрессии m = 1) и уровне значимости α.

Уровень значимости α вероятность отвергнуть правильную гипотезу

при условии, что она верна. Обычно величина α принимается равной 0,05 или

Если Fтабл Fфакт, то гипотеза Но не отклоняется и признается статистическая незначимость, ненадежность уравнения регрессии.

Для оценки статистической значимости коэффициентов линейной регрессии и линейного коэффициента парной корреляции применяется

t-критерий Стьюдента и рассчитываются доверительные интервалы каждого

Согласно t-критерию выдвигается гипотеза Н0 о случайной природе показателей, т. е. о незначимом их отличии от нуля. Далее рассчитываются фактические значения критерия tфакт для оцениваемых коэффициентов регрессии и коэффициента корреляции путем сопоставления их значений с величиной стандартной ошибки

Стандартные ошибки параметров линейной регрессии и коэффициента

корреляции определяются по формулам

Сравнивая фактическое и критическое (табличное) значения t-статистики

tтабл и tфакт принимают или отвергают гипотезу Но.

tтабл – максимально возможное значение критерия под влиянием случайных факторов при данной степени свободы k = n–2 и уровне значимости α.

Связь между F-критерием Фишера (при k1 = 1; m =1) и t-критерием Стьюдента выражается равенством

Если tтабл tфакт, то гипотеза Но не отклоняется и признается случайная природа формирования а, b или .

Значимость коэффициента детерминации R2 (индекса корреляции) определяется с помощью F-критерия Фишера. Фактическое значение критерия Fфакт определяется по формуле

Fтабл определяется из таблицы при степенях свободы k1 = 1, k2 = n–2 и при

заданном уровне значимости α. Если Fтабл


источники:

http://poisk-ru.ru/s54892t1.html

http://pandia.ru/text/78/146/82802.php