Проверка качества уравнения регрессии лекция

Лекция по эконометрике. Лекция по эконометрике

НазваниеЛекция по эконометрике
Дата21.06.2018
Размер1.32 Mb.
Формат файла
Имя файлаЛекция по эконометрике.docx
ТипЛекция
#47509
страница2 из 5
С этим файлом связано 6 файл(ов). Среди них: ЭКОНО Задача.docx, СТАТ в жив. Лекция №9.docx, Вопросы по АВтоматике.docx, ЛЕКЦИЯ СОЦ.СТАТ..doc, доступность к прдовольствию.pdf, Лекция по эконометрике.docx.
Показать все связанные файлы Подборка по базе: 1. Лекция Особенности макетирования и верстки длинных документов, Медицинская статистика Лекция проф.Виноградова К.А.(1).pptx, 6 лекция Отбасы.ppt, 9-10 Лекция дуниетану.ppt, такт 5 лекция.doc, Тест к лекциям.doc, 3 лекция. куиз.docx, 3 лекция.pptx, антибиотики лекция.docx, ТПЭФМ_Практическое занятие 1_между лекциями 11 и 12.doc

2.1 Оценка общего качества уравнения регрессии
Для анализа общего качества полученного уравнения регрессии на количественном уровне используют коэффициент детерминации . Он рассчитывается по формуле:

.
В числителе вычитаемой из единицы дроби стоит сумма квадратов отклонений (СКО) выборочных значений зависимой переменной от теоретических, найденных с помощью уравнения регрессии . В знаменателе – СКО наблюдений зависимой переменной от среднего значения.

Коэффициент детерминации характеризует долю вариации (разброса) зависимой переменной, объяснённой с помощью данного уравнения.

Замечание. В случае парной линейной регрессии коэффициент детерминации равен квадрату коэффициента линейной корреляции.

Более точным является значение коэффициента детерминации с поправкой на число степеней свободы.

Разделив каждую СКО на свое число степеней свободы, получим средний квадрат отклонений, или дисперсию на одну степень свободы:

дисперсия, характеризующая общий разброс;

остаточная дисперсия, где m – число независимых (объясняющих) переменных, в случае парной регрессии m =1 и формула имеет вид: .

Учитывая приведённые выше обозначения, формула коэффициента детерминации с поправкой на число степеней свободы будет иметь вид:
.
Значения коэффициента изменяются от 0 до +1 (в редких случаях значение может быть и отрицательным числом).

Близость коэффициента детерминации к +1 свидетельствует о том, что существует статистически значимая линейная связь между переменными, а уравнение имеет хорошее качество.

Близость к 0 говорит о том, что просто горизонтальная прямая является лучшей по сравнению с найденной регрессионной прямой.

Самостоятельную важность коэффициент детерминации приобретает только в случае множественной регрессии.
2.2 Оценка существенности параметров линейной регрессии и всего уравнения в целом
После того, как найдено уравнение линейной регрессии, проводится оценка значимости как уравнения в целом, так и отдельных его параметров.

Проверить значимость уравнения регрессии – значит установить, соответствует ли математическая модель, выражающая зависимость между переменными, экспериментальным данным и достаточно ли включённых в уравнение объясняющих переменных (одной или нескольких) для описания зависимой переменной.

Проверка значимости производится на основе дисперсионного анализа.

Согласно идее дисперсионного анализа, общая сумма квадратов отклонений (СКО) y от среднего значения раскладывается на две части – объясненную и необъясненную:

или, соответственно:


Здесь возможны два крайних случая: когда общая СКО в точности равна остаточной и когда общая СКО равна факторной.

В первом случае фактор х не оказывает влияния на результат, вся дисперсия y обусловлена воздействием прочих факторов, линия регрессии параллельна оси Ох и уравнение должно иметь вид .

Во втором случае прочие факторы не влияют на результат, y связан с x функционально, и остаточная СКО равна нулю.

Однако на практике в правой части присутствуют оба слагаемых. Пригодность линии регрессии для прогноза зависит от того, какая часть общей вариации y приходится на объясненную вариацию. Если объясненная СКО будет больше остаточной СКО, то уравнение регрессии статистически значимо и фактор х оказывает существенное воздействие на результат y. Это равносильно тому, что коэффициент детерминации будет приближаться к единице.

Число степеней свободы (df-degrees of freedom) – это число независимо варьируемых значений признака.

Для общей СКО требуется (n-1) независимых отклонений,

Факторная СКО имеет одну степень свободы, и

Таким образом, можем записать:

Из этого баланса определяем, что = n–2.

Разделив каждую СКО на свое число степеней свободы, получим средний квадрат отклонений, или дисперсию на одну степень свободы: — общая дисперсия, — факторная, — остаточная.

Анализ статистической значимости коэффициентов линейной регрессии

Хотя теоретические значения коэффициентов уравнения линейной зависимости предполагаются постоянными величинами, оценки а и b этих коэффициентов, получаемые в ходе построения уравнения по данным случайной выборки, являются случайными величинами. Если ошибки регрессии имеют нормальное распределение, то оценки коэффициентов также распределены нормально и могут характеризоваться своими средними значениями и дисперсией. Поэтому анализ коэффициентов начинается с расчёта этих характеристик.

Дисперсии коэффициентов рассчитываются по формулам:

Дисперсия коэффициента регрессии :
,
где – остаточная дисперсия на одну степень свободы.

Дисперсия параметра :

Отсюда стандартная ошибка коэффициента регрессии определяется по формуле:
,
Стандартная ошибка параметра определяется по формуле:
.
Далее рассчитываются t – статистики:
,
Они служат для проверки нулевых гипотез о том, что истинное значение коэффициента регрессии b или свободного члена a равно нулю: .

Альтернативная гипотеза имеет вид: .

t – статистики имеют t – распределение Стьюдента с степенями свободы. По таблицам распределения Стьюдента при определённом уровне значимости α и степенях свободы находят критическое значение .

Если , то нулевая гипотеза должна быть отклонена, коэффициенты считаются статистически значимыми.

Если , то нулевая гипотеза не может быть отклонена. (В случае, если коэффициент b статистически незначим, уравнение должно иметь вид , и это означает, что связь между признаками отсутствует. В случае, если коэффициент а статистически незначим, рекомендуется оценить новое уравнение в виде ).

Интервальные оценки коэффициентов линейного уравнения регрессии:

Доверительный интервал для а: .

Доверительный интервал для b:

Это означает, что с заданной надёжностью (где — уровень значимости) истинные значения а, b находятся в указанных интервалах.

Коэффициент регрессии имеет четкую экономическую интерпретацию, поэтому доверительные границы интервала не должны содержать противоречивых результатов, например, Они не должны включать нуль.

Анализ статистической значимости уравнения в целом.

Распределение Фишера в регрессионном анализе

Оценка значимости уравнения регрессии в целом дается с помощью F- критерия Фишера. При этом выдвигается нулевая гипотеза о том, что все коэффициенты регрессии, за исключением свободного члена а, равны нулю и, следовательно, фактор х не оказывает влияния на результат y ( или ).

Величина F – критерия связана с коэффициентом детерминации. В случае множественной регрессии:
,
где m – число независимых переменных.

В случае парной регрессии формула F – статистики принимает вид:
.
При нахождении табличного значения F- критерия задается уровень значимости (обычно 0,05 или 0,01) и две степени свободы: – в случае множественной регрессии, – для парной регрессии.

Если , то отклоняется и делается вывод о существенности статистической связи между y и x.

Если , то вероятность уравнение регрессии считается статистически незначимым, не отклоняется.

Замечание. В парной линейной регрессии . Кроме того, , поэтому . Таким образом, проверка гипотез о значимости коэффициентов регрессии и корреляции равносильна проверке гипотезы о существенности линейного уравнения регрессии.

Распределение Фишера может быть использовано не только для проверки гипотезы об одновременном равенстве нулю всех коэффициентов линейной регрессии, но и гипотезы о равенстве нулю части этих коэффициентов. Это важно при развитии линейной регрессионной модели, так как позволяет оценить обоснованность исключения отдельных переменных или их групп из числа объясняющих переменных, или же, наоборот, включения их в это число.

Пусть, например, вначале была оценена множественная линейная регрессия по п наблюдениям с т объясняющими переменными, и коэффициент детерминации равен , затем последние k переменных исключены из числа объясняющих, и по тем же данным оценено уравнение , для которого коэффициент детерминации равен (, т.к. каждая дополнительная переменная объясняет часть , пусть небольшую, вариации зависимой переменной).

Для того, чтобы проверить гипотезу об одновременном равенстве нулю всех коэффициентов при исключённых переменных, рассчитывается величина
,
имеющая распределение Фишера с степенями свободы.

По таблицам распределения Фишера, при заданном уровне значимости, находят . И если , то нулевая гипотеза отвергается. В таком случае исключать все k переменных из уравнения некорректно.

Аналогичные рассуждения могут быть проведены и по поводу обоснованности включения в уравнение регрессии одной или нескольких k новых объясняющих переменных.

В этом случае рассчитывается F – статистика
,
имеющая распределение . И если она превышает критический уровень, то включение новых переменных объясняет существенную часть необъяснённой ранее дисперсии зависимой переменной (т.е. включение новых объясняющих переменных оправдано).

Замечания. 1. Включать новые переменные целесообразно по одной.

2. Для расчёта F – статистики при рассмотрении вопроса о включении объясняющих переменных в уравнение желательно рассматривать коэффициент детерминации с поправкой на число степеней свободы.

F – статистика Фишера используется также для проверки гипотезы о совпадении уравнений регрессии для отдельных групп наблюдений.

Пусть имеются 2 выборки, содержащие, соответственно, наблюдений. Для каждой из этих выборок оценено уравнение регрессии вида . Пусть СКО от линии регрессии (т.е. ) равны для них, соответственно, .

Проверяется нулевая гипотеза : о том, что все соответствующие коэффициенты этих уравнений равны друг другу, т.е. уравнение регрессии для этих выборок одно и то же.

Пусть оценено уравнение регрессии того же вида сразу для всех наблюдений, и СКО .

Тогда рассчитывается F – статистика по формуле:

Она имеет распределение Фишера с степенями свободы. F – статистика будет близкой к нулю, если уравнение для обеих выборок одинаково, т.к. в этом случае . Т.е. если , то нулевая гипотеза принимается.

Если же , то нулевая гипотеза отвергается, и единое уравнение регрессии построить нельзя.
2.3 Проверка предпосылок, лежащих в основе МНК
Следующим этапом оценивания качества уравнения является проверка выполнения предпосылок, лежащих в основе метода расчёта параметров МНК.

Предпосылками МНК являются:

1. случайный характер ошибок регрессии;

2. нулевая средняя величина ошибок регрессии, не зависящая от значения объясняющих переменных;

3. независимость распределения ошибок для различных наблюдений; в случае оценки уравнения на временных рядах – отсутствие автокорреляции ошибок;

4. постоянство дисперсии ошибок, её независимость от значений объясняющих переменных – гомоскедастичность (если эта предпосылка не выполняется, то имеет место гетероскедастичность ошибок);

5. нормальность распределения ошибок регрессии.

Для проверки выполнения каждой из предпосылок применения МНК имеются специальные тесты. Реализация многих из этих тестов предполагает значительный объём исходных данных.

Если распределение случайных ошибок не соответствует некоторым предпосылкам МНК, то следует корректировать модель.

Проверка первой предпосылки МНК

Прежде всего, проверяется случайный характер остатков – первая предпосылка МНК. С этой целью стоится график зависимости остатков от теоретических значений результативного признака (рис. 1). Если на графике получена горизонтальная полоса, то остатки представляют собой случайные величины и МНК оправдан, теоретические значения хорошо аппроксимируют фактические значения .

Рис. 1. Зависимость случайных остатков от теоретических значений .
Возможны следующие случаи, если зависит от то:

Рис. 2. Зависимость случайных остатков от теоретических значений .
В этих случаях необходимо либо применять другую функцию, либо вводить дополнительную информацию и заново строить уравнение регрессии до тех пор, пока остатки не будут случайными величинами.

Проверка второй предпосылки МНК

Вторая предпосылка МНК относительно нулевой средней величины остатков означает, что (или ). Это выполнимо для линейных моделей и моделей, нелинейных относительно включаемых переменных.

Вместе с тем, несмещенность оценок коэффициентов регрессии, полученных МНК, зависит от независимости случайных остатков и величин , что также исследуется в рамках соблюдения второй предпосылки МНК. С этой целью наряду с изложенным графиком зависимости остатков от теоретических значений результативного признака строится график зависимости случайных остатков от факторов, включенных в регрессию (рис. 3).

Рис. .3. Зависимость величины остатков от величины фактора .
Если остатки на графике расположены в виде горизонтальной полосы, то они независимы от значений . Если же график показывает наличие зависимости и , то модель неадекватна. Причины неадекватности могут быть разные. Возможно, что нарушена третья предпосылка МНК и дисперсия остатков не постоянна для каждого значения фактора . Может быть неправильна спецификация модели и в нее необходимо ввести дополнительные члены от , например . Скопление точек в определенных участках значений фактора говорит о наличии систематической погрешности модели.

Замечание. Предпосылка о нормальном распределении остатков (пятая предпосылка) позволяет проводить проверку параметров регрессии и корреляции с помощью — и -критериев. Вместе с тем, оценки регрессии, найденные с применением МНК, обладают хорошими свойствами даже при отсутствии нормального распределения остатков, т.е. при нарушении пятой предпосылки МНК.

Совершенно необходимым для получения по МНК состоятельных оценок параметров регрессии является соблюдение третьей и четвертой предпосылок.

Автокорреляция ошибок. Статистика Дарбина-Уотсона

Важной предпосылкой построения качественной регрессионной модели по МНК является независимость значений случайных отклонений от значений отклонений во всех других наблюдениях. Отсутствие зависимости гарантирует отсутствие коррелированности между любыми отклонениями, т.е. и, в частности, между соседними отклонениями .

Автокорреляция (последовательная корреляция) остатков определяется как корреляция между соседними значениями случайных отклонений во времени (временные ряды) или в пространстве (перекрестные данные). Она обычно встречается во временных рядах и очень редко – в пространственных данных.

Возможны следующие случаи:

Эти случаи могут свидетельствовать о возможности улучшить уравнение путём оценивания новой нелинейной формулы или включения новой объясняющей переменной.

В экономических задачах значительно чаще встречается положительная автокорреляция, чем отрицательная автокорреляция.

Если же характер отклонений случаен, то можно предположить, что в половине случаев знаки соседних отклонений совпадают, а в половине – различны.

Автокорреляция в остатках может быть вызвана несколькими причинами, имеющими различную природу.

  1. Она может быть связана с исходными данными и вызвана наличием ошибок измерения в значениях результативного признака.
  2. В ряде случаев автокорреляция может быть следствием неправильной спецификации модели. Модель может не включать фактор, который оказывает существенное воздействие на результат и влияние которого отражается в остатках, вследствие чего последние могут оказаться автокоррелированными. Очень часто этим фактором является фактор времени .

От истинной автокорреляции остатков следует отличать ситуации, когда причина автокорреляции заключается в неправильной спецификации функциональной формы модели. В этом случае следует изменить форму модели, а не использовать специальные методы расчета параметров уравнения регрессии при наличии автокорреляции в остатках.

Для обнаружения автокорреляции используют либо графический метод. Либо статистические тесты.

Графический метод заключается в построении графика зависимости ошибок от времени (в случае временных рядов) или от объясняющих переменных и визуальном определении наличия или отсутствия автокорреляции. Наиболее известный критерий обнаружения автокорреляции первого порядка – критерий Дарбина-Уотсона. Статистика DW Дарбина-Уотсона приводится во всех специальных компьютерных программах как одна из важнейших характеристик качества регрессионной модели. Сначала по построенному эмпирическому уравнению регрессии определяются значения отклонений . А затем рассчитывается статистика Дарбина-Уотсона по формуле:
.
Статистика DW изменяется от 0 до 4. DW=0 соответствует положительной автокорреляции, при отрицательной автокорреляции DW=4. Когда автокорреляция отсутствует, коэффициент автокорреляции равен нулю, и статистика DW = 2. Алгоритм выявления автокорреляции остатков на основе критерия Дарбина-Уотсона следующий. Выдвигается гипотеза об отсутствии автокорреляции остатков. Альтернативные гипотезы и состоят, соответственно, в наличии положительной или отрицательной автокорреляции в остатках. Далее по специальным таблицам определяются критические значения критерия Дарбина-Уотсона (- нижняя граница признания положительной автокорреляции) и (-верхняя граница признания отсутствия положительной автокорреляции) для заданного числа наблюдений , числа независимых переменных модели и уровня значимости . По этим значениям числовой промежуток разбивают на пять отрезков. Принятие или отклонение каждой из гипотез с вероятностью осуществляется следующим образом:

– положительная автокорреляция, принимается ;

– зона неопределенности;

– автокорреляция отсутствует;

– зона неопределенности;

– отрицательная автокорреляция, принимается .


Если фактическое значение критерия Дарбина-Уотсона попадает в зону неопределенности, то на практике предполагают существование автокорреляции остатков и отклоняют гипотезу .

Можно показать, что статистика DW тесно связана с коэффициентом автокорреляции первого порядка:

Связь выражается формулой:
.
Значения r изменяются от –1 (в случае отрицательной автокорреляции) до +1 (в случае положительной автокорреляции). Близость r к нулю свидетельствует об отсутствии автокорреляции.

При отсутствии таблиц критических значений DW можно использовать следующее «грубое» правило: при достаточном числе наблюдений (12-15), при 1-3 объясняющих переменных, если , то отклонения от линии регрессии можно считать взаимно независимыми.

Либо применить к данным уменьшающее автокорреляцию преобразование (например автокорреляционное преобразование или метод скользящих средних).

Существует несколько ограничений на применение критерия Дарбина-Уотсона.

  1. Критерий DW применяется лишь для тех моделей, которые содержат свободный член.
  2. Предполагается, что случайные отклонения определяются по итерационной схеме

,
называемой авторегрессионной схемой первого порядка AR(1). Здесь – случайный член.

  1. Статистические данные должны иметь одинаковую периодичность (не должно быть пропусков в наблюдениях).
  2. Критерий Дарбина – Уотсона не применим к авторегрессионным моделям, которые содержат в числе факторов также зависимую переменную с временным лагом (запаздыванием) в один период.

Для авторегрессионных моделей предлагается h – статистика Дарбина
,
где – оценка коэффициента автокорреляции первого порядка, D(c) – выборочная дисперсия коэффициента при лаговой переменной yt-1, n – число наблюдений.

Обычно значение рассчитывается по формуле , а D(c) равна квадрату стандартной ошибки Sc оценки коэффициента с.

Методы устранения автокорреляции. Авторегрессионное преобразование

В случае наличия автокорреляции остатков полученная формула регрессии обычно считается неудовлетворительной. Автокорреляция ошибок первого порядка говорит о неверной спецификации модели. Поэтому следует попытаться скорректировать саму модель. Посмотрев на график ошибок, можно поискать другую (нелинейную) формулу зависимости, включить неучтённые до этого факторы, уточнить период проведения расчётов или разбить его на части.

Если все эти способы не помогают и автокорреляция вызвана какими–то внутренними свойствами ряда i>, можно воспользоваться преобразованием, которое называется авторегрессионной схемой первого порядка AR(1). (Авторегрессией это преобазование называется потому, что значение ошибки определяется значением той же самой величины, но с запаздыванием. Т.к. максимальное запаздывание равно 1, то это авторегрессия первого порядка).

Формула AR(1) имеет вид:
.
Где -коэффициент автокорреляции первого порядка ошибок регрессии.

Рассмотрим AR(1) на примере парной регрессии:
.
Тогда соседним наблюдениям соответствует формула:
(1),

(2).
Умножим (2) на и вычтем из (1):
.

Сделаем замены переменных

получим с учетом
:

(6).
Это преобразование называется авторегрессионным (преобразованием Бокса-Дженкинса).

Поскольку случайные отклонения удовлетворяют предпосылкам МНК, оценки а * и b будут обладать свойствами наилучших линейных несмещенных оценок. По преобразованным значениям всех переменных с помощью обычного МНК вычисляются оценки параметров а* и b, которые затем можно использовать в регрессии.

Т.о. если остатки по исходному уравнению регрессии автокоррелированы, то для оценки параметров уравнения используют следующие преобразования:

1) Преобразовать исходные переменные у и х к виду (3), (4).

2) Обычным МНК для уравнения (6) определить оценки а * и b.

3) Рассчитать параметр а исходного уравнения из соотношения (4).

4) Записать исходное уравнение (1) с параметрами а и b (где а — из п.3, а b берётся непосредственно из уравнения (6)).

Авторегрессионное преобразование может быть обобщено на произвольное число объясняющих переменных, т.е. использовано для уравнения множественной регрессии.

Для преобразования AR(1) важно оценить коэффициент автокорреляции ρ. Это делается несколькими способами. Самое простое – оценить ρ на основе статистики DW:
,
где r берется в качестве оценки ρ. Этот метод хорошо работает при большом числе наблюдений.

В случае, когда есть основания считать, что положительная автокорреляция отклонений очень велика (), можно использовать метод первых разностей (метод исключения тенденции), уравнение принимает вид

.
Из уравнения по МНК оценивается коэффициент b. Параметр а здесь не определяется непосредственно, однако из МНК известно, что .

В случае полной отрицательной автокорреляции отклонений ()
,
получаем уравнение регрессии:

или .

Вычисляются средние за 2 периода, а затем по ним рассчитывают а и b. Данная модель называется моделью регрессии по скользящим средним.

Проверка гомоскедастичности дисперсии ошибок

В соответствии с четвёртой предпосылкой МНК требуется, чтобы дисперсия остатков была гомоскедастичной. Это значит, что для каждого значения фактора остатки имеют одинаковую дисперсию . Если это условие применения МНК не соблюдается, то имеет место гетероскедастичность.

В качестве примера реальной гетероскедастичности можно привести то, что люди с большим доходом не только тратят в среднем больше, чем люди с меньшим доходом, но и разброс в их потреблении также больше, поскольку они имеют больше простора для распределения дохода.

Наличие гетероскедастичности можно наглядно видеть из поля корреляции (- графический метод обнаружения гетероскедастичности).

Наличие гомоскедастичности или гетероскедастичности можно видеть и по рассмотренному выше графику зависимости остатков от теоретических значений результативного признака .


Для множественной регрессии данный вид графиков является наиболее приемлемым визуальным способом изучения гомо- и гетероскедастичности.

При нарушении гомоскедастичности имеем неравенства: , где — постоянная дисперсия ошибки при соблюдении предпосылки. Т.е. можно записать, что дисперсия ошибки при наблюдении пропорциональна постоянной дисперсии: .

— коэффициент пропорциональности. Он меняется при переходе от одного значения фактора к другому.

Задача состоит в том, чтобы определить величину и внести поправку в исходные переменные. При этом используют обобщённый МНК, который эквивалентен обычному МНК, применённому к преобразованным данным.

Чтобы убедиться в обоснованности использования обобщённого МНК проводят эмпирическое подтверждение наличия гетероскедастичности.

При малом объёме выборки, что наиболее характерно для эмпирических исследований, для оценки гетероскедастичности может использоваться метод Гольдфельда-Квандта (в 1965 г. они рассмотрели модель парной линейной регрессии, в которой дисперсия ошибок пропорциональна квадрату фактора). Пусть рассматривается модель, в которой дисперсия пропорциональна квадрату фактора: , . А также остатки имеют нормальное распределение и отсутствует автокорреляция остатков.

Параметрический тест (критерий) Гольдфельда – Квандта:

1. Все n наблюдений в выборке упорядочиваются по величине x.

2. Вся упорядоченная выборка разбивается на три подвыборки (объёмом k, С, k.)
.
Исключаются из рассмотрения С центральных наблюдений. (По рекомендациям специалистов, объём исключаемых данных С должен быть примерно равен четверти общего объёма выборки n, в частности, при n =20, С=4; при n =30, С = 8; при n =60, С=16).

3. Оцениваются отдельные регрессии для первой подвыборки (k первых наблюдений) и для последней подвыборки (k последних наблюдений).

4. Определяются остаточные суммы квадратов для первой и второй групп. Если предположение о пропорциональности дисперсий отклонений значениям x верно, то .

5. Выдвигается нулевая гипотеза которая предполагает отсутствие гетероскедастичности.

Для проверки этой гипотезы рассчитывается отношение
,
которое имеет распределение Фишера с степеней свободы (здесь m – число объясняющих переменных).

Если , то гипотеза об отсутствии гетероскедастичности отклоняется при уровне значимости α.

Этот же тест может быть использован и при предположении об обратной пропорциональности между дисперсией и значениями объясняющей переменной . В этом случае статистика Фишера принимает вид:
.
При установлении гетероскедастичности возникает необходимость преобразования модели с целью устранения данного недостатка. Вид преобразования зависит от того, известны или нет дисперсии отклонений . Обобщенный метод наименьших квадратов (ОМНК)

При нарушении гомоскедастичности и наличии автокорреляции ошибок рекомендуется традиционный метод наименьших квадратов заменять обобщенным методом наименьших квадратов (ОМНК).

Обобщенный метод наименьших квадратов применяется к преобразованным данным и позволяет получать оценки, которые обладают не только свойством несмещенности, но и имеют меньшие выборочные дисперсии. Остановимся на использовании ОМНК для корректировки гетероскедастичности. Рассмотрим ОМНК для корректировки гетероскедастичности. Будем предполагать, что среднее значение остаточных величин равно нулю , а дисперсия пропорциональна величине .

,
где – дисперсия ошибки при конкретном -м значении фактора; – постоянная дисперсия ошибки при соблюдении предпосылки о гомоскедастичности остатков; – коэффициент пропорциональности, меняющийся с изменением величины фактора, что и обусловливает неоднородность дисперсии.

При этом предполагается, что неизвестна, а в отношении величин выдвигаются определенные гипотезы, характеризующие структуру гетероскедастичности.

В общем виде для уравнения модель примет вид:
.
В ней остаточные величины гетероскедастичны. Предполагая в них отсутствие автокорреляции, можно перейти к уравнению с гомоскедастичными остатками, поделив все переменные, зафиксированные в ходе -го наблюдения, на . Тогда дисперсия остатков будет величиной постоянной, т. е. .

Иными словами, от регрессии по мы перейдем к регрессии на новых переменных: и . Уравнение регрессии примет вид:
,
а исходные данные для данного уравнения будут иметь вид:
,.
По отношению к обычной регрессии уравнение с новыми, преобразованными переменными представляет собой взвешенную регрессию, в которой переменные и взяты с весами .

Оценка параметров нового уравнения с преобразованными переменными приводит к взвешенному методу наименьших квадратов, для которого необходимо минимизировать сумму квадратов отклонений вида
.
Соответственно получим следующую систему нормальных уравнений:

,
Т.е. коэффициент регрессии при использовании обобщенного МНК с целью корректировки гетероскедастичности представляет собой взвешенную величину по отношению к обычному МНК с весом .

Если преобразованные переменные и взять в отклонениях от средних уровней, то коэффициент регрессии можно определить как
.
При обычном применении метода наименьших квадратов к уравнению линейной регрессии для переменных в отклонениях от средних уровней коэффициент регрессии определяется по формуле:.

Аналогичный подход возможен не только для уравнения парной, но и для множественной регрессии.

Для применения ОМНК необходимо знать фактические значения дисперсий отклонений . На практике такие значения известны крайне редко. Поэтому, чтобы применить ВНК, необходимо сделать реалистические предположения о значениях . В эконометрических исследованиях чаще всего предполагается, что дисперсии отклонений пропорциональны или значениям xi, или значениям , т.е или .

Если предположить, что дисперсии пропорциональны значениям фактора x, т.е. , тогда уравнение парной регрессии преобразуется делением его левой и правой частей на :

.
Здесь для случайных отклонений выполняется условие гомоскедастичности. Следовательно, для регрессии применим обычный МНК. Следует отметить, что новая регрессия не имеет свободного члена, но зависит от двух факторов. Оценив для неё по МНК коэффициенты а и b, возвращаемся к исходному уравнению регрессии.

Если предположить, что дисперсии , то соответствующим преобразованием будет деление уравнения парной регрессии на xi:

или, если переобозначить остатки как :
.
Здесь для отклонений vi также выполняется условие гомоскедастичности.

В полученной регрессии по сравнению с исходным уравнением параметры поменялись ролями: свободный член а стал коэффициентом, а коэффициент b – свободным членом. Применяя обычный МНК в преобразованных переменных

,
получим оценки параметров, после чего возвращаемся к исходному уравнению.

Пример. Рассматривая зависимость сбережений от дохода , по первоначальным данным было получено уравнение регрессии
.
Применяя обобщенный МНК к данной модели в предположении, что ошибки пропорциональны доходу, было получено уравнение для преобразованных данных:
.
Коэффициент регрессии первого уравнения сравнивают со свободным членом второго уравнения, т.е. 0,1178 и 0,1026 – оценки параметра зависимости сбережений от дохода.

В случае множественной регрессии ,

Если предположить (т.е. дисперсия ошибок пропорциональна квадрату первой объясняющей переменной), то в этом случае обобщенный МНК предполагает оценку параметров следующего трансформированного уравнения:
.

Следует иметь в виду, что новые преобразованные переменные получают новое экономическое содержание и их регрессия имеет иной смысл, чем регрессия по исходным данным.

Пример. Пусть – издержки производства, – объем продукции, – основные производственные фонды, – численность работников, тогда уравнение

является моделью издержек производства с объемными факторами. Предполагая, что пропорциональна квадрату численности работников , мы получим в качестве результативного признака затраты на одного работника , а в качестве факторов следующие показатели: производительность труда и фондовооруженность труда . Соответственно трансформированная модель примет вид
,
где параметры , , численно не совпадают с аналогичными параметрами предыдущей модели. Кроме этого, коэффициенты регрессии меняют экономическое содержание: из показателей силы связи, характеризующих среднее абсолютное изменение издержек производства с изменением абсолютной величины соответствующего фактора на единицу, они фиксируют при обобщенном МНК среднее изменение затрат на работника; с изменением производительности труда на единицу при неизменном уровне фовдовооруженности труда; и с изменением фондовооруженности труда на единицу при неизменном уровне производительности труда.

Если предположить, что в модели с первоначальными переменными дисперсия остатков пропорциональна квадрату объема продукции, , можно перейти к уравнению регрессии вида
.
В нем новые переменные: – затраты на единицу (или на 1 руб. продукции), – фондоемкость продукции, – трудоемкость продукции.

В заключение следует отметить, что обнаружении гетероскедастичности и её корректировка являются весьма серьёзной и трудоёмкой проблемой. В случае применения обобщённого (взвешенного) МНК необходима определённая информация или обоснованные предположения о величинах .

ЛЕКЦИЯ №13 Проверка качества уравнения регрессии

Главная > Документ

Информация о документе
Дата добавления:
Размер:
Доступные форматы для скачивания:

ЛЕКЦИЯ №13


Проверка качества уравнения регрессии

Оценим, насколько хорошо модель линейной регрессии описывает данную систему наблюдений. В качестве этой оценки воспользуемся коэффициентом детерминации .

Составим следующие суммы квадратов отклонений:

фактических значений от их среднего арифметического;

выравненных значений от их среднего арифметического фактических значений;

фактических от выравненных значений.

Можно показать, что справедливо равенство:

А последнее слагаемое представим:

Учитывая (11.8) получим, что первая сумма равна нулю, а вторую сумму представим:

Коэффициент детерминации – это отношение объясненной части вариации ко всей вариации в целом:

Т.о. чем «ближе» этот коэффициент к 1, тем лучше модель описывает эмпирические данные, разумеется, если при этом модель методически правильна.

Проверка значимости (качества) уравнения регрессии производится на основе дисперсионного анализа.

Дисперсионный анализ – самостоятельный инструмент (метод) математической статистики будет подробно рассмотрен в дальнейшем. Пока же кратко рассмотрим схему дисперсионного анализа, представленную в виде таблицы.

Число степеней свободы

Уравнение регрессии значимо на уровне , если фактически наблюдаемое значение статистики удовлетворяет соотношению

Здесь критическое значение критерия Фишера – Снедекора при и степенях свободы; число оцениваемых параметров уравнения регрессии; число наблюдений.

В случае линейной парной регрессии и уравнение регрессии значимо на уровне , если

Оценка остатков

Остатками называются разности наблюдаемых величин и подогнанных или прогнозируемых с помощью модели.

При анализе остатков следует учитывать ряд существенных факторов:

Если модель подобрана правильно, то остатки будут вести себя достаточно хаотично, в известном смысле они будут напоминать белый шум.

В остатках не будет систематической составляющей, резких выбросов, в чередовании их знаков не будет никаких закономерностей, остатки будут независимы друг от друга.

Согласно общим предположениям регрессионного анализа, остатки должны вести себя как независимые одинаково распределенные случайные величины. Независимость остатков проверяется с помощью критерия Дарбина – Уотсона. Исследование остатков полезно начинать с изучения их графика. Он может показать наличие какой-либо зависимости, не учтенной в модели.

Поведение остатков должно имитировать поведение ошибок . Иначе говоря, поскольку предполагается, что ошибки — независимые в совокупности случайные величины, имеющие стандартное нормальное распределение , то ожидаем, что поведение последовательности остатков должно имитировать поведение последовательности независимых в совокупности случайных величин c распределением .

Исходя из этих предположений, проанализируем представленный реальный график (рис.1).

Рис. 1. Сравнение стандартизованных остатков с N (0,1)

Гистограмма остатков «почти» симметрична относительно нуля, т.е. количество отрицательных значений равно количеству положительных. Как и в нормальном распределении, количество малых остатков (разностей между наблюденными результатами и данными модели) велико, а большие остатки малы.

Рассмотрим еще одно графическое представление остатков (см. рис.2). Из графика остатков на нормальной вероятностной бумаге видно, что они достаточно хорошо ложатся на прямую, которая соответствует стандартному нормальному распределению.

Исходя из построенных графических результатов, можно сделать вывод о том, что предположение о нормальности распределения ошибок – достаточно корректно.

Рис. 2. График остатков на нормальной вероятностной бумаге

Критерий Дарбина – Уотсона (Durbin — Watson)

Оценивая качество уравнения регрессии, мы предполагаем, что реальная взаимосвязь переменных линейна. Отклонения от регрессионной прямой являются случайными, независимыми друг от друга величинами с нулевым математическим ожиданием и постоянной дисперсией. Если эти предположения не выполняются, то оценки коэффициентов регрессии не обладают свойствами несмещенности , эффективности и состоятельности . В этом случае анализ значимости полученных оценок будет неточным.

Статистика Дарбина—Уотсона используется для проверки гипотезы о том, что остатки построенной регрессионной модели некоррелированны (корреляции равны нулю), против альтернативы: остатки связаны авторегрессионной зависимостью (первого порядка) вида:

На практике для анализа коррелированности отклонений вместо коэффициента корреляции используют тесно с ним связанную статистику Дарбина—Уотсона, рассчитываемую по формуле

Здесь сделано допущение, что при больших значениях выполняется соотношение

Нетрудно заметить, что если , то и . Если то и . Во всех других случаях .

Критические точки статистики Дарбина—Уотсона табулированы для различных . При проверке гипотезы об отсутствии автокорреляции остатков используется числовой отрезок, на котором отложены нижняя граница статистики и верхняя граница:

Рис. 3. Статистика Дарбина—Уотсона

Проверка гипотезы проводится по схеме:

Если , то гипотеза отклоняется, принимается значительная положительная автокорреляция остатков;

Если , , то гипотеза отклоняется, принимается значительная отрицательная автокорреляция остатков;

Если , то гипотеза об отсутствии автокорреляции остатков принимается;

Если , или , то гипотеза об отсутствии автокорреляции не может быть ни принята, ни отклонена.

Не обращаясь к таблице критических точек Дарбина—Уотсона можно воспользоваться «грубым» правилом и считать, что автокорреляция остатков отсутствует, если . Для более надежных выводов необходимо воспользоваться статистическими таблицами.

Проверка качества уравнения регрессии Лекция2 Цели лекции Выполнимость теоретических предпосылок Анализ расчетных статистических показателей качества Интерпретация. — презентация

Презентация была опубликована 8 лет назад пользователемЕкатерина Шпигель

Похожие презентации

Презентация на тему: » Проверка качества уравнения регрессии Лекция2 Цели лекции Выполнимость теоретических предпосылок Анализ расчетных статистических показателей качества Интерпретация.» — Транскрипт:

1 Проверка качества уравнения регрессии Лекция

2 2 Цели лекции Выполнимость теоретических предпосылок Анализ расчетных статистических показателей качества Интерпретация регрессии

3 3 Случайные составляющие коэффициентов регрессии После определения оценок b 0 и b 1 возникают вопросы: — насколько точно эмпирическое уравнение регрессии соответствует уравнению для всей генеральной совокупности; — насколько близки оценки b 0 и b 1 к своим теоретическим значениям 0 и 1 ; — как близко оцененное значение к условному математическому ожиданию M[Y/X = x i ]; — насколько надежны найденные оценки. Для ответа на эти вопросы необходимы дополнительные исследования.

4 4 Свойства оценок коэффициентов регрессии Оценки b 0 и b 1 представляют собой случайные величины, зависящие от случайного члена в уравнении регрессии. Рассмотрим теоретическую модель парной линейной регрессии и ее оценку по выборке из n наблюдений: Справедлива формула:

5 5 Свойства оценок коэффициентов регрессии Представим выборочную ковариацию S xy в виде: S xy = Cov(X, X+ ) = Cov(X, 0 ) + Cov(X, 1 X) + Cov(X, ) = = 1 S x 2 + Cov(X, ). Следовательно, где 1 постоянная составляющая; случайная компонента. Тот же результат можно получить и для коэффициента b 0.

6 6 Свойства оценок коэффициентов регрессии Свойства оценок коэффициентов регрессии, а следовательно, и качество построенного уравнения регрессии существенно зависят от свойств случайной составляющей. Т.о. показано, что

7 7 Свойства оценок коэффициентов регрессии Доказано, что для получения по МНК наилучших результатов (при этом оценки b i обладают свойствами состоятельности, несмещенности и эффективности) необходимо выполнение ряда предпосылок относительно случайного отклонения.

8 8 Предпосылки использования МНК (условия Гаусса – Маркова) 1 0. Случайное отклонение имеет нулевое математическое ожидание Дисперсия случайного отклонения постоянна Наблюдаемые значения случайных отклонений независимы друг от друга Случайное отклонение д.б. независимо от объясняющей переменной Регрессионная модель является линейной относительно параметров, корректно специфицирована и содержит аддитивный случайный член.

9 9 Предпосылки использования МНК (условия Гаусса – Маркова) 1 0. Случайное отклонение имеет нулевое математическое ожидание. Данное условие означает, что случайное отклонение в среднем не оказывает влияния на зависимую переменную.

10 10 Предпосылки использования МНК (условия Гаусса – Маркова) 2 0. Дисперсия случайного отклонения постоянна. Из данного условия следует, что несмотря на то, что при каждом конкретном наблюдении случайное отклонение i может быть различным, но не должно быть причин, вызывающих большую ошибку.

11 11 Предпосылки использования МНК (условия Гаусса – Маркова) 3 0. Наблюдаемые значения случайных отклонений независимы друг от друга. Если данное условие выполняется, то говорят об отсутствии автокорреляции.

12 12 Предпосылки использования МНК (условия Гаусса – Маркова) 4 0. Случайное отклонение д.б. независимо от объясняющей переменной. Это условие выполняется, если объясняющая переменная не является случайной в данной модели.

13 13 Предпосылки использования МНК (условия Гаусса – Маркова) 5 0. Регрессионная модель является линейной относительно параметров, корректно специфицирована и содержит аддитивный случайный член.

14 14 Предпосылки использования МНК (условия Гаусса – Маркова) 6 0. Наряду с выполнимостью указанных предпосылок при построении линейных регрессионных моделей обычно делаются еще некоторые предположения, а именно: — случайное отклонение имеет нормальный закон распределения; — число наблюдений существенно больше числа объясняющих переменных; — отсутствуют ошибки спецификации; — отсутствует линейная взаимосвязь между двумя или несколькими объясняющими переменными.

15 15 Теорема Гаусса — Маркова Теорема. Если предпосылки 1 0 – 5 0 выполнены, то оценки, полученные по МНК, обладают следующими свойствами: 1. Оценки являются несмещенными, т.е. M[b 0 ] = 0, M[b 1 ] = 1. Это говорит об отсутствии систематической ошибки при определении положения линии регрессии. 2. Оценки состоятельны, т.к. при n D[b 0 ] 0, D[b 1 ] 0. Это означает, что с ростом n надежность оценок возрастает. 3. Оценки эффективны, т.е. они имеют наименьшую дисперсию по сравнению с любыми другими оценками данных параметров, линейными относительно величин y i.

16 16 Типичная картина выполнения условий Гаусса – Маркова

17 17 Типичная картина нарушения условий 2 0 и 4 0 : D[ ] = const, Cov( i,X i ) = 0

18 18 Типичная картина нарушения условия 3 0 : Cov( i, j ) = 0, i j

19 19 Система показателей качества парной регрессии 1. Показатели качества коэффициентов регрессии 2. Показатели качества уравнения регрессии в целом 3. Адекватность модели – остатки должны удовлетворять условиям теоремы Гаусса- Маркова

20 20 Показатели качества коэффициентов регрессии 1. Стандартные ошибки оценок (анализ точности определения оценок). 2. Значения t-статистик (проверка гипотез относительно коэффициентов регрессии). 3. Интервальные оценки коэффициентов линейного уравнения регрессии. 4. Доверительные области для зависимой переменной.

21 21 Стандартные ошибки оценок Оценки b 0 и b 1 являются случайными величинами. Отсюда следует, что стандартные ошибки коэффициентов регрессии – это средние квадратические отклонения коэффициентов регрессии от их истинных значений. Можно показать, что дисперсии оценок b 0 и b 1 равны:

22 22 Свойства дисперсий оценок 1. Дисперсии D[b 0 ] и D[b 1 ] прямо пропорциональны дисперсии случайного отклонения 2. Следовательно, чем больше фактор случайности, тем менее точными будут оценки. 2. Чем больше число наблюдений n, тем меньше дисперсии оценок. 3. Чем больше дисперсия объясняющей переменной, тем меньше дисперсия оценок коэффициентов регрессии. Другими словами, чем шире область изменений объясняющей переменной, тем точнее будут оценки (тем меньше доля случайности в их определении).

23 23 Расчет стандартных ошибок Заменив 2 на ее несмещенную оценку получим:

24 24 Формулы расчета стандартных ошибок оценок Стандартные ошибки коэффициентов регрессии: Стандартная ошибка является оценкой среднего квадратического отклонения коэффициента регрессии от его истинного значения

25 25 Использование стандартных ошибок Сравнивая значение коэффициента с его стандартной ошибкой, можно судить о значимости коэффициента Коэффициент называется значимым, если есть достаточно высокая вероятность того, что его истинное значение отлично от нуля Для стандартных ошибок оценок нет таблиц критических уровней – для точного суждения используются t-статистики

26 26 Проверка значимости на основе t-статистик заключается в установлении наличия линейной зависимости между Y и X. Данный анализ осуществляется по схеме проверки статистических гипотез. Проверяются альтернативные гипотезы: и

27 27 Проверка значимости на основе t-статистик Если принимается гипотеза H 0, то считают, что величина Y не зависит от X. В этом случае говорят, что коэффициент b 1 статистически незначим (т.к. слишком близок к нулю). В противном случае говорят, что коэффициент b 1 статистически значим, что указывает на наличие линейной зависимости между Y и X. Для парной линейной регрессии более важным является анализ статистической значимости коэффициента b 1, т.к. именно в нем скрыто влияние объясняющей переменной X на зависимую переменную Y.

28 28 Значимость свободного члена Аналогично проверяется значимость коэффициента b 0. Однако мы должны быть осторожны в сильном выделении свободного члена. Почему? 1.Мы обычно не имеем наблюдений вблизи X=0. 2.При отсутствии наблюдений на каком-либо участке оцененная зависимость не может быть данном месте достоверной.

29 29 t-статистики для проверки значимости коэффициентов регрессии t-статистика соизмеряет значение коэффициента с его стандартной ошибкой:

30 30 t-статистики для проверки значимости коэффициентов регрессии t-статистики в парной регрессии по n наблюдениям при справедливости гипотезы H 0 имеют распределение Стьюдента с числом степеней свободы l = n – 2

31 31 Порядок работы при проверке значимости коэффициента по t-статистике 1. Выбираем уровень значимости (1% или 5%). 2. Вычисляем число степеней свободы (n 2). 3. По таблицам распределения Стьюдента определяем критическое значение t /2; n-2 (двухсторонний критерий) или t ; n-2 (односторонний критерий). 4. Если модуль t-статистики больше критического значения, то коэффициент является значимым на уровне значимости. 5. В противном случае коэффициент не значим (на данном уровне ).

32 32 Использование односторонних гипотез для проверки значимости коэффициентов Использование односторонних гипотез иногда позволяет «спасти» значимость коэффициентов регрессии при том же уровне значимости Это требует обязательного экономического обоснования

33 33 Пример (A). Проверка значимости Критическое значение при уровне значимости = 0,05:

34 34 Пример (A). Проверка значимости Поэтому нулевая гипотеза H 0 : < 1 = 0>отвергается в пользу альтернативной при выбранном уровне значимости. Следовательно, коэффициент регрессии b 1 статистически значим Аналогично проверяем статистическую значимость коэффициента b 0

35 35 Пример (A). Проверка значимости Гипотеза о статистической незначимости b 0 не отклоняется. Это означает, что свободным членом уравнения регрессии можно пренебречь, рассматривая регрессию как Y = b 1 X

36 36 Правило оценки значимости коэффициентов регрессии без использования таблиц 1. Если, то коэффициент b i не м.б. признан значимым, т.к. доверительная вероятность менее 0,7. 2. Если, то найденная оценка может рассматриваться как относительно (слабо) значимая. При этом доверительная вероятность лежит между 0,7 и 0, Если, то коэффициент значим. Доверительная вероятность лежит между значениями 0,95 и 0, Если, то это почти полная гарантия значимости коэффициента.

37 37 Интервальные оценки коэффициентов линейного уравнения регрессии Построение доверительных интервалов для коэффициентов линейной регрессии при заданном уровне значимости : для 0 : для 1 : Доверительные интервалы с надежностью (1 ) накрывают истинные значения 0 и 1

38 38 Порядок работы при проверке значимости коэффициента по доверительному интервалу 1. Выбираем уровень значимости (1% или 5%). 2. Вычисляем число степеней свободы (n 2). 3. По таблицам распределения Стьюдента определяем критическое значение t /2; n-2 (двухсторонний критерий). 4. Вычисляем границы доверительного интервала. 5. Если точка 0 (ноль) не лежит внутри доверительного интервала, то коэффициент является значимым на уровне значимости. 6. В противном случае коэффициент не значим (на данном уровне ).

39 39 Доверительные области для зависимой переменной Одной из центральных задач эконометрики является прогнозирование значений зависимой переменной при определенных значениях объясняющих переменных. Здесь возможны два варианта: 1. Предсказать условное математическое ожидание зависимой переменной при определенных значениях объясняющих переменных (предсказание среднего значения). 2. Предсказать некоторое конкретное значение зависимой переменной (предсказание конкретного значения).

40 40 Предсказание среднего значения зависимой переменной Пусть построено уравнение регрессии На его основе необходимо предсказать условное м. о. переменной Y при X = x p. Вопрос: Как сильно может уклониться значение от

41 41 Предсказание среднего значения зависимой переменной Доверительная область для условного м. о. M[Y/X = x p ]: При она минимальна, а по мере удаления x p от величина доверительной области увеличивается

42 42 Предсказание индивидуальных значений зависимой переменной Построенная доверительная область для M x [Y] определяет местоположение модельной линии регрессии (условного м.о.), а не отдельных возможных значений зависимой переменной, которые отклоняются от среднего. Оценка дисперсии индивидуальных значений при x = x p равна

43 43 Предсказание индивидуальных значений зависимой переменной Доверительная область для прогнозов индивидуальных значений имеет вид: Доверительная область для индивидуальных значений шире доверительной области для условного м.о.

44 44 Графики доверительных областей для зависимой переменной

45 45 Выводы по доверительным областям для зависимой переменной 1. Прогноз значений зависимой переменной Y по уравнению регрессии оправдан, если значение x объясняющей переменной X не выходит за диапазон ее значений по выборке. Причем, чем ближе x p к тем точнее прогноз (уже доверительный интервал). 2. Использование линии регрессии вне обследованного диапазона значений объясняющей переменной (даже если оно оправдано, исходя из смысла решаемой задачи) может привести к значительным погрешностям.

46 46 Пример (А). Доверительные области для зависимой переменной 1. Рассчитаем 95%-й доверительный интервал для условного м.о. при x p = 160. Границы интервала равны: Отсюда среднее потребление при доходе 160 д.е. с вероятностью 95% будет находиться в интервале:

47 47 Пример (А). Доверительные области для зависимой переменной 2. Границы 95%-го доверительного интервала для индивидуальных объемов потребления равны: Отсюда интервал, в котором будут находиться, по крайней мере 95% индивидуальных объемов потребления при доходе x p = 160, равен:

48 48 Показатели качества уравнения регрессии в целом Суть проверки общего качества уравнения регрессии – оценить насколько хорошо эмпирическое уравнение регрессии согласуется со статистическими данными. Основные показатели качества: 1. Коэффициент детерминации R Значение F-статистики. 3. Коэффициент корреляции r xy. 4. Сумма квадратов остатков (RSS). 5. Стандартная ошибка регрессии S e. 6. Средняя ошибка аппроксимации.

49 49 Коэффициент детерминации R 2 Коэффициент R 2 показывает долю объясненной вариации зависимой переменной: Используется для предварительной оценки качества модели и как основа для расчета других показателей Коэффициенты R 2 в разных моделях с разным числом наблюдений (и переменных) несравнимы

50 50 Основные свойства коэффициента детерминации 1. 0 R Чем ближе R 2 к 1, тем лучше регрессия аппроксимирует статистические данные, тем теснее линейная связь между зависимой и объясняющими переменными. 3. Если R 2 = 1, то статистические данные лежат на линии регрессии, т.е. между зависимой и объясняющими переменными имеется функциональная зависимость. Если R 2 = 0, то вариация зависимой переменной полностью обусловлена воздействием неучтенных в модели переменных. 4. В случае парной регрессии R 2 = r xy 2.

51 51 Пример (А). Расчет коэффициента детерминации

52 52 F-тест на качество оценивания уравнения регрессии Основан на основном тождестве дисперсионного анализа TSS – общая сумма квадратов отклонений ESS – объясненная сумма квадратов отклонений RSS – необъясненная сумма квадратов отклонений

53 53 F-статистика для проверки качества уравнения регрессии F-статистика представляет собой отношение объясненной суммы квадратов (в расчете на одну независимую переменную) к остаточной сумме квадратов (в расчете на одну степень свободы) n – число выборочных наблюдений, m – число объясняющих переменных

54 54 F-статистика для проверки качества уравнения регрессии При отсутствии линейной зависимости между зависимой и объясняющими(ей) переменными F-статистика имеет F- распределение Фишера-Снедекора со степенями свободы k 1 = m, k 2 = n – m –1. Уравнение регрессии значимо на уровне, если где – табличное значение F-распределения, определенное на уровне значимости при степенях свободы k 1 и k 2

55 55 F-статистика для проверки качества парного уравнения регрессии В парной (m = 1) регрессии F-статистика является отношением объясненной суммы квадратов к остаточной сумме квадратов (в расчете на одну степень свободы), причем m = 1, n – m –1 = n – 2. F-статистика в парной регрессии по n наблюдениям имеет F-распределение с 1 и (n–2) степенями свободы

56 56 Порядок работы при проверке значимости парного уравнения по F-статистике 1. Выбираем уровень значимости (1% или 5%). 2. Вычисляем число степеней свободы 1 и (n 2). 3. По таблицам F-распределения определяем критическое значение F ; 1; n-2 (всегда одностороннее). 4. Если F-статистика больше F ; 1; n-2, то уравнение в целом является значимым на уровне значимости. 5. В противном случае уравнение в целом не значимо (на данном уровне ).

57 57 Связь между значимостью коэффициента регрессии и уравнения в целом В парной регрессии F-статистика равна квадрату t-статистики; то же верно и для их критических уровней (односторонний для t-статистики) В парной регрессии значимость коэффициента регрессии и значимость уравнения в целом эквивалентны F-статистики в разных моделях с разным числом наблюдений и (или) переменных несравнимы

58 58 Коэффициент корреляции r xy Коэффициент корреляции указывает на наличие (или отсутствие) линейной связи между зависимой и объясняющей переменными Для проверки гипотезы об отсутствии линейной связи используется тот факт, что величина имеет распределение Стьюдента с (n–2) степенями свободы

59 59 Взаимосвязь критериев в парном регрессионном анализе Коэффициент корреляции по абсолютной величине совпадает с квадратным корнем из коэффициента детерминации t-статистики для коэффициента корреляции и коэффициента регрессии b 1 совпадают Проверка значимости коэффициента регрессии эквивалентна проверке наличия линейной связи

60 60 Проверка значимости коэффициента детерминации Критическое значение R 2 связано с критическим значением F-статистики Проверка значимости коэффициента детерминации эквивалентна проверке значимости уравнения регрессии в целом

61 61 Сумма квадратов остатков RSS Является оценкой необъясненной части вариации зависимой переменной Используется как основная минимизируемая величина в МНК, а также для расчета других показателей Значения RSS в разных моделях с разным числом наблюдений и (или) переменных несравнимы

62 62 Стандартная ошибка регрессии S e Является оценкой величины квадрата ошибки, приходящейся на одну степень свободы модели Используется как основная величина для измерения качества модели (чем она меньше, тем лучше) Значения S e в однотипных моделях с разным числом наблюдений и (или) переменных сравнимы

63 63 Средняя ошибка аппроксимации A Оценку качества модели дает также средняя ошибка аппроксимации – среднее отклонение расчетных значений зависимой переменной от фактических значений y i Допустимый предел значений A – не более 10%. Чем меньше значение A, тем лучше Значения A в моделях с разным числом наблюдений и одинаковым количеством переменных сравнимы

64 64 Типичные ошибки в использовании показателей качества регрессии Величина коэффициентов регрессии не указывает на силу связи или силу влияния на зависимую переменную Значимость коэффициентов по t-тестам не позволяет сделать вывод о справедливости тех или иных теорий t-статистики не указывают на относительную важность коэффициентов регрессии t-статистики предназначены для использования исключительно для выборки и бесполезны для анализа всей совокупности Нельзя сравнивать t-статистики, F-статистики, коэффициенты детерминации и др. у разных уравнений

65 65 Ограниченность простой регрессии 1. Никакая единственная переменная за редкими исключениями не в состоянии хорошо «объяснить» изменения зависимой переменной. 2. Могут существовать несколько одинаково хороших и взаимно противоречивых регрессий. 3. Наконец, линейная форма примитивна. И тем не менее: Нет ничего лучше по простоте и ясности объяснения парной линейной связи. При равной объясняющей способности из двух моделей мы всегда выбираем более простую.


источники:

http://gigabaza.ru/doc/78471.html

http://www.myshared.ru/slide/418190/