показатели качества регрессии.
Качеством модели регрессии называется адекватность построенной модели исходным (наблюдаемым) данным.
Для оценки качества модели регрессии используются специальные показатели.
Качество линейной модели парной регрессии характеризуется с помощью следующих показателей:
1) парной линейный коэффициент корреляции, который рассчитывается по формуле:
где G(x) – среднеквадратическое отклонение независимой переменной;
G(y) – среднеквадратическое отклонение зависимой переменной.
Также парный линейный коэффициент корреляции можно рассчитать через МНК-оценку коэффициента модели регрессии
Парный линейный коэффициент корреляции характеризует степень тесноты связи между исследуемыми переменными. Он рассчитывается только для количественных переменных. Чем ближе модуль значения коэффициента корреляции к единице, тем более тесной является связь между исследуемыми переменными. Данный коэффициент изменяется в пределах [-1; +1]. Если значение коэффициента корреляции находится в пределах от нуля до единицы, то связь между переменными прямая, т. е. с увеличением независимой переменной увеличивается и зависимая переменная, и наборот. Если коэффициент корреляции находится в пределах отминусеиницы до нуля, то связь между переменными обратная, т. е. с увеличением независимой переменной уменьшается зависимая переменная, и наоборот. Если коэффициент корреляции равен нулю, то связь между переменными отсутствует. Если коэффициент корреляции равен единице или минус единице, то связь между переменными существует функциональная связь, т. е. изменения независимой и зависимой переменных полностью соответствуют друг другу.
2) коэффициент детерминации рассчитывается как вадрат парного линейного коэффициента корреляции и обозначается как ryx2. Данный коэффициент характеризует в процентном отношении вариацию зависимой переменной, объяснённой вариацией независимой переменной, в общем объёме вариации.
Качество линейной модели множественной регрессии характеризуется с помощью показателей, построенных на основе теоремы о разложении дисперсий.
Теорема. Общая дисперсия зависимой переменной может быть разложена на объяснённую и необъяснённую построенной моделью регрессии дисперсии:
где G2(y) – это общая дисперсия зависимой переменной;
σ2(y) – это объяснённая с помощью построенной модели регрессии дисперсия переменной у, которая рассчитывается по формуле:
δ2(y) – необъяснённая или остаточная дисперсия переменной у, которая рассчитывается по формуле:
С использованием теоремы о разложении дисперсий рассчитываются следующие показатели качества линейной модели множественной регрессии:
1) множественный коэффициент корреляции между зависимой переменной у и несколькими независимыми переменными хi:
Данный коэффициент характеризует степень тесноты связи между зависимой и независимыми переменными. Свойства множественного коэффициента корреляции аналогичны свойствам линейнойго парного коэффициента корреляции.
2) теоретический коэффициент детерминации рассчитывается как квадрат множественного коэффициента корреляции:
Данный коэффициент характеризует в процентном отношении вариацию зависимой переменной, объяснённой вариацией независимых переменных;
характеризует в процентном отношении ту долю вариации зависимой переменной, которая не учитывается а построенной модели регрессии;
4) среднеквадратическая ошибка модели регрессии (Meansquareerror – MSE):
где h– это количество параметров, входящих в модель регрессии.
Если показатель среднеквадратической ошибки окажется меньше показателя среднеквадратического отклонения наблюдаемых значений зависимой переменной от модельных значений β(у), то модель регрессии можно считать качественной.
Показатель среднеквадратического отклонения наблюдаемых значений зависимой переменной от модельных значений рассчитывается по формуле:
5) показатель средней ошибки аппроксимации рассчитывается по формуле:
Если величина данного показателя составляет менее 6-7%, то качество построенной модели регрессии считается хорошим. Максимально допустимым значением показателя средней ошибки аппроксимации считается 12-15 %.
13 .
Свойства дисперсии определяются свойствами МО. Напомним, дисперсия является центральным моментом второго порядка:
Дисперсия любой случайной величины независимо от вида распределения, которому она подчиняется обладает следующими свойствами.
1.ДИСПЕРСИЯ НЕСЛУЧАЙНОЙ ВЕЛИЧИНЫ РАВНО НУЛЮ.
Пусть а — неслучайная величина. Тогда D(a)=M[(a-M(a))2]=M[0]=0.
2. ДИСПЕРСИЯ СУММЫ НЕСЛУЧАЙНОЙ И СЛУЧАЙНОЙ ВЕЛИЧИН РАВНА ДИСПЕРСИИ СЛУЧАЙНОЙ ВЕЛИЧИНЫ (ДИСПЕРСИЯ ИНВАРИАНТНА СДВИГУ).
Пусть а — неслучайная величина. Тогда D(a+x)=M[(a+x-M(a+x))2]= M[(x-M(x))2]=D(x).
3.ДИСПЕРСИЯ ПРОИЗВЕДЕНИЯ НЕСЛУЧАЙНОЙ ВЕЛИЧИНЫ НА СЛУЧАЙНУЮ РАВНА ПРОИЗВЕДЕНИЮ СЛУЧАЙНОЙ ВЕЛИЧИНЫ НА КВАДРАТ НЕСЛУЧАЙНОЙ ВЕЛИЧИНЫ.
Пусть а — неслучайная величина. Тогда D(a*x)=M[(a*x-M(a*x))2]=M[(a*(x-M(x))2]=
4. ДИСПЕРСИЯ СУММЫ ДВУХ СЛУЧАЙНЫХ ВЕЛИЧИН РАВНА СУММЕ ДИСПЕРСИЙ ЭТИХ ВЕЛИЧИН И УДВОЕННОЙ КОВАРИАЦИИ ЭТИХ ВЕЛИЧИН.
Пусть x и у — случайные величины. Тогда D(x+y)=M[((x+y)-M(x+y))2]= =M[((x-Mx)+(y-My))2]=M[(x-Mx)2+(y-My)2+2*(x-Mx)*(y-My)]=M[(x-Mx)2]+ +M[(y-My)]+2*M[(x-Mx)*(y-My)]=D(x)+D(y)+2*COV(x,y).
Величина COV(x,y)=M[(x-Mx)*(y-My)] называется ковариацией и обладает свойством: ДЛЯ НЕЗАВИСИМЫХ СЛУЧАЙНЫХ ВЕЛИЧИН КОВАРИАЦИЯ ВСЕГДА РАВНА НУЛЮ. Отсюда, следует: ДИСПЕРСИЯ СУММЫ ДВУХ НЕЗАВИСИМЫХ (И ТОЛЬКО НЕЗАВИСИМЫХ) СЛУЧАЙНЫХ ВЕЛИЧИН РАВНА СУММЕ ДИСПЕРСИЙ ЭТИХ ВЕЛИЧИН.
Для оценки параметров нелинейных моделей используются два подхода. Первый подход основан на линеаризации модели и заключается в том, что с помощью подходящих преобразований исходных переменных исследуемую зависимость представляют в виде линейного соотношения между преобразованными переменными. Второй подход обычно применяется в случае, когда подобрать соответствующее линеаризующее преобразование не удается. В этом случае применяются методы нелинейной оптимизации на основе исходных переменных. Таким образом, функции, которые показывают изменение одной переменной от другой в процентах или в несколько раз являются функциями, отражающими эластичность.
10.
Обобщенный метод наименьших квадратов, теорема Айткена
Применение обычного метода наименьших квадратов при нарушении условия гомоскедастичности приводит к следующим отрицательным последствиям:
1. оценки неизвестных коэффициентов β неэффективны, то есть существуют другие оценки, которые являются несмещенными и имеют меньшую дисперсию.
2. стандартные ошибки коэффициентов регрессии будут занижены, а, следовательно, t -статистики – завышены, и будет получено неправильное представление о точности уравнения регрессии.
Обобщенный метод наименьших квадратов
Рассмотрим метод оценивания при нарушении условия гомоскедастичности, матрица имеет вид β= (ХТ Ω-1 Х)-1 ХТ Ω-1у
Расчёт неизвестных коэффициентов регрессии по данной формуле называют обобщённым методом наименьших квадратов (ОМНК).
Теорема Айткена: при нарушении предположения гомоскедастичности оценки, полученные обобщенным методом наименьших квадратов, являются несмещенными и наиболее эффективными (имеющими наименьшую вариацию). На практике матрица Ω практически никогда не известна. Поэтому часто пытаются каким-либо методом оценить оценки матрицы Ω и использовать их для оценивания. Этот метод носит название доступного обобщенного метода наименьших квадратов.
Лекция по эконометрике. Лекция по эконометрике
Название | Лекция по эконометрике |
Дата | 21.06.2018 |
Размер | 1.32 Mb. |
Формат файла | |
Имя файла | Лекция по эконометрике.docx |
Тип | Лекция #47509 |
страница | 2 из 5 |
С этим файлом связано 6 файл(ов). Среди них: ЭКОНО Задача.docx, СТАТ в жив. Лекция №9.docx, Вопросы по АВтоматике.docx, ЛЕКЦИЯ СОЦ.СТАТ..doc, доступность к прдовольствию.pdf, Лекция по эконометрике.docx. Показать все связанные файлы Подборка по базе: 1. Лекция Особенности макетирования и верстки длинных документов, Медицинская статистика Лекция проф.Виноградова К.А.(1).pptx, 6 лекция Отбасы.ppt, 9-10 Лекция дуниетану.ppt, такт 5 лекция.doc, Тест к лекциям.doc, 3 лекция. куиз.docx, 3 лекция.pptx, антибиотики лекция.docx, ТПЭФМ_Практическое занятие 1_между лекциями 11 и 12.doc 2.1 Оценка общего качества уравнения регрессии . Коэффициент детерминации характеризует долю вариации (разброса) зависимой переменной, объяснённой с помощью данного уравнения. Замечание. В случае парной линейной регрессии коэффициент детерминации равен квадрату коэффициента линейной корреляции. Более точным является значение коэффициента детерминации с поправкой на число степеней свободы. Разделив каждую СКО на свое число степеней свободы, получим средний квадрат отклонений, или дисперсию на одну степень свободы: – дисперсия, характеризующая общий разброс; – остаточная дисперсия, где m – число независимых (объясняющих) переменных, в случае парной регрессии m =1 и формула имеет вид: . Учитывая приведённые выше обозначения, формула коэффициента детерминации с поправкой на число степеней свободы будет иметь вид: Близость коэффициента детерминации к +1 свидетельствует о том, что существует статистически значимая линейная связь между переменными, а уравнение имеет хорошее качество. Близость к 0 говорит о том, что просто горизонтальная прямая является лучшей по сравнению с найденной регрессионной прямой. Самостоятельную важность коэффициент детерминации приобретает только в случае множественной регрессии. Проверить значимость уравнения регрессии – значит установить, соответствует ли математическая модель, выражающая зависимость между переменными, экспериментальным данным и достаточно ли включённых в уравнение объясняющих переменных (одной или нескольких) для описания зависимой переменной. Проверка значимости производится на основе дисперсионного анализа. Согласно идее дисперсионного анализа, общая сумма квадратов отклонений (СКО) y от среднего значения раскладывается на две части – объясненную и необъясненную:
В первом случае фактор х не оказывает влияния на результат, вся дисперсия y обусловлена воздействием прочих факторов, линия регрессии параллельна оси Ох и уравнение должно иметь вид . Во втором случае прочие факторы не влияют на результат, y связан с x функционально, и остаточная СКО равна нулю. Однако на практике в правой части присутствуют оба слагаемых. Пригодность линии регрессии для прогноза зависит от того, какая часть общей вариации y приходится на объясненную вариацию. Если объясненная СКО будет больше остаточной СКО, то уравнение регрессии статистически значимо и фактор х оказывает существенное воздействие на результат y. Это равносильно тому, что коэффициент детерминации будет приближаться к единице. Число степеней свободы (df-degrees of freedom) – это число независимо варьируемых значений признака. Для общей СКО требуется (n-1) независимых отклонений, Из этого баланса определяем, что = n–2. Разделив каждую СКО на свое число степеней свободы, получим средний квадрат отклонений, или дисперсию на одну степень свободы: — общая дисперсия, — факторная, — остаточная. Анализ статистической значимости коэффициентов линейной регрессии Хотя теоретические значения коэффициентов уравнения линейной зависимости предполагаются постоянными величинами, оценки а и b этих коэффициентов, получаемые в ходе построения уравнения по данным случайной выборки, являются случайными величинами. Если ошибки регрессии имеют нормальное распределение, то оценки коэффициентов также распределены нормально и могут характеризоваться своими средними значениями и дисперсией. Поэтому анализ коэффициентов начинается с расчёта этих характеристик. Дисперсии коэффициентов рассчитываются по формулам: Дисперсия коэффициента регрессии : Дисперсия параметра : Альтернативная гипотеза имеет вид: . t – статистики имеют t – распределение Стьюдента с степенями свободы. По таблицам распределения Стьюдента при определённом уровне значимости α и степенях свободы находят критическое значение . Если , то нулевая гипотеза должна быть отклонена, коэффициенты считаются статистически значимыми. Если , то нулевая гипотеза не может быть отклонена. (В случае, если коэффициент b статистически незначим, уравнение должно иметь вид , и это означает, что связь между признаками отсутствует. В случае, если коэффициент а статистически незначим, рекомендуется оценить новое уравнение в виде ). Интервальные оценки коэффициентов линейного уравнения регрессии: Доверительный интервал для а: . Доверительный интервал для b: Это означает, что с заданной надёжностью (где — уровень значимости) истинные значения а, b находятся в указанных интервалах. Коэффициент регрессии имеет четкую экономическую интерпретацию, поэтому доверительные границы интервала не должны содержать противоречивых результатов, например, Они не должны включать нуль. Анализ статистической значимости уравнения в целом. Распределение Фишера в регрессионном анализе Оценка значимости уравнения регрессии в целом дается с помощью F- критерия Фишера. При этом выдвигается нулевая гипотеза о том, что все коэффициенты регрессии, за исключением свободного члена а, равны нулю и, следовательно, фактор х не оказывает влияния на результат y ( или ). Величина F – критерия связана с коэффициентом детерминации. В случае множественной регрессии: В случае парной регрессии формула F – статистики принимает вид: Если , то отклоняется и делается вывод о существенности статистической связи между y и x. Если , то вероятность уравнение регрессии считается статистически незначимым, не отклоняется. Замечание. В парной линейной регрессии . Кроме того, , поэтому . Таким образом, проверка гипотез о значимости коэффициентов регрессии и корреляции равносильна проверке гипотезы о существенности линейного уравнения регрессии. Распределение Фишера может быть использовано не только для проверки гипотезы об одновременном равенстве нулю всех коэффициентов линейной регрессии, но и гипотезы о равенстве нулю части этих коэффициентов. Это важно при развитии линейной регрессионной модели, так как позволяет оценить обоснованность исключения отдельных переменных или их групп из числа объясняющих переменных, или же, наоборот, включения их в это число. Пусть, например, вначале была оценена множественная линейная регрессия по п наблюдениям с т объясняющими переменными, и коэффициент детерминации равен , затем последние k переменных исключены из числа объясняющих, и по тем же данным оценено уравнение , для которого коэффициент детерминации равен (, т.к. каждая дополнительная переменная объясняет часть , пусть небольшую, вариации зависимой переменной). Для того, чтобы проверить гипотезу об одновременном равенстве нулю всех коэффициентов при исключённых переменных, рассчитывается величина По таблицам распределения Фишера, при заданном уровне значимости, находят . И если , то нулевая гипотеза отвергается. В таком случае исключать все k переменных из уравнения некорректно. Аналогичные рассуждения могут быть проведены и по поводу обоснованности включения в уравнение регрессии одной или нескольких k новых объясняющих переменных. В этом случае рассчитывается F – статистика Замечания. 1. Включать новые переменные целесообразно по одной. 2. Для расчёта F – статистики при рассмотрении вопроса о включении объясняющих переменных в уравнение желательно рассматривать коэффициент детерминации с поправкой на число степеней свободы. F – статистика Фишера используется также для проверки гипотезы о совпадении уравнений регрессии для отдельных групп наблюдений. Пусть имеются 2 выборки, содержащие, соответственно, наблюдений. Для каждой из этих выборок оценено уравнение регрессии вида . Пусть СКО от линии регрессии (т.е. ) равны для них, соответственно, . Проверяется нулевая гипотеза : о том, что все соответствующие коэффициенты этих уравнений равны друг другу, т.е. уравнение регрессии для этих выборок одно и то же. Пусть оценено уравнение регрессии того же вида сразу для всех наблюдений, и СКО . Тогда рассчитывается F – статистика по формуле: Если же , то нулевая гипотеза отвергается, и единое уравнение регрессии построить нельзя. Предпосылками МНК являются: 1. случайный характер ошибок регрессии; 2. нулевая средняя величина ошибок регрессии, не зависящая от значения объясняющих переменных; 3. независимость распределения ошибок для различных наблюдений; в случае оценки уравнения на временных рядах – отсутствие автокорреляции ошибок; 4. постоянство дисперсии ошибок, её независимость от значений объясняющих переменных – гомоскедастичность (если эта предпосылка не выполняется, то имеет место гетероскедастичность ошибок); 5. нормальность распределения ошибок регрессии. Для проверки выполнения каждой из предпосылок применения МНК имеются специальные тесты. Реализация многих из этих тестов предполагает значительный объём исходных данных. Если распределение случайных ошибок не соответствует некоторым предпосылкам МНК, то следует корректировать модель. Проверка первой предпосылки МНК Прежде всего, проверяется случайный характер остатков – первая предпосылка МНК. С этой целью стоится график зависимости остатков от теоретических значений результативного признака (рис. 1). Если на графике получена горизонтальная полоса, то остатки представляют собой случайные величины и МНК оправдан, теоретические значения хорошо аппроксимируют фактические значения . Рис. 1. Зависимость случайных остатков от теоретических значений . Рис. 2. Зависимость случайных остатков от теоретических значений . Проверка второй предпосылки МНК Вторая предпосылка МНК относительно нулевой средней величины остатков означает, что (или ). Это выполнимо для линейных моделей и моделей, нелинейных относительно включаемых переменных. Вместе с тем, несмещенность оценок коэффициентов регрессии, полученных МНК, зависит от независимости случайных остатков и величин , что также исследуется в рамках соблюдения второй предпосылки МНК. С этой целью наряду с изложенным графиком зависимости остатков от теоретических значений результативного признака строится график зависимости случайных остатков от факторов, включенных в регрессию (рис. 3). Рис. .3. Зависимость величины остатков от величины фактора . Замечание. Предпосылка о нормальном распределении остатков (пятая предпосылка) позволяет проводить проверку параметров регрессии и корреляции с помощью — и -критериев. Вместе с тем, оценки регрессии, найденные с применением МНК, обладают хорошими свойствами даже при отсутствии нормального распределения остатков, т.е. при нарушении пятой предпосылки МНК. Совершенно необходимым для получения по МНК состоятельных оценок параметров регрессии является соблюдение третьей и четвертой предпосылок. Автокорреляция ошибок. Статистика Дарбина-Уотсона Важной предпосылкой построения качественной регрессионной модели по МНК является независимость значений случайных отклонений от значений отклонений во всех других наблюдениях. Отсутствие зависимости гарантирует отсутствие коррелированности между любыми отклонениями, т.е. и, в частности, между соседними отклонениями . Автокорреляция (последовательная корреляция) остатков определяется как корреляция между соседними значениями случайных отклонений во времени (временные ряды) или в пространстве (перекрестные данные). Она обычно встречается во временных рядах и очень редко – в пространственных данных. Возможны следующие случаи: В экономических задачах значительно чаще встречается положительная автокорреляция, чем отрицательная автокорреляция. Если же характер отклонений случаен, то можно предположить, что в половине случаев знаки соседних отклонений совпадают, а в половине – различны. Автокорреляция в остатках может быть вызвана несколькими причинами, имеющими различную природу.
От истинной автокорреляции остатков следует отличать ситуации, когда причина автокорреляции заключается в неправильной спецификации функциональной формы модели. В этом случае следует изменить форму модели, а не использовать специальные методы расчета параметров уравнения регрессии при наличии автокорреляции в остатках. Для обнаружения автокорреляции используют либо графический метод. Либо статистические тесты. Графический метод заключается в построении графика зависимости ошибок от времени (в случае временных рядов) или от объясняющих переменных и визуальном определении наличия или отсутствия автокорреляции. Наиболее известный критерий обнаружения автокорреляции первого порядка – критерий Дарбина-Уотсона. Статистика DW Дарбина-Уотсона приводится во всех специальных компьютерных программах как одна из важнейших характеристик качества регрессионной модели. Сначала по построенному эмпирическому уравнению регрессии определяются значения отклонений . А затем рассчитывается статистика Дарбина-Уотсона по формуле: – положительная автокорреляция, принимается ; – зона неопределенности; – автокорреляция отсутствует; – зона неопределенности; – отрицательная автокорреляция, принимается .
Можно показать, что статистика DW тесно связана с коэффициентом автокорреляции первого порядка: При отсутствии таблиц критических значений DW можно использовать следующее «грубое» правило: при достаточном числе наблюдений (12-15), при 1-3 объясняющих переменных, если , то отклонения от линии регрессии можно считать взаимно независимыми. Либо применить к данным уменьшающее автокорреляцию преобразование (например автокорреляционное преобразование или метод скользящих средних). Существует несколько ограничений на применение критерия Дарбина-Уотсона.
,
Для авторегрессионных моделей предлагается h – статистика Дарбина Обычно значение рассчитывается по формуле , а D(c) равна квадрату стандартной ошибки Sc оценки коэффициента с. Методы устранения автокорреляции. Авторегрессионное преобразование В случае наличия автокорреляции остатков полученная формула регрессии обычно считается неудовлетворительной. Автокорреляция ошибок первого порядка говорит о неверной спецификации модели. Поэтому следует попытаться скорректировать саму модель. Посмотрев на график ошибок, можно поискать другую (нелинейную) формулу зависимости, включить неучтённые до этого факторы, уточнить период проведения расчётов или разбить его на части. Если все эти способы не помогают и автокорреляция вызвана какими–то внутренними свойствами ряда Формула AR(1) имеет вид: Рассмотрим AR(1) на примере парной регрессии: (2). Сделаем замены переменных (6). Поскольку случайные отклонения удовлетворяют предпосылкам МНК, оценки а * и b будут обладать свойствами наилучших линейных несмещенных оценок. По преобразованным значениям всех переменных с помощью обычного МНК вычисляются оценки параметров а* и b, которые затем можно использовать в регрессии. Т.о. если остатки по исходному уравнению регрессии автокоррелированы, то для оценки параметров уравнения используют следующие преобразования: 1) Преобразовать исходные переменные у и х к виду (3), (4). 2) Обычным МНК для уравнения (6) определить оценки а * и b. 3) Рассчитать параметр а исходного уравнения из соотношения (4). 4) Записать исходное уравнение (1) с параметрами а и b (где а — из п.3, а b берётся непосредственно из уравнения (6)). Авторегрессионное преобразование может быть обобщено на произвольное число объясняющих переменных, т.е. использовано для уравнения множественной регрессии. Для преобразования AR(1) важно оценить коэффициент автокорреляции ρ. Это делается несколькими способами. Самое простое – оценить ρ на основе статистики DW: В случае, когда есть основания считать, что положительная автокорреляция отклонений очень велика (), можно использовать метод первых разностей (метод исключения тенденции), уравнение принимает вид . В случае полной отрицательной автокорреляции отклонений () Вычисляются средние за 2 периода, а затем по ним рассчитывают а и b. Данная модель называется моделью регрессии по скользящим средним. Проверка гомоскедастичности дисперсии ошибок В соответствии с четвёртой предпосылкой МНК требуется, чтобы дисперсия остатков была гомоскедастичной. Это значит, что для каждого значения фактора остатки имеют одинаковую дисперсию . Если это условие применения МНК не соблюдается, то имеет место гетероскедастичность. В качестве примера реальной гетероскедастичности можно привести то, что люди с большим доходом не только тратят в среднем больше, чем люди с меньшим доходом, но и разброс в их потреблении также больше, поскольку они имеют больше простора для распределения дохода. Наличие гетероскедастичности можно наглядно видеть из поля корреляции (- графический метод обнаружения гетероскедастичности).
При нарушении гомоскедастичности имеем неравенства: , где — постоянная дисперсия ошибки при соблюдении предпосылки. Т.е. можно записать, что дисперсия ошибки при наблюдении пропорциональна постоянной дисперсии: . — коэффициент пропорциональности. Он меняется при переходе от одного значения фактора к другому. Задача состоит в том, чтобы определить величину и внести поправку в исходные переменные. При этом используют обобщённый МНК, который эквивалентен обычному МНК, применённому к преобразованным данным. Чтобы убедиться в обоснованности использования обобщённого МНК проводят эмпирическое подтверждение наличия гетероскедастичности. При малом объёме выборки, что наиболее характерно для эмпирических исследований, для оценки гетероскедастичности может использоваться метод Гольдфельда-Квандта (в 1965 г. они рассмотрели модель парной линейной регрессии, в которой дисперсия ошибок пропорциональна квадрату фактора). Пусть рассматривается модель, в которой дисперсия пропорциональна квадрату фактора: , . А также остатки имеют нормальное распределение и отсутствует автокорреляция остатков. Параметрический тест (критерий) Гольдфельда – Квандта: 1. Все n наблюдений в выборке упорядочиваются по величине x. 2. Вся упорядоченная выборка разбивается на три подвыборки (объёмом k, С, k.) 3. Оцениваются отдельные регрессии для первой подвыборки (k первых наблюдений) и для последней подвыборки (k последних наблюдений). 4. Определяются остаточные суммы квадратов для первой и второй групп. Если предположение о пропорциональности дисперсий отклонений значениям x верно, то . 5. Выдвигается нулевая гипотеза которая предполагает отсутствие гетероскедастичности. Для проверки этой гипотезы рассчитывается отношение Если , то гипотеза об отсутствии гетероскедастичности отклоняется при уровне значимости α. Этот же тест может быть использован и при предположении об обратной пропорциональности между дисперсией и значениями объясняющей переменной . В этом случае статистика Фишера принимает вид: При нарушении гомоскедастичности и наличии автокорреляции ошибок рекомендуется традиционный метод наименьших квадратов заменять обобщенным методом наименьших квадратов (ОМНК). Обобщенный метод наименьших квадратов применяется к преобразованным данным и позволяет получать оценки, которые обладают не только свойством несмещенности, но и имеют меньшие выборочные дисперсии. Остановимся на использовании ОМНК для корректировки гетероскедастичности. Рассмотрим ОМНК для корректировки гетероскедастичности. Будем предполагать, что среднее значение остаточных величин равно нулю , а дисперсия пропорциональна величине . , При этом предполагается, что неизвестна, а в отношении величин выдвигаются определенные гипотезы, характеризующие структуру гетероскедастичности. В общем виде для уравнения модель примет вид: Иными словами, от регрессии по мы перейдем к регрессии на новых переменных: и . Уравнение регрессии примет вид: Оценка параметров нового уравнения с преобразованными переменными приводит к взвешенному методу наименьших квадратов, для которого необходимо минимизировать сумму квадратов отклонений вида , Если преобразованные переменные и взять в отклонениях от средних уровней, то коэффициент регрессии можно определить как Аналогичный подход возможен не только для уравнения парной, но и для множественной регрессии. Для применения ОМНК необходимо знать фактические значения дисперсий отклонений . На практике такие значения известны крайне редко. Поэтому, чтобы применить ВНК, необходимо сделать реалистические предположения о значениях . В эконометрических исследованиях чаще всего предполагается, что дисперсии отклонений пропорциональны или значениям xi, или значениям , т.е или . Если предположить, что дисперсии пропорциональны значениям фактора x, т.е. , тогда уравнение парной регрессии преобразуется делением его левой и правой частей на : . Если предположить, что дисперсии , то соответствующим преобразованием будет деление уравнения парной регрессии на xi: В полученной регрессии по сравнению с исходным уравнением параметры поменялись ролями: свободный член а стал коэффициентом, а коэффициент b – свободным членом. Применяя обычный МНК в преобразованных переменных , Пример. Рассматривая зависимость сбережений от дохода , по первоначальным данным было получено уравнение регрессии В случае множественной регрессии , Если предположить (т.е. дисперсия ошибок пропорциональна квадрату первой объясняющей переменной), то в этом случае обобщенный МНК предполагает оценку параметров следующего трансформированного уравнения: Следует иметь в виду, что новые преобразованные переменные получают новое экономическое содержание и их регрессия имеет иной смысл, чем регрессия по исходным данным. Пример. Пусть – издержки производства, – объем продукции, – основные производственные фонды, – численность работников, тогда уравнение Если предположить, что в модели с первоначальными переменными дисперсия остатков пропорциональна квадрату объема продукции, , можно перейти к уравнению регрессии вида В заключение следует отметить, что обнаружении гетероскедастичности и её корректировка являются весьма серьёзной и трудоёмкой проблемой. В случае применения обобщённого (взвешенного) МНК необходима определённая информация или обоснованные предположения о величинах . Интерпретация уравнения регрессии
Интерпретация уравнения регрессии
Полученные результаты можно интерпретировать следующим образом: коэффициент в х (коэффициент градиента) Единица у увеличивается на 0,093 единицы. х и у оба измеряются в мил Миллиарды долларов по фиксированной цене. Поэтому склон Если выручка увеличится на 1 миллиард долларов, 64 Питательные вещества увеличились на 93 миллиона долларов. Это значит Из реальных долларовых доходов 9,3 цента тратятся на еду. Как насчет констант уравнения? Формально она Если x = 0, указывает уровень прогнозирования ^. Это ясно имеет смысл. Иногда нет. Если х = 0 достаточно далеко от значения выборки х, В этом случае буквальная интерпретация может привести к неверным результатам. Даже если Линия регрессии является очень точным представлением наблюдаемого значения выборки. Нет гарантии, что то же самое произойдет с экстраполяцией влево или вправо. в 150 грамм 100 грамм 50 Стоимость пища 200 400 600 800 —100 • ”0 120—0 X доходов Рисунок 2.7. Зависимость расходов на питание от дохода (США, 1959-1983). В рассматриваемом случае путем экстраполяции на вертикальную ось Если доход равен нулю, стоимость еды Сделал бы 55,3 миллиарда долларов. Такое толкование может быть правдоподобным в отношении Лица, которые могут тратить накопления пищи Кредиты или заемные средства. Тем не менее, это не имеет смысла, если По отношению ко всему. В этом случае константа сделает единственное Функция: может определить положение линии регрессии на графике Поддельный. Примеры констант с ясным значением приведены в упражнении. Институт 2.1. При интерпретации уравнений регрессии очень важно помнить три Вещь. Во-первых, a является только оценкой a, а a b является оценкой (3. Интерпретация на самом деле просто оценка. Во-вторых Уравнение регрессии отражает только общую тенденцию выборки. В то же время Индивидуальные наблюдения подвержены случайности. третий В этих случаях точность интерпретации зависит от точности спецификации уравнения. По сути, мы построили довольно простую зависимость от функции спроса Мы вернемся к этому в следующем разделе и уточнить.
Есть ли способ определить точность оценки? Это очень важно Рост будет обсуждаться в следующем разделе. Сначала рассмотрим дальше Подробно объясните роль остаточного члена и его влияние на оценки a и p. Интерпретация уравнений линейной регрессии.
Уравнение регрессии у = а + бх Если есть простая естественная единичная переменная Измерение. Сначала увеличим х на 1 единицу ( Единица переменной х) увеличивается у в б (единица переменной у). Второй этап Проверка того, что собой представляет хна на самом деле, Замените слово «единица измерения» на фактическое количество. Третий этап Проверка возможности более простого выражения результата Это может быть не очень удобно. В примере В этом разделе указана единица измерения для х и у Потому что миллиарды долларов были потрачены, Замечательное упрощение. Константа а дает предсказанное значение у (единица ^). х = 0 Это может иметь или не иметь смысла в зависимости от значения Конкретная ситуация. Упражнение 1 2.1. Регрессия стоимости продуктов питания (на основе того же Данные, для которых уже описана функция спроса, описанная в тексте) Меню определено как f = 1 в 1959 году, t = 2 в 1960 году и т. Д. Нини: у = 95,3 + 2,53 /. Интерпретация в Сравнение результатов оценки регрессии с аналогом Аналогичные результаты для модели регрессии функции спроса Пожалуйста, смотрите текст. В этом случае постоянная Есть простая интерпретация. 2.2. Регрессивная зависимость от одноразовой зависимости стоимости жилья 1 Упражнение 2.4 особенно важно в том смысле, что оно запускает серию регрессий для развлечения. Общий спрос. Это оценивается читателем на протяжении всей книги. Если это упражнение Если это делается группой студентов, учитель должен дать студентам задания Товарные. Более подробная информация о доступных данных доступна в Приложении B.go Личный доход в соответствии с таблицей. B.1, оба количества Можно оформить миллиарды долларов с 1959 по 1983 В следующем формате: j> = -27,6 + 0,178х. Регрессивная зависимость и определение стоимости жилья с течением времени То же самое, что и упражнение 2.1, можно выразить как: f = 48,9 + 4,84 г. Вот экономическая интерпретация этих регрессий. У них разные предложения Описание тех же данных в переменной y. Сколько они Вы можете согласиться? 2,3. Создайте уравнение регрессии между p и e из данных упражнения 1.3, сначала используйте все 12 наблюдений, затем исключите наблюдения 1. Дает экономическую интерпретацию для Японии. 2,4. В таблице. B.1 — потребительские расходы США располагаемый личный доход за период 1959-1983 гг. Назовите один продукт — не еду, а не домашнюю Пропустите регрессию между y и x. х — располагаемый личный доход, использующий Данные за 25 лет. Интерпретация коэффициентов регрессии 2.5. Таким образом, регрессия между характеристиками продукта и временем Мы сделаем это в упражнении 2.1. Правильная интерпретация и сравнение У нее есть интерпретация регрессии, полученная в упражнении 2.4. 2.6. Два человека строят один и тот же набор временных тенденций 25 наблюдений за переменной y с использованием модели: у = а + р / + и Где t — время (принимает значения непрерывно от 1 до 25), а -case Член чаепития. Получите первое уравнение: j> = 6,70 + 1,79 /. Вторая по ошибке оценивает регрессию между / и у и этим уравнением По мнению: t = -0,25 + 0,44 >>. Из этого уравнения он получает: у = 0,57 + 2,27 /. Объясните это уравнение и несоответствие между уравнениями, Получено первым исследователем. 2,7. Как изменяется регрессионный балл в упражнении 2.1 Фактическая дата (1959-1983) используется как / вместо числа из 1 до 25? 2,8. Исследователи, 1 Не начинайте сначала вычислять коэффициент регрессии. Заполнены большинство арифметических расчетов в упражнении 1.3. 2 Учителя являются учениками, если это групповое занятие. Удар, чтобы дать задачу оценки регрессии различных видов товаров в дополнение к еде жилья.люги, основанные на данных АМЕ (у) и общем располагаемом личном доходе (х) Риканская экономика (обе измеряются в миллиардах долларов) Фиксированная цена) с использованием данных и модели временных рядов за год: y = a + px + u. 1. Исследователь выполняет регрессионный анализ, чтобы получить уравнение. Используйте обычный метод наименьших квадратов. Если предположить, что Обе ценности могут быть значительно недооценены внутренней системой Личные счета за желание людей не платить налоги Правительство, исследователи принимают два альтернативных улучшения Недооцененная оценка. 2. Исследователи добавляют $ 90 млрд к показателю каждый год >> и Показатель х 200 миллиардов долларов. 3. Исследователь увеличивает x и y на 10% Каждый год. Оценить влияние корректировок (2) и (3) на результаты рег. ressii. 2.9. Исследователи имеют общие годовые данные временных рядов. Заработная плата (W), валовой доход (P) и валовой доход (Y) Для страны сроком на n лет. По определению Y = W + T1. Получите регулярное уравнение, используя метод наименьших квадратов Рссии: fr = a0 + aiY; ft = Z> 0 + bxY. Указывает, что коэффициент регрессии автоматически удовлетворяет Следующее уравнение: но х + * я = 1; * o + K = 0. Интуитивно объясните, почему так должно быть. 2.10. Исследователи не имеют нестохастической части истинной модели у пропорционально х. y = $ x + u. Исходя из исходного принципа, выведите формулу b, оценка МНК б. В этом случае (2.31) указывает, что это можно записать следующим образом. S = bj] + b2J, xj -2 £ Xx,. > 7 Для этого b = 2, xiyi / Zxf. 2,11. Выведите оценку наименьших квадратов модели из первого предположения. у = а + у. 68 То есть у это просто сумма констант Случайные участники с нами. Сначала переопределите 5, а затем дифференцируйте Цитирование.
Образовательный сайт для студентов и школьников Копирование материалов сайта возможно только с указанием активной ссылки «www.lfirmal.com» в качестве источника. © Фирмаль Людмила Анатольевна — официальный сайт преподавателя математического факультета Дальневосточного государственного физико-технического института источники: http://topuch.ru/lekciya-po-ekonometrike/index2.html http://lfirmal.com/interpretaciya-uravneniya-regressii/ |