Оценить параметры уравнения регрессии оценить тесноту связи

Задача №3. Расчёт параметров регрессии и корреляции с помощью Excel

По территориям региона приводятся данные за 200Х г.

Номер регионаСреднедушевой прожиточный минимум в день одного трудоспособного, руб., хСреднедневная заработная плата, руб., у
178133
282148
387134
479154
589162
6106195
767139
888158
973152
1087162
1176159
12115173

Задание:

1. Постройте поле корреляции и сформулируйте гипотезу о форме связи.

2. Рассчитайте параметры уравнения линейной регрессии

.

3. Оцените тесноту связи с помощью показателей корреляции и детерминации.

4. Дайте с помощью среднего (общего) коэффициента эластичности сравнительную оценку силы связи фактора с результатом.

5. Оцените с помощью средней ошибки аппроксимации качество уравнений.

6. Оцените с помощью F-критерия Фишера статистическую надёжность результатов регрессионного моделирования.

7. Рассчитайте прогнозное значение результата, если прогнозное значение фактора увеличится на 10% от его среднего уровня. Определите доверительный интервал прогноза для уровня значимости .

8. Оцените полученные результаты, выводы оформите в аналитической записке.

Решение:

Решим данную задачу с помощью Excel.

1. Сопоставив имеющиеся данные х и у, например, ранжировав их в порядке возрастания фактора х, можно наблюдать наличие прямой зависимости между признаками, когда увеличение среднедушевого прожиточного минимума увеличивает среднедневную заработную плату. Исходя из этого, можно сделать предположение, что связь между признаками прямая и её можно описать уравнением прямой. Этот же вывод подтверждается и на основе графического анализа.

Чтобы построить поле корреляции можно воспользоваться ППП Excel. Введите исходные данные в последовательности: сначала х, затем у.

Выделите область ячеек, содержащую данные.

Затем выберете: Вставка / Точечная диаграмма / Точечная с маркерами как показано на рисунке 1.

Рисунок 1 Построение поля корреляции

Анализ поля корреляции показывает наличие близкой к прямолинейной зависимости, так как точки расположены практически по прямой линии.

2. Для расчёта параметров уравнения линейной регрессии
воспользуемся встроенной статистической функцией ЛИНЕЙН.

1) Откройте существующий файл, содержащий анализируемые данные;
2) Выделите область пустых ячеек 5×2 (5 строк, 2 столбца) для вывода результатов регрессионной статистики.
3) Активизируйте Мастер функций: в главном меню выберете Формулы / Вставить функцию.
4) В окне Категория выберете Статистические, в окне функция – ЛИНЕЙН. Щёлкните по кнопке ОК как показано на Рисунке 2;

Рисунок 2 Диалоговое окно «Мастер функций»

5) Заполните аргументы функции:

Известные значения у – диапазон, содержащий данные результативного признака;

Известные значения х – диапазон, содержащий данные факторного признака;

Константа – логическое значение, которое указывает на наличие или на отсутствие свободного члена в уравнении; если Константа = 1, то свободный член рассчитывается обычным образом, если Константа = 0, то свободный член равен 0;

Статистика – логическое значение, которое указывает, выводить дополнительную информацию по регрессионному анализу или нет. Если Статистика = 1, то дополнительная информация выводится, если Статистика = 0, то выводятся только оценки параметров уравнения.

Щёлкните по кнопке ОК;

Рисунок 3 Диалоговое окно аргументов функции ЛИНЕЙН

6) В левой верхней ячейке выделенной области появится первый элемент итоговой таблицы. Чтобы раскрыть всю таблицу, нажмите на клавишу , а затем на комбинацию клавиш + + .

Дополнительная регрессионная статистика будет выводиться в порядке, указанном в следующей схеме:

Значение коэффициента bЗначение коэффициента a
Стандартная ошибка bСтандартная ошибка a
Коэффициент детерминации R 2Стандартная ошибка y
F-статистикаЧисло степеней свободы df
Регрессионная сумма квадратов

Остаточная сумма квадратов

Рисунок 4 Результат вычисления функции ЛИНЕЙН

Получили уровнение регрессии:

Делаем вывод: С увеличением среднедушевого прожиточного минимума на 1 руб. среднедневная заработная плата возрастает в среднем на 0,92 руб.

3. Коэффициент детерминации означает, что 52% вариации заработной платы (у) объясняется вариацией фактора х – среднедушевого прожиточного минимума, а 48% — действием других факторов, не включённых в модель.

По вычисленному коэффициенту детерминации можно рассчитать коэффициент корреляции: .

Связь оценивается как тесная.

4. С помощью среднего (общего) коэффициента эластичности определим силу влияния фактора на результат.

Для уравнения прямой средний (общий) коэффициент эластичности определим по формуле:

Средние значения найдём, выделив область ячеек со значениями х, и выберем Формулы / Автосумма / Среднее, и то же самое произведём со значениями у.

Рисунок 5 Расчёт средних значений функции и аргумент

Таким образом, при изменении среднедушевого прожиточного минимума на 1% от своего среднего значения среднедневная заработная плата изменится в среднем на 0,51%.

С помощью инструмента анализа данных Регрессия можно получить:
— результаты регрессионной статистики,
— результаты дисперсионного анализа,
— результаты доверительных интервалов,
— остатки и графики подбора линии регрессии,
— остатки и нормальную вероятность.

Порядок действий следующий:

1) проверьте доступ к Пакету анализа. В главном меню последовательно выберите: Файл/Параметры/Надстройки.

2) В раскрывающемся списке Управление выберите пункт Надстройки Excel и нажмите кнопку Перейти.

3) В окне Надстройки установите флажок Пакет анализа, а затем нажмите кнопку ОК.

• Если Пакет анализа отсутствует в списке поля Доступные надстройки, нажмите кнопку Обзор, чтобы выполнить поиск.

• Если выводится сообщение о том, что пакет анализа не установлен на компьютере, нажмите кнопку Да, чтобы установить его.

4) В главном меню последовательно выберите: Данные / Анализ данных / Инструменты анализа / Регрессия, а затем нажмите кнопку ОК.

5) Заполните диалоговое окно ввода данных и параметров вывода:

Входной интервал Y – диапазон, содержащий данные результативного признака;

Входной интервал X – диапазон, содержащий данные факторного признака;

Метки – флажок, который указывает, содержит ли первая строка названия столбцов или нет;

Константа – ноль – флажок, указывающий на наличие или отсутствие свободного члена в уравнении;

Выходной интервал – достаточно указать левую верхнюю ячейку будущего диапазона;

6) Новый рабочий лист – можно задать произвольное имя нового листа.

Затем нажмите кнопку ОК.

Рисунок 6 Диалоговое окно ввода параметров инструмента Регрессия

Результаты регрессионного анализа для данных задачи представлены на рисунке 7.

Рисунок 7 Результат применения инструмента регрессия

5. Оценим с помощью средней ошибки аппроксимации качество уравнений. Воспользуемся результатами регрессионного анализа представленного на Рисунке 8.

Рисунок 8 Результат применения инструмента регрессия «Вывод остатка»

Составим новую таблицу как показано на рисунке 9. В графе С рассчитаем относительную ошибку аппроксимации по формуле:

Рисунок 9 Расчёт средней ошибки аппроксимации

Средняя ошибка аппроксимации рассчитывается по формуле:

Качество построенной модели оценивается как хорошее, так как не превышает 8 – 10%.

6. Из таблицы с регрессионной статистикой (Рисунок 4) выпишем фактическое значение F-критерия Фишера:

Поскольку при 5%-ном уровне значимости, то можно сделать вывод о значимости уравнения регрессии (связь доказана).

8. Оценку статистической значимости параметров регрессии проведём с помощью t-статистики Стьюдента и путём расчёта доверительного интервала каждого из показателей.

Выдвигаем гипотезу Н0 о статистически незначимом отличии показателей от нуля:

.

для числа степеней свободы

На рисунке 7 имеются фактические значения t-статистики:

t-критерий для коэффициента корреляции можно рассчитать двумя способами:

I способ:

где – случайная ошибка коэффициента корреляции.

Данные для расчёта возьмём из таблицы на Рисунке 7.

II способ:

Фактические значения t-статистики превосходят табличные значения:

Поэтому гипотеза Н0 отклоняется, то есть параметры регрессии и коэффициент корреляции не случайно отличаются от нуля, а статистически значимы.

Доверительный интервал для параметра a определяется как

Для параметра a 95%-ные границы как показано на рисунке 7 составили:

Доверительный интервал для коэффициента регрессии определяется как

Для коэффициента регрессии b 95%-ные границы как показано на рисунке 7 составили:

Анализ верхней и нижней границ доверительных интервалов приводит к выводу о том, что с вероятностью параметры a и b, находясь в указанных границах, не принимают нулевых значений, т.е. не являются статистически незначимыми и существенно отличны от нуля.

7. Полученные оценки уравнения регрессии позволяют использовать его для прогноза. Если прогнозное значение прожиточного минимума составит:

Тогда прогнозное значение прожиточного минимума составит:

Ошибку прогноза рассчитаем по формуле:

где

Дисперсию посчитаем также с помощью ППП Excel. Для этого:

1) Активизируйте Мастер функций: в главном меню выберете Формулы / Вставить функцию.

2) В окне Категория выберете Статистические, в окне функция – ДИСП.Г. Щёлкните по кнопке ОК.

3) Заполните диапазон, содержащий числовые данные факторного признака. Нажмите ОК.

Рисунок 10 Расчёт дисперсии

Получили значение дисперсии

Для подсчёта остаточной дисперсии на одну степень свободы воспользуемся результатами дисперсионного анализа как показано на Рисунке 7.

Доверительные интервалы прогноза индивидуальных значений у при с вероятностью 0,95 определяются выражением:

Интервал достаточно широк, прежде всего, за счёт малого объёма наблюдений. В целом выполненный прогноз среднемесячной заработной платы оказался надёжным.

Условие задачи взято из: Практикум по эконометрике: Учеб. пособие / И.И. Елисеева, С.В. Курышева, Н.М. Гордеенко и др.; Под ред. И.И. Елисеевой. – М.: Финансы и статистика, 2003. – 192 с.: ил.

Лабораторные работы по эконометрике

Экономисты используют количественные данные для наблюдения за ходом развития экономики, ее анализа и прогнозов. Набор статистических методов, используемых для этих целей, называется в совокупности эконометрикой.

Если что-то непонятно — вы всегда можете написать мне в WhatsApp и я вам помогу!

Эконометрика

Эконометрика – это наука, связанная с эмпирическим выводом экономических законов, т.е. используются данные для того, чтобы получить количественные зависимости для экономических соотношений.

Пример выполненной лабораторной работы №1. Тема: «Парная регрессия и корреляция»

Задание: Периодически в средствах массовой информации обсуждаются высокие должностные оклады президентов благотворительных организаций. Дана информация о десяти крупнейших филиалах общества United Way в таблице 2.2.1.

  1. Построить поле корреляции и сформулировать гипотезу о форме связи.
  2. Рассчитать параметры уравнений линейной, степенной, экспоненциальной, полулогарифмической, обратной, гиперболической парной регрессий.
  3. Оценить тесноту связи с помощью показателей корреляции и детерминации.
  4. Дать с помощью среднего (общего) коэффициента эластичности сравнительную оценку силы связи фактора с результатом.
  5. Оценить с помощью средней ошибки аппроксимации качество уравнений.
  6. Оценить с помощью -критерия Фишера статистическую надежность результатов регрессионного моделирования.
  7. По значениям характеристик, рассчитанных в пп. 3, 5 и 6, выберать лучшее уравнение регрессии и дайть его обоснование.
  8. Рассчитайть прогнозное значение результата, если прогнозное значение фактора увеличится на 6 % от его среднего уровня. Определить доверительный интервал прогноза для уровня значимости .
  9. Оценить надежность и точность полученного прогноза.

Решение:

  • Для условия задачи поле корреляции выглядит следующим образом (Рисунок 2.2.1):

По расположению точек можно предположить, что между должностным окладом президента и собранной суммой пожертвований существует прямая линейная зависимость.

  • Определим параметры уравнения парной линейной регрессии . Вычисления организуем в таблицу 2.2.2:

Напомним, что средние значения рассчитываются по формулам

и т.д., где (число наблюдений в рассматриваемой задаче). Дисперсия определяется по формулам , а среднеквадратическое отклонение есть корень квадратный из дисперсии.

По формулам находим:

Т.о. уравнение регрессии запишется в виде:

Интерпретация коэффициента регрессии. С увеличением суммы пожертвований на душу населения на один доллар должностной оклад президента благотворительной организации увеличивается на 4,25 тыс. дол.

1) Рассчитаем линейный коэффициент корреляции по формуле:

С учетом вычислений в столбцах 2,3 и 4 таблицы получим

Т.е. связь между изучаемыми переменными прямая (так как ), тесная (так как ). Определим коэффициент детерминации .Т.е. 71,9% вариации должностного оклада объясняется вариацией пожертвований.

2) Рассчитаем средний коэффициент эластичности:

Это означает, что при изменении фактора (собранной суммы пожертвований на душу населения) на 1% от своего среднего значения, результат (должностной оклад президента) изменится в среднем по совокупности на 0,56% от своего среднего значения.

3) Найдем среднюю ошибку аппроксимации:

Это означает, что качество рассматриваемой модели хорошее. 4) Определим статистическую надежность результатов регрессионного моделирования, для этого находим

По таблице значений -критерия Фишера для уровня значимости находим:

то гипотеза о статистической незначимости уравнения регрессии отвергается и принимается гипотеза о статистической значимости и надежности уравнения регрессии в целом.

Обработка данных в табличном редакторе Excel приводит к следующему результату (Рисунок 2.2.2):

  • Определим параметры уравнения полулогарифмической регрессии . Предварительно проведем процедуру линеаризации переменных. Для этого сделаем замену и определим параметры уравнения . Вычисления организуем в таблицу 2.2.3:

По формулам находим:

Т.о. уравнение регрессии запишется в виде:

После замены получим

1) Рассчитаем индекс корреляции по формуле:

Определим коэффициент детерминации

Т.е. 70,6% вариации должностного оклада объясняется вариацией пожертвований.

2) Рассчитаем средний коэффициент эластичности:

Это означает, что при изменении фактора (собранной суммы пожертвований на душу населения) на 1% от своего среднего значения, результат (должностной оклад президента) изменится в среднем по совокупности на 0,53% от своего среднего значения.

3) Найдем среднюю ошибку аппроксимации:

Это означает, что качество рассматриваемой модели хорошее.

4) Определим статистическую надежность результатов регрессионного моделирования, для этого находим

По таблице значений -критерия Фишера для уровня значимости находим:

то гипотеза о статистической незначимости уравнения регрессии отвергается и принимается гипотеза о статистической значимости и надежности уравнения регрессии в целом. В Excel получим следующий результат (Рисунок 2.2.3):

  • Построению степенной модели предшествует процедура линеаризации переменных. Проведем линеаризацию путем логарифмирования обеих частей уравнения: , где .

Для расчетов используем данные таблицы 2.2.4:

По формулам находим:

Т.о. уравнение регрессии запишется в виде:

После замены получим:

1) Рассчитаем индекс корреляции по формуле:

Определим коэффициент детерминации

Т. е. 71,4 % вариации должностного оклада объясняется вариацией пожертвований.

2) Рассчитаем средний коэффициент эластичности:

Это означает, что при изменении фактора (собранной суммы пожертвований на душу населения) на 1% от своего среднего значения, результат (должностной оклад президента) изменится в среднем по совокупности на 0,54% от своего среднего значения.

3) Найдем среднюю ошибку аппроксимации:

Это означает, что качество рассматриваемой модели хорошее.

4) Определим статистическую надежность результатов регрессионного моделирования, для этого находим

По таблице значений -критерия Фишера для уровня значимости = 0,05 находим:

то гипотеза о статистической незначимости уравнения регрессии отвергается и принимается гипотеза о статистической значимости и надежности уравнения регрессии в целом.

В Excel получим следующий результат (Рисунок 2.2.4):

  • Построению экспоненциальной модели предшествует процедура линеаризации переменных. Проведем линеаризацию путем логарифмирования обеих частей уравнения: , где . Для расчетов используем данные таблицы 2.2.5:

По формулам находим:

Т.о. уравнение регрессии запишется в виде:

После замены получим:

1) Рассчитаем индекс корреляции по формуле:

Определим коэффициент детерминации

Т.е. 71,7% вариации должностного оклада объясняется вариацией пожертвований.

2) Рассчитаем средний коэффициент эластичности:

Это означает, что при изменении фактора (собранной суммы пожертвований на душу населения) на 1% от своего среднего значения, результат (должностной оклад президента) изменится в среднем по совокупности на 0,56% от своего среднего значения.

3) Найдем среднюю ошибку аппроксимации:

Это означает, что качество рассматриваемой модели хорошее. 4) Определим статистическую надежность результатов регрессионного моделирования, для этого находим

По таблице значений -критерия Фишера для уровня значимости = 0,05 находим:

то гипотеза о статистической незначимости уравнения регрессии отвергается и принимается гипотеза о статистической значимости и надежности уравнения регрессии в целом.

В Excel получим следующий результат (Рисунок 2.2.5):

  • Определим параметры уравнения обратной регрессии .

Предварительно проведем процедуру линеаризации переменных. Для этого сделаем замену и определим параметры уравнения . Вычисления организуем в таблицу 2.2.6:

По формулам находим:

Т.о. уравнение регрессии запишется в виде:

После замены получим:

1) Рассчитаем индекс корреляции по формуле:

Определим коэффициент детерминации

Т.е. 71% вариации должностного оклада объясняется вариацией пожертвований.

2) Рассчитаем средний коэффициент эластичности:

Это означает, что при изменении фактора (собранной суммы пожертвований на душу населения) на 1% от своего среднего значения, результат (должностной оклад президента) изменится в среднем по совокупности на 0,56% от своего среднего значения.

3) Найдем среднюю ошибку аппроксимации:

Это означает, что качество рассматриваемой модели хорошее. 4) Определим статистическую надежность результатов регрессионного моделирования, для этого находим

По таблице значений -критерия Фишера для уровня значимости = 0,05 находим:

то гипотеза о статистической незначимости уравнения регрессии отвергается и принимается гипотеза о статистической значимости и надежности уравнения регрессии в целом.

  • Определим параметры уравнения равносторонней гиперболы Предварительно проведем процедуру линеаризации переменных. Для этого сделаем замену и определим параметры уравнения .

Вычисления организуем в таблицу 2.2.7:

По формулам находим:

Т. о. уравнение регрессии запишется в виде:

После замены получим

2) Рассчитаем индекс корреляции по формуле:

Определим коэффициент детерминации

Т.е. 67,1% вариации должностного оклада объясняется вариацией пожертвований.

2) Рассчитаем средний коэффициент эластичности:

Это означает, что при изменении фактора (собранной суммы пожертвований на душу населения) на 1% от своего среднего значения, результат (должностной оклад президента) изменится в среднем по совокупности на 0,53% от своего среднего значения.

3) Найдем среднюю ошибку аппроксимации:

Это означает, что качество рассматриваемой модели удовлетворительное.

4) Определим статистическую надежность результатов регрессионного моделирования, для этого находим

По таблице значений -критерия Фишера для уровня значимости = 0,05 находим:

то гипотеза о статистической незначимости уравнения регрессии отвергается и принимается гипотеза о статистической значимости и надежности уравнения регрессии в целом. 8) Для анализа составим таблицу 2.2.8:

Из таблицы видим, что рассматриваемую в задаче зависимость лучше всего описывает уравнение линейной регрессии, поскольку для этой модели показатель корреляции оказался больше, при этом качество линейной модели хорошее и уравнение линейной регрессии статистически надёжно.

Рассчитаем прогнозное значение . Для этого найдем

Построим точечный прогноз:

Построим 95% доверительный интервал для прогноза. Определим среднюю стандартную ошибку прогноза :

Далее строим доверительный интервал прогноза:

По таблице находим для уровня значимости по условию и числа степеней свободы

Таким образом, с вероятностью 0,95 можно утверждать, что прогнозное значение оклада президента отдельной благотворительной организации, которая соберет пожертвований в расчете на душу населения на 6% больше от среднего значения, будет находиться в интервале от 139,685 до 220,047тыс. долларов. Прогноз оказался надежным.

Оценим точность полученного прогноза

Прогноз оказался не очень точным.

Пример выполненной лабораторной работы № 2 Тема : «Множественная регрессия»

Задание: Имеются данные по странам

  1. Найти матрицу парных коэффициентов корреляции. Сделать выводы.
  2. Построить уравнение множественной регрессии в стандартизованной и естественной форме.
  3. Сделать выводы о силе влияния факторов на результат на основе -коэффициентов и средних коэффициентов эластичности.
  4. Рассчитать линейные коэффициенты частной корреляции и коэффициент множественной корреляции. Проанализировать линейные коэффициенты парной и частной корреляции. Рассчитать значение скорректированного коэффициента множественной детерминации.
  5. С помощью общего -критерия Фишера оценить статистическую надежность уравнения регрессии.
  6. С помощью частных -критериев Фишера оценить, насколько целесообразно включение в уравнение регрессии фактора , после фактора и насколько целесообразно включение в уравнение регрессии фактора после фактора .
  7. Оценить с помощью -критерия Стьюдента статистическую значимость коэффициентов при переменных и множественного уравнения регрессии.
  8. Сделать выводы.

Решение:

  • Матрицу парных коэффициентов можно получить, рассчитав линейные коэффициенты парной корреляции аналогично тому, как это делалось в первой лабораторной работе. Однако, эффетивнее воспользоваться инструментом «Корреляция» ППП Exel. При построении матрицы парных коэффициентов корреляции исследуемых показателей, учитываем, что эта матрица должна быть симметричной относительно главной диагонали:

Очевидно, что факторы и явно коллинеарны , то есть они дублируют друг друга, один из них следует исключить. Для дальнейшего анализа предпочтительнее оставить фактор , так как он меньше коррелирует с фактором , чем фактор .

  • Линейное уравнение регрессии от и имеет вид:

Для расчета его параметров применим метод стандартизации переменных и построим искомое уравнение в стандартизованном масштабе:

В нашем примере число объясняющих факторов . Стандартизованные коэффициенты регрессии (-коэффициенты) определяются из следующей системы уравнений:

При эта система принимает вид:

Для нахождения -коэффициентов применим метод Крамера:

Получим уравнение в стандартизированном масштабе

Для построения уравнения в естественной форме рассчитаем и используя формулы для перехода от к :

Для расчета необходимых величин составим расчетную таблицу 3.2.1.

Значение параметра определим из соотношения

Получим уравнение в естественной форме

  • При сравнении модулей значений стандартизованных коэффициентов и приходим к выводу, что сила влияния на оказалась большей, чем сила влияния :

К аналогичным выводам можно прийти, рассчитав средние коэффициенты эластичности:

С увеличением на 1 % от его среднего уровня возрастает на 1,49 % от своего среднего уровня; при повышении на 1 % от его среднего уровня повышается на 0,03 % от своего среднего уровня. Очевидно, что сила влияния на оказалась большей, чем сила .

  • Линейные коэффициенты частной корреляции рассчитываются по рекуррентной формуле:

При получаем:

Коэффициенты частной корреляции дают более точную характеристику тесноты связи двух признаков, чем коэффициенты парной корреляции, так как очищают парную зависимость от взаимодействия данной пары признаков с другими признаками, представленным в модели. Сравним парные и частные коэффициенты корреляции:

выводы о связи между и совпадают;

связь между и на основе частного коэффициента корреляции оказалась гораздо слабее;

связь между и на основе частного коэффициента корреляции оказалась гораздо слабее.

Различия в выводах на основе частных и парных коэффициентов корреляции различаются из-за довольно существенной межфакторной связи

Расчет линейного коэффициента множественной корреляции выполним с использованием коэффициентов и :

Зависимость от и характеризуется как тесная, в которой 93,7 % вариации среднего душевого дохода определяются вариацией учтенных в модели факторов.

Прочие факторы, не включенные в модель, составляют соответственно 6,3 % от общей вариации .

Скорректированный индекс множественной детерминации содержит поправку на число степеней свободы и рассчитывается следующим образом:

  • Общий -критерий проверяет гипотезу о статистической незначимости уравнения регрессии и показателя тесноты связи:

Определяем по таблице значений -критерия Фишера

Так как , то гипотеза о случайной природе оцениваемых характеристик отклоняется, и с вероятностью делаем заключение о статистической значимости уравнения в целом и показателя тесноты связи, которые сформировались под неслучайным воздействием факторов и .

  • Частные -критерии — и оценивают статистическую значимость присутствия факторов и в уравнении множественной регрессии. оценивает, насколько целесообразно включение в уравнение регрессии фактора после фактора , a указывает целесообразность включения в уравнение регрессии фактора после фактора .

Фактическое значение частного -критерия рассчитывается по формуле:

то гипотезу о несущественности прироста за счет включения дополнительного фактора отклоняем и приходим к выводу о статистически подтвержденной целесообразности включения в уравнение регрессии фактора после фактора .

Целесообразность включения в модель фактора после фактора проверяет :

то гипотезу о несущественности прироста за счет включения дополнительного фактора принимаем. Это означает нецелесообразность включения в уравнение регрессии фактора после фактора .

  • Оценка с помощью -критерия Стьюдента значимости коэффициентов и связана с сопоставлением их значений с величиной их случайных ошибок и . Расчет значений случайных ошибок достаточно сложен и трудоёмок. Поэтому предлагается расчёт значения -критерия Стьюдента по следующим формулам:

Табличные (критические) значения -критерия Стьюдента зависят от принятого уровня значимости и от числа степеней свободы

где — число единиц совокупности, — число факторов в уравнении.

В нашем примере

Так как , то коэффициент регрессии является статистически значимым, надежным, на него можно опираться в анализе и в прогнозе. Так как то приходим к заключению, что величина является статистически незначимой, ненадежной в силу того, что формируется преимущественно под воздействием случайных факторов. Еще раз подтверждается статистическая значимость влияния на и ненадежность, незначимость влияния на . 8.Проведенные выше исследования показывают, что в данном примере парная регрессионная модель зависимости индекса человеческого развития от средней ожидаемой продолжительности жизни является достаточно статистически значимой, и нет необходимости улучшать ее, включая дополнительный фактор (суточную калорийность питания).

Пример выполненной лабораторной работы № 3 Тема : « Аддитивная и мультипликативная модели временных рядов »

Задание: Имеются поквартальные данные об объемах потребления электроэнергии жителям региона за 4 года (Таблица 5.2.1).

1) Построить аддитивную модель;

2) Построить мультипликативную модель;

3) Выполнить прогноз потребления электроэнергии на первый квартал 2014 года.

Решение:

1) Аддитивная модель

Шаг 1. Проведем выравнивание исходных уровней ряда методом скользящей средней, для этого:

  1. Просуммируем уровни ряда последовательно за каждые четыре квартала со сдвигом на один момент времени.
  2. Разделив полученные суммы на четыре, найдем скользящую среднюю. Полученные таким образом значения не содержат сезонной компоненты.
  3. Приведем эти значения в соответствии с фактическими моментами времени, для чего найдем средние значения из двух последовательных скользящих средних — центрированные скользящие средние.

Шаг 2. Найдем оценки сезонной компоненты как разность между фактическими уровнями ряда и центрированными скользящими средними. Результат занесем в таблицу (Таблица 5.2.2).

Используем полученные оценки для расчета значений сезонной компоненты . Для этого найдем средние значения за каждый квартал по всем годам.

В моделях с сезонной компонентой обычно предполагается, что сезонные взаимодействия за период взаимопогашаются. В аддитивной модели это выражается в том, что сумма значений сезонной компоненты по всем кварталам должна быть равна нулю. Этот факт мы будем использовать для корректировки сезонной компоненты (Таблица 5.2.3).

Сумма значений сезонной компоненты по всем кварталам составит:

Определим корректирующий коэффициент:

Рассчитаем скорректированные значения сезонной компоненты как разность между ее средней оценкой и корректирующим коэффициентом:

где . Проверим условие равенства нулевой суммой значений сезонной компоненты:

Шаг 3. Устраним сезонную компоненту, вычитая ее значение из каждого уровня исходного временного ряда. Эти значения рассчитываются для каждого момента времени и содержат только тенденцию и случайную компоненту (Таблица 5.2.4).

Шаг 4. Определим компоненту для данной модели путем построения линейного тренда по данным, находящимся в столбце . Получим тренд (Рисунок 5.2.1.):

2) Мультипликативная модель.

Шаг 1. Выравнивание исходных уровней ряда методом скользящей средней были выполнены при построении аддитивной модели.

Шаг 2. Найдем оценки сезонной компоненты как отношение фактических уровней ряда к центрированным скользящим средним. Результат занесем в таблицу (Таблица 5.2.5).

Полученные значения занесем в таблицу 5.2.6:

Определим корректирующий множитель. Он равен отношению 4 к сумме вычисленных индексов:

На корректирующий множитель умножается значение каждого из четырех квартальных индексов. Сумма скорректированных индексов должна быть равна числу периодов сезонности (в данном примере числу кварталов). В данном примере скорректированные индексы следующие:

Шаг 3. Десезонализированные данные вычисляются как отношение фактических уровней временного ряда к соответствующему индексу сезонности:

Вычислим десезонализированные данные (Таблица 5.2.7):

Шаг 4. По десезонализированным данным строится тренд, как уравнение парной регрессии, где -зависимая переменная, а — объясняющий фактор. Линейный тренд в данном примере имеет вид:

Выполним прогноз на первый квартал 2014 года по аддитивной модели:

Выполним прогноз на первый квартал 2014 года по мультипликативной модели:

Пример выполненной лабораторной работы №4 Тема: «Автокорреляция уровней временного ряда и выявление его структуры»

Задание:

Имеются данные за 30 последовательных периодов:

Требуется: рассчитать коэффициенты автокорреляции до максимально возможного уровня; построить автокорреляционную функцию; сделать выводы о структуре ряда; предложить модель авторегрессии для описания ряда.

Решение:

Для расчета коэффициента автокорреляции уровней ряда 1-го порядка составим таблицу 6.2.1.

Полученное значение свидетельствует о слабой зависимости между уровнями временного ряда текущего и предшествующего периодов.

Рассчитать коэффициенты автокорреляции 2-го и последующих уровней можно путем составления аналогичной таблиц. Однако, этот процесс достаточно трудоемок. Для облегчения задачи построим линейные тренды в ППП Exel. Для этого нужно выделить соответствующий диапазон данных (например для расчета нам нужны данные ), затем построить точечную диаграмму и добавить линейный тренд. При построении тренда поставить галочку у флажка «Показывать величину аппроксимации на диаграмме ()». Затем из полученного выделить корень квадратный. Для данного примера

Рассчитаем коэффициенты автокорреляции нескольких уровней. Максимально возможный лаг не должен превышать

то есть можно рассчитать коэффициенты автокорреляции до 7-го порядка включительно.

Итак, автокорреляционная функция имеет вид:

Анализ значений автокорреляционной функции позволяет сделать вывод об отсутствии в изучаемом временном ряде сильной линейной тенденции и существовании сезонных колебаний с периодом три .

Для прогнозирования значений в будущие периоды в данном случае целесообразно предложить уравнение авторегрессии вида:

Пример выполненной лабораторной работы № 5. Тема : «Автокорреляции в остатках. Критерий Дарбина-Уотсона»

Задание: По данным за 18 месяцев построено уравнение зависимости прибыли предприятия (млн руб.) от цен на сырье (тыс. руб. за 1 т) и производительности труда (ед. продукции на 1 работника):

При анализе остаточных величин были использованы значения, приведенные в таблице 7.2.1.

  1. По трем позициям рассчитать .
  2. Рассчитать критерий Дарбина — Уотсона.
  3. Оценить полученный результат при 5%-м уровне значимости.
  4. Указать, пригодно ли данное уравнение для прогноза.

Решение:

  1. определяется путем подстановки фактических значений и в уравнение регрессии:

Остатки рассчитываются по формуле Следовательно,

— те же значения, что и , но со сдвигом на один месяц.

Результаты вычислений оформим в виде таблицы 7.2.2

  • Критерий Дарбина — Уотеона рассчитывается по формуле:

  • Выдвигаем гипотезу об отсутствии автокорреляции в остатках. Определяем табличное значение статистики Дарбина — Уотеона. При уровне значимости (месяцев) и (число факторов) нижнее значение равно , а верхнее . Чтобы оценить значимость коэффициента автокорреляции вычислим интервалы:

В данной задаче

Это означает наличие отрицательной автокорреляции в остатках.

  • Уравнение не может быть использовано для прогноза, так как в нем не устранена автокорреляция в остатках, которая может иметь различные причины: возможно, в уравнение не включен какой-либо существенный фактор, либо неточна форма связи, а, может быть, в рядах динамики имеется общая тенденция.

Возможно эти страницы вам будут полезны:

Образовательный сайт для студентов и школьников

Копирование материалов сайта возможно только с указанием активной ссылки «www.lfirmal.com» в качестве источника.

© Фирмаль Людмила Анатольевна — официальный сайт преподавателя математического факультета Дальневосточного государственного физико-технического института

Оценка параметров линейного регрессионного уравнения

Для оценки параметров регрессионного уравнения наиболее часто используют метод наименьших квадратов (МНК), в основе которого лежит предположение о независимости наблюдений исследуемой совокупности. Сущность данного метода заключается в нахождении параметров модели (α, β), при которых минимизируется сумма квадратов отклонений эмпирических (фактических) значений результативного признака от теоретических, полученных по выбранному уравнению регрессии:

В итоге получаем систему нормальных уравнений:

Эту систему можно записать в виде:

Решая данную систему линейных уравнений с двумя неизвестными получаем оценки наименьших квадратов:

В уравнениях регрессии параметр α показывает усредненное влияние на результативный признак неучтенных факторов, а параметр β – коэффициент регрессии показывает, насколько изменяется в среднем значение результативного признака при увеличении факторного на единицу.

Между линейным коэффициентом корреляции и коэффициентом регрессии существует определенная зависимость, выражаемая формулой:

где – коэффициент регрессии в уравнении связи;

– среднее квадратическое отклонение соответствующего статистически существенного факторного признака.

Имеются следующие данные о размере страховой суммы и страховых возмещений на автотранспортные средства одной из страховых компаний.

Зависимость между размером страховых возмещений и страховой суммой на автотранспорт

Объем страхового возмещения (тыс.долл.), Yi

Стоимость застрахованного автомобиля (тыс.долл.), X i


источники:

http://lfirmal.com/laboratornaya-po-ekonometrike/

http://einsteins.ru/subjects/statistika/teoriya-statistika/ocenka-parametrov