Остаточная дисперсия найти по уравнению регрессии

Задача №3. Расчёт параметров регрессии и корреляции с помощью Excel

По территориям региона приводятся данные за 200Х г.

Номер регионаСреднедушевой прожиточный минимум в день одного трудоспособного, руб., хСреднедневная заработная плата, руб., у
178133
282148
387134
479154
589162
6106195
767139
888158
973152
1087162
1176159
12115173

Задание:

1. Постройте поле корреляции и сформулируйте гипотезу о форме связи.

2. Рассчитайте параметры уравнения линейной регрессии

.

3. Оцените тесноту связи с помощью показателей корреляции и детерминации.

4. Дайте с помощью среднего (общего) коэффициента эластичности сравнительную оценку силы связи фактора с результатом.

5. Оцените с помощью средней ошибки аппроксимации качество уравнений.

6. Оцените с помощью F-критерия Фишера статистическую надёжность результатов регрессионного моделирования.

7. Рассчитайте прогнозное значение результата, если прогнозное значение фактора увеличится на 10% от его среднего уровня. Определите доверительный интервал прогноза для уровня значимости .

8. Оцените полученные результаты, выводы оформите в аналитической записке.

Решение:

Решим данную задачу с помощью Excel.

1. Сопоставив имеющиеся данные х и у, например, ранжировав их в порядке возрастания фактора х, можно наблюдать наличие прямой зависимости между признаками, когда увеличение среднедушевого прожиточного минимума увеличивает среднедневную заработную плату. Исходя из этого, можно сделать предположение, что связь между признаками прямая и её можно описать уравнением прямой. Этот же вывод подтверждается и на основе графического анализа.

Чтобы построить поле корреляции можно воспользоваться ППП Excel. Введите исходные данные в последовательности: сначала х, затем у.

Выделите область ячеек, содержащую данные.

Затем выберете: Вставка / Точечная диаграмма / Точечная с маркерами как показано на рисунке 1.

Рисунок 1 Построение поля корреляции

Анализ поля корреляции показывает наличие близкой к прямолинейной зависимости, так как точки расположены практически по прямой линии.

2. Для расчёта параметров уравнения линейной регрессии
воспользуемся встроенной статистической функцией ЛИНЕЙН.

1) Откройте существующий файл, содержащий анализируемые данные;
2) Выделите область пустых ячеек 5×2 (5 строк, 2 столбца) для вывода результатов регрессионной статистики.
3) Активизируйте Мастер функций: в главном меню выберете Формулы / Вставить функцию.
4) В окне Категория выберете Статистические, в окне функция – ЛИНЕЙН. Щёлкните по кнопке ОК как показано на Рисунке 2;

Рисунок 2 Диалоговое окно «Мастер функций»

5) Заполните аргументы функции:

Известные значения у – диапазон, содержащий данные результативного признака;

Известные значения х – диапазон, содержащий данные факторного признака;

Константа – логическое значение, которое указывает на наличие или на отсутствие свободного члена в уравнении; если Константа = 1, то свободный член рассчитывается обычным образом, если Константа = 0, то свободный член равен 0;

Статистика – логическое значение, которое указывает, выводить дополнительную информацию по регрессионному анализу или нет. Если Статистика = 1, то дополнительная информация выводится, если Статистика = 0, то выводятся только оценки параметров уравнения.

Щёлкните по кнопке ОК;

Рисунок 3 Диалоговое окно аргументов функции ЛИНЕЙН

6) В левой верхней ячейке выделенной области появится первый элемент итоговой таблицы. Чтобы раскрыть всю таблицу, нажмите на клавишу , а затем на комбинацию клавиш + + .

Дополнительная регрессионная статистика будет выводиться в порядке, указанном в следующей схеме:

Значение коэффициента bЗначение коэффициента a
Стандартная ошибка bСтандартная ошибка a
Коэффициент детерминации R 2Стандартная ошибка y
F-статистикаЧисло степеней свободы df
Регрессионная сумма квадратов

Остаточная сумма квадратов

Рисунок 4 Результат вычисления функции ЛИНЕЙН

Получили уровнение регрессии:

Делаем вывод: С увеличением среднедушевого прожиточного минимума на 1 руб. среднедневная заработная плата возрастает в среднем на 0,92 руб.

3. Коэффициент детерминации означает, что 52% вариации заработной платы (у) объясняется вариацией фактора х – среднедушевого прожиточного минимума, а 48% — действием других факторов, не включённых в модель.

По вычисленному коэффициенту детерминации можно рассчитать коэффициент корреляции: .

Связь оценивается как тесная.

4. С помощью среднего (общего) коэффициента эластичности определим силу влияния фактора на результат.

Для уравнения прямой средний (общий) коэффициент эластичности определим по формуле:

Средние значения найдём, выделив область ячеек со значениями х, и выберем Формулы / Автосумма / Среднее, и то же самое произведём со значениями у.

Рисунок 5 Расчёт средних значений функции и аргумент

Таким образом, при изменении среднедушевого прожиточного минимума на 1% от своего среднего значения среднедневная заработная плата изменится в среднем на 0,51%.

С помощью инструмента анализа данных Регрессия можно получить:
— результаты регрессионной статистики,
— результаты дисперсионного анализа,
— результаты доверительных интервалов,
— остатки и графики подбора линии регрессии,
— остатки и нормальную вероятность.

Порядок действий следующий:

1) проверьте доступ к Пакету анализа. В главном меню последовательно выберите: Файл/Параметры/Надстройки.

2) В раскрывающемся списке Управление выберите пункт Надстройки Excel и нажмите кнопку Перейти.

3) В окне Надстройки установите флажок Пакет анализа, а затем нажмите кнопку ОК.

• Если Пакет анализа отсутствует в списке поля Доступные надстройки, нажмите кнопку Обзор, чтобы выполнить поиск.

• Если выводится сообщение о том, что пакет анализа не установлен на компьютере, нажмите кнопку Да, чтобы установить его.

4) В главном меню последовательно выберите: Данные / Анализ данных / Инструменты анализа / Регрессия, а затем нажмите кнопку ОК.

5) Заполните диалоговое окно ввода данных и параметров вывода:

Входной интервал Y – диапазон, содержащий данные результативного признака;

Входной интервал X – диапазон, содержащий данные факторного признака;

Метки – флажок, который указывает, содержит ли первая строка названия столбцов или нет;

Константа – ноль – флажок, указывающий на наличие или отсутствие свободного члена в уравнении;

Выходной интервал – достаточно указать левую верхнюю ячейку будущего диапазона;

6) Новый рабочий лист – можно задать произвольное имя нового листа.

Затем нажмите кнопку ОК.

Рисунок 6 Диалоговое окно ввода параметров инструмента Регрессия

Результаты регрессионного анализа для данных задачи представлены на рисунке 7.

Рисунок 7 Результат применения инструмента регрессия

5. Оценим с помощью средней ошибки аппроксимации качество уравнений. Воспользуемся результатами регрессионного анализа представленного на Рисунке 8.

Рисунок 8 Результат применения инструмента регрессия «Вывод остатка»

Составим новую таблицу как показано на рисунке 9. В графе С рассчитаем относительную ошибку аппроксимации по формуле:

Рисунок 9 Расчёт средней ошибки аппроксимации

Средняя ошибка аппроксимации рассчитывается по формуле:

Качество построенной модели оценивается как хорошее, так как не превышает 8 – 10%.

6. Из таблицы с регрессионной статистикой (Рисунок 4) выпишем фактическое значение F-критерия Фишера:

Поскольку при 5%-ном уровне значимости, то можно сделать вывод о значимости уравнения регрессии (связь доказана).

8. Оценку статистической значимости параметров регрессии проведём с помощью t-статистики Стьюдента и путём расчёта доверительного интервала каждого из показателей.

Выдвигаем гипотезу Н0 о статистически незначимом отличии показателей от нуля:

.

для числа степеней свободы

На рисунке 7 имеются фактические значения t-статистики:

t-критерий для коэффициента корреляции можно рассчитать двумя способами:

I способ:

где – случайная ошибка коэффициента корреляции.

Данные для расчёта возьмём из таблицы на Рисунке 7.

II способ:

Фактические значения t-статистики превосходят табличные значения:

Поэтому гипотеза Н0 отклоняется, то есть параметры регрессии и коэффициент корреляции не случайно отличаются от нуля, а статистически значимы.

Доверительный интервал для параметра a определяется как

Для параметра a 95%-ные границы как показано на рисунке 7 составили:

Доверительный интервал для коэффициента регрессии определяется как

Для коэффициента регрессии b 95%-ные границы как показано на рисунке 7 составили:

Анализ верхней и нижней границ доверительных интервалов приводит к выводу о том, что с вероятностью параметры a и b, находясь в указанных границах, не принимают нулевых значений, т.е. не являются статистически незначимыми и существенно отличны от нуля.

7. Полученные оценки уравнения регрессии позволяют использовать его для прогноза. Если прогнозное значение прожиточного минимума составит:

Тогда прогнозное значение прожиточного минимума составит:

Ошибку прогноза рассчитаем по формуле:

где

Дисперсию посчитаем также с помощью ППП Excel. Для этого:

1) Активизируйте Мастер функций: в главном меню выберете Формулы / Вставить функцию.

2) В окне Категория выберете Статистические, в окне функция – ДИСП.Г. Щёлкните по кнопке ОК.

3) Заполните диапазон, содержащий числовые данные факторного признака. Нажмите ОК.

Рисунок 10 Расчёт дисперсии

Получили значение дисперсии

Для подсчёта остаточной дисперсии на одну степень свободы воспользуемся результатами дисперсионного анализа как показано на Рисунке 7.

Доверительные интервалы прогноза индивидуальных значений у при с вероятностью 0,95 определяются выражением:

Интервал достаточно широк, прежде всего, за счёт малого объёма наблюдений. В целом выполненный прогноз среднемесячной заработной платы оказался надёжным.

Условие задачи взято из: Практикум по эконометрике: Учеб. пособие / И.И. Елисеева, С.В. Курышева, Н.М. Гордеенко и др.; Под ред. И.И. Елисеевой. – М.: Финансы и статистика, 2003. – 192 с.: ил.

Задача

По предприятиям легкой промышленности региона получена информация, характеризующая зависимость объема выпуска продукции (Y, млн. руб.) от объема капиталовложений (X, млн. руб.).

1. Найти параметры уравнения линейной регрессии, дать экономическую интерпретацию коэффициента регрессии.

2. Вычислить остатки; найти остаточную сумму квадратов; оценить дисперсию остатков S2ε ; построить график остатков.

3. Проверить выполнение предпосылок МНК.

4. Осуществить проверку значимости параметров уравнения регрессии с помощью t-критерия Стьюдента (α=0,05).

5. Вычислить коэффициент детерминации, проверить значимость уравнения регрессии с помощью f-критерия Фишера (α=0,05), найти среднюю относительную ошибку аппроксимации. Сделать вывод о качестве модели.

6. Осуществить прогнозирование среднего значения показателя Y при уровне значимости α=0,1, если прогнозное значение фактора X составит 80% от его максимального значения.

7. Представить графически фактическое и модельное значение Y точки прогноза.

8. Составить уравнения нелинейной регрессии:

Привести графики построенных уравнений регрессии.

9. Для указанных моделей найти коэффициенты детерминации, коэффициенты эластичности и средние относительные ошибки аппроксимации. Сравнить модели по этим характеристикам и сделать вывод.

Задача 1. Уравнение линейной регрессии имеет вид: . А значения параметров а и b линейной модели можно определить по данным формулам:

, .

С помощью ППП Excel найдем параметры уравнения линейной регрессии. Порядок выселения следующий:

1. Активизируем инструмент Пакет анализа:

1.1. Сервис →Настройки;

1.2. В диалоговом окне Настройки отметим пункт Пакет анализа→ ОК.

2. Ведем исходные данные;

Рис. 1. Исходные данные

3. Сервис → Анализ данных → Регрессия→ОК;

4. Заполним диалоговое окно ввода данных и параметров вывода:

Рис. 2. Диалоговое окно ввода параметров инструмента Регрессия

Результаты регрессионного анализа для данных представлены на рис. 3.

Рис. 3. Результат применения инструмента Регрессия

В ячейках В17 и В18 расположены значения параметров а и b соответственно. Итак, уравнение регрессии имеет вид: .

Коэффициент регрессии b показывает, что с ростом капиталовложений на 1 млн. руб. выпуск продукции увеличивается в среднем на 2,40 млн. руб.

Задача 2. Остатки определяются по формуле: . Соответственно остаточная сумма квадратов определяется по формуле: .

На рис. 3. в ячейках С25:С34 уже вычислены остатки. А остаточную сумму квадратов найдем с помощью ППП Excel, использую функцию ПРОИЗВЕД. Результаты вычислений приведены на рис. 6.

Рис. 4. Остаточная сумма квадратов

Итак, остаточная сумма квадратов равна 25,96– она также вычислена с помощью Регрессии (ячейка D13).

Дисперсия остатков определяется по формуле: .

Поскольку остаточная сумма квадратов вычислена и равна 25,96, а количество наблюдений 10, то можно найти дисперсию остатков. Результат вычисления приведен на рис. 4 в ячейке В37.

Итак, дисперсия остатков составляет 25,96 (она также вычислена с помощью Регрессии – рис. 3, ячейка D13).

График остатков уже построен с помощью инструмента Анализа данных Регрессия (рис. 3). Приведем график остатков в отдельный вид.

Рис. 5. График остатков

Задача 3. Проверим выполнение предпосылок МНК. Свойства коэффициентов регрессии существенным образом зависят от свойств случайной составляющей. Для того чтобы МНК давал наилучшие результаты, должны выполняться условия Гаусса — Маркова.

Условие 1. Математическое ожидание случайной составляющей в любом наблюдении должно быть равно нулю: М(εi)=0.

В нашем случае уравнение регрессии включает постоянный член и, следовательно, это условие выполняется автоматически.

Условие 2. Случайная составляющая (εi) или зависимая переменная (yi)есть величины случайные, а независимая величина (xi)– величина неслучайная: . Проверим выполнение данного условия с помощью критерия поворотных точек, для этого постоим дополнительную таблицу.

Р — число поворотных точек. В нашем примере Р=6.

;

;

;

;

Р> 2,99; т. е. 6>2,99. Следовательно, условие выполняется.

Итак, случайная составляющая (εi) или зависимая переменная (yi) есть величины случайные.

Условие 3. Случайная переменная в любых двух наблюдениях независима.

Чтобы проверить выполнение данного условия, с помощью ППП Excel вычислим dw-критерий Дарбина — Уотсона: .

Т. к. остатки и остаточная сумма квадратов уже вычислены (рис. 5),то для нахождения dw-критерий Дарбина – Уотсона нужно найти (εi-εi-1) и (εi-εi-1)2.

Рис. 6. Вычисление dw-критерия Дарбина-Уотсона

Итак, dw=1,70. Поскольку dw > d2 (d2 = 1,36) , но dw tтабл и tb>tтабл, то параметры a и b уравнения регрессии значимы.

Осуществим проверку значимости параметров уравнения регрессии с помощью t-критерия Стьюдента (α=0,1) с помощью функции СТЬЮДРАСПОБР.

Рис. 16. Результат вычисления tтабл (α=0,1)

Итак, табличное значение t-критерия при уровне значимости и степенях свободы составляет 1,. Так как tа>tтабл и tb>tтабл, то параметры a и b уравнения регрессии значимы.

Задача 5. В случае линейной зависимости между переменными парный коэффициент корреляции является показателем тесноты связи и определяется по формуле:

.

Коэффициент корреляции в нашем примере уже вычислен с помощью инструмента Excel Регрессии (рис. 3, стр. 4) – ячейка В4, который равен 0,98405.

По шкале Чеддока коэффициент корреляции попал в интервал от 0,9 до 1, следовательно, это говорит о весьма высокой связи.

Долю дисперсии, объясняемую регрессией в общей дисперсии результативного признака y, характеризует коэффициент детерминации:

.

Коэффициент детерминации в нашем примере уже вычислен с помощью инструмента анализа Регрессии (рис. 3, ячейка В5) и составляет 0,96836.

Значимость уравнения регрессии y=13,89+2,40x определяется с помощью F-критерия Фишера (α=0,05) используя данную формулу: .

.

Табличное значение F-критерия Фишера при доверительной вероятности 0,05 при ν1=1 и ν2=8 уже вычислено с помощью функции FРАСПОБР и составляет 5,31766. Поскольку Fрасч>F табл, уравнение регрессии следует признать значимым.

Коэффициент эластичности для линейной функции определяется по формуле:

.

Таким образом, .

Это значит, что если фактор измениться на 1%, то в среднем на 0,87% измениться результат.

Чтобы иметь общее суждение о качестве модели из относительных отклонений по каждому наблюдению, определяют относительную ошибку аппроксимации:

.

Вычислим относительную ошибку аппроксимации с помощью Excel.

Рис.17. Результаты вычислений относительной ошибки аппроксимации

Итак, относительная ошибка аппроксимации составила 3,86%, что говорит о качественной модели.

Задача 6. Осуществим прогнозирование среднего значения показателя Y при уровне значимости α=0,1, если известно, что прогнозное значение фактора Х составит 80% от его максимального значения.

Прогнозное значение переменной y получается при подстановке в уравнение регрессии ожидаемого значения x: , где .

В нашем случае .Отсюда .

Вероятность реализации точечного прогноза равна нулю. Поэтому рассчитывается средняя ошибка прогноза или доверительный интервал прогноза с достаточно большей надежностью. Доверительные интервалы зависят от стандартной ошибки, удаления от своего среднего значения , количества наблюдений n и уровня значимости прогноза α.В частности, для прогноза будущие значения с вероятностью (1-α) попадут в интервал:

.

Ширина доверительного интервала определяется по формуле:

.

Величина уже вычислена (рис. 3, ячейка В7) и равна 5,0958. Коэффициент Стьюдента для m=8 степеней свободы и уровня значимости 0,1 равен 1, Произведем дополнительные расчеты:

Рис. 18. Дополнительные расчеты

.

Решения задач: линейная регрессия и коэффициент корреляции

Парная линейная регрессия — это зависимость между одной переменной и средним значением другой переменной. Чаще всего модель записывается как $y=ax+b+e$, где $x$ — факторная переменная, $y$ — результативная (зависимая), $e$ — случайная компонента (остаток, отклонение).

В учебных задачах по математической статистике обычно используется следующий алгоритм для нахождения уравнения регрессии.

  1. Выбор модели (уравнения). Часто модель задана заранее (найти линейную регрессию) или для подбора используют графический метод: строят диаграмму рассеяния и анализируют ее форму.
  2. Вычисление коэффициентов (параметров) уравнения регрессии. Часто для этого используют метод наименьших квадратов.
  3. Проверка значимости коэффициента корреляции и параметров модели (также для них можно построить доверительные интервалы), оценка качества модели по критерию Фишера.
  4. Анализ остатков, вычисление стандартной ошибки регрессии, прогноз по модели (опционально).

Ниже вы найдете решения для парной регрессии (по рядам данных или корреляционной таблице, с разными дополнительными заданиями) и пару задач на определение и исследование коэффициента корреляции.

Примеры решений онлайн: линейная регрессия

Простая выборка

Пример 1. Имеются данные средней выработки на одного рабочего Y (тыс. руб.) и товарооборота X (тыс. руб.) в 20 магазинах за квартал. На основе указанных данных требуется:
1) определить зависимость (коэффициент корреляции) средней выработки на одного рабочего от товарооборота,
2) составить уравнение прямой регрессии этой зависимости.

Пример 2. С целью анализа взаимного влияния зарплаты и текучести рабочей силы на пяти однотипных фирмах с одинаковым числом работников проведены измерения уровня месячной зарплаты Х и числа уволившихся за год рабочих Y:
X 100 150 200 250 300
Y 60 35 20 20 15
Найти линейную регрессию Y на X, выборочный коэффициент корреляции.

Пример 3. Найти выборочные числовые характеристики и выборочное уравнение линейной регрессии $y_x=ax+b$. Построить прямую регрессии и изобразить на плоскости точки $(x,y)$ из таблицы. Вычислить остаточную дисперсию. Проверить адекватность линейной регрессионной модели по коэффициенту детерминации.

Пример 4. Вычислить коэффициенты уравнения регрессии. Определить выборочный коэффициент корреляции между плотностью древесины маньчжурского ясеня и его прочностью.
Решая задачу необходимо построить поле корреляции, по виду поля определить вид зависимости, написать общий вид уравнения регрессии Y на Х, определить коэффициенты уравнения регрессии и вычислить коэффициенты корреляции между двумя заданными величинами.

Пример 5. Компанию по прокату автомобилей интересует зависимость между пробегом автомобилей X и стоимостью ежемесячного технического обслуживания Y. Для выяснения характера этой связи было отобрано 15 автомобилей. Постройте график исходных данных и определите по нему характер зависимости. Рассчитайте выборочный коэффициент линейной корреляции Пирсона, проверьте его значимость при 0,05. Постройте уравнение регрессии и дайте интерпретацию полученных результатов.

Корреляционная таблица

Пример 6. Найти выборочное уравнение прямой регрессии Y на X по заданной корреляционной таблице

Пример 7. В таблице 2 приведены данные зависимости потребления Y (усл. ед.) от дохода X (усл. ед.) для некоторых домашних хозяйств.
1. В предположении, что между X и Y существует линейная зависимость, найдите точечные оценки коэффициентов линейной регрессии.
2. Найдите стандартное отклонение $s$ и коэффициент детерминации $R^2$.
3. В предположении нормальности случайной составляющей регрессионной модели проверьте гипотезу об отсутствии линейной зависимости между Y и X.
4. Каково ожидаемое потребление домашнего хозяйства с доходом $x_n=7$ усл. ед.? Найдите доверительный интервал для прогноза.
Дайте интерпретацию полученных результатов. Уровень значимости во всех случаях считать равным 0,05.

Пример 8. Распределение 100 новых видов тарифов на сотовую связь всех известных мобильных систем X (ден. ед.) и выручка от них Y (ден.ед.) приводится в таблице:
Необходимо:
1) Вычислить групповые средние и построить эмпирические линии регрессии;
2) Предполагая, что между переменными X и Y существует линейная корреляционная зависимость:
А) найти уравнения прямых регрессии, построить их графики на одном чертеже с эмпирическими линиями регрессии и дать экономическую интерпретацию полученных уравнений;
Б) вычислить коэффициент корреляции, на уровне значимости 0,05 оценить его значимость и сделать вывод о тесноте и направлении связи между переменными X и Y;
В) используя соответствующее уравнение регрессии, оценить среднюю выручку от мобильных систем с 20 новыми видами тарифов.

Коэффициент корреляции

Пример 9. На основании 18 наблюдений установлено, что на 64% вес X кондитерских изделий зависит от их объема Y. Можно ли на уровне значимости 0,05 утверждать, что между X и Y существует зависимость?

Пример 10. Исследование 27 семей по среднедушевому доходу (Х) и сбережениям (Y) дало результаты: $\overline=82$ у.е., $S_x=31$ у.е., $\overline=39$ у.е., $S_y=29$ у.е., $\overline =3709$ (у.е.)2. При $\alpha=0,05$ проверить наличие линейной связи между Х и Y. Определить размер сбережений семей, имеющих среднедушевой доход $Х=130$ у.е.


источники:

http://pandia.ru/text/78/460/47095.php

http://www.matburo.ru/ex_ms.php?p1=mslr