Оценка параметров уравнения тренда методом наименьших квадратов

Метод наименьших квадратов.

Поможем написать любую работу на аналогичную тему

Сущность метода наименьших квадратов заключается в отыскании параметров модели тренда, которая лучше всего описывает тенденцию развития какого-либо случайного явления во времени или в пространстве (тренд – это линия, которая и характеризует тенденцию этого развития). Задача метода наименьших квадратов (МНК) сводится к нахождению не просто какой-то модели тренда, а к нахождению лучшей или оптимальной модели. Эта модель будет оптимальной, если сумма квадратических отклонений между наблюдаемыми фактическими величинами и соответствующими им расчетными величинами тренда будет минимальной (наименьшей):

(9.1)

где — квадратичное отклонение между наблюдаемой фактической величиной

и соответствующей ей расчетной величиной тренда,

— фактическое (наблюдаемое) значение изучаемого явления,

— расчетное значение модели тренда,

— число наблюдений за изучаемым явлением.

МНК самостоятельно применяется довольно редко. Как правило, чаще всего его используют лишь в качестве необходимого технического приема при корреляционных исследованиях. Следует помнить, что информационной основой МНК может быть только достоверный статистический ряд, причем число наблюдений не должно быть меньше 4-х, иначе, сглаживающие процедуры МНК могут потерять здравый смысл.

Инструментарий МНК сводится к следующим процедурам:

Первая процедура. Выясняется, существует ли вообще какая-либо тенденция изменения результативного признака при изменении выбранного фактора-аргумента, или другими словами, есть ли связь между «у» и «х».

Вторая процедура. Определяется, какая линия (траектория) способна лучше всего описать или охарактеризовать эту тенденцию.

Третья процедура. Рассчитываются параметры регрессионного уравнения, характеризующего данную линию, или другими словами, определяется аналитическая формула, описывающая лучшую модель тренда.

Пример. Допустим, мы имеем информацию о средней урожайности подсолнечника по исследуемому хозяйству (табл. 9.1).

Поскольку уровень технологии при производстве подсолнечника в нашей стране за последние 10 лет практически не изменился, значит, по всей видимости, колебания урожайности в анализируемый период очень сильно зависели от колебания погодно-климатических условий. Действительно ли это так?

Первая процедура МНК. Проверяется гипотеза о существовании тенденции изменения урожайности подсолнечника в зависимости от изменения погодно-климатических условий за анализируемые 10 лет.

В данном примере за «y» целесообразно принять урожайность подсолнечника, а за «x» – номер наблюдаемого года в анализируемом периоде. Проверку гипотезы о существовании какой-либо взаимосвязи между «x» и «y» можно выполнить двумя способами: вручную и при помощи компьютерных программ. Конечно, при наличии компьютерной техники данная проблема решается сама собой. Но, чтобы лучше понять инструментарий МНК целесообразно выполнить проверку гипотезы о существовании связи между «x» и «y» вручную, когда под рукой находятся только ручка и обыкновенный калькулятор. В таких случаях гипотезу о существовании тенденции лучше всего проверить визуальным способом по расположению графического изображения анализируемого ряда динамики — корреляционного поля:

Корреляционное поле в нашем примере расположено вокруг медленно возрастающей линии. Это уже само по себе говорит о существовании определенной тенденции в изменении урожайности подсолнечника. Нельзя говорить о наличии какой-либо тенденции лишь тогда, когда корреляционное поле похоже на круг, окружность, строго вертикальное или строго горизонтальное облако, или же состоит из хаотично разбросанных точек. Во всех остальных случаях следует подтвердить гипотезу о существовании взаимосвязи между «x» и «y», и продолжить исследования.

Вторая процедура МНК. Определяется, какая линия (траектория) способна лучше всего описать или охарактеризовать тенденцию изменения урожайности подсолнечника за анализируемый период.

При наличии компьютерной техники подбор оптимального тренда происходит автоматически. При «ручной» обработке выбор оптимальной функции осуществляется, как правило, визуальным способом – по расположению корреляционного поля. То есть, по виду графика подбирается уравнение линии, которая лучше всего подходит к эмпирическому тренду (к фактической траектории).

Как известно, в природе существует огромное разнообразие функциональных зависимостей, поэтому визуальным способом проанализировать даже незначительную их часть — крайне затруднительно. К счастью, в реальной экономической практике большинство взаимосвязей достаточно точно могут быть описаны или параболой, или гиперболой, или же прямой линией. В связи с этим, при «ручном» варианте подбора лучшей функции, можно ограничиться только этими тремя моделями.

Прямая:

Гипербола:

Парабола второго порядка: :

Нетрудно заметить, что в нашем примере лучше всего тенденцию изменения урожайности подсолнечника за анализируемые 10 лет характеризует прямая линия, поэтому уравнением регрессии будет уравнение прямой.

Третья процедура. Рассчитываются параметры регрессионного уравнения, характеризующего данную линию, или другими словами, определяется аналитическая формула, описывающая лучшую модель тренда.

Нахождение значений параметров уравнения регрессии, в нашем случае параметров и , является сердцевиной МНК. Данный процесс сводится к решению системы нормальных уравнений.

(9.2)

Эта система уравнений довольно легко решается методом Гаусса. Напомним, что в результате решения, в нашем примере, находятся значения параметров и . Таким образом, найденное уравнение регрессии будет иметь следующий вид:

В линейном уравнении параметр коэффициент регрессии указывает, на сколько единиц в среднем изменится с изменением на единицу. Он имеет единицу измерения результативного признака. В случае прямой связи – величина положительная, а при обратном – отрицательная. Параметр – свободный член уравнения регрессии, то есть это значениепри . Если не получает нулевых значений, этот параметр имеет лишь расчетное назначение.

Приведем также системы нормальных уравнений для отыскивания параметров нелинейных уравнений.

Метод наименьших квадратов для оценки параметров трендовой модели

Для оценки параметра выбранной модели используют различные методы наиболее часто применяют так называемый метод наименьших квадратов (МНК). Согласно этому методу параметры оцениваются из условия, что сумма квадратов отклонений расчетных значений по модели тренда от эмпирических (фактических) данных минимальный. Во многих случаях применение МНК приводит к системе линейно относительно оцениваемых параметров (а0, а1 …) уравнений (они получается путем взятия частных производных приравнивание их к 0).

После того как вычислены параметры (а0, а1 …) определяют расчетные значения по модели тренда и отклонения от эмпирических данных:

Случайная компонента E (t) представляет собой также динамический ряд, который называют рядом остатков.

Анализ трендовых моделей на адекватность и точность.

исследование случайной компоненты позволяет сделать вывод об адекватности модели.

Модель считается адекватной если:

1. Математическое ожидание случайной компоненты равно 0.

2. Остаточная компонента обладает свойством случайности, испытывается гипотеза о случайности остатков с использованием метода «поворотных точек» (метод пиков)

3. Отсутствия автокорреляции в ряду остатков или независимость остатков. Используется критерий Дарбина- Уотсона .

4. Нормальность распределения в ряду остатков. Используется R / S – критерий («размах – стандарт»).

Точность модели оценивается по среднеквадратическому отклонению расчетных значений от эмпирических данных и по средней относительной ошибки аппроксимации

Если Еотн £ 5% , то точность считается хорошей, точность можно считать удовлетворительной (использовать модель для прогнозирования) если Еотн

Где m – число связей, налагаемых уравнением тренда, при линейном m = 2 (а0, а1)

n – m — число степеней свободы

Среднеквадратичная ошибка прогноза определяется:

Где kl – величина зависящая от 3-х факторов :

— от вида уравнения тренда (линейный, нелинейный тренд)

— от числа уровней ряда n

— от периода упреждения l

Для линейного тренда величина kl определяется:

Предельная ошибка прогноза определяется как t кратное среднеквадратической ошибки прогноза:

Где t — коэффициент доверия, определяемый по таблице t распределения Стьюдента в зависимости от доверительной вероятности (уровня значимости) и от числа степеней свободы.

Индивидуальные индексы.

Индивидуальные индексы.

Относительная величина, получаемая при сравнении уровней называется индивидуальным индексом, если не имеет значение структура изучаемого явления (i).

Расчет индивидуальных индексов прост. Их определяют вычислением отношением двух индексированных величин.

Например, если уровень товарооборота Q в виде суммы выручки от продажи товара в условиях отчетного периода сравнивается с аналогичным показателем базисного периода, то получаем индекс выручки.

разность между числителем и знаменателем формулы (1) представляют собой абсолютное изменение выручки.

Оно показывает на сколько денеж.ед. изменилась выручка в отчетном периоде по сравнению с базисным. Аналогично опред. индивидуальные индексы для любого интересующего показателя.

Сумма выручки опред. ценой товара (р) и количеством (физическим объемом или объемом продаж натуральном выражении q).

Произведение индекса цены и индекса кол-ва даст нам индекс выручки.

бабушка торговала семечками по 5руб. за кулек, продала 50 кульков (вчера). По 7руб. 20 кульков (сегодня).

бабушка увелич. цену в 1,4 раза или на 40%.

т.е. кол-во проданных семечек составило 40% от вчерашнего, т.е. уменьшилось на 60%.

т.е. выручка составила 56% от вчерашней, т.е. уменьшилась на 44%.

т.е. выручка уменьшилась на 110руб или на 44%, что объясняет изменением кол-во проданных семечек уменьшением на 60% и изменением цены в 1,4 раза, повышением цены на 40%.

Поставим в формулу (1) формулу (5)

Формула (6) представляет собой двухфакторную мультипликативную индексную модель итогового показателя.

В данном случае выручки, посредствам которой находят изменения этого показателя под влиянием каждого фактора (цены и кол-ва) в отдельности (факторный анализ).

DQp— изменение выручки под влиянием изменения цены товара.

DQq— изменение выручки под влиянием изменения кол-ва проданного товара.

Для проведения факторного анализа по формуле (7) необходимо определить очередность влияния факторов на результативный показатель, который может быть следующим:

1. Сначала менялась цена, а затем кол-во, цена первый фактор, кол-во второй.

2. Сначала менялось кол-во, а затем цена, кол-во первый фактор, цена второй.

В соответствии с этой очередностью влияния факторов запись факторов мультипликативной модели:

1. Формула (6)-эта запись когда цена первый фактор, а кол-во второй.

Чтобы найти изменение результативного показателя на основе мультипликативной модели за счет первого фактора необходимо исключить влияние остальных факторов.

При использовании формулы (6) (цена первый фактор), получаем

Когда кол-во первый фактор используем формулу (8), то получаем

В нашем примере сначала изменилась цена, а затем кол-во, т.е. цена первый фактор, кол-во второй, т.е. используем формулу (6), а изменение за счет первого фактора находим по формуле (9).

Т.е. повышение цены с 5 до 7 рублей должно было увеличить сегоднейшую выручку на 100 руб.

По факту выручка снизилась на 110 руб. это отрицательное влияние второго фактора изменения кол-ва.

Чтобы найти изменение результативного показателя на основе мультипликативной модели за счет второго фактора необходимо из общего изменения результативного показателя вычесть его уменьшением под влиянием второго фактора.

В случае, когда кол-во первый фактор, а цена второй, для определения общего изменения формулы (7) используется (10) и (12) формулы.

В нашем примере про бабушку изменения под влиянием второго фактора определим по формуле (11)

Изменение кол-ва с 50 до 20 кульков уменьшило выручку на 210 рублей.

DQ=100+(-210)=-110 (что совпадает с формулой (2))

Общие индексы.

Общие индексы характеризуют соотношение совокупности статистических процессов или явлений, состоящей из разнородных, непосредственно несоизмеримых элементов. Для определения общей стоимости различных видов продукции в качестве со–измерителя используется обычно цена за единицу продукции, для определения общей себестоимости или производственных затрат – себестоимость единицы продукции, общих затрат труда – затраты труда на производство единицы продукции и т. д.

Общее изменение товарооборота от стоимости проданных товаров можно определять, сопоставив общую стоимость проданных товаров в отчетном периоде по ценам отчетного периода с общей стоимостью проданных товаров в базисном периоде по ценам базисного периода.

Формула общего индекса товарооборота:

Аналогично индексу товарооборота рассчитываются индексы продукции, потребления и т. д.

Формула индекса товарооборота называется агрегатной (от лат. aggrega – «присоединяю»). Агрегатными называются индексы, числители и знаменатели которых представляют собой суммы, произведения или суммы произведений уровней изучаемого статистического явления. Агрегатная формула индекса – основная и наиболее распространенная формула экономических индексов. Агрегатная формула индекса показывает относительное изменение исследуемого экономического процесса и абсолютные размеры этого изменения.

Расчет агрегатного индекса цен по данной формуле был предложен немецким экономистом Г. Пааше, поэтому его принято называть индексом Пааше.

Индексы средних величин.

Средняя величина является обобщающей характеристикой качественного показателя и складывается как под влиянием значений показателя у индивидуальных элементов (единиц), из которых состоит объект, так и под влиянием соотношения их весов («структуры» объекта).

Если любой качественный индексируемый показатель обозначить через x, а его веса – через f, то динамику среднего показателя можно отразить как за счет изменения обоих факторов (x и f), так и за счет каждого фактора отдельно. В результате получим 3 различных индекса: индекс переменного состава, индекс фиксированного состава и индекс структурных сдвигов.

Индекс переменного состава отражает динамику среднего показателя (для однородной совокупности) за счет изменения индексируемой величины x у отдельных элементов (частей целого) и за счет изменения весов f, по которым взвешиваются отдельные значения x. Любой индекс переменного состава – это отношение двух средних величин для однородной совокупности (за два периода или по двум территориям). Свое название этот индекс получил потому, что он характеризует динамику средних величин не только за счет изменения индексируемой величины у отдельных элементов (частей целого), но и за счет изменения удельного веса этих частей в общей совокупности, т.е. изменения состава совокупности.

Индекс фиксированного состава отражает динамику среднего показателя лишь за счет изменения индексируемой величины x, при фиксировании весов.

Другими словами, индекс фиксированного состава исключает влияние структуры (состава) совокупности на динамику средних величин, рассчитанных для двух периодов по одной и той же фиксированной структуре весов (на уровне отчетного или базисного периода).

По аналогии можно показать динамику среднего показателя лишь за счет изменения только весов f при фиксировании индексируемой величины x. Такой индекс условно назван индексом структурных сдвигов, который определеятся при фиксировании индексируемой величины на уровне базисного периода x0 (по формуле).

МНК: Метод Наименьших Квадратов в EXCEL

history 11 ноября 2018 г.
    Группы статей
  • Статистический анализ

Метод наименьших квадратов (МНК) основан на минимизации суммы квадратов отклонений выбранной функции от исследуемых данных. В этой статье аппроксимируем имеющиеся данные с помощью линейной функции y = a x + b .

Метод наименьших квадратов (англ. Ordinary Least Squares , OLS ) является одним из базовых методов регрессионного анализа в части оценки неизвестных параметров регрессионных моделей по выборочным данным.

Рассмотрим приближение функциями, зависящими только от одной переменной:

Примечание : Случаи приближения полиномом с 3-й до 6-й степени рассмотрены в этой статье. Приближение тригонометрическим полиномом рассмотрено здесь.

Линейная зависимость

Нас интересует связь 2-х переменных х и y . Имеется предположение, что y зависит от х по линейному закону y = ax + b . Чтобы определить параметры этой взаимосвязи исследователь провел наблюдения: для каждого значения х i произведено измерение y i (см. файл примера ). Соответственно, пусть имеется 20 пар значений (х i ; y i ).

Для наглядности рекомендуется построить диаграмму рассеяния.

Примечание: Если шаг изменения по х постоянен, то для построения диаграммы рассеяния можно использовать тип График , если нет, то необходимо использовать тип диаграммы Точечная .

Из диаграммы очевидно, что связь между переменными близка к линейной. Чтобы понять какая из множества прямых линий наиболее «правильно» описывает зависимость между переменными, необходимо определить критерий, по которому будут сравниваться линии.

В качестве такого критерия используем выражение:

Вышеуказанное выражение представляет собой сумму квадратов расстояний между наблюденными значениями y i и ŷ i и часто обозначается как SSE ( Sum of Squared Errors ( Residuals ), сумма квадратов ошибок (остатков) ) .

Метод наименьших квадратов заключается в подборе такой линии ŷ = ax + b , для которой вышеуказанное выражение принимает минимальное значение.

Примечание: Любая линия в двухмерном пространстве однозначно определяется значениями 2-х параметров: a (наклон) и b (сдвиг).

Считается, что чем меньше сумма квадратов расстояний, тем соответствующая линия лучше аппроксимирует имеющиеся данные и может быть в дальнейшем использована для прогнозирования значений y от переменной х. Понятно, что даже если в действительности никакой взаимосвязи между переменными нет или связь нелинейная, то МНК все равно подберет «наилучшую» линию. Таким образом, МНК ничего не говорит о наличии реальной взаимосвязи переменных, метод просто позволяет подобрать такие параметры функции a и b , для которых вышеуказанное выражение минимально.

Проделав не очень сложные математические операции (подробнее см. статью про квадратичную зависимость ), можно вычислить параметры a и b :

Как видно из формулы, параметр a представляет собой отношение ковариации и дисперсии , поэтому в MS EXCEL для вычисления параметра а можно использовать следующие формулы (см. файл примера лист Линейная ):

= КОВАР(B26:B45;C26:C45)/ ДИСП.Г(B26:B45) или

Также для вычисления параметра а можно использовать формулу = НАКЛОН(C26:C45;B26:B45) . Для параметра b используйте формулу = ОТРЕЗОК(C26:C45;B26:B45) .

И наконец, функция ЛИНЕЙН() позволяет вычислить сразу оба параметра. Для ввода формулы ЛИНЕЙН(C26:C45;B26:B45) необходимо выделить в строке 2 ячейки и нажать CTRL + SHIFT + ENTER (см. статью про формулы массива, возвращающими несколько значений ). В левой ячейке будет возвращено значение а , в правой – b .

Примечание : Чтобы не связываться с вводом формул массива потребуется дополнительно использовать функцию ИНДЕКС() . Формула = ИНДЕКС(ЛИНЕЙН(C26:C45;B26:B45);1) или просто = ЛИНЕЙН(C26:C45;B26:B45) вернет параметр, отвечающий за наклон линии, т.е. а . Формула = ИНДЕКС(ЛИНЕЙН(C26:C45;B26:B45);2) вернет параметр, отвечающий за пересечение линии с осью Y, т.е. b .

Вычислив параметры, на диаграмме рассеяния можно построить соответствующую линию.

Инструмент диаграммы Линия тренда

Еще одним способом построения прямой линии по методу наименьших квадратов является инструмент диаграммы Линия тренда . Для этого выделите диаграмму, в меню выберите вкладку Макет , в группе Анализ нажмите Линия тренда , затем Линейное приближение .

Поставив в диалоговом окне галочку в поле «показывать уравнение на диаграмме» можно убедиться, что найденные выше параметры совпадают со значениями на диаграмме.

Примечание : Для того, чтобы параметры совпадали необходимо, чтобы тип у диаграммы был Точечная, а не График . Дело в том, что при построении диаграммы График значения по оси Х не могут быть заданы пользователем (пользователь может указать только подписи, которые не влияют на расположение точек). Вместо значений Х используется последовательность 1; 2; 3; … (для нумерации категорий). Поэтому, если строить линию тренда на диаграмме типа График , то вместо фактических значений Х будут использованы значения этой последовательности, что приведет к неверному результату (если, конечно, фактические значения Х не совпадают с последовательностью 1; 2; 3; …).

СОВЕТ : Подробнее о построении диаграмм см. статьи Основы построения диаграмм и Основные типы диаграмм .


источники:

http://lektsia.com/5xc36.html

http://excel2.ru/articles/mnk-metod-naimenshih-kvadratov-v-ms-excel