Проверка адекватности уравнения по критерию фишера

Проверка адекватности линейного уравнения регрессии

Расчет коэффициентов ПФЭ при равном числе параллельных опытов в каждой точке факторного пространства

Коэффициенты находятся по формуле:

,

где — среднее значение параметра оптимизации, вычисленное по параллельным опытам – ой строки матрицы планирования .

Проверка значимости коэффициентов ПФЭ

Очевидно, что один фактор больше влияет на параметр оптимизации, другой – меньше. Поэтому можно проверить полученные коэффициенты регрессии на значимость, т.е. оценить величину влияния каждого фактора на значение параметра оптимизации. Если эта величина соизмерима с ошибкой эксперимента, то соответствующий коэффициент не несет дополнительной информации об объекте, и его можно приравнять к нулю, что упрощает математическую модель.

Значимость коэффициентов проверяется с помощью – критерия Стьюдента.

Значения – критерия вычисляются для каждого для каждого фактора по формуле:

,

Полученные значения сравнивают с табличным значением критерия Стъюдента , которое находится по числу степеней свободы , и уровню значимости α — величина, характеризующая вероятность того, что решение будет неправильным. Обычно принимают, что α =0.05.

> ,

то коэффициент значимо отличается от нуля, если же , (1)

то линейное уравнение регрессии признается адекватным. Если это условие не выполняется, т.е.

При расчете F предполагается что . Если наблюдается обратное, то вывод об адекватности может быть сделан и без проверки условия (1).

Если модель адекватна, то ее можно использовать для поиска области оптимума объекта исследования или для предсказания отклика.

При неадекватной линейной модели наиболее часто принимают решение об уменьшении интервалов варьирования факторов и повторении эксперимента.

Итак, алгоритм расчета линейной модели с использованием ПФЭ следующий:

Задают матрицу планирования в кодированной форме для заданного числа факторов

Для каждого фактора задают базовую точку и интервал варьирования

Рассчитывают матрицу планирования в натуральной (размерной) форме

Проводят эксперименты, по матрице планирования, используя случайные числа.

Проводят серию опытов в центре плана, для определения ошибки опыта.

Регрессионный анализ. Проверка адекватности эмпирической модели по критерию Фишера

x
y
y = f (x)

Под регрессионным анализом понимают исследование закономерностей связи между явлениями (процессами), которые зависят от многих, иногда неизвестных, факторов. Часто между переменными и существует связь, но не вполне определенная, при которой одному значению x соответствует несколько значений (совокупность) у. В таких случаях связь называют регрессионной. Таким образом,

функция является регрессионной (корреляционной), если каждому

значению аргумента соответствует статистический ряд распределения у.

x
y

Суть регрессионного анализа сводится к установлению уравнения регрессии, т.е. вида кривой между случайными величинами (аргументами и функцией ), оценке

x
y

тесноты связей между ними, достоверности и адекватности результатов измерений.

Чтобы предварительно определить наличие такой связи между и , наносят

x
y

точки на график и строят так называемое корреляционное поле (рис. 1). По виду корреляционного поля можно судить о наличии корреляционной связи. Так, из рис. 1-a видно, что экспериментальные данные имеют определенную связь между и , а

измерения на рис. 1-б такой связи не показывают.

Рис. 1. Корреляционное поле

Различают однофакторные (парные) и многофакторные регрессионные зависимости. Парная регрессия при парной зависимости может быть аппроксимирована прямой линией, параболой, гиперболой, логарифмической, степенной или показательной функцией, полиномом и др. Двухфакторное поле можно аппроксимировать плоскостью, параболоидом второго порядка, гиперболоидом.

При построении теоретической регрессионной зависимости используется метод наименьших квадратов (МНК). Суть МНК заключается в следующем: из всего множества линий, которые можно провести через экспериментальные точки на корреляционном поле, линия регрессии y = b + b0x выбирается так, чтобы сумма квадратов расстояний по вертикали между экспериментальными точками и этой линией была наименьшей. Расстояния между экспериментальными точками и линией регрессии есть отклонения ei. Следовательно, при использовании МНК минимизируется следующая функция:

b

где yi– фактические ординаты поля, yi– среднее значение ординаты. Необходимым условием существованием минимума двух переменных является

равенство её частных производных по неизвестным параметрам b0и 1.

Разрешая аналитически данную систему уравнений, получаем:

где n– число измерений.

Коэффициент корреляции интерпретируется как мера линейной зависимости

случайных величин. При r > 0 между x и y существует положительная линейная

(3.27)

где — число значимых коэффициентов в уравнении регрессии.

Эта разность является числом степеней свободы, т.к. из N уравнений мы определили лишь коэффициентов (а могли бы определить N коэффициентов).

1.Рассчитывают критерий Фишера по формуле:

(3.28)

2.Сравнивают полученное значение критерия Фишера с его табличным значением FT (Приложение Б).

В таблицах критерий Фишера дан в зависимости от числа степеней свободы при определении дисперсии адекватности и при определении средней дисперсии воспроизводимости единичного измерения, S2(yk), равного числу степеней свободы при определении средней дисперсии воспроизводимости среднего .

Критерий Фишера всегда больше единицы. Поэтому, в зависимости (3.28) в числитель поставлена дисперсия адекватности чисто условно. Если средняя дисперсия воспроизводимости больше , то в числителе должна стоять .

Промежуточные расчеты удобно представить в виде табл.3.7.

, т.к. N = 8, а =7.

Так как , то критерий Фишера имеете величину

Таблица 3.7.Промежуточные расчёты по проверке адекватности

u
69,50,50,25
59,50,50,25
55,70,70,49
90,90,90,81
104,50,50,25
94,50,50,25
80,70,70,49
100,70,70,49

при f1 = 16 и f2 = 1 табличное значение критерия Фишера по Приложению Б равно FT » 8,65.

Сравнение табличного значения критерия Фишера FT с рассчитанным F удовлетворяет неравенству F

$ AlexLat $

Оценка значимости уравнения регрессии в целом производится на основе F-критерия Фишера, которому предшествует дисперсионный анализ. В математической статистике дисперсионный анализ рассматривается как самостоятельный инструмент статистического анализа. В эконометрике он применяется как вспомогательное средство для изучения качества регрессионной модели. Согласно основной идее дисперсионного анализа, общая сумма квадратов отклонений переменной (y) от среднего значения (y ср. ) раскладывается на две части – «объясненную» и «необъясненную»:

Схема дисперсионного анализа имеет следующий вид (n –число наблюдений, m–число параметров при переменной x):

Определение дисперсии на одну степень свободы приводит дисперсии к сравнимому виду. Сопоставляя факторную и остаточную дисперсии в расчете на одну степень свободы, получим величину F-критерия Фишера. Фактическое значение F -критерия Фишера сравнивается стабличным значением F табл. (α, k 1 , k 2 ) при заданном уровне значимости α и степенях свободы k 1 = m и k 2 =n-m-1. При этом, если фактическое значение F-критерия больше табличного F факт > F теор , то признается статистическая значимость уравнения в целом. Для парной линейной регрессии m=1 , поэтому:

Эта формула в общем виде может выглядеть так:

Отношение объясненной части дисперсии переменной (у) к общей дисперсии называют коэффициентом детерминации и используют для характеристики качества уравнения регрессии или соответствующей модели связи. Соотношение между объясненной и необъясненной частями общей дисперсии можно представить в альтернативном варианте:

Коэффициент детерминации R 2 принимает значения в диапазоне от нуля до единицы 0≤ R 2 ≤1. Коэффициент детерминации R 2 показывает, какая часть дисперсии результативного признака (y) объяснена уравнением регрессии.Чем больше R 2 , тем большая часть дисперсии результативного признака (y) объясняется уравнением регрессии и тем лучше уравнение регрессии описывает исходные данные. При отсутствии зависимости между (у) и (x) коэффициент детерминации R 2 будет близок к нулю. Таким образом, коэффициент детерминации R 2 может применяться для оценки качества (точности) уравнения регрессии. Возникает вопрос, при каких значениях R 2 уравнение регрессии следует считать статистически незначимым, что делает необоснованным его использование в анализе? Ответ на этот вопрос дает F — критерий Фишера F факт > F теор — делаем вывод о статистической значимости уравнения регрессии. Величина F — критерия связана с коэффициентом детерминации R 2 xy ( r 2 xy ), и ее можно рассчитать по следующей формуле:

Либо при оценке значимости индекса (аналог коэффициента) детерминации:

где: i 2 — индекс (коэффициент) детерминации, который рассчитывается:

Использование коэффициента множественной детерминации R 2 для оценки качества модели, обладает тем недостатком, что включение в модель нового фактора (даже несущественного) автоматически увеличивает величину R 2 . Поэтому, при большом количестве факторов, предпочтительнее использовать, так называемый, улучшенный, скорректированный коэффициент множественной детерминации R 2 , определяемый соотношением:

где p – число факторов в уравнении регрессии, n – число наблюдений. Чем больше величина p, тем сильнее различия между множественным коэффициентом детерминации R 2 и скорректированным R 2 . При использовании скорректированного R 2 , для оценки целесообразности включения фактора в уравнение регрессии, следует учитывать, что увеличение его величины (значения), при включении нового фактора, не обязательно свидетельствует о его значимости, так как значение увеличивается всегда, когда t-статистика больше единицы (|t|>1). При заданном объеме наблюдений и при прочих равных условиях, с увеличением числа независимых переменных (параметров), скорректированный коэффициент множественной детерминации убывает. При небольшом числе наблюдений, скорректированная величина коэффициента множественной детерминации R 2 имеет тенденцию переоценивать долю вариации результативного признака, связанную с влиянием факторов, включенных в регрессионную модель. Низкое значение коэффициента множественной корреляции и коэффициента множественной детерминации R 2 может быть обусловлено следующими причинами: в регрессионную модель не включены существенные факторы; неверно выбрана форма аналитической зависимости, не реально отражающая соотношения между переменными, включенными в модель.

Для оценки значимости парного коэффициента корреляции (корень квадратный из коэффициента детерминации), при условии линейной формы связи между факторами, можно использовать t-критерий Стьюдента:

При численности объектов анализа до 30 единиц возникает необходимость проверки значимости (существенности) каждого коэффициента регрессии. При этом выясняют насколько вычисленные параметры характерны для отображения комплекса условий: не являются ли полученные значения параметров результатами действия случайных причин. Значимость коэффициентов простой линейной регрессии (применительно к совокупностям, у которых n t-критерия Стьюдента. При этом вычисляют расчетные (фактические) значения t-критерия для параметров a 0 а 1 :

n-число наблюдений, m-число параметров уравнения регрессии, σ ε -(остаточное) среднее квадратическое отклонение результативного признака от выровненных значений ŷ; σ х -среднее квадратическое отклонение факторного признака от общей средней.

Вычисленные, по вышеприведенным формулам, значения сравнивают с критическими t, которые определяют по таблице значений Стьюдента с учетом принятого уровня значимости α и числа степеней свободы вариации k (ν)=n-2. В социально-экономических исследованиях уровень значимости α обычно принимают равным 0,05. Параметр признаётся значимым (существенным) при условии, если t расч. > t табл. В этом случае, практически невероятно, что найденные значения параметров обусловлены только случайными совпадениями.


источники:

http://megaobuchalka.ru/9/4144.html

http://alexlat.ucoz.ru/publ/matematika/matematika/proverka_adekvatnosti_regressionnoj_modeli/79-1-0-1418