Критерий стьюдента для уравнения регрессии

Использование критерия Стьюдента для проверки значимости параметров регрессионной модели

Проверка статистической значимости параметров регрессионного уравнения (коэффициентов регрессии) выполняется по t-критерию Стьюдента, который рассчитывается по формуле:

где P — значение параметра;
Sp — стандартное отклонение параметра.

Рассчитанное значение критерия Стьюдента сравнивают с его табличным значением при выбранной доверительной вероятности (как правило, 0.95) и числе степеней свободы Nk-1, где N-число точек, k-число переменных в регрессионном уравнении (например, для линейной модели Y=A*X+B подставляем k=1).

Если вычисленное значение tp выше, чем табличное, то коэффициент регрессии является значимым с данной доверительной вероятностью. В противном случае есть основания для исключения соответствующей переменной из регрессионной модели.

Величины параметров и их стандартные отклонения обычно рассчитываются в алгоритмах, реализующих метод наименьших квадратов.

Библиотека постов MEDSTATISTIC об анализе медицинских данных

Ещё больше полезной информации в нашем блоге в Инстаграм @medstatistic

Критерии и методы

t-КРИТЕРИЙ СТЬЮДЕНТА ДЛЯ НЕЗАВИСИМЫХ СОВОКУПНОСТЕЙ

– общее название для класса методов статистической проверки гипотез (статистических критериев), основанных на распределении Стьюдента. Наиболее частые случаи применения t-критерия связаны с проверкой равенства средних значений в двух выборках.

Уильям Госсет

1. История разработки t-критерия

Данный критерий был разработан Уильямом Сили Госсетом для оценки качества пива в компании Гиннесс. В связи с обязательствами перед компанией по неразглашению коммерческой тайны, статья Госсета вышла в 1908 году в журнале «Биометрика» под псевдонимом «Student» (Студент).

2. Для чего используется t-критерий Стьюдента?

t-критерий Стьюдента используется для определения статистической значимости различий средних величин. Может применяться как в случаях сравнения независимых выборок (например, группы больных сахарным диабетом и группы здоровых), так и при сравнении связанных совокупностей (например, средняя частота пульса у одних и тех же пациентов до и после приема антиаритмического препарата). В последнем случае рассчитывается парный t-критерий Стьюдента

3. В каких случаях можно использовать t-критерий Стьюдента?

Для применения t-критерия Стьюдента необходимо, чтобы исходные данные имели нормальное распределение. Также имеет значение равенство дисперсий (распределения) сравниваемых групп (гомоскедастичность). При неравных дисперсиях применяется t-критерий в модификации Уэлча (Welch’s t).

При отсутствии нормального распределения сравниваемых выборок вместо t-критерия Стьюдента используются аналогичные методы непараметрической статистики, среди которых наиболее известными является U-критерий Манна — Уитни.

4. Как рассчитать t-критерий Стьюдента?

Для сравнения средних величин t-критерий Стьюдента рассчитывается по следующей формуле:

где М1 — средняя арифметическая первой сравниваемой совокупности (группы), М2 — средняя арифметическая второй сравниваемой совокупности (группы), m1 — средняя ошибка первой средней арифметической, m2 — средняя ошибка второй средней арифметической.

5. Как интерпретировать значение t-критерия Стьюдента?

Полученное значение t-критерия Стьюдента необходимо правильно интерпретировать. Для этого нам необходимо знать количество исследуемых в каждой группе (n1 и n2). Находим число степеней свободы f по следующей формуле:

После этого определяем критическое значение t-критерия Стьюдента для требуемого уровня значимости (например, p=0,05) и при данном числе степеней свободы f по таблице (см. ниже).

Сравниваем критическое и рассчитанное значения критерия:

  • Если рассчитанное значение t-критерия Стьюдента равно или больше критического, найденного по таблице, делаем вывод о статистической значимости различий между сравниваемыми величинами.
  • Если значение рассчитанного t-критерия Стьюдента меньше табличного, значит различия сравниваемых величин статистически не значимы.

6. Пример расчета t-критерия Стьюдента

Для изучения эффективности нового препарата железа были выбраны две группы пациентов с анемией. В первой группе пациенты в течение двух недель получали новый препарат, а во второй группе — получали плацебо. После этого было проведено измерение уровня гемоглобина в периферической крови. В первой группе средний уровень гемоглобина составил 115,4±1,2 г/л, а во второй — 103,7±2,3 г/л (данные представлены в формате M±m), сравниваемые совокупности имеют нормальное распределение. При этом численность первой группы составила 34, а второй — 40 пациентов. Необходимо сделать вывод о статистической значимости полученных различий и эффективности нового препарата железа.

Решение: Для оценки значимости различий используем t-критерий Стьюдента, рассчитываемый как разность средних значений, поделенная на сумму квадратов ошибок:

Оценка значимости по критериям Фишера и Стьюдента

После выбора уравнения линейной регрессии и оценки его параметров проводится оценка статистической значимости как уравнения в целом, так и отдельных его параметров.

Оценка значимости уравнения регрессии в целом осуществляется с помощью критерия Фишера, который называют также F-критерием. При этом выдвигается нулевая гипотеза 0): коэффициент регрессии равен нулю (b = 0), следовательно, фактор х не оказывает влияния на результат у и линия регрессии параллельна оси абсцисс.

Перед тем как приступить к расчету критерия Фишера, проведем анализ дисперсии. Общую сумму квадратов отклонений у от можно разложить на сумму квадратов отклонений, объясненную регрессией и сумму квадратов отклонений, не объясненную регрессией:

где Σ(y — ) 2 — общая сумма квадратов отклонений значений результата от среднего по выборке; Σ(yx ) 2 — сумма квадратов отклонений, объясненная регрессией; Σ(y — ух) 2 — сумма квадратов отклонений, не объясненная регрессией, или остаточная сумма квадратов отклонений.

Общая сумма квадратов отклонений результативного признака у от среднего значения определяется влиянием различных причин. Условно всю совокупность причин можно разделить на две группы: изучаемый фактор х и прочие, случайные и не включаемые в модель факторы. Если фактор х не оказывает влияния на результат, то линия регрессии на графике параллельна оси абсцисс и = yх. Тогда вся дисперсия результативного признака обусловлена воздействием прочих факторов и общая сумма квадратов отклонений совпадает с остаточной:

Σ(y — ) 2 = Σ(y — ух) 2 ,

Если же прочие факторы не влияют на результат, то у связан с х функционально и остаточная сумма квадратов равна нулю. В этом случае сумма квадратов отклонений, объясненная регрессией, совпадает с общей суммой квадратов:

Σ(y — ) 2 = Σ(yx ) 2

Поскольку не все точки поля корреляции лежат на линии регрессии, то всегда имеет место их разброс, обусловленный как влиянием фактора х, (регрессией у по х), так и действием прочих причин (необъясненная вариация). Пригодность линии регрессии для прогноза зависит от того, какая часть общей вариации признака у приходится на объясненную вариацию. Очевидно, что если сумма квадратов отклонений, обусловленная регрессией, будет больше остаточной суммы квадратов, то уравнение регрессии статистически значимо и фактор х оказывает существенное воздействие на результат у. Это равносильно тому, что коэффициент детерминации R 2 будет приближаться к единице.

Любая сумма квадратов отклонений связана с числом степеней свободы df, т.е. с числом свободы независимого варьирования признака.

Для общей суммы квадратов Σ(y — ) 2 требуется (п-1) независимых отклонений, ибо в совокупности из п единиц после расчета среднего уровня свободно варьируют лишь (п-1) число отклонений.

При заданном наборе переменных у и х расчетное значение ух является в линейной регрессии функцией только одного параметра — коэффициента регрессии b. Таким образом, факторная сумма квадратов отклонений имеет число степеней свободы, равное единице. Число степеней свободы остаточной суммы квадратов при линейной регрессии составляет (п-2).

Существует равенство между числами степеней свободы общей, факторной и остаточной сумм квадратов.Запишем два равенства:

Σ(y — ) 2 = Σ(yx ) 2 + Σ(y — ух) 2 ,

Разделив каждую сумму квадратов на соответствующее ей число степеней свободы, получим дисперсии на одну степень свободы:

Так как эти дисперсии рассчитаны на одну степень свободы, их можно сравнивать между собой. Критерий Фишера позволяет проверить нулевую гипотезу Н0 о том, что факторная и остаточная дисперсии на одну степень свободы равны между собой (Dфакт=Dост). Критерий Фишера рассчитывается по следующей формуле:

Если гипотеза Н0 подтверждается, то факторная и остаточная дисперсии одинаковы, и уравнение регрессии незначимо. Чтобы отвергнуть нулевую гипотезу и подтвердить значимость уравнения регрессии в целом, факторная дисперсия на одну степень свободы должна превышать остаточную дисперсию на одну степень свободы в несколько раз. Существуют специальные таблицы критических значений Фишера при различных уровнях надежности и степенях свободы. В них содержатся максимальные значения отношений дисперсий, при которых нулевая гипотеза подтверждается. Значение критерия Фишера для конкретного случая сравнивается с табличным, и на основе этого гипотеза Н0 принимается или отвергается.

Если Fфакт > Fтабл , тогда гипотеза Н0 отклоняется и делается вывод, что связь между у и х существенна и уравнение регрессии статистически значимо. Если Fфакт ≤ Fтабл , тогда гипотеза Н0 принимается и делается вывод, что уравнение регрессии статистически незначимо, так как существует риск (при заданном уровне надежности) сделать неправильный вывод о наличии связи между х и у.

Между критерием Фишера и коэффициентом детерминации существует связь, которая выражается следующей формулой для парной линейной регрессии:

В линейной регрессии часто оценивается не только значимость уравнения регрессии в целом, но и значимость его отдельных параметров, а также коэффициента корреляции.

Для того чтобы осуществить такую оценку, необходимо для всехпараметров рассчитывать стандартные ошибки (та , тb , тr):

Теперь нужно рассчитать критерии Стьюдента ta, tb, tr·. Для параметров а, b и коэффициента корреляции r критерий Стьюдента определяет соотношение между самим параметром и его ошибкой:

Фактические значения критерия Стьюдента сравниваются с табличными при определенном уровне надежности α и числе степеней свободы df= (п-2). По результатам этого сравнения принимаются или отвергаются нулевые гипотезы о несущественности параметров или коэффициента корреляции. Если фактическое значение критерия Стьюдента по модулю больше табличного, тогда гипотеза о несущественности отвергается. Подтверждение существенности коэффициента регрессии равнозначно подтверждению существенности уравнения регрессии в целом.

В парной линейной регрессии между критерием Фишера, критериями Стьюдента коэффициентов регрессии и корреляции существует связь.

На основании полученной связи можно сделать вывод, что статистическая незначимость коэффициента регрессии или коэффициента корреляции влечет за собой незначимость уравнения регрессии в целом, либо, наоборот, незначимость уравнения регрессии подразумевает несущественность указанных коэффициентов.

На основе стандартных ошибок параметров и табличных значений критерия Стьюдента можно рассчитать доверительные интервалы:

Поскольку коэффициент регрессии имеет четкую экономическую интерпретацию, то доверительные границы интервала для него не должны содержать противоречивых результатов. Например, такая запись, как -5≤ b ≤ 10, указывает, что истинное значение коэффициента регрессии одновременно содержит положительные и отрицательные величины и даже нуль, а этого не может быть. Следовательно, связь между данными нельзя выразить такой моделью (в частности, парной линейной регрессией), должна подбираться другая модель.

Дата добавления: 2015-10-05 ; просмотров: 13590 ; ЗАКАЗАТЬ НАПИСАНИЕ РАБОТЫ


источники:

http://medstatistic.ru/methods/methods.html

http://helpiks.org/5-52712.html