Несмещенная оценка коэффициента уравнения регрессии

Корреляция и регрессия

Линейное уравнение регрессии имеет вид y=bx+a+ε
Здесь ε — случайная ошибка (отклонение, возмущение).
Причины существования случайной ошибки:
1. Невключение в регрессионную модель значимых объясняющих переменных;
2. Агрегирование переменных. Например, функция суммарного потребления – это попытка общего выражения совокупности решений отдельных индивидов о расходах. Это лишь аппроксимация отдельных соотношений, которые имеют разные параметры.
3. Неправильное описание структуры модели;
4. Неправильная функциональная спецификация;
5. Ошибки измерения.
Так как отклонения εi для каждого конкретного наблюдения i – случайны и их значения в выборке неизвестны, то:
1) по наблюдениям xi и yi можно получить только оценки параметров α и β
2) Оценками параметров α и β регрессионной модели являются соответственно величины а и b, которые носят случайный характер, т.к. соответствуют случайной выборке;
Тогда оценочное уравнение регрессии (построенное по выборочным данным) будет иметь вид y = bx + a + ε, где ei – наблюдаемые значения (оценки) ошибок εi, а и b соответственно оценки параметров α и β регрессионной модели, которые следует найти.
Для оценки параметров α и β — используют МНК (метод наименьших квадратов).
Система нормальных уравнений.

Для наших данных система уравнений имеет вид:

10a + 356b = 49
356a + 2135b = 9485

Из первого уравнения выражаем а и подставим во второе уравнение
Получаем b = 68.16, a = 11.17

Уравнение регрессии:
y = 68.16 x — 11.17

1. Параметры уравнения регрессии.
Выборочные средние.

1.1. Коэффициент корреляции
Рассчитываем показатель тесноты связи. Таким показателем является выборочный линейный коэффициент корреляции, который рассчитывается по формуле:

Линейный коэффициент корреляции принимает значения от –1 до +1.
Связи между признаками могут быть слабыми и сильными (тесными). Их критерии оцениваются по шкале Чеддока:
0.1 Y фактором X весьма высокая и прямая.

1.2. Уравнение регрессии (оценка уравнения регрессии).

Линейное уравнение регрессии имеет вид y = 68.16 x -11.17
Коэффициентам уравнения линейной регрессии можно придать экономический смысл. Коэффициент уравнения регрессии показывает, на сколько ед. изменится результат при изменении фактора на 1 ед.
Коэффициент b = 68.16 показывает среднее изменение результативного показателя (в единицах измерения у ) с повышением или понижением величины фактора х на единицу его измерения. В данном примере с увеличением на 1 единицу y повышается в среднем на 68.16.
Коэффициент a = -11.17 формально показывает прогнозируемый уровень у , но только в том случае, если х=0 находится близко с выборочными значениями.
Но если х=0 находится далеко от выборочных значений x , то буквальная интерпретация может привести к неверным результатам, и даже если линия регрессии довольно точно описывает значения наблюдаемой выборки, нет гарантий, что также будет при экстраполяции влево или вправо.
Подставив в уравнение регрессии соответствующие значения x , можно определить выровненные (предсказанные) значения результативного показателя y(x) для каждого наблюдения.
Связь между у и x определяет знак коэффициента регрессии b (если > 0 – прямая связь, иначе — обратная). В нашем примере связь прямая.

1.3. Коэффициент эластичности.
Коэффициенты регрессии (в примере b) нежелательно использовать для непосредственной оценки влияния факторов на результативный признак в том случае, если существует различие единиц измерения результативного показателя у и факторного признака х.
Для этих целей вычисляются коэффициенты эластичности и бета — коэффициенты. Коэффициент эластичности находится по формуле:

Он показывает, на сколько процентов в среднем изменяется результативный признак у при изменении факторного признака х на 1%. Он не учитывает степень колеблемости факторов.
В нашем примере коэффициент эластичности больше 1. Следовательно, при изменении Х на 1%, Y изменится более чем на 1%. Другими словами — Х существенно влияет на Y.
Бета – коэффициент показывает, на какую часть величины своего среднего квадратичного отклонения изменится в среднем значение результативного признака при изменении факторного признака на величину его среднеквадратического отклонения при фиксированном на постоянном уровне значении остальных независимых переменных:

Т.е. увеличение x на величину среднеквадратического отклонения этого показателя приведет к увеличению среднего Y на 0.9796 среднеквадратичного отклонения этого показателя.

1.4. Ошибка аппроксимации.
Оценим качество уравнения регрессии с помощью ошибки абсолютной аппроксимации.

Поскольку ошибка больше 15%, то данное уравнение не желательно использовать в качестве регрессии.

1.6. Коэффициент детерминации.
Квадрат (множественного) коэффициента корреляции называется коэффициентом детерминации, который показывает долю вариации результативного признака, объясненную вариацией факторного признака.
Чаще всего, давая интерпретацию коэффициента детерминации, его выражают в процентах.
R 2 = 0.98 2 = 0.9596, т.е. в 95.96 % случаев изменения x приводят к изменению у . Другими словами — точность подбора уравнения регрессии — высокая. Остальные 4.04 % изменения Y объясняются факторами, не учтенными в модели.

xyx 2y 2x·yy(x)(yi— y ) 2(y-y(x)) 2(xi— x ) 2|y — yx|:y
0.37115.60.1376243.365.7914.11780.892.210.18640.0953
0.39919.90.1592396.017.9416.02559.0615.040.1630.1949
0.50222.70.252515.2911.423.04434.490.11760.09050.0151
0.57234.20.32721169.6419.5627.8187.3240.780.05330.1867
0.60744.5.36841980.2527.0130.20.9131204.490.03830.3214
0.65526.80.429718.2417.5533.47280.3844.510.02180.2489
0.76335.70.58221274.4927.2440.8361.5426.350.00160.1438
0.87330.60.7621936.3626.7148.33167.56314.390.00490.5794
2.48161.96.1726211.61402158.0714008.0414.662.820.0236
7.23391.99.1833445.25545.2391.916380.18662.543.381.81

2. Оценка параметров уравнения регрессии.
2.1. Значимость коэффициента корреляции.

По таблице Стьюдента с уровнем значимости α=0.05 и степенями свободы k=7 находим tкрит:
tкрит = (7;0.05) = 1.895
где m = 1 — количество объясняющих переменных.
Если tнабл > tкритич, то полученное значение коэффициента корреляции признается значимым (нулевая гипотеза, утверждающая равенство нулю коэффициента корреляции, отвергается).
Поскольку tнабл > tкрит, то отклоняем гипотезу о равенстве 0 коэффициента корреляции. Другими словами, коэффициент корреляции статистически — значим
В парной линейной регрессии t 2 r = t 2 b и тогда проверка гипотез о значимости коэффициентов регрессии и корреляции равносильна проверке гипотезы о существенности линейного уравнения регрессии.

2.3. Анализ точности определения оценок коэффициентов регрессии.
Несмещенной оценкой дисперсии возмущений является величина:

S 2 y = 94.6484 — необъясненная дисперсия (мера разброса зависимой переменной вокруг линии регрессии).
Sy = 9.7287 — стандартная ошибка оценки (стандартная ошибка регрессии).
S a — стандартное отклонение случайной величины a.

Sb — стандартное отклонение случайной величины b.

2.4. Доверительные интервалы для зависимой переменной.
Экономическое прогнозирование на основе построенной модели предполагает, что сохраняются ранее существовавшие взаимосвязи переменных и на период упреждения.
Для прогнозирования зависимой переменной результативного признака необходимо знать прогнозные значения всех входящих в модель факторов.
Прогнозные значения факторов подставляют в модель и получают точечные прогнозные оценки изучаемого показателя. (a + bxp ± ε) где
Рассчитаем границы интервала, в котором будет сосредоточено 95% возможных значений Y при неограниченно большом числе наблюдений и X p = 1 (-11.17 + 68.16*1 ± 6.4554)
(50.53;63.44)
С вероятностью 95% можно гарантировать, что значения Y при неограниченно большом числе наблюдений не выйдет за пределы найденных интервалов.

Индивидуальные доверительные интервалы для Y при данном значении X.
(a + bx i ± ε)
где

xiy = -11.17 + 68.16xiεiyminymax
0.37114.1119.91-5.834.02
0.39916.0219.85-3.8335.87
0.50223.0419.673.3842.71
0.57227.8119.578.2447.38
0.60730.219.5310.6749.73
0.65533.4719.4913.9852.96
0.76340.8319.4421.460.27
0.87348.3319.4528.8867.78
2.48158.0725.72132.36183.79

С вероятностью 95% можно гарантировать, что значения Y при неограниченно большом числе наблюдений не выйдет за пределы найденных интервалов.

2.5. Проверка гипотез относительно коэффициентов линейного уравнения регрессии.
1) t-статистика. Критерий Стьюдента.
Проверим гипотезу H0 о равенстве отдельных коэффициентов регрессии нулю (при альтернативе H1 не равно) на уровне значимости α=0.05.
tкрит = (7;0.05) = 1.895

Поскольку 12.8866 > 1.895, то статистическая значимость коэффициента регрессии b подтверждается (отвергаем гипотезу о равенстве нулю этого коэффициента).

Поскольку 2.0914 > 1.895, то статистическая значимость коэффициента регрессии a подтверждается (отвергаем гипотезу о равенстве нулю этого коэффициента).

Доверительный интервал для коэффициентов уравнения регрессии.
Определим доверительные интервалы коэффициентов регрессии, которые с надежность 95% будут следующими:
(b — tкрит Sb; b + tкрит Sb)
(68.1618 — 1.895 • 5.2894; 68.1618 + 1.895 • 5.2894)
(58.1385;78.1852)
С вероятностью 95% можно утверждать, что значение данного параметра будут лежать в найденном интервале.
(a — ta)
(-11.1744 — 1.895 • 5.3429; -11.1744 + 1.895 • 5.3429)
(-21.2992;-1.0496)
С вероятностью 95% можно утверждать, что значение данного параметра будут лежать в найденном интервале.

2) F-статистики. Критерий Фишера.
Проверка значимости модели регрессии проводится с использованием F-критерия Фишера, расчетное значение которого находится как отношение дисперсии исходного ряда наблюдений изучаемого показателя и несмещенной оценки дисперсии остаточной последовательности для данной модели.
Если расчетное значение с lang=EN-US>n-m-1) степенями свободы больше табличного при заданном уровне значимости, то модель считается значимой.

где m – число факторов в модели.
Оценка статистической значимости парной линейной регрессии производится по следующему алгоритму:
1. Выдвигается нулевая гипотеза о том, что уравнение в целом статистически незначимо: H0: R 2 =0 на уровне значимости α.
2. Далее определяют фактическое значение F-критерия:

где m=1 для парной регрессии.
3. Табличное значение определяется по таблицам распределения Фишера для заданного уровня значимости, принимая во внимание, что число степеней свободы для общей суммы квадратов (большей дисперсии) равно 1 и число степеней свободы остаточной суммы квадратов (меньшей дисперсии) при линейной регрессии равно n-2.
4. Если фактическое значение F-критерия меньше табличного, то говорят, что нет основания отклонять нулевую гипотезу.
В противном случае, нулевая гипотеза отклоняется и с вероятностью (1-α) принимается альтернативная гипотеза о статистической значимости уравнения в целом.
Табличное значение критерия со степенями свободы k1=1 и k2=7, Fkp = 5.59
Поскольку фактическое значение F > Fkp, то коэффициент детерминации статистически значим (Найденная оценка уравнения регрессии статистически надежна).

Проверка на наличие автокорреляции остатков.
Важной предпосылкой построения качественной регрессионной модели по МНК является независимость значений случайных отклонений от значений отклонений во всех других наблюдениях. Это гарантирует отсутствие коррелированности между любыми отклонениями и, в частности, между соседними отклонениями.
Автокорреляция (последовательная корреляция) определяется как корреляция между наблюдаемыми показателями, упорядоченными во времени (временные ряды) или в пространстве (перекрестные ряды). Автокорреляция остатков (отклонений) обычно встречается в регрессионном анализе при использовании данных временных рядов и очень редко при использовании перекрестных данных.
В экономических задачах значительно чаще встречается положительная автокорреляция, нежели отрицательная автокорреляция. В большинстве случаев положительная автокорреляция вызывается направленным постоянным воздействием некоторых неучтенных в модели факторов.
Отрицательная автокорреляция фактически означает, что за положительным отклонением следует отрицательное и наоборот. Такая ситуация может иметь место, если ту же зависимость между спросом на прохладительные напитки и доходами рассматривать по сезонным данным (зима-лето).
Среди основных причин, вызывающих автокорреляцию, можно выделить следующие:
1. Ошибки спецификации. Неучет в модели какой-либо важной объясняющей переменной либо неправильный выбор формы зависимости обычно приводят к системным отклонениям точек наблюдения от линии регрессии, что может обусловить автокорреляцию.
2. Инерция. Многие экономические показатели (инфляция, безработица, ВНП и т.д.) обладают определенной цикличностью, связанной с волнообразностью деловой активности. Поэтому изменение показателей происходит не мгновенно, а обладает определенной инертностью.
3. Эффект паутины. Во многих производственных и других сферах экономические показатели реагируют на изменение экономических условий с запаздыванием (временным лагом).
4. Сглаживание данных. Зачастую данные по некоторому продолжительному временному периоду получают усреднением данных по составляющим его интервалам. Это может привести к определенному сглаживанию колебаний, которые имелись внутри рассматриваемого периода, что в свою очередь может служить причиной автокорреляции.
Последствия автокорреляции схожи с последствиями гетероскедастичности: выводы по t- и F-статистикам, определяющие значимость коэффициента регрессии и коэффициента детерминации, возможно, будут неверными.

Обнаружение автокорреляции

1. Графический метод
Есть ряд вариантов графического определения автокорреляции. Один из них увязывает отклонения ei с моментами их получения i. При этом по оси абсцисс откладывают либо время получения статистических данных, либо порядковый номер наблюдения, а по оси ординат – отклонения ei (либо оценки отклонений).
Естественно предположить, что если имеется определенная связь между отклонениями, то автокорреляция имеет место. Отсутствие зависимости скоре всего будет свидетельствовать об отсутствии автокорреляции.
Автокорреляция становится более наглядной, если построить график зависимости ei от ei-1.

Несмещенная оценка коэффициента уравнения регрессии

Несмещенность оценок параметров регрессии. Оценка параметров регрессии называется несмещенной, если для любого фиксированного числа наблюдений выполняется равенство математического ожидания параметра и значения параметра регрессии. Надо отметить, что оценки, полученные методом наименьших квадратов, обладают свойством несмещенности. [c.149]

Эффективность оценок параметров регрессии. Несмещенная оценка параметра регрессии называется несмещенной эффективной, если она среди всех прочих несмещенных оценок этого же параметра обладает наименьшей дисперсией. [c.149]

Это означает, что отсутствует систематическая ошибка в определении линии регрессии, следовательно оценки параметров регрессии являются несмещенными, то есть математическое ожидание оценки каждого параметра равно его истинному значению. [c.107]

Статистические проверки параметров регрессии, показателей корреляции основаны на непроверяемых предпосылках распределения случайной составляющей б,. Они носят лишь предварительный характер. После построения уравнения регрессии проводится проверка наличия у оценок б, (случайных остатков) тех свойств, которые предполагались. Связано это с тем, что оценки параметров регрессии должны отвечать определенным критериям. Они должны быть несмещенными, состоятельными и эффективными. Эти свойства оценок, полученных по МНК, имеют чрезвычайно важное практическое значение в использовании результатов регрессии и корреляции. [c.155]

Отметим, что при соблюдении прочих предпосылок МНК автокорреляция остатков не влияет на свойства состоятельности и несмещенности оценок параметров уравнения регрессии обычным МНК, за исключением моделей авторегрессии. Применение МНК к моделям авторегрессии ведет к получению смещенных, несостоятельных и неэффективных оценок. [c.280]

Однако, как было показано выше, оценка параметра с,, равная 0,440, является смещенной. Для получения несмещенных оценок параметров этого уравнения воспользуемся методом инструментальных переменных. Определим параметры уравнения регрессии (7.43) обычным МНК [c.327]

Средние квадраты s и s2 (табл. 3.3) представляют собой несмещенные оценки дисперсий зависимой переменной, обусловленных соответственно регрессий или объясняющей переменной X и воздействием неучтенных случайных факторов и ошибок т — число оцениваемых параметров уравнения регрессии п — число наблюдений. [c.72]

Оценки, определяемые вектором (4.8), обладают в соответствии с теоремой Гаусса—Маркова минимальными дисперсиями в классе всех линейных несмещенных оценок, но при наличии мультиколлинеарности эти дисперсии могут оказаться слишком большими, и обращение к соответствующим смещенным оценкам может повысить точность оценивания параметров регрессии. На рис. 5.1 показан случай, когда смещенная оценка Ру, [c.110]

Как было отмечено в 7.1, b — несмещенная и состоятельная оценка параметра р для обобщенной линейной модели множественной регрессии следовательно, и в частном случае, когда мо- [c.156]

Изучая уравнение линейной регрессии мы предполагали, что реальная взаимосвязь фактора X и отклика 7 линейна, а отклонения от прямой регрессии случайны, независимы между собой, имеют нулевое математическое ожидание и постоянную дисперсию. Если это не так, то статистический анализ параметров регрессии некорректен и оценки этих параметров не обладают свойствами несмещенности и состоятельности. Например, это может быть, если в действительности связь между переменными нелинейна. Поэтому после получения уравнения регрессии необходимо исследовать его ошибки. [c.122]

Коэффициенты регрессии, найденные исходя из системы нормальных уравнений, представляют собой выборочные оценки характеристики силы связи. Их несмещенность является желательным свойством, так как только в этом случае они могут иметь практическую значимость. Несмещенность оценки означает, что математическое ожидание остатков равно нулю. Следовательно, при большом числе выборочных оцениваний остатки не будут накапливаться и найденный параметр регрессии bt можно рассматривать как среднее значение из возможного большого количества несмещенных оценок. Если оценки обладают свойством несмещенности, то их можно сравнивать по разным исследованиям. [c.156]

Степень реалистичности доверительных интервалов параметров регрессии обеспечивается, если оценки будут не только несмещенными и эффективными, но и состоятельными. Состоятельность оценок характеризует увеличение их точности с увеличением объема выборки. Большой практический интерес представляют те результаты регрессии, для которых доверительный интервал ожидаемого значения параметра регрессии 6, имеет предел значений вероятности, равный единице. Иными словами, вероятность получения оценки на заданном расстоянии от истинного значения параметра близка к единице. [c.156]

При несоблюдении основных предпосылок МНК приходится корректировать модель, изменяя ее спецификацию, добавлять (исключать) некоторые факторы, преобразовывать исходные данные для того, чтобы получить оценки коэффициентов регрессии, которые обладают свойством несмещенности, имеют меньшее значение дисперсии остатков и обеспечивают в связи с этим более эффективную статистическую проверку значимости параметров регрессии. Этой цели, как уже указывалось, служит и применение обобщенного метода наименьших квадратов, к рассмотрению которого мы и переходим в п. 3.11. [c.169]

Метод, используемый чаще других для нахождения параметров уравнения регрессии и известный как метод наименьших квадратов, дает наилучшие линейные несмещенные оценки. Он называется так потому, что при расчете параметров прямой линии, которая наиболее соответствует фактическим данным, с помощью этого метода стараются найти линию, минимизирующую сумму квадратов значений ошибок или расхождений между величинами Y, которые рассчитаны по уравнению прямой и обозначаются Y, и фактическими наблюдениями. Это показано на рис. 6.2. [c.265]

В классических предположениях мнк-оценки совпадают с оценками максимального правдоподобия и являются наилучшими среди всех несмещенных оценок в. Однако при отклонении распределения г от нормального в сторону увеличения вероятности больших отклонений мнк-оценки быстро теряют свои оптимальные свойства. В связи с этим в практической работе широко используются функции потерь р(и) Ф и2. Среди них выделяется функция ря, (и) = А,-1 (1 — ехр — А,м2/2 ), при К -> 0 стремящаяся к и2/2, а при и — оо (X > 0) имеющая горизонтальную асимптоту. Она приводит к так называемым эв-оценкам параметров регрессионной зависимости (эв-регрессия или Х-регрессия). Эти оценки устойчивы к нарушению предположения нормаль- [c.249]

Сформулируйте свойства несмещенности, состоятельности и эффективности оценок параметров. Обладают ли этими свойствами оценки. параметров линейной регрессии, полученные с помощью МНК [c.311]

Формула Q записана для парной регрессии аналогичный вид она имеет и для множественной линейной регрессии. При использовании WLS оценки параметров не только получаются несмещенными (они будут таковыми и для обычного МНК), но и более точными (имеют меньшую дисперсию), чем невзвешенные оценки. [c.355]

Почему, если известна оценка W ковариационной матрицы ошибок независимых переменных, то приведенная формула расчета оценок параметров простой регрессии обеспечивает их несмещенность [c.44]

Оценки являются несмещенными, т.е. математическое ожидание оценки каждого параметра равно его истинному значению М(а) = а М(Ь) = р. Это вытекает из того, что М(е.) = О, и говорит об отсутствии систематической ошибки в определении положения линии регрессии. [c.297]

Если матрица ковариации ошибок по наблюдениям отлична от О IN (нарушена 3-я гипотеза основной модели), то МНК-оценки параметров регрессии остаются несмещенными, но перестают быть эффективными в классе линейных. Смещенными оказываются МНК-оценки их ковариции, в частности оценки их стандартных ошибок (как правило, они преуменьшаются). [c.27]

При выполнении предпосылок 1)-4) относительно ошибок е( оценки параметров множественной линейной регрессии являются несмещенными, состоятельными и эффективными. Отклонение зависимой переменной у ву-м наблюдении от линии регрессии, ер записывается следующим образом е = у — а0 — atx — a fl -. .. — amxjm. Обозначим сумму квадратов этих величин, которую нужно минимизировать в соответствии с методом наименьших квадратов, через Q. [c.308]

При анализе временных рядов часто приходится учитывать статистическую зависимость наблюдений в разные моменты времени. Иными словами, для многих временных рядов предположение о некоррелированности ошибок не выполняется. В этом разделе мы рассмотрим наиболее простую модель, в которой ошибки образуют так называемый авторегрессионный процесс первого порядка (точное определение будет дано ниже). Как было показано ранее (глава 5), применение обычного метода наименьших квадратов к этой системе дает несмещенные и состоятельные оценки параметров, однако можно показать (см., например, Johnston and DiNar-do, 1997), что получаемая при этом оценка дисперсии оказывается смещенной вниз, что может отрицательно сказаться при проверке гипотез о значимости коэффициентов. Образно говоря, МНК рисует более оптимистичную картину регрессии, чем есть на самом деле. [c.184]

Состоятельное оценивание дисперсий. Предположим теперь, что в модели (6.1) с гетероскедастичностью для оценки вектора параметра ft используется обычный метод наименьших квадратов. Как установлено в главе 5, эта оценка является состоятельной и несмещенной, однако стандартная оценка ее матрицы ко-вариаций ((3.8), (ЗД9)) V»(/3OLs) — ff2(X X) l смещена и несостоятельна. Отметим, что компьютерные пакеты при оценивании коэффициентов регрессии вычисляют стандартные ошибки коэффициентов регрессии именно по этой формуле. Можно ли сделать поправку на гетероскедастичность и улучшить оценку матрицы ковариаций Положительный ответ дают приводимые ниже два способа оценивания. [c.173]

Выбор регрессии, максимизирующий несмещенную оценку коэффициента детерминации Текст научной статьи по специальности « Математика»

Аннотация научной статьи по математике, автор научной работы — Ершов Э. Б.

Получена форма несмещенной оценки коэффициента детерминации для линейного уравнения регрессии, вычисляемая по выборочным данным из многомерного нормального распределения. Эту оценку предлагается применять как альтернативный критерий выбора факторов в регрессии.

Похожие темы научных работ по математике , автор научной работы — Ершов Э. Б.

A choice of the regression maximizing an unbiased estimate of the coefficient of determination

A form for an unbiased estimate of the coefficient of determination of a linear regression model is obtained. It is calculated by using a sample from a multivariate normal distribution. This estimate is proposed as an alternative criterion for a choice of regression factors.

Текст научной работы на тему «Выбор регрессии, максимизирующий несмещенную оценку коэффициента детерминации»

Выбор регрессии, максимизирующий несмещенную оценку коэффициента детерминации

Получена форма несмещенной оценки коэффициента детерминации для линейного уравнения регрессии, вычисляемая по выборочным данным из многомерного нормального распределения. Эту оценку предлагается применять как альтернативный критерий выбора факторов в регрессии.

Общеизвестен вариант исходных предположений метода наименьших квадратов (МНК), при котором используемые значения объясняемой переменной у и факторов х. хт в регрессии порождаются выборкой из многомерного невырожденного нормального распределения. Вместо его неизвестных параметров используются их оценки, вычисляемые по выборочным данным.

Нормально распределенная случайная величина у, получаемая при фиксированныхзна-ченияхфакторовх. хт, представима в виде

У = а о + ^ х]а] + е, (1)

где коэффициенты а0. ат — известные функции от параметров закона распределения случайной величины (у,х. хт) и е — нормально распределенная случайная величина, имеющая нулевое математическое ожидание и дисперсиюст2, не зависящую от значений факторов

Характеристика Ж2 = Ж 2(у; х. хт), называемая коэффициентом детерминации, определяется формулой

Ж2 = 1-стЦ ст 2( у),

где ст 2( у)— дисперсия случайной величины у. Показатель Ж2 зависит от факторов х. хт, но не от их значений, т.е. характеризует связь между у и факторами.

По данным выборки, состоящей из наблюдений (у к ;хк . хкт ), к = . п, с помощью

МНК находятся оценки а,, у = 0, . т, коэффициентов в 0), МНК-остатки ек, оценки , _ у ,

ст2(у) = (ук — у)2 ист2(у ;х. хт) = е2 дисперсийст2(у) ист2, а затем выборочное

значение Н2 (у;х. хт) = ст2 (у;х. хт)/ст2(у) коэффициента детерминации. При заданном наборе <х. хм>потенциальных факторов выбор набора <х(.0). x¡(т>) аргументов

обычно сводят к минимизации несмещенной оценки —— ст2(у;х. хт) дисперсии ст2 или к максимизации статистики п — р

где р = (т +1) — число оцениваемых коэффициентов в (1). Статистику Я2 называют выборочным коэффициентом детерминации, скорректированным на число степеней свободы.

Приведенные определения включаются в учебники по многомерному статистическому анализу и эконометрике. Менее известно, что математические ожидания ЕЯ2 и ЕЯ2 статистик Я2 и Я2 не равны №2. Это важно, поскольку выбор факторов не должен быть ориентирован только на обеспечение наибольшей близости выравненных значений

ук = а0 хк1а1, к = 1. п, переменной у к выборочным значениям ук, так как урав-

нение у = а0 + ^х1а 1 используется и при других значениях факторов. В связи с этим вво-

дятся различные критерии выбора факторов, использующие предположения о генеральной совокупности переменных у,х1. хм, например о нормальности соответствующего рас-Ц пределения. При таком предположении показатель №2 естественно рассматривать как ха-| рактеристику оцениваемой регрессии и, выбирая факторы, максимизировать ее несмещен-Ц ную оценку.

^ 2. Несмещенная оценка коэффициента детерминации №2,

£ ее аппроксимации и заменители

I Уишарт [Wishart (1931)] показал, что ЕЯ2 и №2 связаны соотношением [Кендалл, Стьюарт | (1973), с. 454]

^ ER2 = 1-П—Р(1-^2)F(1;1;0,5(n + 1); ^2). (3)

Здесь F (a; р;^;z) — специальная гипергеометрическая функция, определяемая в виде

? ряда [Градштейн, Рыжик (1962), с. 1053] iE

I rr а . , opz а (а + 1) (( 3 + 1) z2 а(а + 1)(а + 2) (( ( + 1)( ( + 2) z3

¡8 1-1 1-2-1(1 +1) 1-2-3-1(1+ 1)(l + 2)

U сходящегося абсолютно и равномерно внутри единичного круга для комплексной перемен-

0 и положительных а, 3,1 является возрастающей, а также то, что

* детерминированные величины ^2 и ER2.

Важнейший результат был получен Олкиным и Прэттом [Olkin, Pratt (1958)], нашедшими § определенную при n > p >3 статистику к2 (y;х. xm) = к 2 [Кендалл, Стьюарт (1973),

g. R2 = 1—^^(1-R 2)F(1;1;0,5( n — p) + 1;1-R2), (5)

ной z, если ^^ 0, -1,-2. Для дальнейшего важно, что функция Я(а; р;^;7) действительной переменной 7 при 7 > 0 и положительных а, р, ^ является возрастающей, а также то, что формула (3) не позволяет находить ЕЯ2 по данным выборки, так как связывает неизвестные

представляющую собой несмещенную оценку для ^ ( y ; x1. xt

U „2 p -3М п^ 2(n — 3)

Теория и методология _

Свойства функции F(1; 1;^; z) переменной z при 0 3 [Градштейн, Рыжик (1962), с. 1054].

Статистика R2 до настоящего времени, насколько нам известно, не использовалась, л по-видимому, из-за признания практически невозможным или нецелесообразным вычислять значения F(1; 1;0,5q;z) при целых q и 0 р > 3 и Я = Я(1; 1;0,5(п — р) +1;1 — Я2) > 1. Из (2), (5) и (6) получаем

Я2 — Я2 = ^^О — Я2) >0, Я2 — Я2 >0, Я2 —

2 Я2 и Я2 = Я2, и найдем множества значений величин п, р и Я2, при которых эти случаи имеют место. Используя определения, представим разность этих статистик в виде

Я 2 — Я 2 = 2(1— Я 2)( п — р + 2)( п — р + 4) — (п — 3)(1— Я 2)[( п — р + 4) + 4(1 — Я2)]

(п — р)( п — 3)( п — р + 2)( п — р + 4)

При фиксированных значениях п и р исследуем неопределенное неравенство

^ (у) = 4( п — 3) у2 + (п — 3)( п — р + 4) у — (п — р + 2)( п — р + 4) V 0,

в котором переменная у = (1 — Я2)удовлетворяет неравенству 0 0, но т1п(1; у+) = 1, если ((1) р > 3. Введя неотрицательную переменную х = (п — р — 1) > 0, представим неравенство ^(1) V0 в виде (х + р — 2)(х + 9) — (х + 3)(х + 5) = (р + 1)(п — р +1)—33 V0 или пV[(р +1) + 33/(р +1)] = = К р).

Рассмотрим три случая для пар (р; п) параметров, характеризующих регрессию, — числа наблюдений в выборке (п) и числа оцениваемых коэффициентов (р = т +1).

1. Если п Ь(р), то f(1) 0. Следовательно, f(у) = (Я2 — Я2) Я2 при у+ р > 3 существуют всего два §. значения р = 10 и р = 32, при которых 33/(р +1) и Ь(р) — целые числа. Таким образом, | Я2 = Я2 только при р = 10, т = 9, п = 14 или при р = 32, т = 31, п = 34, т. е. в двух исключи-Ц тельных и неинтересных для приложений случаях.

Для любого р значения п, образующие пары (р; п) этих типов, легко находятся. Так, при § р = 3 А-множество пар (р; п) = (3;п) задается неравенством 12 33 А-множества задаются неравенствам и (р + 2) Не можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

§ критериев качества регрессий.

I В [Айвазян и др. (1985), с. 190-192] было предложено при выборе регрессоров максими-

| зировать не Я2, а так называемую нижнюю границу ЯттР для ^2 при задаваемой доверительной вероятности Р. Статистика Я^р определялась при упрощающем предположе-

¡5 нии о пропорциональности разности (Я2 — Я^ р) асимптотической (при больших п) оценке

среднеквадратической ошибки случайной величины R2. Критерий P задавался форму-

а Значение множителя Х(Р) предлагалось выбирать в зависимости от Р. Однако функция \(Р)не поддается идентификации, и воспользоваться формулой (7) при ограниченном, атем более при малом числе наблюдений невозможно. Значение коэффициента \(Р) приходится задавать, исходя из прагматических соображений.

В развитие идеи, на которой основывалось введение статистики Я^п р, в [Айвазян, Мхита-рян(1998), с. 420, 663, 664] введен заменяющий статистику Я2, просто вычисляемый, максимизируемый показатель качества регрессии

Эта статистика также называется нижней доверительной границей (точнее, ее оценкой) для Ж2, но без упоминания задаваемой доверительной вероятности.

Сравним значения статистик Я2 и Я^п.Для разности (Я2 -Я2п), используя (5), (8) и неравенство п > р > 3, получаем

где, как и прежде, Я = Я(1;1;0,5(п-р) +1;1-Я2). Из (5) находится следующая формула для

-Я ) > 1.Тогда при Я (1-Я2

2(р -1)( п — р) 0 51 (п -1)2( п + 1)

Следовательно, для математических ожиданий этих статистик имеем ЕЯ2 > ЕЯ^п и статистика Я2п смещена относительно Ж2, что и следовало ожидать, учитывая их определения. В то же время из определений (5) и (8) для Я2 и Я^п следует, что с ростом п их значения сближаются, стремясь к Я2. Однако при ограниченном числе наблюдений эквивалентность применения критериев Я^п и Я2 в задаче выбора регрессий по меньшей мере не очевидна. Поэтому проанализируем возможность эффективного вычисления несмещенной оценки Я2 для Ж2.

3. Эффективно вычисляемая форма представления статистики Я2

Чтобы оценка Я2 для Ж2 могла применяться в качестве критерия выбора множества рег-рессоров, достаточно иметь возможность вычислять значения функции Я(1; 1;1;7) при 1 = 0,5(п -р) +1 и 0 р + 3, то | Г1-3 С Г = 2/(п — р — 2).

-те при п = р + 1 или р + 2.

В-третьих, функция д( 1;г) при 1 = 0,5(п-р) +1 представима в виде суммы конечного числа слагаемых, являющихся известными функциями аргументов (п — р) и г = (1 — Я2). Воза можность получения такого представления до настоящего времени, по-видимому, не была § замечена.

| Для нахождения определенного интеграла в формуле (9) с параметром (1-2) = | = 0,5(п-р)-1, принимающим значения <-0,5;0;+0,5;1;. >пр и п-р = 1,2. введем пере-^ менную г = (1- Я2). Предполагая, что Я2 Не можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

V-c-+ (-1)s -2cs-05arctg(c-

V—+ (-1)scs ln(1+ c-s — k

arctgx = V(-1)k— при x2 1;

2)0,5 1, c-1 0,5 воспользуемся разложением функций arctg x и ln(1 + x) в степенные ряды:

С помощью (12) показывается, что многочлены Н1($; с) и Н2($; с) равны суммам слагаемых в функциях Н3($; с) и Н4($; с) соответственно, содержащих неотрицательные степени перемен-

ной с. Таким образом, для С(п — р; с) при Я2 > 0,5 получаем общее для четных и нечетных значений (п -р) представление в виде степенного ряда

в(п- р; с) = 2с-1 -1)к(2к + п — р)-1с-к, к = 0

в котором 0 р > 3, с = Я21(1- Я2) и ц — целая часть числа 0,5(п — р -1)):

, если 0 1, можно также воспользоваться формулой

2 = 1 — (n — 3)c—1 ¿(—1)k (2 k + n — p)—1 c— k.

Представление (5»’), (5»») статистики R2 по сравнению с (5′), использующим коэффициенты k(^ +1). (^ + k)] при (1 — R2)k, отличается простотой формул для коэффициентов при степенях переменных с и c—1. Метод вычисления статистики R2 по формулам (5»’) реализован совместно с канд. экон. наук Н. А. Толмачевой.

4. Примеры применения статистики R2 при выборе наилучшей регрессии

Подходы к выбору наилучшей регрессии в задаче с небольшим числом потенциальных факторов в научных монографиях и учебниках иллюстрируются на нескольких повторяемых примерах. Это позволяет сравнивать результаты, получаемые с использованием постоянно обновляемых идей и общих исходных данных. На двух таких примерах продемонстрируем возможность применения статистики R 2.

4.1. Пример Хальда

В [Дрейпер, Смит (1987)] и [Себер (1980)] детально анализируются все варианты регрессий, базирующихся на данных из [Woods et al. (1932)] и [Хальд (1956)]. Объясняемая переменная y = (yk) в этом примере — тепло, выделяющееся при производстве цемента (калория/грамм), a Xj = (xkj), j = 1. 4 (m = 4), — переменные, характеризующие содержание четырех веществ в клинкере (в %) в 13 наблюдениях (k = 1. n;n = 13). Факторы xj приближенно мультиколлинеарны, так как их суммы в каждом наблюдении близки к 100. Вы-

борочные значения коэффициентов корреляции для пар факторов подтверждают предположение о мультиколлинеарности (г(х,; х3) = —0,8241, г(х2; х4) = —0,9730), также как и значение Се1:(X’X) = 0,0010677 детерминанта матрицы X’X, где X — матрица размером 13 х5, содержащая значения аргументов в регрессии у = а0 + а1х1 +. + а4х4, и собственные значения корреляционной матрицы С = сог(х. х4) для факторов: X,(С) = 2,23569, Х2(С)= 1,57606, Х3(С)= 0,18661 и X4(С) ^ 0,00162.

С использованием различных подходов в [Дрейпер, Смит (1987)] и [Себер (1980)] были выделены следующие претенденты на роль набора факторов для наилучшей регрессии:

(х; х2), (х; х4), (х; х-1, х3), (х1; х2; х4), (х^ х3; х4), (х2; х3; х4), (х1; х2; х3; х4).

Таблица 1 содержит значения статистик Я2, Я2, Я^, Я2 и Я2 для всех 15 вариантов набора факторовх1. х4. В этом примере значения статистик Я2 и Я2 приводятся с большим числом знаков для того, чтобы сделать явным выполнение неравенства Я2 > Я2. Отобранные варианты четко выделяются среди регрессий с фиксированным числом факторов. При этом регрессии с одним фактором (т = 1, р = 2) уступают по критериям Я2 и Я^ регрессиям-претендентам.

Значения критериев выбора регрессии, основанных на функциях от статистики Л2,

для примера Хальда

Набор Статистика Максимизируемые критерии Ранг набора

факторов й2 R2 Rmln R2 й2 факторов*

м 0,5зз95 0,49158 0,з9421 — — —

(Х) 0,66627 0,6з59з 0,56620 — — —

(Хз) 0,28587 0,22095 0,07175 — — —

(Х) 0,67454 0,64495 0,57696 — — —

(Х1; Х2) 0,97868 0,97441 0,96841 0,9786026 0,9786021 4

(Х1; Хз) 0,54817 0,45780 0,зз051 0,5141412 0,5088098 11

(Х1; Х4) 0,97247 0,96697 0,95921 0,972з448 0,972з4з7 6

(Х2; Хз) 0,8470з 0,8164з 0,77ззз 0,84з1252 0,842944з 9

(Х2; Х4) 0,68006 0,61607 0,52594 0,66з0002 0,6612219 10

(хз; Х4) 0,9з529 0,922з5 0,90412 0,9з45918 0,9з45785 8

(Х1; Х2; Хз) 0,98228 0,976з8 0,97058 0,9802529 0,9802526 2

(Х1; Х2; Х4) 0,982з4 0,97645 0,97067 0,980з097 0,980з094 1

(Х1; хз; Х4) 0,98128 0,97504 0,96891 0,9791з04 0,9791з00 з

(Х2; хз; Х4) 0,97282 0,96з76 0,95486 0,9696507 0,9696495 7

(Х1; Х2; хз; Х4) 0,982з8 0,97з56 0,96728 0,9778919 0,9778914 5

* Приведены ранги регрессий, для которых соответствии с убыванием значений любого

определены статистики Я2, Я и Я . Ранги присваиваются в из критериев.

Для регрессии с факторами (х,;x2) значения статистик R2, Rr2ltn, R2 и R2 больше, чем для регрессии с факторами (х,;х4). Аналогичным образом регрессия с факторами (х,;х2;х4) оказывается предпочтительнее других регрессий с тремя и двумя факторами. Дрейпер и Смит, используя метод исключения факторов и «шаговый метод» (метод пополнения множества факторов), принимая без тестирования гипотезу нормальности ошибок и задавая без обоснования уровень значимости для F-критериев, отдали предпочтение регрессии с факторами (х,;х2). В качестве критерия выбора факторов ими использовалась и предложенная Мэл-лоузом Ср-статистика, что также привело к выбору регрессии с факторами (х,; х2). Однако при этом не было обращено внимание на то, что в этом критерии в качестве надежной, по предположению несмещенной оценки дисперсии случайных ошибок используется такая величина, как««2 — остаточный средний квадрат МНК-отклонения для уравнения, содержащего все переменные» [Дрейпер, Смит (1987), с. 14, 15]. Для примера Хальда с явно мультикол-линеарными данными указанное допущение вряд ли может быть оправдано. Такой оценкой было бы естественнее считать статистику 52для искомой «наилучшей регрессии», но это разрушало бы конструкцию метода, использующего статистику Cp.

Полезно иметь в виду, что так называемая ПРЕСС-процедура [Дрейпер, Смит (,987), с.40-42] тоже позволила выделить варианты регрессий, для которых критерий «предсказан-Ц ная сумма квадратов» (Prediction sum square) РББЦш. х](m>) принимал наименьшие, но отно-Ь сительно мало различающиеся значения: PSS(х,; х2) = 95, PSS(х,; х4) = ,2, PSS(х,; х2; х3) = 9,,

¡в PSS(x1; х2; х4) = 85, PSS(x1; х3; х4) = 87, PSS(x1; х2; х3; х4) = НО. Для остальных регрессий значе-£

ния критерия РББ оказались в пределах от РББ(х3; х4) = 264 до РББ(х3) = 2616. По-видимому, стремление выбирать уравнение как можно с меньшим числом аргументов хотя бы частично объясняется преувеличением трудностей реализации МНК, возникающих с ростом числа факторов. Однако для регрессий с двумя и тремя факторами эта позиция авторов не может объясняться возрастающей «сложностью» расчетов. Скорее следовало бы говорить об угрозе возникновения мультиколлинеарности факторов с увеличением их числа и о необходимости прогнозировать большее число факторов. | Можно считать, что в данном примере ПРЕСС-процедура в качестве конкурирующих рег-

Ц рессий определяетуравнения с наборами факторов (х-,;х2;х4), (х-,;х3;х4), для которыхзначения I критерия РББ минимальны. При этом в число конкурирующих претендентов включена регрессия (х1;’х2;х4) с наибольшими значениями статистик Я2, Я^п, Я2 и Я’

Этот же набор факторов (х1;’х2; х4) определяется в качестве наилучшего и при применении

Ф рессиа (v.-x-х ) с наибольшими значениями с—гатис—гик R 2 R2 R 2 и R 2

S предложенного в [Webster et al. (,974)] модифицированного МНК, или метода «регрессии на

ц цы для объясняемой переменной и всех рассматриваемых факторов. Формальное изложе-

главныекомпоненты». Этот метод использует собственные векторы корреляционной матри-

ние метода и его применение к данным примера Хальда имеются в [Дрейпер, Смит (,987), с. 48-52].

§ Себер, используя понятие R2-адекватного (а)-набора регрессоров, предложенное в о [Aitkin (,974)], приводит все такие наборы для примера Хальда, соответствующие довери-^ тельной вероятности а = 0,05. Ими оказались (х,;х2), (х,;х4) и все четыре набора, содержащие ^ три фактора [Себер (,980), с. 35,, 352]. Однако этот подход не позволил в этом примере су-v§ зить множество регрессий-конкурентов.

® Несовпадение результатов выбора наилучшей регрессии разными методами или фактическая неединственность результатов такого выбора отмечается почти всеми исследовате-

лями.Так, в [Себер (1980), с. 372] замечено, что метод последовательного включения факта- § ров выделяет набор (х1;-х2;х4), в то время как метод последовательного их исключения — на- Ц бор(хь-х2). Заметим, что в этих методах доверительные вероятности задаются экзогенно, без ^ учета того, насколько различаются значения возможных критериев качества регрессий по о наборам факторов, и без тестирования нормальности.

Таким образом, рассматриваемые Дрейпером, Смитом и Себером методы определения наилучшей регрессии в примере Хальда фактически позволили выделить множество регрессий-конкурентов, а не одну, действительно лучшую, регрессию.

В то же время на примере Хальда видно, что для вариантов регрессий со значениями Я2, близкими к 1, статистики Я2 и Я2 становятся, как отмечалось, почти равными. В этом примере ранги, присвоенные регрессиям по убыванию значений критериев Я2, Я^п, Я2 и Я2, не являющихся неубывающими при добавлении факторов, совпадают. Следовательно, применение несмещенной оценки Я2 для коэффициента детерминации ^2 как критерия качества регрессий в этом случае не противоречит рекомендациям применять другие рассматриваемые критерии.

4.2. Анализ урожайности зерновых культур

По данным 20 сельскохозяйственных районов некоторой области в примере 15.1 из [Айвазян, Мхитарян (1998), с. 631, 632, 636, 644-646, 652, 654, 664-668] исследуется зависимость урожайности зерновых культур у (ц/га) от пяти факторов: х1 — число тракторов на 100 га; х2 — число зерноуборочных комбайнов на 100 га; х3 — число орудий поверхностной обработки почвы на 100 га; х4— количество удобрений, расходуемых на гектар (ц/га);х5 — количество расходуемых химических средств защиты растений (ц/га). Отмечается высокая мультиколлинеарность факторов, причем коррелированность факторов х1 и х3 следует из того, что «орудия поверхностной обработки почвы реализуются в подавляющем большинстве с помощью тракторов» [Айвазян, Мхитарян (1998); с. 652, 654]. Поэтому из дальнейшего анализа исключим фактор х1.

В табл.2 приведены значения статистик Я2,Я2, Я^, Я2 и Я2 для всех вариантов регрессий. Среди уравнений с одним фактором (т = 1, р = 2) явно выделяется регрессия с фактором х4, для которой значения всех рассчитанных критериев существенно превосходят их значения для других однофакторных уравнений. Из множества уравнений с двумя факторами (т = 2) по значениям всех пяти статистик выделяются регрессии с факторами (х2;х4) и (х3;х4). Для уравнения с факторами (х3;х4) значения всех максимизируемых статистик больше, чем для регрессии с факторами (х2;х4). Среди трехфакторных регрессий по значениям всех статистик претендентами на роль наилучшей регрессии оказываются уравнения с наборами факторов (х2;х4;х5) и (х3;х4;х5). Однако для регрессии с факторами (х2;х4;х5) значения статистик больше, чем у конкурирующего уравнения. Таким образом, выбор наилучшей регрессии сводится к выбору между уравнениями с факторами (х3;х4) и (х2;х^;х5), поскольку для «лучшей» однофакторной регрессии значения статистик Я2, Я2 и Я^ существенно меньше, чем для этих претендентов. Напомним, что для регрессий с одним фактором не все рассматриваемые статистики определены. Регрессия с четырьмя факторами уступает отобранным двум конкурирующим уравнениям по всем критериям за исключением Я2, что естественно.

Значения критериев выбора регрессии, основанных на функциях от статистики И2, для примера анализа урожайности зерновых культур

; х2,х4,х5). Однако по значениям статистик R2, R2 и R2 регрессия с факторами (x2; x4; x5) предпочтительнее, хотя разницы значений критериев для этих двух конкурирующих уравнений малы. Таким образом, на данном примере показано, что выбор регрессии по критериям Rmin иR2 может приводить к разным результатам. Значения статистик R2 и R2 могут для данного набора факторов существенно различаться, но при этом ранги регрессий, присваиваемые в соответствии с убыванием этих критериев, могут полностью или частично совпадать.

Предложение использовать несмещенную оценку R2 коэффициента детерминации Ж2 или ее аппроксимацию R2 как критерий качества выбираемого набора регрессоров основывается на строго формулируемом предположении о нормальности распределения для совокупности переменных, порождающих используемые выборочные данные, и на теоретическом определении показателя качества зависимости одной из таких переменных от заданного набора других переменных-факторов. При применении статистики R2 не используется

предположение о большом числе наблюдений. В этом состоят преимущества предложенно- § го подхода к определению конкурирующих регрессий по сравнению с эвристическими по Ц своему характеру методами, использующими статистики R2 и ^¡п. Реализованный метод ^ расчета значений критерия-статистики R2 универсален и эффективен в широком диапазоне о целочисленных характеристик уравнений регрессии — числа наблюдения и числа оцениваемых коэффициентов.

То, что в рассмотренных примерах применение статистики R2 приводит к выделению наборов регрессоров, полученных другими, более простыми в реализации методами, может рассматриваться как оправдание использования эвристических методов в конкретных случаях, но не означает эквивалентность таких методов в общем случае.

Поскольку статистика R2 и другие сравниваемые статистики представляют собой случайные величины, можно считать, что их применение как критериев качества наборов факторов в регрессии с общей выбранной объясняемой переменной позволяет всего лишь выделять конкурирующие варианты регрессий, для которых значения критериев близки. Выбор предпочтительных вариантов регрессий из множества конкурирующих, а в перспективе и конструирование с использованием отобранных регрессий уравнений, моделирующих объясняемую переменную, по-видимому, можно и целесообразно основывать на специально обсуждаемых качественных требованиях к ним. Обоснование таких конструктивно реализуемых требований — задача проводимых в настоящее время исследований.

Айвазян С. А., Енюков И. С., МешалкинД.Д. Прикладная статистика. Исследование зависимостей: Справочное издание. М.: Финансы и статистика, 1985.

Айвазян С. А., Мхитарян В. С. Прикладная статистика и основы эконометрики. М.: ЮНИТИ, 1998.

Градштейн И. С., Рыжик И. М. Таблицы интегралов, сумм, рядов и произведений. М.: Гос. изд. физ.-мат. литературы, 1962.

Дрейпер Н., Смит Г. Прикладной регрессионный анализ. Книга 2. М.: Финансы и статистика, 1987.

Кендалл М., Стьюарт А. Статистические выводы и связи. М.: Наука, 1973.

СеберДж. Линейный регрессионный анализ. М.: Мир, 1980.

ХальдА. Математическая статистика с техническими приложениями. М.: ИЛ, 1956.

Aitkin M.A. Simultaneous inference and the choice of variable subsets// Technometrics. 1974. V. 16, P. 221-227.

Olkin I., Pratt J. W. Unbaised estimation of certain correlation coefficients// Ann. Math. Statist. 1958. V. 29.

Webster J. T., Gunst R. F., Mason R. L. Latent root regression analysis// Technometrics. 1974. V. 16. P. 513-522.

WishartJ. The mean and second moment coefficient of the multiple correlation coefficient in sumples from a normal population // Biometrica. 1931. V. 22.

Woods H., Steinour Y. H., Starke H. R. Effect of Composition of Portland on Heat Evolved during Hardening // Industrial and Engineering Chemistre. 1932. V. 24. P. 1207-1214.


источники:

http://economy-ru.info/info/15264/

http://cyberleninka.ru/article/n/vybor-regressii-maksimiziruyuschiy-nesmeschennuyu-otsenku-koeffitsienta-determinatsii