Выборочное уравнение прямой регрессии имеет вид

6.7.2. Отыскание параметров выборочного уравнения прямой линии регрессии по сгруппированным данным

При большом числе испытаний одно и то же значение X может встретиться nx раз, одно и то ж значение У может встретиться ny раз и одна и та же пара чисел (x; у) может встретиться nxy раз,

причем обычно— объем выборки.

Поэтому данные наблюденийГруппируют, т. е. подсчитывают nx, ny, nxy. Все сгруппированные данные записывают в виде таблицы, которую называют корреляционной.

Если обе линии регрессии У на X и X на У — прямые, то корреляция является линейной.

Выборочное уравнение прямой линии регрессии У на X имеет вид:

Параметры pyx и В, которые определяются методом наименьших квадратов, имеют вид:

где yx — условная средняя; XВ и Ув — выборочные средние признаков X и У; —x и —у — выборочные средние квадратические отклонения; гВ — выборочный коэффициент корреляции.

Выборочное уравнение прямой линии регресии X на У имеет вид:

Считаем, что данные наблюдений над признаками X и У заданы в виде корреляционной таблицы с равноотстоящими вариантами.

Тогда переходим к условным вариантам:

где С1 — варианта признака X, имеющая наибольшую частоту; С 2 — варианта признака У, имеющая наибольшую частоту; h1 — шаг (разность между двумя соседними вариантами X); h2 — шаг (разность между двумя соседними вариантами У).

Тогда выборочный коэффициент корреляции

Величины u, v, su, sv могут быть найдены методом произведений, либо непосредственно по формулам

Зная эти величины, найдем параметры, входящие в уравнения регрессии, по формулам

12.1. Случайные события

12.1.1. В ящике находятся 6 одинаковых пар перчаток черного цвета и 4 одинаковых пары перчаток бежевого цвета. Найти вероятность того, что две наудачу извлеченные перчатки образуют пару.

Решение. Рассмотрим событие А — две извлеченные наудачу перчатки образуют пару; и гипотезы: B1 — извлечена пара перчаток черного цвета, B2 — извлечена пара перчаток бежевого цвета, B3 — извлеченные перчатки пару не образуют.

Вероятность гипотезы B1 по теореме умножения равна произведению вероятностей того, что первая перчатка черного цвета и вторая перчатка черного цвета, т. е.

Аналогично, вероятность гипотезы Bi равна:

Так как гипотезы B1, B2 и B3 составляют полную группу событий, то вероятность гипотезы B3 равна:

По формуле полной вероятности имеем:

где Pb (A) есть вероятность того, что пару образуют две черные перчатки и Pb1 (A) = 1; pB1 (A) — вероятность того, что пару образуют две бежевые перчатки и Pb2 (A) = 1; и, наконец, РВз( A) — вероятность того, что пару образуют перчатки разного цвета и

Таким образом, вероятность того, что две наудачу извлеченные перчатки образуют пару равна

12.1.2. В урне находятся 3 шара белого цвета и 5 шаров черного цвета. Наудачу по одному извлекают 3 шара и после каждого извлечения возвращают обратно в урну. Найти вероятность того, что среди извлеченных шаров окажется:

а) ровно два белых шара, б) не мене двух белых шаров.

Решение. Имеем схему с возвращением, т. е. каждый раз состав шаров не изменяется:

а) при извлечении трех шаров два из них должны быть белыми, а один черный. При этом черный может оказаться или первым, или вторым, или третьим. Применяя совместно теоремы сложения и умножения вероятностей, имеем:

б) вынуть не менее двух белых шаров означает, что белых шаров должно быть или два, или три:

12.1.3. В урне находятся 6 белых и 5 черных шаров. Три шара наудачу последовательно извлекаются без возвращения их в урну. Найти вероятность, что третий по счету шар окажется белым.

Решение. Если третий по счету шар должен быть белым, то первые два шара могут быть белыми, или белым и черным, или черным и белым, или черными, т. е. имеются четыре группы не-

совместных событий. Применяя к ним теорему умножения вероятностей, получим:

P = P1(5 • P2(5 • P3(5 + (P1(5 • Р2ч • P3(5 + P14 • P2(5 • P3(5 ) + Р1ч • Р2ч • P3(5 =

= A A 4 A A 5 A A 5 A A 6=540 = A

= П • 10 • 9 + И • 10 • 9 + И • 10 • 9 + И • 10 • 9 = 990 = IT

Выборочное уравнение прямой линии регрессии

Рассмотрим выборочное уравнение прямой линии среднеквадратичной регрессии Y на X в виде

, (7.3)

где – угловой коэффициент прямой линии регрессии, который называют выборочным коэффициентом регрессии Y на X; он является оценкой коэффициента регрессии (раздел 4.4).

Подберём параметры и b таким образом, чтобы точки , ,…, , построенные на плоскости XоY, лежали как можно ближе к прямой (7.3).

При использовании метода наименьших квадратов (МНК) смысл этого требования интерпретируется так: сумма квадратов отклонений должна быть минимальной. Под отклонением понимают разность , , где – вычисленная по уравнению (7.3) ордината наблюдаемого значения ; – наблюдаемая ордината, соответствующая .

Запишем это требование в виде функции:

.

Для отыскания минимума функции приравняем нулю соответствующие частные производные

;

.

Выполнив преобразования, получим систему

Решив данную систему, найдём искомые параметры

;

. (7.4)

Аналогично можно найти выборочное уравнение прямой линии регрессии X на Y.

. (7.5)

Пример. Найти уравнение прямой линии регрессии по данным наблюдений:

X1,001,503,004,505,00
Y1,251,401,501,752,25

Составляем расчётную таблицу:

1,001,251,001,250
1,501,402,252,100
3,001,509,004,500
4,501,7520,254,875
5,002,2525,0011,250

Находим неизвестные параметры из уравнения прямой линии регрессии:

;

.

Записываем искомое уравнение:

.

Если данные наблюдений представлены в виде корреляционнной таблицы 6.1, то можно вычислить по формуле

. (7.6)

Умножим обе части равенства (7.6) на дробь , получим формулу (6.3) для вычисления rв.

. (7.7)

Отсюда уравнение (7.3) можно записать через rв:

. (7.8)

Аналогично уравнение (7.5) примет вид

. (7.9)

Выборочное уравнение нелинейной регрессии

Функции регрессии Y на X могут иметь вид, например, параболической корреляции второго порядка

, (7.10)

параболической корреляции третьего порядка

,

где A, B, C, D – неизвествные параметры.

Определить неизвестные параметры можно МНК. Для уравнения (7.9) неизвестные параметры A, B, C находят из решения системы линейных уравнений:

Пример. В. Е. Гмурман «Руководство к решению задач по теории вероятностей и математической статистике», стр. 276.

Элементы дисперсионного анализа

Общие сведения

Дисперсионный анализ применяют, чтобы установить:

— оказывает ли существенное влияние некоторый качественный фактор , который имеет уровней на изучаемую величину ;

— являются ли однородными несколько совокупностей, т.к. однородные совокупности можно объединить в одну и тем самым получить о ней более полную информацию.

Суть дисперсионного анализасостоит в сравнении «факторной дисперсии» (т.е. межгрупповой), обусловленной воздействием фактора, и «остаточной дисперсии» (т.е. внутригрупповой), порождаемой случайными причинами по критерию Фишера-Снедекора.

Различают дисперсионный анализ:

однофакторный, если исследуется влияние одного фактора на изучаемую СВ;

многофакторный, если исследуется воздействие нескольких факторов.

Рассмотрим случай однофакторного дисперсионного анализа, когда на изучаемую величину влияет только один фактор, который имеет постоянных уровней.

Решения задач: линейная регрессия и коэффициент корреляции

Парная линейная регрессия — это зависимость между одной переменной и средним значением другой переменной. Чаще всего модель записывается как $y=ax+b+e$, где $x$ — факторная переменная, $y$ — результативная (зависимая), $e$ — случайная компонента (остаток, отклонение).

В учебных задачах по математической статистике обычно используется следующий алгоритм для нахождения уравнения регрессии.

  1. Выбор модели (уравнения). Часто модель задана заранее (найти линейную регрессию) или для подбора используют графический метод: строят диаграмму рассеяния и анализируют ее форму.
  2. Вычисление коэффициентов (параметров) уравнения регрессии. Часто для этого используют метод наименьших квадратов.
  3. Проверка значимости коэффициента корреляции и параметров модели (также для них можно построить доверительные интервалы), оценка качества модели по критерию Фишера.
  4. Анализ остатков, вычисление стандартной ошибки регрессии, прогноз по модели (опционально).

Ниже вы найдете решения для парной регрессии (по рядам данных или корреляционной таблице, с разными дополнительными заданиями) и пару задач на определение и исследование коэффициента корреляции.

Примеры решений онлайн: линейная регрессия

Простая выборка

Пример 1. Имеются данные средней выработки на одного рабочего Y (тыс. руб.) и товарооборота X (тыс. руб.) в 20 магазинах за квартал. На основе указанных данных требуется:
1) определить зависимость (коэффициент корреляции) средней выработки на одного рабочего от товарооборота,
2) составить уравнение прямой регрессии этой зависимости.

Пример 2. С целью анализа взаимного влияния зарплаты и текучести рабочей силы на пяти однотипных фирмах с одинаковым числом работников проведены измерения уровня месячной зарплаты Х и числа уволившихся за год рабочих Y:
X 100 150 200 250 300
Y 60 35 20 20 15
Найти линейную регрессию Y на X, выборочный коэффициент корреляции.

Пример 3. Найти выборочные числовые характеристики и выборочное уравнение линейной регрессии $y_x=ax+b$. Построить прямую регрессии и изобразить на плоскости точки $(x,y)$ из таблицы. Вычислить остаточную дисперсию. Проверить адекватность линейной регрессионной модели по коэффициенту детерминации.

Пример 4. Вычислить коэффициенты уравнения регрессии. Определить выборочный коэффициент корреляции между плотностью древесины маньчжурского ясеня и его прочностью.
Решая задачу необходимо построить поле корреляции, по виду поля определить вид зависимости, написать общий вид уравнения регрессии Y на Х, определить коэффициенты уравнения регрессии и вычислить коэффициенты корреляции между двумя заданными величинами.

Пример 5. Компанию по прокату автомобилей интересует зависимость между пробегом автомобилей X и стоимостью ежемесячного технического обслуживания Y. Для выяснения характера этой связи было отобрано 15 автомобилей. Постройте график исходных данных и определите по нему характер зависимости. Рассчитайте выборочный коэффициент линейной корреляции Пирсона, проверьте его значимость при 0,05. Постройте уравнение регрессии и дайте интерпретацию полученных результатов.

Корреляционная таблица

Пример 6. Найти выборочное уравнение прямой регрессии Y на X по заданной корреляционной таблице

Пример 7. В таблице 2 приведены данные зависимости потребления Y (усл. ед.) от дохода X (усл. ед.) для некоторых домашних хозяйств.
1. В предположении, что между X и Y существует линейная зависимость, найдите точечные оценки коэффициентов линейной регрессии.
2. Найдите стандартное отклонение $s$ и коэффициент детерминации $R^2$.
3. В предположении нормальности случайной составляющей регрессионной модели проверьте гипотезу об отсутствии линейной зависимости между Y и X.
4. Каково ожидаемое потребление домашнего хозяйства с доходом $x_n=7$ усл. ед.? Найдите доверительный интервал для прогноза.
Дайте интерпретацию полученных результатов. Уровень значимости во всех случаях считать равным 0,05.

Пример 8. Распределение 100 новых видов тарифов на сотовую связь всех известных мобильных систем X (ден. ед.) и выручка от них Y (ден.ед.) приводится в таблице:
Необходимо:
1) Вычислить групповые средние и построить эмпирические линии регрессии;
2) Предполагая, что между переменными X и Y существует линейная корреляционная зависимость:
А) найти уравнения прямых регрессии, построить их графики на одном чертеже с эмпирическими линиями регрессии и дать экономическую интерпретацию полученных уравнений;
Б) вычислить коэффициент корреляции, на уровне значимости 0,05 оценить его значимость и сделать вывод о тесноте и направлении связи между переменными X и Y;
В) используя соответствующее уравнение регрессии, оценить среднюю выручку от мобильных систем с 20 новыми видами тарифов.

Коэффициент корреляции

Пример 9. На основании 18 наблюдений установлено, что на 64% вес X кондитерских изделий зависит от их объема Y. Можно ли на уровне значимости 0,05 утверждать, что между X и Y существует зависимость?

Пример 10. Исследование 27 семей по среднедушевому доходу (Х) и сбережениям (Y) дало результаты: $\overline=82$ у.е., $S_x=31$ у.е., $\overline=39$ у.е., $S_y=29$ у.е., $\overline =3709$ (у.е.)2. При $\alpha=0,05$ проверить наличие линейной связи между Х и Y. Определить размер сбережений семей, имеющих среднедушевой доход $Х=130$ у.е.


источники:

http://megaobuchalka.ru/5/3761.html

http://www.matburo.ru/ex_ms.php?p1=mslr