Уравнение регрессии как форма аналитического выражения статистической связи. Оценка значимости параметров. Парная регрессия
Найти уравнение регрессии означает по эмпирическим данным математически описать изменения взаимно корреляционных величин, т.е. уравнение регрессии должно определить каким будет среднее значение результативного признака y при том или ином значении факторного признака x, если не учитывать остальные факторы, влияющие на y и не связанные с x. Рассчитанные по уравнению регрессии значения результативного признака наз-ся теоретическими и обозначаются или . Читается: y выровненный по x. Для аналитической связи x и y могут использоваться следующие типы уравнений: (1)
Выбрав по эмпирическим данным тип функции, далее необходимо определить параметры а0, а1, а2 и т.д.
Парная регрессия представляет собой регрессию между двумя переменными– y и x , т. е. модель вида: ^y= f (x ) ,
где y – зависимая переменная(результативный признак); x – независимая, или объясняющая, переменная (признак-фактор). Знак «^» означает, что между переменными x и y нет строгой функциональной зависимости, поэтому практически в каждом отдельном случае величина y складываетсяиз двух слагаемых: ^y= yх +ε , где y – фактическое значение результативного признака; ^ yх – теоретическое значение результативного признака, найденное исходя из уравнения регрессии; ε – случайная величина, характеризующая отклонения реального значения результативного признака от теоретического, найденного по уравнению регрессии.
Случайная величина ε называется также возмущением. Она включает влияние не учтенных в модели факторов, случайных ошибок и особенностей измерения. Ее присутствие в модели порождено тремя источниками:
спецификацией модели, выборочным характером исходных данных, особенностями измерения переменных.
От правильно выбранной спецификации модели зависит величина случайных ошибок: они тем меньше, чем в большей мере теоретические значения результативного признака ^y x , подходят к фактическим данным y .
Регрессия — величина, выражающая завис-ть среднего значения случ. величины у от значений случ .величины х.
Интерпретация моделей регрессии осущ-ся методами той отрасли знаний, к кот. относится исследуемое явление. Но всякая интерпретация начинается со статистической оценки уравн-ия регрессии в целом и оценки значимости входящих в модель факторных признаков.
Прежде всего необходимо рассмотреть коэффициенты регрессии. Чем больше величина коэфф-та регрессии, тем значительнее влияние данного признака на моделируемый. Знаки коэфф. регрессии говорят о характере влияния на результативный признак. Если факторный признак имеет знак +, то с увеличением данного фактора результативный признак возрастает; если факторный признак имеет знак -, то с его увеличением результативный признак уменьшается.
Парная регрессия.
Парной регрессией называется уравнение связи двух переменных у и х Вида y = f (x),где у – зависимая переменная (результативный признак); х – независимая, объясняющая переменная (признак-фактор).
Различают линейные и нелинейные регрессии.
Для оценки параметров регрессий, линейных по этим параметрам, используется метод наименьших квадратов (МНК). МНК позволяет получить такие оценки параметров, при которых сумма квадратов отклонений фактических значений результативного признака у от теоретических значений ŷx при тех же значениях фактора x минимальна
Методические указания. При изучении взаимосвязей между экономическими явлениями выделяют факторные и результативные признаки
Читайте также:
|
№ п/п рабочих |
Разряд (у) |
Стаж работы, лет (x) |
Определим форму зависимости разряда рабочих от стажа их работы на предприятии, используя графический метод (рис. 10.1).
Судя по распределению, зависимость прямолинейная.
Как известно, прямолинейная зависимость подчиняется уравнению прямой: .
Следовательно, параметры данного уравнения связи находятся путем решения следующей системы уравнений:
Для решения системы построим вспомогательную таблицу 10.2.
Стаж*; лет (x) | Разряд (у) | ху | x 2 | y 2 | |
2,4 | |||||
3,1 | |||||
3,1 | |||||
3,4 | |||||
4,1 | |||||
4,3 | |||||
4,6 | |||||
5,0 | |||||
5,1 | |||||
5,2 | |||||
6,3 | |||||
Итого: 197 |
* В ранжированном порядке (в порядке возрастания значений х).
На основе данных таблицы 10.2 имеем систему уравнений в следующем виде:
Решим систему сравнений:
Следовательно, найденное аналитическое уравнение связи имеет вид: . Подставим соответствующие значения х в уравнение и найдем новые значения .
Изобразим по найденным значениям теоретическую линию регрессии, которая, как видно, с некоторыми погрешностями воспроизводит эмпирическую линию регрессии (см. рис. 10.1).
Так как ,то можно считать, что построенное парное уравнение корреляции является искомым, и мы вправе сделать следующий вывод: с увеличением стажа работы на один год разряд рабочих в среднем возрастает на 0,117.
Как было ранее сказано, экономическая интерпретация аналитического уравнения связи может осуществляться с помощью коэффициента эластичности. Расчетная величина коэффициента эластичности:
Таким образом, увеличение стажа работы на 1 процент приводит к увеличению разряда на 0,456 процента.
Как было сказано ранее, для установления тесноты связи между факторным и результативным признаками в случае линейной зависимости применяется линейный коэффициент корреляции.
Рассчитываем величину линейного коэффициента корреляции:
Как видно, связь между разрядом рабочего и стажем его работы на предприятии достаточно значительная, так как r = 0,77 близко к «1».
Для установления размера вариации разряда рабочего от стажа его работы рассчитываем коэффициент детерминации:
Следовательно, на 59,3% вариация разряда рабочего объясняется изменением стажа его работы на предприятии.
Анализ взаимосвязи между явлениями можно также проводить по сгруппированным данным, представленным в виде корреляционной таблицы. Приведем пример корреляционной таблицы, характеризующей связь между стажем рабочих и их заработной платой (табл. 10.3).
Стаж работы, лет (х) | Заработная плата, тыс. руб. | Итого | ||||
40—50 | 50—60 | 60—70 | 70—80 | 80—90 | 90—100 | 100—110 |
0—5 | ||||||
5—10 | ||||||
10—15 | ||||||
15—20 | ||||||
20—25 | ||||||
25—30 | ||||||
Итого ny: |
Корреляционная таблица показывает, что частоты (численность) рабочих концентрируются главным образом у диагонали. Это значит, что связь между стажем рабочего и его заработной платой прямая, то есть с увеличением стажа заработная плата рабочего возрастает. Характер линейной зависимости более четко прослеживается на графике (рис. 10.2). Для построения эмпирической линии регрессии рассчитаны средние показатели заработной платы по каждой из шести групп рабочих, выделенных по стажу работы:
Аналогично рассчитаны средние показатели заработной платы по другим группам рабочих. Результаты расчетов следующие: ; ; ; .
Как видно из рис. 10.2, очевидна прямолинейность зависимости заработной платы рабочих от стажа работы на предприятии. Такую зависимость можно выразить уравнением прямой: .
Для построения уравнения зависимости, то есть нахождения его параметров а0 и a1 необходимо решить систему нормальных уравнений с использованием метода наименьших квадратов:
Для этого построим вспомогательную таблицу для х (табл. 10.4).
x | 2,5 | 7,5 | 12,5 | 17,5 | 22,5 | 27,5 | Итого |
87,5 | 187,5 | 212,5 | 192,5 | 157,5 | 137,5 | ||
218,7 | 1406,3 | 2656,3 | 3368,8 | 3543,8 | 3781,3 | 14 975,2 |
В таблице 10.4 в качестве х берутся средние значения х в интервалах группировки: ; и т. д. Умножая найденные групповые средние х на численность каждой группы пх получим хпх в пределах данной группы. Суммируя полученные величины по группам, получим общую , которая и будет выступать в качестве ∑x в решении системы уравнений.
Суммируя величины х 2 пх по группам, получим общую ∑х 2 пх =14975,2. Эта суммарная величина будет выступать в качестве ∑х 2 для решения системы уравнений.
Построим вспомогательную таблицу для у (табл. 10.5). В таблице 10.5 в качестве у берутся средние значения у в интервалах группировки, а именно: ; и т. д. Умножая найденные групповые средние у на численность каждой группы пy , получим упу в пределах данной группы. Суммируя полученные величины по группам, получим общую ∑yny =7600. Эта суммарная величина и будет выступать в качестве ∑у в решении системы уравнений.
y | Итого | |||
ny У | ||||
ynv | ||||
y 2 ny | ||||
пху | 562,5 | 14812,5 | 29212,5 | 7612,5 |
Несколько сложнее с ∑ху. Но если интервалы группировки малы, то можно считать значения х для всех единиц в рамках группы одинаковыми. Умножив средние значения х в интервалах группировки на соответствующие средние значения у и на численность данной группы, получим пху в пределах данной группы. Так, по данным табл. 10.3: ; и т.д. Сумма полученных значений по группам дает общую величину ∑xy=78525.
Подставим найденные значения в систему уравнений и решим ее:
Следовательно, аналитическое уравнение связи заработной платы рабочих и стажа их работы имеет вид: . На основе данного уравнения связи можно сделать вывод: с увеличением стажа работы на 1 год заработная плата рабочего увеличивается на 1,05 тыс. руб.
Рассчитаем тесноту связи между х и у с помощью линейного коэффициента корреляции:
Таким образом, заработная плата рабочих на 39,6% зависит от стажа их работы на предприятии.
Контрольные вопросы
1.Какие различают два вида взаимосвязей экономических явлений?
2.Какие выделяют связи по направлению и в чем их сущность?
3.Какие существуют методы изучения взаимосвязи экономических явлений?
4.В чем сущность корреляционного метода анализа?
5.Что характеризуют линейный коэффициент корреляции и корреляционное отношение; каково их применение?
6.Каковы особенности проведения корреляционного анализа по сгруппированным данным?
Дата добавления: 2014-12-23 ; просмотров: 16 ; Нарушение авторских прав
Основы корреляционного анализа. Примеры анализа прямолинейной связи при парной корреляции
Исследование объективно существующих связей между явлениями — важнейшая задача статистики. В процессе статистического исследования зависимостей выявляются причинно-следственные отношения между явлениями. Причинно-следственные отношения — это такая связь явлений и процессов, когда изменение одного из них — причины ведет к изменению другого — следствия.
Признаки явлений и процессов по их значению для изучения взаимосвязи делятся на два класса. Признаки, обуславливающие изменения других, связанных с ними признаков, называют факторными, или просто факторами. Признаки, изменяющиеся под действием факторных признаков, называют результативными.
В статистике различают функциональные и стохастические (вероятностные) связи явлений и процессов:
- Функциональной называют такую связь, при которой определенному значению факторного признака соответствует одно значение результативного.
- Если причинная зависимость проявляется не в каждом отдельном случае, а в общем, среднем при большом числе наблюдений, то такая зависимость называется стохастической (вероятностной). Частным случаем стохастической связи является корреляционная связь.
Кроме того, связи между явлениями и их признаками классифицируются по степени тесноты, направлению и аналитическому выражению.
По направлению выделяют связь прямую и обратную:
- Прямая связь — это такая связь, при которой с увеличением (уменьшением) значений факторного признака происходит увеличение (уменьшение) значений результативного. Так, например, рост производительности труда способствует увеличению уровня рентабельности производства.
- В случае обратной связи значения результативного признака изменяются под воздействием факторного, но в противоположном направлении по сравнению с изменением факторного признака. Так с увеличением уровня фондоотдачи снижается себестоимость единицы производимой продукции.
По аналитическому выражению выделяют связи прямолинейные (или просто линейные) и нелинейные:
- Если статистическая связь между явлениями может быть приблизительно выражена уравнением прямой линии, то ее называют линейной связью вида: у=а+bх.
- Если же связь может быть выражена уравнением какой-либо кривой линии (параболы, гиперболы и др.), то такую связь называют нелинейной (криволинейной) связью.
Теснота связи показывает меру влияния факторного признака на общую вариацию результативного признака. Классификация связи по степени тесноты представлена в таблице 1.
Величина коэффициента корреляции | Характер связи |
---|---|
До ±3 | Практически отсутствует |
От ±3 до ±0,5 | Слабая |
От ±0,5 до ±0,7 | Умеренная |
От ±0,7 до ±1,0 | Сильная |
Для выявления наличия связи, ее характера и направления в статистике используются следующие методы: приведения параллельных данных, аналитических группировок, графический, корреляции. Основным методом изучения статистической взаимосвязи является статистическое моделирование связи на основе корреляционного и регрессионного анализа.
Корреляция — это статистическая зависимость между случайными величинами, не имеющая строго функционального характера, при которой изменение одной из случайных величин приводит к изменению математического ожидания другой. В статистике принято различать следующие виды корреляции:
- парная корреляция — связь между двумя признаками (результативным и факторным, или двумя факторными);
- частная корреляция — зависимость между результативным и одним факторным признаками при фиксированном значении других факторных признаков;
- множественная корреляция — зависимость результативного и двух или более факторных признаков, включенных в исследование.
Задачей корреляционного анализа является количественное определение тесноты связи между двумя признаками (при парной связи) и между результативным и множеством факторных признаков (при многофакторной связи).
Теснота связи количественно выражается величиной коэффициентов корреляции, которые давая количественную характеристику тесноты связи между признаками, позволяют определять «полезность» факторных признаков при построении уравнения множественной регрессии.
Корреляция взаимосвязана с регрессией, поскольку первая оценивает силу (тесноту) статистической связи, вторая исследует ее форму.
Регрессионный анализ заключается в определении аналитического выражения связи в виде уравнения регрессии.
Регрессией называется зависимость среднего значения случайной величины результативного признака от величины факторного, а уравнением регрессии – уравнение описывающее корреляционную зависимость между результативным признаком и одним или несколькими факторными.
Формулы корреляционно-регрессионного анализа для прямолинейной связи при парной корреляции представлены в таблице 2.
Показатель | Обозначение и формула |
---|---|
Уравнение прямой при парной корреляции | yx = a +bx, где b — коэффициент регрессии |
Система нормальных уравнений способом наименьших квадратов для определения коэффициентов a и b | |
Линейный коэффициент корреляции для определения тесноты связи, его интерпретация: r = 0 – связь отсутствует; 0 2012 © Лана Забродская. При копировании материалов сайта ссылка на источник обязательна источники: http://lektsii.com/1-40007.html http://www.ekonomika-st.ru/drugie/metodi/metodi-statistika-1-8.html |