Установить уравнение функциональной зависимости между случайными величинами

Установить уравнение функциональной зависимости между случайными величинами

Как известно, случайные величины X и Y могут быть либо зависимыми, либо независимыми. Существуют следующие формы зависимости – функциональная и статистическая. В математике функциональной зависимостью переменной Y от переменной Х называют зависимость вида y=f(x), где каждому допустимому значению X ставится в соответствие по определенному правилу единственно возможное значение Y.

Однако, если X и Y случайные величины, то между ними может существовать зависимость иного рода, называемая статистической. Дело в том, что на формирование значений случайных величин X и Y оказывают влияние различные факторы. Под воздействием этих факторов и формируются конкретные значения X и Y. Допустим, что на Х и У влияют одни те же факторы, например Z1, Z2, Z3, тогда X и Y находятся в полном соответствии друг с другом и связаны функционально. Предположим теперь, что на X воздействуют факторы Z1, Z2, Z3, а на только Y и Z1, Z2. Обе величины и X и Y являются случайными, но так как имеются общие факторы Z1 и Z2, оказывающие влияние и на X и на Y, то значения X и Y обязательно будут взаимосвязаны. И связь это уже не будет функциональной: фактор Z3, влияющий лишь на одну из случайных величин, разрушает прямую (функциональную) зависимость между значениями X и Y, принимаемыми в одном и том же испытании. Связь носит вероятностный случайный характер, в численном выражении меняясь, от испытания к испытанию, но эта связь определенно присутствует и называется статистической. При этом каждому значению X может соответствовать не одно значение Y, как при функциональной зависимости, а целое множество значений.

ОПРЕДЕЛЕНИЕ. Зависимость случайных величин называют статистической, если изменения одной из них приводит к изменению закона распределения другой.

ОПРЕДЕЛЕНИЕ. Если изменение одной из случайных величин влечет изменение среднего другой случайной величины, то статистическую зависимость называют корреляционной. Сами случайные величины, связанные коррреляционной зависимостью, оказываются коррелированными.

Примерами коррреляционной зависимости являются: зависимость массы от роста:
— каждому значению роста (X) соответствует множество значений массы (Y), причем, несмотря на общую тенденцию, справедливую для средних, большему значению роста соответствует и большее значение массы – в отдельных наблюдениях субъект с большим ростом может иметь и меньшую массу.
— зависимость заболеваемости от воздействия внешних факторов, например, запыленности, уровня радиации, солнечной активности и т.д.
— количество (X) вводимого объекту препарата и его концентрация в крови (Y).
— между показателями уровня жизни населения и процентом смертности;
— между количеством пропущенных студентами лекций и оценкой на экзамене.
Именно корреляционные зависимости наиболее часто встречаются в природе в силу взаимовлияния и тесного переплетения огромного множества самых различных факторов, определяющих значения изучаемых показателей.

Корреляционную зависимость Y от X можно описать с помощью уравнения вида:

где yx — условное среднее величины Y, соответствующее значению x величины X, а f(x) некоторая функция. Уравнение (1) называется выборочным уравнением регрессии Y на X. Функцию f(x) называют выборочной регрессией Y на X, а ее график – выборочной линией регрессии Y на X.

Совершенно аналогично выборочным уравнением регрессии X на Y является уравнение: xy=φ(y)

В зависимости от вида уравнения регрессии и формы соответствующей линии регрессии определяют форму корреляционнной зависимости между рассматриваемыми величинами – линейной, квадратической, показательной, экспоненциальной.

Важнейшим является вопрос выбора вида функции регрессии f(x) [или φ(y)], например линейная или нелинейная (показательная, логарифимическая и т.д.)

На практике вид функции регрессии можно определить, построив на координатной плоскости множество точек, соответствующих всем имеющимся парам наблюдений (x;y).

Например, на рис.1. видна тенденция роста значений Y с ростом X, при этом средние значения Y располагается визуально на прямой. Имеет смысл использовать линейную модель (вид зависимости Y от X принято называть моделью) зависимости Y от X. На рис.2. средние значения Y не зависят от x, следовательно линейная регрессия незначима (функция регрессии постоянна и равна ). На рис. 3. прослеживается тенденция нелинейности модели.

Корреляция и Ковариация

Существует два вида зависимости между переменными величинами:

  • Функциональная зависимость. Каждому значению одной переменной x соответствует СТРОГО только одно значение другой переменной y: y=f(x). (Бывают и многозначные функциональные связи, но они всегда строгие.) Такая функциональная связь имеет место только в случае, когда переменная y зависит только от переменной x и больше ни от чего. На практике, при анализе биржевых цен, таких функциональных связей не существует. Функциональная связь, это сильно упрощенная математическая модель.
  • Статистическая зависимость. Каждому значению одной переменной x соответствует некоторое распределение вероятности переменной y. Например, пусть переменная y, это биржевая цена, а x, это какой-то параметр, от которого в нашей математической модели зависит цена. В этом случае на цену влияет явным образом не только значение параметра x, но и множество других факторов, которые существуют в реальности, но не учитываются упрощенной математической моделью. Многие из этих факторов являются случайными величинами.

Линейная корреляционная связь

Таких статистических связей может быть очень много самых разных. Для трейдера самым важным видом статистической связи является корреляционная связь.

Корреляционная связь, это когда каждому значению одной переменной соответствует определенное математическое ожидание другой переменной. То есть при изменении значения одной переменной, математическое ожидание другой переменной меняется закономерным образом.

А если при изменении значения одной переменной, закономерным образом меняется не только матожидание второй переменной, но и другие характеристики плотности распределения второй переменной (например, дисперсия, асимметрия и т.д.), то такая связь не является корреляционной. Хотя такая связь тоже является статистической.

Корреляционная связь между случайными переменными x и y называется линейной корреляционной связью, если матожидание переменной y линейно зависит от значений переменной x, и, одновременно, матожидание переменной x тоже линейно зависит от значений переменной y. То есть такая взаимная линейность корреляционных связей. Далее здесь рассматривается только линейная корреляционная связь.

Ковариация

Пусть математическое ожидание и дисперсия случайной величины X равны, соответственно, μx и σx 2 . А математическое ожидание и дисперсия случайной величины Y равны, соответственно, μy и σy 2 .

Для независимых случайных величин X и Y всегда матожидание произведения случайных величин равно произведению их матожиданий по отдельности:

А для зависимых случайных величин это равенство не выполняется.

Ковариация, это отклонение математического ожидания произведения двух случайных величин от произведения их математических ожиданий:

Ковариация характеризует отклонение матожидания произведения двух случайных величин от произведения матожиданий этих величин. Так как это отклонение бывает только для зависимых величин, то ковариация характеризует степень этой зависимости. Чем она больше отличается от нуля, тем больше зависимость.

Матрица ковариаций для нескольких случайных величин X, Y, . Z всегда симметрична, причем на главной диагонали этой матрицы всегда стоят положительные числа, равные дисперсиям случайных величин X, Y, . Z.

Коэффициент линейной корреляции

Ковариация неудобна тем, что имеет размерность квадрата случайных величин. Кроме того, ковариация маленькой статистической зависимости двух случайных величин с большой дисперсией (у хотя бы одной из этих величин) получается такой же, как большая статистическая зависимость у двух других случайных величин с маленькими дисперсиями. Поэтому ковариацию удобно нормировать на среднеквадратичные отклонения.

Коэффициент корреляции, это ковариация, нормированная на среднеквадратичные отклонения двух случайных величин.

Свойства коэффициента корреляции:

  1. Коэффициент корреляции может принимать значения от -1 до +1. Значения -1 и +1 этот коэффициент принимает только при линейной функциональной зависимости между X и Y. Обычно, говорят, что если коэффициент корреляции равен +1, то это абсолютно коррелирующие величины (или коррелированные на все 100%). А если коэффициент корреляции равен -1, то говорят, что это абсолютно антикоррелирующие величины (или антикоррелированные на все 100%).
  2. Коэффициент корреляции между независимыми случайными величинами равен нулю. Но обратное неверно! Если коэффициент корреляции двух случайных величин равен нулю, то это ещё не означает, что эти случайные величины независимые. Они просто некоррелированные.
  3. Линейные преобразования случайных величин X и Y не изменяют их коэффициента корреляции: ρ(x,y)=&#961(a+bx,c+dy)

Матрица коэффициентов корреляций для нескольких случайных величин X, Y, . Z всегда симметрична, причем на главной диагонали этой матрицы всегда стоят единицы.

Примеры

Допустим, в каком-то эксперименте в равные промежутки времени измеряют две величины, X и Y. Если их значения меняются, как на этом графике, то это полностью коррелированные величины с коэффициентом корреляции, равным +1.

Этот факт говорит о том, что между величинами X и Y имеется строгая функциональная зависимость: Y=f(X).

Допустим, в каком-то эксперименте в равные промежутки времени измеряют две величины, X и Y. Если их значения меняются, как на следующем графике, то это полностью антикоррелированные величины с коэффициентом корреляции, равным -1.

Этот факт также говорит о том, что между величинами X и Y имеется какая-то строгая функциональная зависимость: Y=g(X).

Теперь рассмотрим реальные цены. Для примера рассмотрим коэффициенты корреляции между ценами валютной пары EURUSD и ценами валютных пар GBPUSD, USDCHF и USDJPY. Для расчета возьмем дневные графики за первую половину 2017 года.

Расчеты, сделанные по ценам закрытия тайм-фреймов дают следующие коэффициенты корреляции за полгода:

  • ρ(eurusd,gbpusd)=0.8030
  • ρ(eurusd,usdchf)=-0.9598
  • ρ(eurusd,usdjpy)=-0.4802

Эти коэффициенты корреляции достаточно ожидаемые.

Достаточно сильная корреляция между EURUSD и GBPUSD объясняется достаточно сильными связями экономики ЕвроЗоны и экономики Британии. Очень сильная антикорреляция между EURUSD и USDCHF объясняется еще более сильной связью между экономиками ЕвроЗоны и Швейцарии. А знак минус получился потому что в валютной паре USDCHF швейцарский франк стоит в знаменателе, в то время как в валютной паре EURUSD евро стоит в числителе.

Интересно посмотреть не только коэффициенты корреляции разных валютных пар, но и то, как эти коэффициенты изменяются со временем. Для этого возьмем внутри полугодового периода трехмесячный период и посмотрим, как меняется коэффициент корреляции, если сдвигать этот трехмесячный период от начала полугодового периода до его конца. Всего за полгода будет 65 таких сдвижек.

В начале 2017 года корреляция между EURUSD и GBPUSD была небольшой и она даже немного уменьшалась. Но в середине полугодия корреляция между евро и фунтом усилилась. Таким образом, в определенное время фунт может не слишком хорошо коррелировать с евро.

А вот в первую половину 2017 года швейцарский франк оказался привязанным к евро очень сильно. Коэффициент корреляции менялся в пределах от -0.96 до -0.78. Это и понятно, ведь Швейцария со всех сторон окружена ЕвроЗоной. Поэтому её экономика должна быть сильно связана с экономикой ЕвроЗоны. Гораздо сильнее, чем британская экономика с экономикой ЕвроЗоны.

А вот что касается евро и йены, то тут ситуация самая интересная. В начале первого полугодия 2017 года была антикорреляция выше средней, примерно -0.71. Потом эта антикорреляция исчезла до нуля. Но на этом изменения коэффициента корреляции не остановились. Коэффициент корреляции вырос до +0.2564. Так как евро в валютной паре EURUSD находится в числителе, а йена в валютной паре USDJPY находится в знаменателе, то получается, что в начале года евро и йена сильно коррелировали, а к середине года стали слегка антикоррелировать.


источники:

http://chance.nanoquant.ru/correlation.htm