Нежное введение в ожидаемую стоимость, дисперсию и ковариацию с numpy

Статистический анализ ковариации показателей в Excel

Пример 3. В таблице Excel введены данные о спросе на алкогольные напитки, индексе цен и уровне дохода населения государства. Проанализировать взаимосвязи между имеющимися данными.

Вид исходной таблицы данных:

Вначале рассчитаем ковариацию между спросом и индексом цен по формуле:

Полученный результат:

Для оценки степени взаимосвязи двух диапазонов данных удобнее использовать коэффициент корреляции, который можно рассчитать без использования функции КОРРЕЛ следующим способом:

=B12/КОРЕНЬ(ДИСП.Г(B3:B10)*ДИСП.Г(C3:C10))

Функция ДИСП.Г используется для расчета дисперсии генеральной совокупности. Приведенная выше формула наглядно демонстрирует взаимосвязь между коэффициентами ковариации и корреляции.

Полученный результат:

Как видно, между ценами и спросом существует довольно сильная обратная связь. Однако для определения степени влияния спроса определим коэффициент детерминации r2 по формуле:

=СТЕПЕНЬ(B13;2)

Полученное значение, выраженное в процентах:

То есть, примерно 59% вариации спроса за исследуемый период обусловлены изменчивостью цены. Остальные 41% — прочими факторами. А еще одним фактором в данном примере является уровень дохода. Рассчитаем коэффициент корреляции между спросом и доходами с помощью следующей функции:

=КОРРЕЛ(B3:B10;D3:D10)

Результат:

Положительное значение 0,741 соответствует о наличии довольно сильной зависимости между ростом уровня доходов и спросом. Чтобы определить общий коэффициент корреляции и сделать выводы, найдем коэффициент корреляции между индексом цен и уровнем доходов:

=КОРРЕЛ(C3:C10;D3:D10)

Результат:

Имеем не сильно выраженную обратную взаимосвязь. Теперь выполним расчет общего коэффициента корреляции по формуле:

=(B13-B15*B16)/КОРЕНЬ((1-СТЕПЕНЬ(B15;2))*(1-СТЕПЕНЬ(B16;2)))

Результат:

Расчеты показывают, что влияние роста цен на уровень спроса «сглаживается» благодаря росту уровня дохода населения. Корень квадратный из последнего значения, взятого по модулю, равен примерно 91%, показывая, насколько вариация цен определяла вариация спроса на алкогольные напитки, если не брать в учет параллельное изменение уровня дохода.

Интерпретация ковариации

Для двух наборов данных с размером выборки N мы вычисляем ковариацию следующим образом:

\(\operatorname {cov} (X,Y)=\frac{1}{N-1}\sum_{i=1}^{N}(X_i-\operatorname {E})(Y_i-\operatorname {E})\)

(Если данная формула вас немного запутывает, то .) Давайте на мгновение задумаемся о том, что произошло бы, если бы мы вычислили ковариацию между набором данных и им самим:

\(\operatorname {cov} (X,X)=\frac{1}{N-1}\sum_{i=1}^{N}(X_i-\operatorname {E})(E_i-\operatorname {E})=\frac{1}{N-1}\sum_{i=1}^{N}(X_i-\operatorname {E})^2\)

Формула ковариации стала формулой дисперсии. Поскольку набор данных идеально коррелирует сам с собой, мы видим, что существует связь между дисперсией и максимально возможным значением ковариации.

Эта связь распространяется на стандартное отклонение, потому что дисперсия равна квадрату стандартного отклонения. Таким образом, ковариация между набором данных и самим собой равна квадрату стандартного отклонения, то есть SD(X)SD(X).

Если мы расширим это на общий случай, в котором мы вычисляем ковариацию двух разных наборов данных, мы можем сказать, что идеальная линейная корреляция (и, следовательно, максимальная ковариация) соответствует значению ковариации, которое равно стандартному отклонению первого набора данных, умноженному на стандартное отклонение второго набора данных:

\(\operatorname {cov} (X,Y)_{MAX}=\operatorname {SD} (X)\operatorname {SD} (Y)\)

Та же логика применима к двум наборам данных, которые демонстрируют идеальную обратную корреляцию. Таким образом,

\(\operatorname {cov} (X,Y)_{MIN}=-\operatorname {SD} (X)\operatorname {SD} (Y)\)

Теперь у нас есть информация, необходимая для интерпретации значений ковариации. Диапазон ковариации простирается от –SD(X)SD(Y), что указывает на идеальную обратную линейную корреляцию, до +SD(X)SD(Y), что указывает на идеальную линейную корреляцию. В середине этого диапазона стоит ноль, что свидетельствует о полном отсутствии линейной корреляции.

Рисунок 2 – Интерпретация значений ковариации

Интерпретация результата вычисления по Пирсону

Величина коэффициента линейной корреляции Пирсона не может превышать +1 и быть меньше чем -1. Эти два числа +1 и -1 – являются границами для коэффициента корреляции. Когда при расчете получается величина большая +1 или меньшая -1 – следовательно, произошла ошибка в вычислениях.

Если коэффициент корреляции по модулю оказывается близким к 1, то это соответствует высокому уровню связи между переменными.

Если же получен знак минус, то большей величине одного признака соответствует меньшая величина другого. Иначе говоря, при наличии знака минус, увеличению одной переменной (признака, значения) соответствует уменьшение другой переменной. Такая зависимость носит название обратно пропорциональной зависимости

Эти положения очень важно четко усвоить для правильной интерпретации полученной корреляционной зависимости

Использование функций КОВАР, КОВАРИАЦИЯ.В и КОВАРИАЦИЯ.Г в Excel

Пример 1. В таблице Excel содержится два диапазона данных, значения первого из которых характеризуют количество прочитанных книг за год каждым учеником, отобранным из нескольких классов школы, а второй – итоговую оценку по литературе по 10-бальной шкале. Определить коэффициент ковариации двух диапазонов данных.

Вид исходной таблицы:

Поскольку для анализа были отобраны по несколько учеников различных классов, оба диапазона можно считать выборками из генеральной совокупности, которой являются все ученики 9-го класса данной школы. Используем следующую функцию:

Описание аргументов:

  • B3:B14 – диапазон ячеек, содержащих данные о количестве прочитанных книг;
  • C3:C14 – диапазон ячеек с итоговыми оценками по предмету.

Полученный результат:

Полученное значение свидетельствует о наличии прямой связи между значениями из двух диапазонов. То есть, можно полагать, что ученик, прочитавший большее количество книг, получит более высокую оценку за предмет.

ковариации

По вероятности ковариация является мерой совместной вероятности для двух случайных величин. Он описывает, как две переменные изменяются вместе.

Он обозначается как функция cov (X, Y), где X и Y — две рассматриваемые случайные величины.

Ковариация рассчитывается как ожидаемое значение или среднее значение произведения разностей каждой случайной величины от их ожидаемых значений, где E — ожидаемое значение для X, а E — ожидаемое значение y.

Предполагая, что ожидаемые значения для X и Y были рассчитаны, ковариацию можно рассчитать как сумму разности значений x от их ожидаемого значения, умноженную на разницу значений y от их ожидаемых значений, умноженную на обратную величину числа примеры в популяции.

В статистике ковариацию выборки можно рассчитать таким же образом, хотя и с поправкой на смещение, так же, как и с дисперсией.

Знак ковариации можно интерпретировать как то, увеличиваются ли две переменные вместе (положительно) или уменьшаются вместе (отрицательно). Величина ковариации не легко интерпретируется. Нулевое значение ковариации указывает, что обе переменные полностью независимы.

NumPy не имеет функции для вычисления ковариации между двумя переменными напрямую. Вместо этого у него есть функция для вычисления ковариационной матрицы с именем cov (), которую мы можем использовать для получения ковариации. По умолчанию функция cov () вычисляет несмещенную или выборочную ковариацию между предоставленными случайными величинами.

В приведенном ниже примере определены два вектора одинаковой длины с одним возрастающим и одним убывающим. Мы ожидаем, что ковариация между этими переменными будет отрицательной.

Мы получаем доступ только к ковариации для двух переменных, так как возвращается элемент квадратной ковариационной матрицы.

При запуске примера сначала печатаются два вектора, за которыми следует ковариация значений в двух векторах. Значение является отрицательным, как мы и ожидали.

Ковариация может быть нормализована до значения от -1 до 1, чтобы сделать величину интерпретируемой путем деления ее на стандартное отклонение X и Y. Результат называется корреляцией переменных, также называемой коэффициентом корреляции Пирсона, названным для разработчик метода.

Где r — коэффициент корреляции X и Y, cov (X, Y) — выборочная ковариация X и Y, а sX и sY — стандартные отклонения X и Y соответственно.

NumPy предоставляет функцию corrcoef () для непосредственного расчета корреляции между двумя переменными. Как и cov (), он возвращает матрицу, в данном случае корреляционную матрицу. Как и в случае результатов cov (), мы можем получить доступ только к корреляции интересов из значения из возвращенной квадратной матрицы.

При запуске примера сначала печатаются два заданных вектора, за которыми следует коэффициент корреляции. Мы можем видеть, что векторы максимально отрицательно коррелированы, как мы спроектировали.

Как оценивать ковариацию и корреляцию доходности?

Часто мы делаем прогнозы на основе исторической ковариации или используем другие методы, основанные на исторических данных о доходности, такие как регрессионная модель рынка.

Мы также можем рассчитать ковариацию, используя функцию совместной вероятности случайных величин, если ее можно оценить.

Функция совместной вероятности (англ. ‘joint probability function’) двух случайных величин X и Y, обозначенная как P(X, Y), дает вероятность совместного появления значений X и Y. Например, P(3,2) — это вероятность того, что X равен 3 и Y равен 2.

Предположим, что функция совместной вероятности доходности акций BankCorp(RA) и доходностей акций NewBank(RB) имеет простую структуру, приведенную в Таблице 12.

Таблица 12. Функция совместной вероятности доходности BankCorp и NewBank (записи в ячейках — совместные вероятности).

RB = 20%

RB = 16%

RB = 10%

RA = 25%

0.20

RA = 12%

0.50

RA = 10%

0.30

Ожидаемая доходность акций BankCorp составляет 0.20(25%) + 0.50(12%) + 0.30(10%) = 14%. Ожидаемая доходность акций NewBank составляет 0.20(20%) + 0.50(16%) + 0.30(10%) = 15%.

Функция совместной вероятности, приведенная выше, может отражать анализ, основанный на том, является ли состояние банковской отрасли хорошим, средним или плохим.

В таблице 13 представлен расчет ковариации.

Таблица 13. Расчеты ковариации.

Состояние банковской индустрии

Отклоне-
ния доход-
ности BankCorp

Отклоне-
ния доход-
ности NewBank

Произ-
ведение откло-
нений

Вероят-
ность состояния

Произ-
ведение, взве-
шенное по вероят-
ности

Хорошее

25-14

20-15

55

0.20

11

Среднее

12-14

16-15

-2

0.50

-1

Плохое

10-14

10-15

20

0.30

6

Cov(RA,RB) = 16

Примечание. Ожидаемая доходность для BankCorp составляет 14%, а для NewBank — 15%.

Первый и второй столбцы чисел показывают, соответственно, отклонения доходности BankCorp и NewBank от их среднего или ожидаемого значения.

В следующем столбце показано произведение отклонений. Например, для хорошего состояния отрасли (25–14)(20–15) = 11(5) = 55.

Затем 55 умножается на 0.20 или взвешивается на вероятность того, что условия банковской отрасли являются хорошими: 55(0.20) = 11.

Расчеты для средних и плохих банковских условий выполняются по той же схеме. Суммируя эти взвешенные по вероятности произведения, получим, что \(\textrm{Cov}(R_A,R_B) = 16.

Формула для вычисления ковариации между случайными переменными \(R_A\) и \(R_B\) имеет вид:

\( \textrm{Cov}(R_A,R_B) = \sum_{i} \sum_{j} P(R_{A,j},R_{B,j})(R_{A,j} — ER_A)(R_{B,j} — ER_B) \)(формула 18)

Формула предписывает нам суммировать все возможные отклонения перекрестных произведений, взвешенных по соответствующей совместной вероятности.

В этом примере, как показано в Таблице 12, только три совместные вероятности отличны от нуля. Следовательно, при вычислении ковариации доходности в этом случае нам нужно учитывать только три перекрестных произведения:

\( \begin{aligned}     \textrm{Cov}(R_A,R_B) &= P(25,20) \big \\    &+ P(12,16) \big \\ &+ P(10,10) \big \\    &= 0,20(11)(5) + 0,50(-2)(1) + 0,30(-4)(- 5) \\     &= 11 — 1 + 6 = 16     \end{aligned} \)

Одной из тем этого чтения была независимость событий. Две случайные переменные являются независимыми, когда каждая возможная пара событий (одно событие, соответствующее значению X, и другое событие, соответствующее значению Y) — являются независимыми событиями. Когда две случайные величины независимы, их функция совместной вероятности упрощается.

Особенности использования функций КОВАР, КОВАРИАЦИЯ.В и КОВАРИАЦИЯ.Г в Excel

Функция КОВАР имеет следующий синтаксис:

= КОВАР(массив1;массив2)

Функция КОВАРИАЦИЯ.В имеет следующую синтаксическую запись:

= КОВАРИАЦИЯ.В(массив1;массив2)

Синтаксис функции КОВАРИАЦИЯ.Г:

= КОВАРИАЦИЯ.Г(массив1;массив2)

Все рассматриваемые функции принимают на вход следующие аргументы:

  • массив1 – обязательный аргумент, характеризующий первый массив или диапазон ячеек, содержащих данные числового типа, которые являются всей генеральной совокупностью данных (для функций КОВАРИАЦИЯ.Г и КОВАР) или выборкой (для функции КОВАРИАЦИЯ.В);
  • массив2 – обязательный аргумент, характеризующий второй массив или диапазон ячеек с числовыми значениями (генеральная совокупность либо выборка, чем обусловлен выбор функции для расчета).

Примечания 1:

  1. Все рассматриваемые функции принимают в качестве аргументов массивы или ссылки на диапазоны ячеек, содержащие текстовые, логические, числовые и данные других типов.
  2. Число элементов в диапазонах или массивах, переданных в качестве аргументов массив1 и массив2 должны совпадать. В противном случае все рассматриваемые функции вернут код ошибки #Н/Д.
  3. При расчете не учитываются значения типа Текст, Имя, логические значения (ИСТИНА, ЛОЖЬ), ссылки на пустые ячейки. Однако ячейки, содержащие числовое значения 0 (нуль), будут учтены.
  4. Если рассматриваемые функции в качестве аргументов принимают:
  • Диапазоны пустых ячеек, результатом их выполнения будет код ошибки #ЗНАЧ! (принимают по одной пустой ячейке в качестве каждого аргумента) или #ДЕЛ/0! (принимают по несколько пустых ячеек в качестве аргументов);
  • Массивы, состоящие из одного элемента или по одной ячейке в качестве каждого аргумента, функции КОВАРИАЦИЯ.Г и КОВАР вернут числовое значение 0, а функция КОВАРИАЦИЯ.В – код ошибки #ДЕЛ/0!.

Примечания 2:

  1. Ковариация – величина, характеризующая линейную зависимость, установившуюся между двумя рядами случайных величин X и Y. Она соответствует математическому ожиданию произведения отклонений X и Y от их центров распределений. Коэффициент ковариации может быть выражен отрицательным, положительным числами и нулем, при этом:
  • Если с ростом значений X более вероятные появления больших значений Y и наоборот, между двумя диапазонами существует прямая связь, о чем свидетельствует положительное значение коэффициента ковариации;
  • Если с ростом X величина Y имеет тенденцию к снижению и наоборот, устанавливается обратная зависимость, выражаемая отрицательным значением коэффициента ковариации;
  • Если между X и Y устанавливается слабая взаимосвязь (при изменениях X изменения Y являются непоследовательными, хаотичными), значение коэффициента ковариации стремится к нулю.

Примечания 3:

  1. Функция КОВАР являлась стандартной функцией для расчета ковариации в ранних версиях Excel (2007 и более старых) и оставлена для обеспечения совместимости. В последующих версиях Excel она может отсутствовать, поэтому рекомендуется использовать функции КОВАРИАЦИЯ.В и КОВАРИАЦИЯ.Г.
  2. Выборка – это подмножество величин одного множества, называемого генеральной совокупностью. Другими словами, выборкой считается результат ограниченного ряда наблюдений какого-либо одно или нескольких признаков. Например, при изучении банковской системы государства генеральной совокупностью являются все банковские организации страны, а выборкой – банки города Санкт-Петербург.
  3. В отличие от коэффициента корреляции, значение коэффициента ковариации не ограничено диапазоном чисел от -1 до 1.
  4. При определении коэффициента ковариации одних и тех же двух диапазонов чисел функции КОВАР и КОВАРИАЦИЯ.Г вернут одинаковый результат, отличающийся от числового значения, которое вернет функция КОВАРИАЦИЯ.В, поскольку они используют разные алгоритмы расчетов.

Как вы можете рассчитать корреляцию с помощью Excel? — 2019

a:

Корреляция измеряет линейную зависимость двух переменных. Измеряя и связывая дисперсию каждой переменной, корреляция дает представление о силе взаимосвязи. Или, говоря иначе, корреляция отвечает на вопрос: сколько переменная A (независимая переменная) объясняет переменную B (зависимую переменную)?

Формула корреляции

Корреляция объединяет несколько важных и связанных статистических понятий, а именно дисперсию и стандартное отклонение. Разница — дисперсия переменной вокруг среднего, а стандартное отклонение — квадратный корень дисперсии.

Формула:

Поскольку корреляция требует оценки линейной зависимости двух переменных, то, что действительно необходимо, — это выяснить, какая сумма ковариации этих двух переменных и в какой степени такая ковариация отраженные стандартными отклонениями каждой переменной в отдельности.

Общие ошибки с корреляцией

Самая распространенная ошибка — предполагать, что корреляция, приближающаяся +/- 1, статистически значима. Считывание, приближающееся +/- 1, безусловно увеличивает шансы на фактическую статистическую значимость, но без дальнейшего тестирования это невозможно узнать.

Статистическое тестирование корреляции может усложняться по ряду причин; это совсем не так просто. Критическое предположение о корреляции состоит в том, что переменные независимы и связь между ними является линейной.

Вторая наиболее распространенная ошибка — забыть нормализовать данные в единую единицу. Если вычислять корреляцию по двум бетам, то единицы уже нормализованы: сама бета является единицей

Однако, если вы хотите скорректировать акции, важно, чтобы вы нормализовали их в процентном отношении, а не изменяли цены. Это происходит слишком часто, даже среди профессионалов в области инвестиций

Для корреляции цен на акции вы, по сути, задаете два вопроса: каково возвращение за определенное количество периодов и как этот доход коррелирует с возвратом другой безопасности за тот же период? Это также связано с тем, что корреляция цен на акции затруднена: две ценные бумаги могут иметь высокую корреляцию, если доход составляет ежедневно процентов за последние 52 недели, но низкая корреляция, если доход ежемесячно > изменения за последние 52 недели. Какая из них лучше»? На самом деле нет идеального ответа, и это зависит от цели теста. ( Улучшите свои навыки excel, пройдя курс обучения Excel в Академии Excel. ) Поиск корреляции в Excel

Существует несколько методов расчета корреляции в Excel

Самый простой способ — получить два набора данных и использовать встроенную формулу корреляции:

Это удобный способ расчета корреляции между двумя наборами данных. Но что, если вы хотите создать корреляционную матрицу во множестве наборов данных? Для этого вам нужно использовать плагин анализа данных Excel. Плагин можно найти на вкладке «Данные» в разделе «Анализ».

Выберите таблицу возвратов. В этом случае наши столбцы имеют названия, поэтому мы хотим установить флажок «Ярлыки в первой строке», поэтому Excel знает, как обрабатывать их как заголовки. Затем вы можете выбрать вывод на том же листе или на новом листе.

Как только вы нажмете enter, данные будут автоматически сделаны. Вы можете добавить текст и условное форматирование, чтобы очистить результат.

Как установить внешние пакеты R

Это до безобразия простая процедура. Серьёзно.

Всё, что нужно сделать, напечатать следующую команду (в кавычках подставьте название нужного вам пакета):

Чтобы установить много пакетов сразу, можем передать вектор для команды install.packages:

Для примера: CARAT — один из самых популярных пакетов для машинного обучения. 

В R-Studio пакеты устанавливать ну очень просто. Чтобы установить CARAT, выберите вкладку Packages справа внизу и затем нажмите кнопку установки.

Введите “carat” и нажмите Install.

Появится диалоговое окошко с процессом установки пакета:

Когда пакет установился, вы увидим его в командной строке: 

Чтобы удалить пакет, напечатайте:

Пример применения метода корреляционного анализа

В Великобритании было предпринято любопытное исследование. Оно посвящено связи курения с раком легких, и проводилось путем корреляционного анализа. Это наблюдение представлено ниже.

Исходные данные для корреляционного анализа

Профессиональная группа смертность
Фермеры, лесники и рыбаки
Шахтеры и работники карьеров
Производители газа, кокса и химических веществ
Изготовители стекла и керамики
Работники печей, кузнечных, литейных и прокатных станов
Работники электротехники и электроники
Инженерные и смежные профессии
Деревообрабатывающие производства
Кожевенники
Текстильные рабочие
Изготовители рабочей одежды
Работники пищевой, питьевой и табачной промышленности
Производители бумаги и печати
Производители других продуктов
Строители
Художники и декораторы
Водители стационарных двигателей, кранов и т. д.
Рабочие, не включенные в другие места
Работники транспорта и связи
Складские рабочие, кладовщики, упаковщики и работники разливочных машин
Канцелярские работники
Продавцы
Работники службы спорта и отдыха
Администраторы и менеджеры
Профессионалы, технические работники и художники

Начинаем корреляционный анализ. Решение лучше начинать для наглядности с графического метода, для чего построим диаграмму рассеивания (разброса).

Она демонстрирует прямую связь. Однако на основании только графического метода сделать однозначный вывод сложно. Поэтому продолжим выполнять корреляционный анализ. Пример расчета коэффициента корреляции представлен ниже.

С помощью программных средств (на примере MS Excel будет описано далее) определяем коэффициент корреляции, который составляет 0,716, что означает сильную связь между исследуемыми параметрами. Определим статистическую достоверность полученного значения по соответствующей таблице, для чего нам нужно вычесть из 25 пар значений 2, в результате чего получим 23 и по этой строке в таблице найдем r критическое для p=0,01 (поскольку это медицинские данные, здесь используется более строгая зависимость, в остальных случаях достаточно p=0,05), которое составляет 0,51 для данного корреляционного анализа. Пример продемонстрировал, что r расчетное больше r критического, значение коэффициента корреляции считается статистически достоверным.

Что такое корреляция?

Переменные в наборе данных могут быть связаны по многим причинам.

Например:

  • Одна переменная может вызывать или зависеть от значений другой переменной.
  • Одна переменная может быть легко связана с другой переменной.
  • Две переменные могут зависеть от третьей неизвестной переменной.

Это может быть полезно при анализе данных и моделировании, чтобы лучше понять взаимосвязи между переменными. Статистическая связь между двумя переменными называется их корреляцией.

Корреляция может быть положительной, что означает, что обе переменные движутся в одном и том же направлении, или отрицательной, что означает, что когда значение одной переменной увеличивается, значения других переменных уменьшаются. Корреляция также может быть нейронной или нулевой, что означает, что переменные не связаны.

  • Положительное соотношение: обе переменные изменяются в одном направлении.
  • Нейтральная корреляция: Нет связи в изменении переменных.
  • Отрицательная корреляция: переменные меняются в противоположных направлениях.

Производительность некоторых алгоритмов может ухудшиться, если две или более переменных тесно связаны между собой, что называется мультиколлинеарностью. Примером является линейная регрессия, где одна из нарушенных коррелированных переменных должна быть удалена, чтобы улучшить навыки модели.

Мы также можем быть заинтересованы в корреляции между входными переменными и выходной переменной, чтобы дать представление о том, какие переменные могут или не могут иметь значение в качестве входных данных для разработки модели.

Структура отношений может быть известна, например, оно может быть линейным, или мы можем не иметь представления, существует ли связь между двумя переменными или какую структуру она может принять. В зависимости от того, что известно о взаимосвязи и распределении переменных, могут быть рассчитаны различные оценки корреляции.

В этом уроке мы рассмотрим одну оценку для переменных, которые имеют гауссово распределение и линейную зависимость, а другую — не предполагающую распределение и сообщим о любых монотонных (увеличивающихся или уменьшающихся) отношениях.

Литература

  • Гмурман В. Е.ruuk. Теория вероятностей и математическая статистика: Учебное пособие для вузов. — 10-е издание, стереотипное. — Москва: Высшая школа, 2004. — 479 с. — ISBN 5-06-004214-6.
  • Елисеева И. И., Юзбашев М. М. Общая теория статистики: Учебник / Под ред. И. И. Елисеевой. — 4-е издание, переработанное и дополненное. — Москва: Финансы и Статистика, 2002. — 480 с. — ISBN 5-279-01956-9.
  • Общая теория статистики: Учебник / Под ред. Р. А. Шмойловой. — 3-е издание, переработанное. — Москва: Финансы и Статистика, 2002. — 560 с. — ISBN 5-279-01951-8.
  • Суслов В. И., Ибрагимов Н. М., Талышева Л. П., Цыплаков А. А. Эконометрия. — Новосибирск: СО РАН, 2005. — 744 с. — ISBN 5-7692-0755-8.

Коэффициент корреляции в Excel: что это, как рассчитать? Формула, пример, анализ данных онлайн

Корреляция и взаимосвязь величин

Значительная корреляция между двумя случайными величинами всегда является свидетельством существования некоторой статистической связи в данной выборке, но эта связь не обязательно должна наблюдаться для другой выборки и иметь причинно-следственный характер. Часто заманчивая простота корреляционного исследования подталкивает исследователя делать ложные интуитивные выводы о наличии причинно-следственной связи между парами признаков, в то время как коэффициенты корреляции устанавливают лишь статистические взаимосвязи. Например, рассматривая пожары в конкретном городе, можно выявить весьма высокую корреляцию между ущербом, который нанёс пожар, и количеством пожарных, участвовавших в ликвидации пожара, причём эта корреляция будет положительной. Из этого, однако, не следует вывод «увеличение количества пожарных приводит к увеличению причинённого ущерба», и тем более не будет успешной попытка минимизировать ущерб от пожаров путём ликвидации пожарных бригад. Корреляция двух величин может свидетельствовать о существовании общей причины, хотя сами явления напрямую не взаимодействуют. Например, обледенение становится причиной как роста травматизма из-за падений, так и увеличения аварийности среди автотранспорта. В этом случае две величины (травматизм из-за падений пешеходов и аварийность автотранспорта) будут коррелировать, хотя они не связаны причинно-следственно друг с другом, а лишь имеют стороннюю общую причину — гололедицу.

В то же время, отсутствие корреляции между двумя величинами ещё не значит, что между ними нет никакой связи. Например, зависимость может иметь сложный нелинейный характер, который корреляция не выявляет.

Некоторые виды коэффициентов корреляции могут быть положительными или отрицательными. В первом случае предполагается, что мы можем определить только наличие или отсутствие связи, а во втором — также и её направление. Если предполагается, что на значениях переменных задано отношение строгого порядка, то отрицательная корреляция — корреляция, при которой увеличение одной переменной связано с уменьшением другой. При этом коэффициент корреляции будет отрицательным. Положительная корреляция в таких условиях — это такая связь, при которой увеличение одной переменной связано с увеличением другой переменной. Возможна также ситуация отсутствия статистической взаимосвязи — например, для независимых случайных величин.

Свойства

  • Если X,Y{\displaystyle X,Y} — независимые случайные величины, то
    cov(X,Y)={\displaystyle \mathrm {cov} (X,Y)=0}.
  • Но обратное утверждение, вообще говоря, неверно: из отсутствия ковариации не следует независимость. Пример:
    Пусть случайная величина Z{\displaystyle Z} принимает значения ,π2,π{\displaystyle 0,{\frac {\pi }{2}},\pi }, каждое с вероятностью 13{\displaystyle {\frac {1}{3}}}. Тогда cos⁡Z{\displaystyle \cos {Z}} будет принимать значения −1, 0 и 1, каждое с вероятностью 13{\displaystyle {\frac {1}{3}}}, а P(sin⁡Z=1)=13,P(sin⁡Z=)=23,P(sin⁡Z=−1)={\displaystyle P(\sin {Z}=1)={\frac {1}{3}},P(\sin {Z}=0)={\frac {2}{3}},P(\sin {Z}=-1)=0}. Тогда cov(sin⁡Z,cos⁡Z)={\displaystyle \mathrm {cov} (\sin {Z},\cos {Z})=0}, но =P(sin⁡Z=1,cos⁡Z=1)≠P(cos⁡Z=1)P(sin⁡Z=1)=19{\displaystyle 0=P(\sin {Z}=1,\cos {Z}=1)\neq P(\cos {Z}=1)P(\sin {Z}=1)={\frac {1}{9}}}
  • Ковариация случайной величины с собой равна дисперсии: cov(X,X)=DX{\displaystyle \mathrm {cov} (X,X)=\mathrm {D} }.
  • Ковариация симметрична:
    cov(X,Y)=cov(Y,X){\displaystyle \mathrm {cov} (X,Y)=\mathrm {cov} (Y,X)}.
  • В силу линейности математического ожидания ковариация может быть записана как
    cov(X,Y)=MXY−XMY−YMX+MXMY={\displaystyle \mathrm {cov} (X,Y)=\mathbb {M} \left=}=MXY−MXMY−MXMY+MXMY={\displaystyle \;=\mathbb {M} \left-\mathbb {M} X\mathbb {M} Y-\mathbb {M} X\mathbb {M} Y+\mathbb {M} X\mathbb {M} Y=}=MXY−MXMY{\displaystyle \;=\mathbb {M} \left-\mathbb {M} X\mathbb {M} Y}.
  • Пусть X1,…,Xn{\displaystyle X_{1},\ldots ,X_{n}} случайные величины, а Y1=∑i=1naiXi,Y2=∑j=1mbjXj{\displaystyle Y_{1}=\sum \limits _{i=1}^{n}a_{i}X_{i},\;Y_{2}=\sum \limits _{j=1}^{m}b_{j}X_{j}} — их две произвольные линейные комбинации. Тогда
    cov(Y1,Y2)=∑i=1n∑j=1maibjcov(Xi,Xj){\displaystyle \mathrm {cov} (Y_{1},Y_{2})=\sum \limits _{i=1}^{n}\sum \limits _{j=1}^{m}a_{i}b_{j}\mathrm {cov} (X_{i},X_{j})}.
В частности, ковариация (в отличие от коэффициента корреляции) не инвариантна относительно смены масштаба, что не всегда удобно в приложениях.
  • Если α{\displaystyle \alpha } и β{\displaystyle \beta } — числа, то
    cov(X+α,Y+β)=cov(X,Y){\displaystyle \mathrm {cov} (X+\alpha ,Y+\beta )=\mathrm {cov} (X,Y)}.
  • Неравенство Коши — Буняковского: если принять в качестве скалярного произведения двух случайных величин ковариацию ⟨X,Y⟩=cov(X,Y){\displaystyle \langle X,Y\rangle =\mathrm {cov} (X,Y)}, то квадрат нормы случайной величины будет равен дисперсии ‖X‖2=DX{\displaystyle \|X\|^{2}=\mathrm {D} }, и неравенство Коши — Буняковского запишется в виде:

    cov2(X,Y)⩽DX⋅DY{\displaystyle \mathrm {cov} ^{2}(X,Y)\leqslant \mathrm {D} \cdot \mathrm {D} }.

Примеры

Допустим, в каком-то эксперименте в равные промежутки времени измеряют две величины, X и Y. Если их значения меняются, как на этом графике, то это полностью коррелированные величины с
коэффициентом корреляции, равным +1.

Этот факт говорит о том, что между величинами X и Y имеется строгая функциональная зависимость: Y=f(X).

Допустим, в каком-то эксперименте в равные промежутки времени измеряют две величины, X и Y. Если их значения меняются, как на следующем графике, то это полностью антикоррелированные величины
с коэффициентом корреляции, равным -1.

Этот факт также говорит о том, что между величинами X и Y имеется какая-то строгая функциональная зависимость: Y=g(X).

Теперь рассмотрим реальные цены. Для примера рассмотрим коэффициенты корреляции между ценами валютной пары EURUSD и ценами валютных пар GBPUSD, USDCHF и USDJPY. Для расчета возьмем дневные графики за
первую половину 2017 года.

EURUSD

GBPUSD

USDCHF

USDJPY

Расчеты, сделанные по ценам закрытия тайм-фреймов дают следующие коэффициенты корреляции за полгода:

  • ρ(eurusd,gbpusd)=0.8030
  • ρ(eurusd,usdchf)=-0.9598
  • ρ(eurusd,usdjpy)=-0.4802

Эти коэффициенты корреляции достаточно ожидаемые.

Достаточно сильная корреляция между EURUSD и GBPUSD объясняется достаточно сильными связями экономики ЕвроЗоны и экономики Британии. Очень сильная антикорреляция между EURUSD и USDCHF объясняется еще
более сильной связью между экономиками ЕвроЗоны и Швейцарии. А знак минус получился потому что в валютной паре USDCHF швейцарский франк стоит в знаменателе, в то время как в валютной паре EURUSD евро
стоит в числителе.

Интересно посмотреть не только коэффициенты корреляции разных валютных пар, но и то, как эти коэффициенты изменяются со временем. Для этого возьмем внутри полугодового периода трехмесячный период и
посмотрим, как меняется коэффициент корреляции, если сдвигать этот трехмесячный период от начала полугодового периода до его конца. Всего за полгода будет 65 таких сдвижек.

В начале 2017 года корреляция между EURUSD и GBPUSD была небольшой и она даже немного уменьшалась. Но в середине полугодия корреляция между евро и фунтом усилилась. Таким образом, в определенное время
фунт может не слишком хорошо коррелировать с евро.

А вот в первую половину 2017 года швейцарский франк оказался привязанным к евро очень сильно. Коэффициент корреляции менялся в пределах от -0.96 до -0.78. Это и понятно, ведь Швейцария со всех сторон
окружена ЕвроЗоной. Поэтому её экономика должна быть сильно связана с экономикой ЕвроЗоны. Гораздо сильнее, чем британская экономика с экономикой ЕвроЗоны.

А вот что касается евро и йены, то тут ситуация самая интересная. В начале первого полугодия 2017 года была антикорреляция выше средней, примерно -0.71. Потом эта антикорреляция исчезла до нуля. Но на
этом изменения коэффициента корреляции не остановились. Коэффициент корреляции вырос до +0.2564. Так как евро в валютной паре EURUSD находится в числителе, а йена в валютной паре USDJPY находится в
знаменателе, то получается, что в начале года евро и йена сильно коррелировали, а к середине года стали слегка антикоррелировать.

Ковариация

Резюмируем

Вот, что мы узнали про язык R:

  1. Что такое R?
  2. Как установить R?
  3. Где писать код на R?
  4. Что такое R-скрипт и R-пакет?
  5. Какие типы данных есть в R?
  6. Как декларировать переменные и их область действия в R?
  7. Как писать комментарии?
  8. Что такое векторы?
  9. Что такое матрица?
  10. Что собой представляют списки?
  11. Что такое датафреймы?
  12. Различные логические операции в R.
  13. Функции в R.
  14. Циклы в R.
  15. Считывание и запись внешних данных в R.
  16. Как производить статистические вычисления в R.
  17. Построение графиков и диаграмм в R.
  18. Объектно-ориентированное программирование в R.
  19. Как установить внешние библиотеки R.
  20. Знаменитые библиотеки R.

Я рассказал о языке программирования R, начиная с основ именно в таком формате, чтобы вам было проще его понять. И снова подчёркиваю, что ключ к продвижению в программировании — постоянная практика: чем больше, тем лучше. 

Упорства и успехов!

  • Анализ текста средствами языка программирования R
  • Новое в Android 11
  • Кто на свете всех сильнее - Java, Go и Rust в сравнении

Перевод статьи Farhad MalikR — Statistical Programming Language

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *

Adblock
detector