Статистика

Корреляция

Цели урока

  • Понять понятие корреляции
  • Вычислять коэффициент корреляции Пирсона
  • Интерпретировать силу и направление связи
  • Знать ограничения корреляции

Предварительные знания

  • Математическое ожидание
  • Дисперсия
  • Выборка
  • Дисперсия
  • Выборка

Рост и вес связаны - высокие люди обычно тяжелее. Но насколько? Корреляция даёт одно число от -1 до +1, которое показывает силу и направление линейной связи. Это первый шаг к пониманию зависимостей в данных.

  • Финансы: корреляция активов в портфеле
  • Медицина: связь факторов риска
  • Психология: корреляция тестов
  • Маркетинг: связь рекламы и продаж
  • ML: отбор признаков (feature selection)

Ковариация

Ковариация

**Ковариация** - мера совместной изменчивости двух переменных:

  • $Cov > 0$: когда X растёт, Y тоже растёт
  • $Cov < 0$: когда X растёт, Y падает
  • $Cov = 0$: нет линейной связи

Ковариация зависит от масштаба! $Cov(рост\ в\ см, вес) \neq Cov(рост\ в\ м, вес)$

Что измеряет ковариация Cov(X, Y) = E[(X - μ_X)(Y - μ_Y)]?

Cov > 0 — переменные растут вместе; Cov < 0 — одна растёт, другая падает; Cov = 0 — нет линейной связи (но могут быть нелинейные). Единицы измерения — произведение единиц X и Y (например, кг·см), что мешает интерпретации. Нормализация на σ_X·σ_Y даёт безразмерный коэффициент корреляции Пирсона в [-1, 1].

Коэффициент корреляции Пирсона

Коэффициент корреляции Пирсона

**Корреляция** - нормированная ковариация (безразмерная):

Свойства: $-1 \leq r \leq 1$

rИнтерпретация
0.9 - 1.0Очень сильная положительная
0.7 - 0.9Сильная положительная
0.4 - 0.7Умеренная положительная
0.2 - 0.4Слабая положительная
0 - 0.2Очень слабая или отсутствует
-1 - 0Аналогично, но отрицательная

Рост и вес

5 человек

Рост X: {160, 170, 175, 180, 185} Вес Y: {55, 65, 70, 75, 85} $\bar{X} = 174$, $\bar{Y} = 70$ $\sum(X_i - \bar{X})(Y_i - \bar{Y}) = 350$ $\sum(X_i - \bar{X})^2 = 350$ $\sum(Y_i - \bar{Y})^2 = 500$ $r = \frac{350}{\sqrt{350 \cdot 500}} = \frac{350}{418.3} \approx 0.84$ Сильная положительная корреляция!

Корреляция между X и Y равна 0.8. Чему равна корреляция между Y и X?

Корреляция симметрична: $r(X, Y) = r(Y, X)$. Формула не меняется при перестановке X и Y.

Корреляция ≠ Причинность!

Корреляция ≠ Причинность!

Если X и Y коррелируют, X вызывает Y

Корреляция может быть из-за третьей переменной или случайной

Продажи мороженого и утопления коррелируют. Мороженое не вызывает утопления - оба зависят от жары!

Ложные корреляции

Забавные примеры

• Потребление сыра коррелирует с числом людей, погибших от простыней (r ≈ 0.95!) • Возраст мисс Америка коррелирует с убийствами паром • Фильмы с Николасом Кейджем коррелируют с утоплениями в бассейнах Это случайные совпадения, а не причинные связи!

Какое из утверждений правильно описывает связь корреляции и причинности?

Известный пример: продажи мороженого и число утоплений коррелируют (~0.8), но не причинны — общая причина (жаркая погода). Альтернативы: (1) X → Y, (2) Y → X (обратная), (3) Z → X и Z → Y (конфаундер), (4) случайное совпадение. Для каузального вывода нужны RCT, инструментальные переменные или контрфактический анализ.

Ограничения корреляции Пирсона

Ограничения корреляции Пирсона

  • Измеряет только **линейную** связь (не криволинейную)
  • Чувствителен к **выбросам**
  • Требует **нормальности** для тестов значимости
  • r = 0 не означает независимость!

Для нелинейных или ординальных данных используйте **корреляцию Спирмена** (по рангам).

Когда коэффициент корреляции Пирсона может быть ненадёжным или вводящим в заблуждение?

Квартет Анскомба (1973): 4 датасета с одинаковыми μ, σ и r = 0.816, но визуально совершенно разные (линейная связь, кривая, выброс, и т.д.). Пирсон измеряет только линейную часть, чувствителен к выбросам (одна точка может изменить r с 0.9 на 0.1). Альтернативы: Спирмен (ранговая корреляция), Кендалл τ, distance correlation для нелинейности.

Проверка значимости

Проверка значимости

H₀: $\rho = 0$ (нет корреляции в генеральной совокупности)

Значима ли r = 0.6 при n = 20?

Тест значимости

$t = 0.6 \sqrt{\frac{18}{1-0.36}} = 0.6 \sqrt{28.125} = 3.18$ $df = 18$, $t_{0.025, 18} \approx 2.1$ $3.18 > 2.1$ → корреляция значима!

Как проверить статистическую значимость наблюдённого коэффициента корреляции r?

При H_0: ρ = 0 и многомерной нормальности (X, Y) ~ BVN, t = r·√((n-2)/(1-r²)) имеет распределение Стьюдента с n-2 степенями свободы. Для построения CI используют Z-преобразование Фишера: z = 0.5·log((1+r)/(1-r)) ≈ N(arctanh(ρ), 1/(n-3)). При большом n даже маленькое r (0.05) становится значимым — поэтому важно различать статистическую и практическую значимость.

Практика

Практика

Часы подготовки X и баллы экзамена Y: r = 0.75, n = 25. Значима ли связь (α = 0.05)?

$t = 0.75 \sqrt{\frac{23}{1-0.5625}} = 0.75 \sqrt{52.57} = 5.44$ $t_{0.025, 23} \approx 2.07$ $5.44 > 2.07$ → значимая положительная корреляция.

В практической задаче вы получили r = 0.7 (p < 0.001) между расходами на маркетинг и продажами. Что можно заключить?

r = 0.7 значимо, но возможны: (1) обратная причинность — успешные продажи финансируют больше маркетинга; (2) конфаундер — сезон (Q4-продажи и маркетинг растут вместе); (3) ошибка selection — компания тратит больше маркетинга на сильных продуктах. R² = 0.49 — маркетинг 'объясняет' 49% вариации продаж в наблюдении, но это не каузальный эффект.

Итоги

  • **Ковариация:** $Cov(X,Y) = E[XY] - E[X]E[Y]$
  • **Корреляция Пирсона:** $r = Cov(X,Y)/(\sigma_X \sigma_Y)$, $-1 \leq r \leq 1$
  • **r = 1:** идеальная положительная линейная связь
  • **r = 0:** нет линейной связи (но может быть нелинейная!)
  • **Корреляция ≠ причинность!**

Вопросы для размышления

  • Почему r = 0 не означает независимость?
  • Как выброс влияет на корреляцию?
  • Чем корреляция Спирмена отличается от Пирсона?

Связанные уроки

  • prob-06-random-vars
Корреляция

0

1

Войти