Статистика
Корреляция
Цели урока
- Понять понятие корреляции
- Вычислять коэффициент корреляции Пирсона
- Интерпретировать силу и направление связи
- Знать ограничения корреляции
Предварительные знания
- Математическое ожидание
- Дисперсия
- Выборка
Рост и вес связаны - высокие люди обычно тяжелее. Но насколько? Корреляция даёт одно число от -1 до +1, которое показывает силу и направление линейной связи. Это первый шаг к пониманию зависимостей в данных.
- Финансы: корреляция активов в портфеле
- Медицина: связь факторов риска
- Психология: корреляция тестов
- Маркетинг: связь рекламы и продаж
- ML: отбор признаков (feature selection)
Ковариация
Ковариация
**Ковариация** - мера совместной изменчивости двух переменных:
- $Cov > 0$: когда X растёт, Y тоже растёт
- $Cov < 0$: когда X растёт, Y падает
- $Cov = 0$: нет линейной связи
Ковариация зависит от масштаба! $Cov(рост\ в\ см, вес) \neq Cov(рост\ в\ м, вес)$
Что измеряет ковариация Cov(X, Y) = E[(X - μ_X)(Y - μ_Y)]?
Cov > 0 — переменные растут вместе; Cov < 0 — одна растёт, другая падает; Cov = 0 — нет линейной связи (но могут быть нелинейные). Единицы измерения — произведение единиц X и Y (например, кг·см), что мешает интерпретации. Нормализация на σ_X·σ_Y даёт безразмерный коэффициент корреляции Пирсона в [-1, 1].
Коэффициент корреляции Пирсона
Коэффициент корреляции Пирсона
**Корреляция** - нормированная ковариация (безразмерная):
Свойства: $-1 \leq r \leq 1$
| r | Интерпретация |
|---|---|
| 0.9 - 1.0 | Очень сильная положительная |
| 0.7 - 0.9 | Сильная положительная |
| 0.4 - 0.7 | Умеренная положительная |
| 0.2 - 0.4 | Слабая положительная |
| 0 - 0.2 | Очень слабая или отсутствует |
| -1 - 0 | Аналогично, но отрицательная |
Рост и вес
5 человек
Рост X: {160, 170, 175, 180, 185} Вес Y: {55, 65, 70, 75, 85} $\bar{X} = 174$, $\bar{Y} = 70$ $\sum(X_i - \bar{X})(Y_i - \bar{Y}) = 350$ $\sum(X_i - \bar{X})^2 = 350$ $\sum(Y_i - \bar{Y})^2 = 500$ $r = \frac{350}{\sqrt{350 \cdot 500}} = \frac{350}{418.3} \approx 0.84$ Сильная положительная корреляция!
Корреляция между X и Y равна 0.8. Чему равна корреляция между Y и X?
Корреляция симметрична: $r(X, Y) = r(Y, X)$. Формула не меняется при перестановке X и Y.
Корреляция ≠ Причинность!
Корреляция ≠ Причинность!
Если X и Y коррелируют, X вызывает Y
Корреляция может быть из-за третьей переменной или случайной
Продажи мороженого и утопления коррелируют. Мороженое не вызывает утопления - оба зависят от жары!
Ложные корреляции
Забавные примеры
• Потребление сыра коррелирует с числом людей, погибших от простыней (r ≈ 0.95!) • Возраст мисс Америка коррелирует с убийствами паром • Фильмы с Николасом Кейджем коррелируют с утоплениями в бассейнах Это случайные совпадения, а не причинные связи!
Какое из утверждений правильно описывает связь корреляции и причинности?
Известный пример: продажи мороженого и число утоплений коррелируют (~0.8), но не причинны — общая причина (жаркая погода). Альтернативы: (1) X → Y, (2) Y → X (обратная), (3) Z → X и Z → Y (конфаундер), (4) случайное совпадение. Для каузального вывода нужны RCT, инструментальные переменные или контрфактический анализ.
Ограничения корреляции Пирсона
Ограничения корреляции Пирсона
- Измеряет только **линейную** связь (не криволинейную)
- Чувствителен к **выбросам**
- Требует **нормальности** для тестов значимости
- r = 0 не означает независимость!
Для нелинейных или ординальных данных используйте **корреляцию Спирмена** (по рангам).
Когда коэффициент корреляции Пирсона может быть ненадёжным или вводящим в заблуждение?
Квартет Анскомба (1973): 4 датасета с одинаковыми μ, σ и r = 0.816, но визуально совершенно разные (линейная связь, кривая, выброс, и т.д.). Пирсон измеряет только линейную часть, чувствителен к выбросам (одна точка может изменить r с 0.9 на 0.1). Альтернативы: Спирмен (ранговая корреляция), Кендалл τ, distance correlation для нелинейности.
Проверка значимости
Проверка значимости
H₀: $\rho = 0$ (нет корреляции в генеральной совокупности)
Значима ли r = 0.6 при n = 20?
Тест значимости
$t = 0.6 \sqrt{\frac{18}{1-0.36}} = 0.6 \sqrt{28.125} = 3.18$ $df = 18$, $t_{0.025, 18} \approx 2.1$ $3.18 > 2.1$ → корреляция значима!
Как проверить статистическую значимость наблюдённого коэффициента корреляции r?
При H_0: ρ = 0 и многомерной нормальности (X, Y) ~ BVN, t = r·√((n-2)/(1-r²)) имеет распределение Стьюдента с n-2 степенями свободы. Для построения CI используют Z-преобразование Фишера: z = 0.5·log((1+r)/(1-r)) ≈ N(arctanh(ρ), 1/(n-3)). При большом n даже маленькое r (0.05) становится значимым — поэтому важно различать статистическую и практическую значимость.
Практика
Практика
Часы подготовки X и баллы экзамена Y: r = 0.75, n = 25. Значима ли связь (α = 0.05)?
$t = 0.75 \sqrt{\frac{23}{1-0.5625}} = 0.75 \sqrt{52.57} = 5.44$ $t_{0.025, 23} \approx 2.07$ $5.44 > 2.07$ → значимая положительная корреляция.
В практической задаче вы получили r = 0.7 (p < 0.001) между расходами на маркетинг и продажами. Что можно заключить?
r = 0.7 значимо, но возможны: (1) обратная причинность — успешные продажи финансируют больше маркетинга; (2) конфаундер — сезон (Q4-продажи и маркетинг растут вместе); (3) ошибка selection — компания тратит больше маркетинга на сильных продуктах. R² = 0.49 — маркетинг 'объясняет' 49% вариации продаж в наблюдении, но это не каузальный эффект.
Итоги
- **Ковариация:** $Cov(X,Y) = E[XY] - E[X]E[Y]$
- **Корреляция Пирсона:** $r = Cov(X,Y)/(\sigma_X \sigma_Y)$, $-1 \leq r \leq 1$
- **r = 1:** идеальная положительная линейная связь
- **r = 0:** нет линейной связи (но может быть нелинейная!)
- **Корреляция ≠ причинность!**
Вопросы для размышления
- Почему r = 0 не означает независимость?
- Как выброс влияет на корреляцию?
- Чем корреляция Спирмена отличается от Пирсона?