Логика
Корреляция vs Причинность
«Учёные доказали: шоколад помогает похудеть!» - такой заголовок облетел мир в 2015 году. Исследование было реальным, опубликованным в журнале. Но это была ловушка - журналист Джон Боханнон намеренно провёл плохое исследование, чтобы показать, как легко СМИ путают корреляцию с причинностью.
- **Медицина:** Десятилетиями считалось, что гормонозаместительная терапия защищает сердце — наблюдательные исследования показывали корреляцию. РКИ (Women's Health Initiative) показало обратное: терапия УВЕЛИЧИВАЛА риск
- **Бизнес:** «Компании с корпоративными университетами прибыльнее» — но может быть, только прибыльные компании могут позволить себе университеты?
- **Политика:** «Страны с большей свободой прессы богаче» — но богатство может вызывать свободу, а не наоборот
Корреляция
**Корреляция** - это статистическая связь между двумя переменными. Когда одна переменная растёт, другая тоже растёт (положительная корреляция) или падает (отрицательная). Корреляция показывает, что переменные **изменяются вместе**, но ничего не говорит о том, **почему**.
**Коэффициент корреляции** (r) измеряется от -1 до +1. При r = +1 - идеальная положительная связь, при r = -1 - идеальная отрицательная, при r = 0 - связи нет. Важно: даже сильная корреляция (r = 0.95) не доказывает причинность!
Увидев корреляцию, мы инстинктивно ищем причинную связь - это эволюционная черта. Наши предки, заметив связь между тёмными тучами и дождём, правильно делали выводы. Но современный мир полон **случайных совпадений** и **скрытых факторов**, которые создают иллюзию причинности.
Исследование показало: чем больше пожарных приезжает на пожар, тем больше ущерб от огня (r = 0.82). Какой вывод корректен?
Причинность
**Причинность (каузация)** - это когда одно событие **действительно вызывает** другое. В отличие от корреляции, причинность имеет **направление** и **механизм**. Если A причина B, то изменение A приведёт к изменению B (но не наоборот).
**Критерии Хилла** для установления причинности: 1) Сила связи (чем сильнее, тем вероятнее) 2) Постоянство (повторяется в разных условиях) 3) Специфичность (конкретная причина → конкретный эффект) 4) Временная последовательность (причина предшествует следствию) 5) Градиент (больше причины → больше эффекта) 6) Правдоподобность (есть механизм) 7) Когерентность (согласуется с другими знаниями) 8) Эксперимент (устранение причины устраняет эффект)
Единственный надёжный способ установить причинность - **рандомизированный контролируемый эксперимент (РКИ)**. Мы случайно делим участников на группы, одной даём «причину» (лекарство), другой - плацебо. Если эффект есть только в первой группе - причинность доказана.
Исследование показало: дети, которые завтракают, лучше учатся в школе. Что нужно для доказательства причинности?
Конфаундеры
**Конфаундер (смешивающая переменная)** - это скрытый фактор, который влияет и на «причину», и на «следствие», создавая иллюзию прямой связи. Конфаундеры - главный источник ложных причинных выводов в наблюдательных исследованиях.
**Как найти конфаундер:** Спросите себя: «Что ещё может влиять на ОБЕ переменные?» Классические конфаундеры: социально-экономический статус, возраст, образование, география, сезон, образ жизни в целом.
**Контроль конфаундеров** возможен несколькими способами: 1) **Рандомизация** - золотой стандарт, устраняет все конфаундеры 2) **Стратификация** - анализ отдельно для каждой группы (мужчины/женщины) 3) **Многомерная регрессия** - статистически «вычитаем» влияние конфаундеров 4) **Matching** - подбираем пары с одинаковыми конфаундерами
Исследование: люди, которые пьют умеренно алкоголь, живут дольше непьющих. Какой конфаундер наиболее вероятен?
Ложные корреляции
**Ложная (spurious) корреляция** - это статистическая связь, которая не имеет ни причинной связи, ни общего конфаундера. Она возникает из-за случайности, особенно при множественных сравнениях, или из-за общих трендов (например, роста населения или технологий).
**Проблема множественных сравнений:** Если проверить 100 гипотез при p < 0.05, в среднем 5 покажут «значимую» связь чисто случайно. Сайт tylervigen.com собирает абсурдные корреляции: разводы в Мэне коррелируют с потреблением маргарина (r = 0.99)!
**Как распознать ложную корреляцию:** 1) Нет правдоподобного механизма связи 2) Связь найдена при «охоте» на данные (data dredging) 3) Обе переменные - временные ряды с общим трендом 4) Результат не воспроизводится на других данных 5) Исследователи проверили много гипотез, но сообщили только о «успешных»
Если корреляция очень сильная (r > 0.9), значит связь причинная
Сила корреляции не указывает на причинность - ложные корреляции могут быть сколь угодно сильными
Временные ряды с общим трендом (оба растут или падают) дают корреляции близкие к 1, даже если связи нет. Критерий причинности - механизм и эксперимент, а не сила корреляции.
Журналист нашёл: продажи органических продуктов коррелируют с диагнозами аутизма (r = 0.95). Какое объяснение наиболее вероятно?
Ключевые идеи
- **Корреляция ≠ причинность:** статистическая связь не означает, что одно вызывает другое
- **Четыре объяснения корреляции:** A→B, B→A, C→(A,B), или совпадение
- **Конфаундеры:** скрытые переменные, влияющие на обе измеряемые
- **Ложные корреляции:** случайные совпадения, особенно в временных рядах
- **Золотой стандарт:** только рандомизированный эксперимент доказывает причинность
Связанные темы
Причинный вывод - основа научного метода и критического мышления:
- Научный метод — РКИ - главный инструмент установления причинности
- Базовая вероятность — Базовые ставки влияют на интерпретацию корреляций
- Теорема Байеса — Байесовский подход позволяет обновлять уверенность в причинности
Вопросы для размышления
- Вспомните новость вида «X связан с Y». Какие конфаундеры могли создать эту связь?
- Когда вы в последний раз делали причинный вывод из наблюдения? Был ли он обоснован?
- Как бы вы проверили причинность в случае, когда эксперимент невозможен (например, влияние курения на рак)?