Логика

Корреляция vs Причинность

«Учёные доказали: шоколад помогает похудеть!» - такой заголовок облетел мир в 2015 году. Исследование было реальным, опубликованным в журнале. Но это была ловушка - журналист Джон Боханнон намеренно провёл плохое исследование, чтобы показать, как легко СМИ путают корреляцию с причинностью.

  • **Медицина:** Десятилетиями считалось, что гормонозаместительная терапия защищает сердце — наблюдательные исследования показывали корреляцию. РКИ (Women's Health Initiative) показало обратное: терапия УВЕЛИЧИВАЛА риск
  • **Бизнес:** «Компании с корпоративными университетами прибыльнее» — но может быть, только прибыльные компании могут позволить себе университеты?
  • **Политика:** «Страны с большей свободой прессы богаче» — но богатство может вызывать свободу, а не наоборот

Корреляция

**Корреляция** - это статистическая связь между двумя переменными. Когда одна переменная растёт, другая тоже растёт (положительная корреляция) или падает (отрицательная). Корреляция показывает, что переменные **изменяются вместе**, но ничего не говорит о том, **почему**.

**Коэффициент корреляции** (r) измеряется от -1 до +1. При r = +1 - идеальная положительная связь, при r = -1 - идеальная отрицательная, при r = 0 - связи нет. Важно: даже сильная корреляция (r = 0.95) не доказывает причинность!

Увидев корреляцию, мы инстинктивно ищем причинную связь - это эволюционная черта. Наши предки, заметив связь между тёмными тучами и дождём, правильно делали выводы. Но современный мир полон **случайных совпадений** и **скрытых факторов**, которые создают иллюзию причинности.

Исследование показало: чем больше пожарных приезжает на пожар, тем больше ущерб от огня (r = 0.82). Какой вывод корректен?

Причинность

**Причинность (каузация)** - это когда одно событие **действительно вызывает** другое. В отличие от корреляции, причинность имеет **направление** и **механизм**. Если A причина B, то изменение A приведёт к изменению B (но не наоборот).

**Критерии Хилла** для установления причинности: 1) Сила связи (чем сильнее, тем вероятнее) 2) Постоянство (повторяется в разных условиях) 3) Специфичность (конкретная причина → конкретный эффект) 4) Временная последовательность (причина предшествует следствию) 5) Градиент (больше причины → больше эффекта) 6) Правдоподобность (есть механизм) 7) Когерентность (согласуется с другими знаниями) 8) Эксперимент (устранение причины устраняет эффект)

Единственный надёжный способ установить причинность - **рандомизированный контролируемый эксперимент (РКИ)**. Мы случайно делим участников на группы, одной даём «причину» (лекарство), другой - плацебо. Если эффект есть только в первой группе - причинность доказана.

Исследование показало: дети, которые завтракают, лучше учатся в школе. Что нужно для доказательства причинности?

Конфаундеры

**Конфаундер (смешивающая переменная)** - это скрытый фактор, который влияет и на «причину», и на «следствие», создавая иллюзию прямой связи. Конфаундеры - главный источник ложных причинных выводов в наблюдательных исследованиях.

**Как найти конфаундер:** Спросите себя: «Что ещё может влиять на ОБЕ переменные?» Классические конфаундеры: социально-экономический статус, возраст, образование, география, сезон, образ жизни в целом.

**Контроль конфаундеров** возможен несколькими способами: 1) **Рандомизация** - золотой стандарт, устраняет все конфаундеры 2) **Стратификация** - анализ отдельно для каждой группы (мужчины/женщины) 3) **Многомерная регрессия** - статистически «вычитаем» влияние конфаундеров 4) **Matching** - подбираем пары с одинаковыми конфаундерами

Исследование: люди, которые пьют умеренно алкоголь, живут дольше непьющих. Какой конфаундер наиболее вероятен?

Ложные корреляции

**Ложная (spurious) корреляция** - это статистическая связь, которая не имеет ни причинной связи, ни общего конфаундера. Она возникает из-за случайности, особенно при множественных сравнениях, или из-за общих трендов (например, роста населения или технологий).

**Проблема множественных сравнений:** Если проверить 100 гипотез при p < 0.05, в среднем 5 покажут «значимую» связь чисто случайно. Сайт tylervigen.com собирает абсурдные корреляции: разводы в Мэне коррелируют с потреблением маргарина (r = 0.99)!

**Как распознать ложную корреляцию:** 1) Нет правдоподобного механизма связи 2) Связь найдена при «охоте» на данные (data dredging) 3) Обе переменные - временные ряды с общим трендом 4) Результат не воспроизводится на других данных 5) Исследователи проверили много гипотез, но сообщили только о «успешных»

Если корреляция очень сильная (r > 0.9), значит связь причинная

Сила корреляции не указывает на причинность - ложные корреляции могут быть сколь угодно сильными

Временные ряды с общим трендом (оба растут или падают) дают корреляции близкие к 1, даже если связи нет. Критерий причинности - механизм и эксперимент, а не сила корреляции.

Журналист нашёл: продажи органических продуктов коррелируют с диагнозами аутизма (r = 0.95). Какое объяснение наиболее вероятно?

Ключевые идеи

  • **Корреляция ≠ причинность:** статистическая связь не означает, что одно вызывает другое
  • **Четыре объяснения корреляции:** A→B, B→A, C→(A,B), или совпадение
  • **Конфаундеры:** скрытые переменные, влияющие на обе измеряемые
  • **Ложные корреляции:** случайные совпадения, особенно в временных рядах
  • **Золотой стандарт:** только рандомизированный эксперимент доказывает причинность

Связанные темы

Причинный вывод - основа научного метода и критического мышления:

  • Научный метод — РКИ - главный инструмент установления причинности
  • Базовая вероятность — Базовые ставки влияют на интерпретацию корреляций
  • Теорема Байеса — Байесовский подход позволяет обновлять уверенность в причинности

Вопросы для размышления

  • Вспомните новость вида «X связан с Y». Какие конфаундеры могли создать эту связь?
  • Когда вы в последний раз делали причинный вывод из наблюдения? Был ли он обоснован?
  • Как бы вы проверили причинность в случае, когда эксперимент невозможен (например, влияние курения на рак)?

Связанные уроки

  • stat-08-correlation
Корреляция vs Причинность

0

1

Войти