Автоматы и сознание
Причинный вывод и контрфактуалы
Цели урока
- Понимать три уровня Ladder of Causation (L1: Seeing, L2: Doing, L3: Imagining)
- Применять do-calculus: разница P(Y|X) и P(Y|do(X)), графическое удаление стрелок
- Использовать Backdoor и Frontdoor критерии для оценки каузальных эффектов из данных
- Выполнять контрфактуальный вывод через три шага: Abduction - Action - Prediction
- Объяснять почему LLM работают на L1 и чем это ограничивает понимание причин
Предварительные знания
- POMDP и вероятностные модели (урок 05)
- Predictive Processing (урок 12)
- Базовая теория вероятностей: условная вероятность, маргинализация
Медицина потратила 200 лет на RCT именно потому что P(Y|X) не равно P(Y|do(X)). Перл в 2000 году дал формальный язык для причин - это то, что отличает "корреляция" от "лечение работает".
- **Медицинские RCT** - золотой стандарт именно потому что рандомизация реализует do(Treatment), устраняя конфаундеры
- **Libratus (2017)** - первый AI победивший профессионалов в покере использует Counterfactual Regret Minimization (L3)
- **AlphaStar (2019)** - DeepMind использует контрфактуальное планирование в StarCraft II
- **LLM и причинность** - GPT-4 систематически путает корреляцию с причинностью на задачах типа Simpson's Paradox
- **Экономическая политика** - backdoor criterion позволяет оценить эффект минимальной зарплаты без рандомизации
Каузальная революция Джуды Перла
Джуда Перл начинал с байесовских сетей (1988) - способ компактно представить совместные распределения. Но в 1990-х понял: байесовские сети не отвечают на вопросы типа "что будет, если вмешаться". Проблема - сети кодируют корреляции, не причины. С 1993 по 2000 разработал do-calculus - полную аксиоматику для причинного вывода. В 2000 вышла книга "Causality", в 2011 - Тьюринговская премия. В 2018 вышла "The Book of Why" - популярное изложение.
Лестница причинности Перла
**2000 год. Джуда Перл показывает: вся статистика до этого момента работала только с L1 - наблюдениями.** Рандомизированные контролируемые исследования (RCT) в медицине - золотой стандарт именно потому, что они поднимаются на L2. Без понимания этой лестницы любая ML-модель путает "пациенты с зонтом чаще мокрые" и "зонт делает людей мокрыми".
**Ladder of Causation (Перл, 2000):** три уровня причинного понимания. L1: Seeing - наблюдение корреляций, P(Y|X). L2: Doing - интервенция, P(Y|do(X)). L3: Imagining - контрфактуал, P(Y_x|X', Y'). Каждый следующий уровень требует качественно другой информации - данных недостаточно.
| Уровень | Вопрос | Что нужно | Пример |
|---|---|---|---|
| L1: Association | P(Y|X) - что если УВИЖУ X? | Данные | Люди с зонтом чаще мокрые |
| L2: Intervention | P(Y|do(X)) - что если СДЕЛАЮ X? | Каузальная модель | Если выдать зонт - станут мокрее? |
| L3: Counterfactual | P(Y_x|X',Y') - что БЫЛО БЫ если бы X? | Структурная модель + конкретный случай | Остался бы жив, если бы лечили? |
**Классический пример конфаундера:** исследование показывает, что люди, которые едят завтрак, в среднем стройнее. Значит ли это, что завтрак помогает похудеть? Нет - конфаундер "здоровый образ жизни" влияет и на привычку завтракать, и на вес. Наблюдение (L1) не даёт ответ. Нужна интервенция (L2) - рандомизировать группы принудительно.
Большие данные и сильные корреляции заменяют причинный анализ
Никакое количество наблюдений (L1) не даёт ответ на интервенционный вопрос (L2) без каузальной модели
Парадокс Симпсона: корреляция может полностью развернуться при стратификации по конфаундеру. Знаменитый пример - лечение почечных камней: препарат A лучше в общей выборке, но препарат B лучше и для маленьких, и для больших камней. Агрегация скрывает реальную причинность.
Исследование: люди, которые едят завтрак, в среднем стройнее. Если заставить людей есть завтрак, они похудеют?
do-calculus и каузальные графы
**P(Y|X) не равно P(Y|do(X)) - это ключевое неравенство всей каузальной статистики.** Наблюдение "пациенты принимающие лекарство выздоравливают чаще" может быть артефактом отбора: более здоровые пациенты сами выбирают лекарство. do(X) - это принудительная интервенция, которая разрывает эту связь.
**do-оператор Перла:** do(X=x) означает "принудительно установить X=x". Графически - удалить все входящие стрелки в X. После этого X больше не зависит от конфаундеров. Разница P(Y|do(X)) - P(Y) - это истинный каузальный эффект X на Y.
Backdoor и Frontdoor критерии
Перл доказал: если можно идентифицировать набор переменных Z, блокирующих все "backdoor" пути (через конфаундер X ← ... → Y), то P(Y|do(X)) можно вычислить из наблюдательных данных без реального эксперимента.
| Критерий | Когда применять | Формула |
|---|---|---|
| Backdoor | Z блокирует все backdoor пути X←...→Y, Z - не потомок X | P(Y|do(X)) = sum_z P(Y|X,Z) P(Z) |
| Frontdoor | Backdoor недоступен, но есть медиатор M: X→M→Y | P(Y|do(X)) = sum_m P(M|X) sum_x' P(Y|M,x') P(x') |
| RCT | Рандомизация устраняет все конфаундеры экспериментально | P(Y|do(X)) = P(Y|X) напрямую |
Backdoor: эффект лечения с конфаундером Age
Граф: Age → Treatment, Age → Recovery, Treatment → Recovery. Backdoor path: Treatment ← Age → Recovery. Z = {Age} блокирует его. Формула: P(Recovery | do(Treatment)) = sum_age P(Recovery | Treatment, Age) P(Age). Вычислить из данных без рандомизации.
Frontdoor criterion нужен редко - обычно хватает backdoor
Frontdoor критически важен когда конфаундер ненаблюдаем (U скрытый)
Классический пример - курение (X) → смола в лёгких (M) → рак (Y), с возможным скрытым генетическим конфаундером U. Backdoor не работает (U ненаблюдаем). Frontdoor через медиатор M позволяет оценить P(Cancer|do(Smoking)) из чисто наблюдательных данных.
В чём главная разница между P(Y|X) и P(Y|do(X))?
Контрфактуальное рассуждение
**L3 - самый мощный уровень: "Пациент не принимал лекарство и умер. Выжил бы он, если бы принял?"** Это не интервенция в будущее (L2) - это ретроспективный вопрос о конкретном случае. Перл доказал: для ответа нужна структурная каузальная модель (SCM) плюс три шага.
**Три шага контрфактуального вывода:** 1. Abduction - вывести экзогенные переменные U из наблюдённых фактов. 2. Action - применить гипотетическую интервенцию do(X=x'). 3. Prediction - прогнать модель вперёд с теми же U и новым X. Результат: что произошло бы в том же мире, но с другим выбором.
**Контрфактуалы не идентифицируемы из данных в общем случае.** Даже зная P(Y|do(X)) для всех X, нельзя вычислить P(Y_x=y|X=x', Y=y') без структурной модели. Это фундаментальное ограничение - отдельный случай требует индивидуальной абдукции U, а не только популяционной статистики.
Контрфактуал - это просто интервенционный запрос P(Y|do(X)) с другим X
Контрфактуал - это вопрос о конкретном мире с конкретными U, а не о распределении при интервенции
P(Y|do(X)) - интервенция в будущее для популяции. P(Y_x|X=x', Y=y') - вопрос о конкретном прошедшем случае. Разные математические объекты. Пациент, который умер при одном лечении, мог бы не выжить при другом даже если P(survive|do(treatment=1)) высокое.
Почему для контрфактуала нужны конкретные факты случая, а не только каузальная модель?
Планирование через контрфактуальное воображение
**Планирование - это симуляция контрфактуалов: "что произойдёт, если я сделаю X?"** Это ровно L2-L3 рассуждения. LLM работают на L1 - они воспроизводят текстовые паттерны причинных объяснений, но не имеют каузальной модели мира. Поэтому они могут имитировать планирование, но не выполнять его надёжно.
| Система | Уровень | Способность | Ограничение |
|---|---|---|---|
| Классический ML (SVM, RF) | L1 | Корреляции в данных | Нет понимания причин |
| LLM (GPT, Claude) | L1 + имитация L2-L3 | Воспроизводит паттерны причинных рассуждений | Нет каузальной модели мира |
| Causal ML (DoWhy, EconML) | L2 | Оценка эффектов интервенций | Требует корректной модели |
| Structural Causal Model | L2 + L3 | Интервенции + контрфактуалы | Трудно верифицировать модель |
| CFR (Libratus, AlphaStar) | L2-L3 | Планирование в неполной информации | Только для задачных сред |
**Ключевой инсайт:** воображение работает через ту же каузальную модель, что и восприятие, но с "отключённой" сенсорикой. Именно поэтому Embodied Cognition и Predictive Processing (уроки 15, 12) фундаментально связаны с причинностью - generative model мозга является каузальной моделью мира.
Связь с другими темами курса
Причинность - фундамент для планирования и настоящего понимания агентов.
- Embodied Cognition — Affordances - каузальное знание: действие → следствие в окружающей среде
- Predictive Processing — Generative model мозга - каузальная модель мира для предсказания входов
- Cognitive Architectures — Архитектуры класса SOAR/ACT-R включают causal reasoning для планирования действий
Chain-of-Thought и пошаговые подсказки превращают LLM в каузальный планировщик
CoT повышает качество L1-имитации, но не создаёт каузальную модель: для L2-L3 нужны переменные U, do-операция и абдукция, а не более длинная текстовая цепочка
CoT помогает в задачах где правильный ответ - функция от наблюдений в обучающей выборке. Контрфактуал и интервенция требуют структурного объекта (SCM), который LLM не строит. На out-of-distribution каузальных задачах (модифицированные варианты парадокса Симпсона, переформулированные RCT) CoT-агенты ломаются предсказуемым образом - это эмпирически подтверждено в работах Schölkopf et al. и benchmark CLadder.
Связь с предыдущим
Predictive Processing задаёт уровень L1 (корреляция), Embodied Cognition - сенсомоторный субстрат интервенций. Causal inference замыкает картину формальным языком L2/L3.
- Predictive Processing — L1-машина по Перлу: моделирует P(Y|X), но не P(Y|do(X))
- Embodied Cognition — сенсомоторный субстрат для интервенций, превращающих корреляцию в causal evidence
- Pearl ladder of causation — формальный язык, объясняющий потолок L1 у чисто статистических LLM-систем
Итоги
- Лестница Перла: L1 ассоциация (P(Y|X)), L2 интервенция (P(Y|do(X))), L3 контрфактуал (P(Y_x|X'=x', Y'=y')) - каждый уровень строго мощнее предыдущего и не сводится к нему
- do-оператор отличается от условной вероятности: do(X=x) удаляет все входящие стрелки в X в графе SCM, обнуляя влияние конфаундеров на X
- Backdoor criterion даёт критерий идентификации эффекта: блокировать все backdoor-пути между X и Y через множество Z, не открывая новые через коллайдеры
- Контрфактуал требует трёх шагов: abduction (восстановить P(U|evidence)), action (применить do), prediction (вычислить Y в модифицированной модели) - L1 и L2 данных недостаточно
- LLM на корреляционных данных принципиально остаются на L1: без явной SCM-структуры они проваливают out-of-distribution каузальные тесты (бенчмарк CLadder, модифицированный Simpson's Paradox)
Вопросы для размышления
- Вспомни утверждение из новостей или исследования, которое звучало как причинное. Какого уровня было это утверждение на самом деле - L1, L2 или L3? Что нужно было бы сделать, чтобы проверить его как L2?
Связанные уроки
- aut-15-embodied — Embodied агент создаёт причинные цепи в среде
- aut-13-iit — IIT phi - мера каузальной интегрированности
- prob-04-bayes — Байесовский вывод - основа каузального обновления
- cc-01-dags — Causal DAG - формальный язык причинности Pearl
- cc-09-counterfactuals — Контрфактуалы - следующий уровень каузального вывода
- prob-03-conditional