Автоматы и сознание

Причинный вывод и контрфактуалы

Цели урока

Понимать три уровня Ladder of Causation (L1: Seeing, L2: Doing, L3: Imagining)
Применять do-calculus: разница P(Y|X) и P(Y|do(X)), графическое удаление стрелок
Использовать Backdoor и Frontdoor критерии для оценки каузальных эффектов из данных
Выполнять контрфактуальный вывод через три шага: Abduction - Action - Prediction
Объяснять почему LLM работают на L1 и чем это ограничивает понимание причин

Предварительные знания

POMDP и вероятностные модели (урок 05)
Predictive Processing (урок 12)
Базовая теория вероятностей: условная вероятность, маргинализация

Медицина потратила 200 лет на RCT именно потому что P(Y|X) не равно P(Y|do(X)). Перл в 2000 году дал формальный язык для причин - это то, что отличает "корреляция" от "лечение работает".

**Медицинские RCT** - золотой стандарт именно потому что рандомизация реализует do(Treatment), устраняя конфаундеры
**Libratus (2017)** - первый AI победивший профессионалов в покере использует Counterfactual Regret Minimization (L3)
**AlphaStar (2019)** - DeepMind использует контрфактуальное планирование в StarCraft II
**LLM и причинность** - GPT-4 систематически путает корреляцию с причинностью на задачах типа Simpson's Paradox
**Экономическая политика** - backdoor criterion позволяет оценить эффект минимальной зарплаты без рандомизации

Каузальная революция Джуды Перла

Джуда Перл начинал с байесовских сетей (1988) - способ компактно представить совместные распределения. Но в 1990-х понял: байесовские сети не отвечают на вопросы типа "что будет, если вмешаться". Проблема - сети кодируют корреляции, не причины. С 1993 по 2000 разработал do-calculus - полную аксиоматику для причинного вывода. В 2000 вышла книга "Causality", в 2011 - Тьюринговская премия. В 2018 вышла "The Book of Why" - популярное изложение.

Лестница причинности Перла

**2000 год. Джуда Перл показывает: вся статистика до этого момента работала только с L1 - наблюдениями.** Рандомизированные контролируемые исследования (RCT) в медицине - золотой стандарт именно потому, что они поднимаются на L2. Без понимания этой лестницы любая ML-модель путает "пациенты с зонтом чаще мокрые" и "зонт делает людей мокрыми".

**Ladder of Causation (Перл, 2000):** три уровня причинного понимания. L1: Seeing - наблюдение корреляций, P(Y|X). L2: Doing - интервенция, P(Y|do(X)). L3: Imagining - контрфактуал, P(Y_x|X', Y'). Каждый следующий уровень требует качественно другой информации - данных недостаточно.

Уровень	Вопрос	Что нужно	Пример
L1: Association	P(Y\|X) - что если УВИЖУ X?	Данные	Люди с зонтом чаще мокрые
L2: Intervention	P(Y\|do(X)) - что если СДЕЛАЮ X?	Каузальная модель	Если выдать зонт - станут мокрее?
L3: Counterfactual	P(Y_x\|X',Y') - что БЫЛО БЫ если бы X?	Структурная модель + конкретный случай	Остался бы жив, если бы лечили?

**Классический пример конфаундера:** исследование показывает, что люди, которые едят завтрак, в среднем стройнее. Значит ли это, что завтрак помогает похудеть? Нет - конфаундер "здоровый образ жизни" влияет и на привычку завтракать, и на вес. Наблюдение (L1) не даёт ответ. Нужна интервенция (L2) - рандомизировать группы принудительно.

Большие данные и сильные корреляции заменяют причинный анализ

Никакое количество наблюдений (L1) не даёт ответ на интервенционный вопрос (L2) без каузальной модели

Парадокс Симпсона: корреляция может полностью развернуться при стратификации по конфаундеру. Знаменитый пример - лечение почечных камней: препарат A лучше в общей выборке, но препарат B лучше и для маленьких, и для больших камней. Агрегация скрывает реальную причинность.

Исследование: люди, которые едят завтрак, в среднем стройнее. Если заставить людей есть завтрак, они похудеют?

do-calculus и каузальные графы

**P(Y|X) не равно P(Y|do(X)) - это ключевое неравенство всей каузальной статистики.** Наблюдение "пациенты принимающие лекарство выздоравливают чаще" может быть артефактом отбора: более здоровые пациенты сами выбирают лекарство. do(X) - это принудительная интервенция, которая разрывает эту связь.

**do-оператор Перла:** do(X=x) означает "принудительно установить X=x". Графически - удалить все входящие стрелки в X. После этого X больше не зависит от конфаундеров. Разница P(Y|do(X)) - P(Y) - это истинный каузальный эффект X на Y.

Backdoor и Frontdoor критерии

Перл доказал: если можно идентифицировать набор переменных Z, блокирующих все "backdoor" пути (через конфаундер X ← ... → Y), то P(Y|do(X)) можно вычислить из наблюдательных данных без реального эксперимента.

Критерий	Когда применять	Формула
Backdoor	Z блокирует все backdoor пути X←...→Y, Z - не потомок X	P(Y\|do(X)) = sum_z P(Y\|X,Z) P(Z)
Frontdoor	Backdoor недоступен, но есть медиатор M: X→M→Y	P(Y\|do(X)) = sum_m P(M\|X) sum_x' P(Y\|M,x') P(x')
RCT	Рандомизация устраняет все конфаундеры экспериментально	P(Y\|do(X)) = P(Y\|X) напрямую

Backdoor: эффект лечения с конфаундером Age

Граф: Age → Treatment, Age → Recovery, Treatment → Recovery. Backdoor path: Treatment ← Age → Recovery. Z = {Age} блокирует его. Формула: P(Recovery | do(Treatment)) = sum_age P(Recovery | Treatment, Age) P(Age). Вычислить из данных без рандомизации.

Frontdoor criterion нужен редко - обычно хватает backdoor

Frontdoor критически важен когда конфаундер ненаблюдаем (U скрытый)

Классический пример - курение (X) → смола в лёгких (M) → рак (Y), с возможным скрытым генетическим конфаундером U. Backdoor не работает (U ненаблюдаем). Frontdoor через медиатор M позволяет оценить P(Cancer|do(Smoking)) из чисто наблюдательных данных.

В чём главная разница между P(Y|X) и P(Y|do(X))?

Контрфактуальное рассуждение

**L3 - самый мощный уровень: "Пациент не принимал лекарство и умер. Выжил бы он, если бы принял?"** Это не интервенция в будущее (L2) - это ретроспективный вопрос о конкретном случае. Перл доказал: для ответа нужна структурная каузальная модель (SCM) плюс три шага.

**Три шага контрфактуального вывода:** 1. Abduction - вывести экзогенные переменные U из наблюдённых фактов. 2. Action - применить гипотетическую интервенцию do(X=x'). 3. Prediction - прогнать модель вперёд с теми же U и новым X. Результат: что произошло бы в том же мире, но с другим выбором.

**Контрфактуалы не идентифицируемы из данных в общем случае.** Даже зная P(Y|do(X)) для всех X, нельзя вычислить P(Y_x=y|X=x', Y=y') без структурной модели. Это фундаментальное ограничение - отдельный случай требует индивидуальной абдукции U, а не только популяционной статистики.

Контрфактуал - это просто интервенционный запрос P(Y|do(X)) с другим X

Контрфактуал - это вопрос о конкретном мире с конкретными U, а не о распределении при интервенции

P(Y|do(X)) - интервенция в будущее для популяции. P(Y_x|X=x', Y=y') - вопрос о конкретном прошедшем случае. Разные математические объекты. Пациент, который умер при одном лечении, мог бы не выжить при другом даже если P(survive|do(treatment=1)) высокое.

Почему для контрфактуала нужны конкретные факты случая, а не только каузальная модель?

Планирование через контрфактуальное воображение

**Планирование - это симуляция контрфактуалов: "что произойдёт, если я сделаю X?"** Это ровно L2-L3 рассуждения. LLM работают на L1 - они воспроизводят текстовые паттерны причинных объяснений, но не имеют каузальной модели мира. Поэтому они могут имитировать планирование, но не выполнять его надёжно.

Система	Уровень	Способность	Ограничение
Классический ML (SVM, RF)	L1	Корреляции в данных	Нет понимания причин
LLM (GPT, Claude)	L1 + имитация L2-L3	Воспроизводит паттерны причинных рассуждений	Нет каузальной модели мира
Causal ML (DoWhy, EconML)	L2	Оценка эффектов интервенций	Требует корректной модели
Structural Causal Model	L2 + L3	Интервенции + контрфактуалы	Трудно верифицировать модель
CFR (Libratus, AlphaStar)	L2-L3	Планирование в неполной информации	Только для задачных сред

**Ключевой инсайт:** воображение работает через ту же каузальную модель, что и восприятие, но с "отключённой" сенсорикой. Именно поэтому Embodied Cognition и Predictive Processing (уроки 15, 12) фундаментально связаны с причинностью - generative model мозга является каузальной моделью мира.

Связь с другими темами курса

Причинность - фундамент для планирования и настоящего понимания агентов.

Embodied Cognition — Affordances - каузальное знание: действие → следствие в окружающей среде
Predictive Processing — Generative model мозга - каузальная модель мира для предсказания входов
Cognitive Architectures — Архитектуры класса SOAR/ACT-R включают causal reasoning для планирования действий

Chain-of-Thought и пошаговые подсказки превращают LLM в каузальный планировщик

CoT повышает качество L1-имитации, но не создаёт каузальную модель: для L2-L3 нужны переменные U, do-операция и абдукция, а не более длинная текстовая цепочка

CoT помогает в задачах где правильный ответ - функция от наблюдений в обучающей выборке. Контрфактуал и интервенция требуют структурного объекта (SCM), который LLM не строит. На out-of-distribution каузальных задачах (модифицированные варианты парадокса Симпсона, переформулированные RCT) CoT-агенты ломаются предсказуемым образом - это эмпирически подтверждено в работах Schölkopf et al. и benchmark CLadder.

Связь с предыдущим

Predictive Processing задаёт уровень L1 (корреляция), Embodied Cognition - сенсомоторный субстрат интервенций. Causal inference замыкает картину формальным языком L2/L3.

Predictive Processing — L1-машина по Перлу: моделирует P(Y|X), но не P(Y|do(X))
Embodied Cognition — сенсомоторный субстрат для интервенций, превращающих корреляцию в causal evidence
Pearl ladder of causation — формальный язык, объясняющий потолок L1 у чисто статистических LLM-систем

Итоги

Лестница Перла: L1 ассоциация (P(Y|X)), L2 интервенция (P(Y|do(X))), L3 контрфактуал (P(Y_x|X'=x', Y'=y')) - каждый уровень строго мощнее предыдущего и не сводится к нему
do-оператор отличается от условной вероятности: do(X=x) удаляет все входящие стрелки в X в графе SCM, обнуляя влияние конфаундеров на X
Backdoor criterion даёт критерий идентификации эффекта: блокировать все backdoor-пути между X и Y через множество Z, не открывая новые через коллайдеры
Контрфактуал требует трёх шагов: abduction (восстановить P(U|evidence)), action (применить do), prediction (вычислить Y в модифицированной модели) - L1 и L2 данных недостаточно
LLM на корреляционных данных принципиально остаются на L1: без явной SCM-структуры они проваливают out-of-distribution каузальные тесты (бенчмарк CLadder, модифицированный Simpson's Paradox)

Вопросы для размышления

Вспомни утверждение из новостей или исследования, которое звучало как причинное. Какого уровня было это утверждение на самом деле - L1, L2 или L3? Что нужно было бы сделать, чтобы проверить его как L2?

Связанные уроки

aut-15-embodied — Embodied агент создаёт причинные цепи в среде
aut-13-iit — IIT phi - мера каузальной интегрированности
prob-04-bayes — Байесовский вывод - основа каузального обновления
cc-01-dags — Causal DAG - формальный язык причинности Pearl
cc-09-counterfactuals — Контрфактуалы - следующий уровень каузального вывода
prob-03-conditional