Автоматы и сознание

Причинный вывод и контрфактуалы

Цели урока

  • Понимать три уровня Ladder of Causation (L1: Seeing, L2: Doing, L3: Imagining)
  • Применять do-calculus: разница P(Y|X) и P(Y|do(X)), графическое удаление стрелок
  • Использовать Backdoor и Frontdoor критерии для оценки каузальных эффектов из данных
  • Выполнять контрфактуальный вывод через три шага: Abduction - Action - Prediction
  • Объяснять почему LLM работают на L1 и чем это ограничивает понимание причин

Предварительные знания

  • POMDP и вероятностные модели (урок 05)
  • Predictive Processing (урок 12)
  • Базовая теория вероятностей: условная вероятность, маргинализация

Медицина потратила 200 лет на RCT именно потому что P(Y|X) не равно P(Y|do(X)). Перл в 2000 году дал формальный язык для причин - это то, что отличает "корреляция" от "лечение работает".

  • **Медицинские RCT** - золотой стандарт именно потому что рандомизация реализует do(Treatment), устраняя конфаундеры
  • **Libratus (2017)** - первый AI победивший профессионалов в покере использует Counterfactual Regret Minimization (L3)
  • **AlphaStar (2019)** - DeepMind использует контрфактуальное планирование в StarCraft II
  • **LLM и причинность** - GPT-4 систематически путает корреляцию с причинностью на задачах типа Simpson's Paradox
  • **Экономическая политика** - backdoor criterion позволяет оценить эффект минимальной зарплаты без рандомизации

Каузальная революция Джуды Перла

Джуда Перл начинал с байесовских сетей (1988) - способ компактно представить совместные распределения. Но в 1990-х понял: байесовские сети не отвечают на вопросы типа "что будет, если вмешаться". Проблема - сети кодируют корреляции, не причины. С 1993 по 2000 разработал do-calculus - полную аксиоматику для причинного вывода. В 2000 вышла книга "Causality", в 2011 - Тьюринговская премия. В 2018 вышла "The Book of Why" - популярное изложение.

Лестница причинности Перла

**2000 год. Джуда Перл показывает: вся статистика до этого момента работала только с L1 - наблюдениями.** Рандомизированные контролируемые исследования (RCT) в медицине - золотой стандарт именно потому, что они поднимаются на L2. Без понимания этой лестницы любая ML-модель путает "пациенты с зонтом чаще мокрые" и "зонт делает людей мокрыми".

**Ladder of Causation (Перл, 2000):** три уровня причинного понимания. L1: Seeing - наблюдение корреляций, P(Y|X). L2: Doing - интервенция, P(Y|do(X)). L3: Imagining - контрфактуал, P(Y_x|X', Y'). Каждый следующий уровень требует качественно другой информации - данных недостаточно.

УровеньВопросЧто нужноПример
L1: AssociationP(Y|X) - что если УВИЖУ X?ДанныеЛюди с зонтом чаще мокрые
L2: InterventionP(Y|do(X)) - что если СДЕЛАЮ X?Каузальная модельЕсли выдать зонт - станут мокрее?
L3: CounterfactualP(Y_x|X',Y') - что БЫЛО БЫ если бы X?Структурная модель + конкретный случайОстался бы жив, если бы лечили?

**Классический пример конфаундера:** исследование показывает, что люди, которые едят завтрак, в среднем стройнее. Значит ли это, что завтрак помогает похудеть? Нет - конфаундер "здоровый образ жизни" влияет и на привычку завтракать, и на вес. Наблюдение (L1) не даёт ответ. Нужна интервенция (L2) - рандомизировать группы принудительно.

Большие данные и сильные корреляции заменяют причинный анализ

Никакое количество наблюдений (L1) не даёт ответ на интервенционный вопрос (L2) без каузальной модели

Парадокс Симпсона: корреляция может полностью развернуться при стратификации по конфаундеру. Знаменитый пример - лечение почечных камней: препарат A лучше в общей выборке, но препарат B лучше и для маленьких, и для больших камней. Агрегация скрывает реальную причинность.

Исследование: люди, которые едят завтрак, в среднем стройнее. Если заставить людей есть завтрак, они похудеют?

do-calculus и каузальные графы

**P(Y|X) не равно P(Y|do(X)) - это ключевое неравенство всей каузальной статистики.** Наблюдение "пациенты принимающие лекарство выздоравливают чаще" может быть артефактом отбора: более здоровые пациенты сами выбирают лекарство. do(X) - это принудительная интервенция, которая разрывает эту связь.

**do-оператор Перла:** do(X=x) означает "принудительно установить X=x". Графически - удалить все входящие стрелки в X. После этого X больше не зависит от конфаундеров. Разница P(Y|do(X)) - P(Y) - это истинный каузальный эффект X на Y.

Backdoor и Frontdoor критерии

Перл доказал: если можно идентифицировать набор переменных Z, блокирующих все "backdoor" пути (через конфаундер X ← ... → Y), то P(Y|do(X)) можно вычислить из наблюдательных данных без реального эксперимента.

КритерийКогда применятьФормула
BackdoorZ блокирует все backdoor пути X←...→Y, Z - не потомок XP(Y|do(X)) = sum_z P(Y|X,Z) P(Z)
FrontdoorBackdoor недоступен, но есть медиатор M: X→M→YP(Y|do(X)) = sum_m P(M|X) sum_x' P(Y|M,x') P(x')
RCTРандомизация устраняет все конфаундеры экспериментальноP(Y|do(X)) = P(Y|X) напрямую

Backdoor: эффект лечения с конфаундером Age

Граф: Age → Treatment, Age → Recovery, Treatment → Recovery. Backdoor path: Treatment ← Age → Recovery. Z = {Age} блокирует его. Формула: P(Recovery | do(Treatment)) = sum_age P(Recovery | Treatment, Age) P(Age). Вычислить из данных без рандомизации.

Frontdoor criterion нужен редко - обычно хватает backdoor

Frontdoor критически важен когда конфаундер ненаблюдаем (U скрытый)

Классический пример - курение (X) → смола в лёгких (M) → рак (Y), с возможным скрытым генетическим конфаундером U. Backdoor не работает (U ненаблюдаем). Frontdoor через медиатор M позволяет оценить P(Cancer|do(Smoking)) из чисто наблюдательных данных.

В чём главная разница между P(Y|X) и P(Y|do(X))?

Контрфактуальное рассуждение

**L3 - самый мощный уровень: "Пациент не принимал лекарство и умер. Выжил бы он, если бы принял?"** Это не интервенция в будущее (L2) - это ретроспективный вопрос о конкретном случае. Перл доказал: для ответа нужна структурная каузальная модель (SCM) плюс три шага.

**Три шага контрфактуального вывода:** 1. Abduction - вывести экзогенные переменные U из наблюдённых фактов. 2. Action - применить гипотетическую интервенцию do(X=x'). 3. Prediction - прогнать модель вперёд с теми же U и новым X. Результат: что произошло бы в том же мире, но с другим выбором.

**Контрфактуалы не идентифицируемы из данных в общем случае.** Даже зная P(Y|do(X)) для всех X, нельзя вычислить P(Y_x=y|X=x', Y=y') без структурной модели. Это фундаментальное ограничение - отдельный случай требует индивидуальной абдукции U, а не только популяционной статистики.

Контрфактуал - это просто интервенционный запрос P(Y|do(X)) с другим X

Контрфактуал - это вопрос о конкретном мире с конкретными U, а не о распределении при интервенции

P(Y|do(X)) - интервенция в будущее для популяции. P(Y_x|X=x', Y=y') - вопрос о конкретном прошедшем случае. Разные математические объекты. Пациент, который умер при одном лечении, мог бы не выжить при другом даже если P(survive|do(treatment=1)) высокое.

Почему для контрфактуала нужны конкретные факты случая, а не только каузальная модель?

Планирование через контрфактуальное воображение

**Планирование - это симуляция контрфактуалов: "что произойдёт, если я сделаю X?"** Это ровно L2-L3 рассуждения. LLM работают на L1 - они воспроизводят текстовые паттерны причинных объяснений, но не имеют каузальной модели мира. Поэтому они могут имитировать планирование, но не выполнять его надёжно.

СистемаУровеньСпособностьОграничение
Классический ML (SVM, RF)L1Корреляции в данныхНет понимания причин
LLM (GPT, Claude)L1 + имитация L2-L3Воспроизводит паттерны причинных рассужденийНет каузальной модели мира
Causal ML (DoWhy, EconML)L2Оценка эффектов интервенцийТребует корректной модели
Structural Causal ModelL2 + L3Интервенции + контрфактуалыТрудно верифицировать модель
CFR (Libratus, AlphaStar)L2-L3Планирование в неполной информацииТолько для задачных сред

**Ключевой инсайт:** воображение работает через ту же каузальную модель, что и восприятие, но с "отключённой" сенсорикой. Именно поэтому Embodied Cognition и Predictive Processing (уроки 15, 12) фундаментально связаны с причинностью - generative model мозга является каузальной моделью мира.

Связь с другими темами курса

Причинность - фундамент для планирования и настоящего понимания агентов.

  • Embodied Cognition — Affordances - каузальное знание: действие → следствие в окружающей среде
  • Predictive Processing — Generative model мозга - каузальная модель мира для предсказания входов
  • Cognitive Architectures — Архитектуры класса SOAR/ACT-R включают causal reasoning для планирования действий

Chain-of-Thought и пошаговые подсказки превращают LLM в каузальный планировщик

CoT повышает качество L1-имитации, но не создаёт каузальную модель: для L2-L3 нужны переменные U, do-операция и абдукция, а не более длинная текстовая цепочка

CoT помогает в задачах где правильный ответ - функция от наблюдений в обучающей выборке. Контрфактуал и интервенция требуют структурного объекта (SCM), который LLM не строит. На out-of-distribution каузальных задачах (модифицированные варианты парадокса Симпсона, переформулированные RCT) CoT-агенты ломаются предсказуемым образом - это эмпирически подтверждено в работах Schölkopf et al. и benchmark CLadder.

Связь с предыдущим

Predictive Processing задаёт уровень L1 (корреляция), Embodied Cognition - сенсомоторный субстрат интервенций. Causal inference замыкает картину формальным языком L2/L3.

  • Predictive Processing — L1-машина по Перлу: моделирует P(Y|X), но не P(Y|do(X))
  • Embodied Cognition — сенсомоторный субстрат для интервенций, превращающих корреляцию в causal evidence
  • Pearl ladder of causation — формальный язык, объясняющий потолок L1 у чисто статистических LLM-систем

Итоги

  • Лестница Перла: L1 ассоциация (P(Y|X)), L2 интервенция (P(Y|do(X))), L3 контрфактуал (P(Y_x|X'=x', Y'=y')) - каждый уровень строго мощнее предыдущего и не сводится к нему
  • do-оператор отличается от условной вероятности: do(X=x) удаляет все входящие стрелки в X в графе SCM, обнуляя влияние конфаундеров на X
  • Backdoor criterion даёт критерий идентификации эффекта: блокировать все backdoor-пути между X и Y через множество Z, не открывая новые через коллайдеры
  • Контрфактуал требует трёх шагов: abduction (восстановить P(U|evidence)), action (применить do), prediction (вычислить Y в модифицированной модели) - L1 и L2 данных недостаточно
  • LLM на корреляционных данных принципиально остаются на L1: без явной SCM-структуры они проваливают out-of-distribution каузальные тесты (бенчмарк CLadder, модифицированный Simpson's Paradox)

Вопросы для размышления

  • Вспомни утверждение из новостей или исследования, которое звучало как причинное. Какого уровня было это утверждение на самом деле - L1, L2 или L3? Что нужно было бы сделать, чтобы проверить его как L2?

Связанные уроки

  • aut-15-embodied — Embodied агент создаёт причинные цепи в среде
  • aut-13-iit — IIT phi - мера каузальной интегрированности
  • prob-04-bayes — Байесовский вывод - основа каузального обновления
  • cc-01-dags — Causal DAG - формальный язык причинности Pearl
  • cc-09-counterfactuals — Контрфактуалы - следующий уровень каузального вывода
  • prob-03-conditional
Причинный вывод и контрфактуалы

0

1

Войти

Почему LLM не могут надёжно решать задачи планирования, требующие L2-L3 рассуждений?