Causal Calculus

Оператор do(X): интервенция vs наблюдение

Каждая нейросеть обучается на $P(Y|X)$. Мир работает через $\text{do}(X)$. Модель, обученная на $P(\text{госпитализация}|\text{курение})$, не предскажет $P(\text{госпитализация}|\text{do}(\text{бросить курить}))$ - даже с бесконечными данными. Это не проблема данных. Это проблема языка. Judea Pearl потратил 20 лет чтобы объяснить разницу математически.

**RCT vs observational:** клинические испытания физически реализуют do(лечение) через рандомизацию - стоимость USD 100-800M за препарат. Causal inference на observational data - попытка получить тот же ответ из наблюдений, если DAG позволяет
**IRM (Arjovsky 2019):** Invariant Risk Minimization ищет признаки с инвариантным предиктором across environments - попытка ML выйти со ступени 1 на ступень 2 лестницы Pearl без явного DAG
**XAI и контрфактуалы:** объяснение 'что изменить в X чтобы Y стало y' - прямое применение do-оператора. LIME и SHAP работают на ступени 1, настоящие counterfactual explanations требуют ступени 3

Предварительные знания

DAG и d-separation: читать потоки информации в каузальном графе
Backdoor criterion: когда conditioning на Z даёт несмещённую оценку

Frontdoor criterion

Наблюдение vs интервенция

1995 год. Judea Pearl доказывает утверждение, которое звучит философски, но является строгой математикой: **корреляция никогда не станет причинностью - даже при бесконечном количестве данных.** Единственный выход - новый оператор в языке вероятности.

Обычная условная вероятность $P(Y|X=x)$ - это наблюдение: отбираем из имеющейся популяции тех, у кого $X = x$, и смотрим на $Y$. Оператор $\text{do}(X=x)$ - это интервенция: **хирургически** устанавливаем $X = x$ для всей популяции, независимо от естественных причин $X$.

В ML-контексте: каждая нейросеть, обученная на $P(Y|X)$, находит корреляции. Если в обучающей выборке курящие чаще болеют раком - модель выучит эту связь. Но если рак вызывается генетикой (которая также заставляет курить), модель предскажет: "бросить курить не снизит риск рака" - потому что observational data это поддерживают. Интервенционный вопрос требует другого инструмента.

**Лестница причинности Pearl (три ступени):** - **Ступень 1 (Association):** $P(Y|X)$ - корреляция, наблюдение. Любой ML-алгоритм работает здесь. - **Ступень 2 (Intervention):** $P(Y|\text{do}(X))$ - интервенция, причинный эффект. Требует causal graph. - **Ступень 3 (Counterfactual):** $P(Y_{x'}|X=x, Y=y)$ - "что было бы если". Требует структурных уравнений. ML в 2024 году живёт преимущественно на ступени 1. IRM, DML, causal discovery пытаются выйти на ступень 2.

В датасете госпитализированные вакцинированные пациенты умирают от COVID реже, чем госпитализированные невакцинированные. Означает ли это P(смерть|вакцина=1) < P(смерть|вакцина=0) как причинный эффект вакцины?

Mutilated graph: хирургия на DAG

Как вычислить $P(Y|\text{do}(X=x))$ математически? Pearl даёт элегантный ответ через операцию **мутиляции графа** (graph surgery). Интервенция $\text{do}(X=x)$ эквивалентна удалению всех входящих рёбер в $X$ и установке $X = x$.

Удаление рёбер в X устраняет все причины, которые естественно влияли бы на X в реальном мире. Теперь единственная причина X - это наша интервенция. Именно это делает клинические испытания (RCT): рандомизация физически обрывает связь между характеристиками пациента и лечением.

**RCT vs обсервационное исследование через призму do-оператора:** - RCT: $P(\text{исход}|\text{do}(\text{лечение}=1))$ - физически реализованная мутиляция. Рандомизация = обрыв всех входящих рёбер. - Observational study: $P(\text{исход}|\text{лечение}=1)$ - смещённая оценка при наличии confounders. - Стоимость разрыва: RCT в фармакологии стоит USD 100-800 млн. Causal inference на observational data стоит вычислений - если граф идентифицируем.

Что происходит с рёбрами DAG при вычислении P(Y|do(X=x))?

Идентификация и IRM в ML

Мутиляция графа красива концептуально - но для вычисления $P(Y|\text{do}(X))$ нужны данные из мутилированного мира (RCT). На практике часто есть только observational data. Ключевой вопрос: **когда $P(Y|\text{do}(X))$ идентифицируемо** - то есть выразимо через $P(Y, X, Z, \ldots)$ из наблюдений?

Backdoor criterion (предыдущий урок) дал первый ответ: если $Z$ блокирует все backdoor paths от $X$ к $Y$, то: $$P(Y=y|\text{do}(X=x)) = \sum_z P(Y=y|X=x, Z=z) P(Z=z)$$ Это adjustment formula - тот самый "контроль конфаундера" из медицинской статистики, теперь с точным условием применимости.

**ML и причинность: IRM (Arjovsky et al. 2019).** Стандартный ERM (Empirical Risk Minimization) находит $\arg\min_h \mathbb{E}[L(h(X), Y)]$ - минимизирует риск по всему датасету. Если в данных есть spurious correlations (например, фоновый цвет изображения коррелирует с классом), ERM их выучит. IRM ищет признаки, которые дают инвариантный предиктор **across environments** - попытка найти причинные признаки, стабильные при разных $\text{do}$-интервенциях.

IRM - не решение проблемы причинности в ML, но первый систематический шаг. Контрфактуальные объяснения в XAI ("что изменить в $X$ чтобы получить другой $Y$") - ещё один практический выход do-оператора в индустрию.

Достаточно большой нейросети хватит данных чтобы выучить причинные зависимости

Без causal structure любой ML-алгоритм ограничен ступенью 1 лестницы Pearl - статистической ассоциацией

Pearl доказал теоремой: существуют задачи, где $P(Y|\text{do}(X)) \neq P(Y|X)$ при любом распределении, и никакой алгоритм, работающий только с $P(X, Y, Z)$, не может восстановить do-распределение без дополнительных предположений о структуре (DAG). Это не ограничение вычислительной мощности - это информационный барьер.

Модель обучена на P(Y|X) и показывает высокий accuracy. Гарантирует ли это что модель предскажет P(Y|do(X)) корректно при изменении среды?

Ключевые идеи

**$P(Y|X) \neq P(Y|\text{do}(X))$** при наличии конфаундеров - различие фундаментальное, не уменьшается с ростом данных
**Мутиляция графа:** $\text{do}(X=x)$ = удалить все входящие рёбра в X, зафиксировать X=x. Каузальный эффект считается в мутилированном мире
**Лестница Pearl:** ступень 1 (корреляция, весь ML) - ступень 2 (интервенция, do-оператор) - ступень 3 (контрфактуалы)
**Adjustment formula:** если backdoor criterion выполнен, $P(Y|\text{do}(X)) = \sum_z P(Y|X,Z=z)P(Z=z)$ - причинный эффект из observational data
**ML и причинность:** IRM ищет инвариантные признаки; контрфактуальные объяснения в XAI - практические выходы do-оператора в индустрию

Что дальше

Do-оператор открывает систему do-исчисления Pearl:

Do-calculus — Три правила трансформации do-выражений - полная аксиоматика идентификации
Идентифицируемость — Когда P(Y|do(X)) вычислимо из наблюдений без явного RCT
Контрфактуалы — Ступень 3: P(Y_x | X=x', Y=y') - что было бы при другом решении
DAG и d-separation — Фундамент: читать информационные потоки в каузальном графе

Вопросы для размышления

Google Ads показывает рекламу пользователям, которые похожи на тех, кто уже покупал товар. Это оценка P(покупка|показ рекламы) или P(покупка|do(показ рекламы))? Какую хочет рекламодатель?
В больших языковых моделях токен выбирается по P(токен|контекст). Это ступень 1 лестницы Pearl. Может ли LLM рассуждать о do-операторе корректно, не имея каузальной структуры?
Backdoor adjustment требует измеримого конфаундера Z. Что делать если конфаундер не наблюдаем (unobserved confounder)? Как frontdoor criterion помогает?

Связанные уроки

cc-04-frontdoor — Frontdoor criterion - первый пример вычисления do-выражений из наблюдений
cc-06-do-calculus — Три правила do-исчисления Pearl систематизируют трансформации do-выражений
cc-07-identifiability — Идентифицируемость: когда P(Y|do(X)) вычислимо из observational data
cc-09-counterfactuals — Контрфактуалы - третья ступень лестницы причинности, выше интервенций
lt-01-pac-intro — IRM (Invariant Risk Minimization) - попытка ML учить причинные признаки, а не корреляции
stat-01-sampling