Causal Calculus

Идентификация: однозначность causal effect

Корреляция значима на 5M примерах, p-value $< 10^{-6}$. Регрессия выдаёт коэффициент $0.42$. Можно деплоить? Если в DAG есть скрытый confounder, ответ может оказаться $-0.2$ или $+1.0$ - наблюдения не различают эти миры. Identifiability - формальный тест, отвечающий на вопрос "имеет ли вообще смысл что-то оценивать" ДО любой регрессии.

**Microsoft DoWhy:** библиотека первым шагом проверяет идентифицируемость через ID-алгоритм. Если FAIL - возвращает explanation, а не estimate; десятки production-команд внутри Microsoft строят свои причинные пайплайны поверх этой проверки.
**Stripe Radar:** отказы fraud-моделей в production часто происходят из-за того, что наблюдательная корреляция перестаёт совпадать с causal effect при изменении распределения. ID-check на этапе разработки отсеивает unidentifiable target metrics до релиза.
**Booking.com:** для UX-экспериментов публикует point estimate, CI и Manski bounds; решение по фиче замораживается, если bounds пересекают ноль, даже при значимом p-value.

Предварительные знания

Backdoor и frontdoor criteria (cc-03, cc-04)
$d$-разделение и блокировка путей в DAG (cc-02)
Три правила do-исчисления (cc-06)

Понятие идентификации

Identifiability - центральный вопрос causal inference: можно ли $P(Y \mid \text{do}(X))$ вычислить из наблюдательного распределения $P(Y, X, Z, \ldots)$, не проводя интервенцию? Если ДА - effect идентифицируем, и ответ единственный, не зависящий от значений неизмеренных confounders. Если НЕТ - то же самое наблюдательное распределение совместимо с разными causal stories, и без RCT никаких количественных выводов о $\text{do}(X)$ сделать нельзя.

Контрпример простейший: confounder $U \to X$, $U \to Y$, причём $U$ не наблюдается. Условное $P(Y \mid X)$ всегда оценимо из данных, но $P(Y \mid \text{do}(X))$ - нет, потому что разные распределения $U$ дают разные интервенционные ответы при одинаковом совместном $P(Y, X)$. Поэтому корреляция и каузация в этом случае могут отличаться радикально, вплоть до смены знака (парадокс Симпсона).

**ML-приложение - drug efficacy:** наблюдательное исследование показывает положительную корреляцию между приёмом препарата и выздоровлением. Но без проверки идентифицируемости нельзя отличить "лекарство работает" от "здоровые пациенты с большей вероятностью соглашаются на терапию" (selection bias через $U$ = baseline health). Microsoft DoWhy первым шагом проверяет идентифицируемость через graph algorithms - если effect не identifiable, библиотека отказывается выдавать point estimate.

Identifiability - свойство пары (DAG, observed distribution), а не свойство данных самих по себе. Та же таблица данных идентифицируема при одной структурной модели и неидентифицируема при другой. Поэтому обоснование DAG - часть валидации, и это не статистическая проверка, а аргумент из domain knowledge.

Что означает идентифицируемость causal effect $P(Y \mid \text{do}(X))$ из наблюдательных данных?

ID-алгоритм Tian-Pearl и три критерия

Идентифицируемость в DAG проверяется через известные критерии. Три классических достаточных - и один общий полный.

**Backdoor:** найти набор $Z$ наблюдаемых переменных, блокирующий все backdoor-пути из $X$ в $Y$. Тогда $P(Y \mid \text{do}(X)) = \sum_z P(Y \mid X, Z=z) P(Z=z)$. **Frontdoor:** если backdoor невозможен из-за hidden confounder, использовать медиатор $M$, через который $X$ полностью влияет на $Y$ и который сам не зависит от скрытого confounder-а напрямую. **Instrumental variable:** внешний источник вариации $Z$, влияющий на $Y$ только через $X$.

**Pearl do-calculus** - три аксиомы преобразования выражений с $\text{do}(\cdot)$. Полнота (Shpitser, Pearl 2006): эффект identifiable тогда и только тогда, когда выводим последовательным применением трёх правил. Это значит: если ни один формальный вывод не работает, никакая хитрая параметризация тоже не поможет - нет identifiability в принципе.

**ID-algorithm Tian-Pearl (2002, 2006)** автоматизирует проверку: на вход - DAG и пара $(X, Y)$, на выход - либо формула в терминах $P(\text{observed})$, либо доказательство неидентифицируемости. Алгоритм полный: что он не нашёл, того не существует.

**ML-приложение - production:** Microsoft DoWhy и Stripe Radar используют ID-алгоритм для авто-выбора estimator. На вход - DAG из expert knowledge или causal discovery, на выход - либо identification formula, либо отказ. Booking.com отчитывался: их causal pipeline ВСЕГДА начинается с ID-проверки, до любой регрессии или ML-модели; estimator выбирается уже на основе формулы.

В DAG: $U \to X \to M \to Y$, $U \to Y$, причём $U$ не наблюдается, $M$ наблюдается. Какой критерий применим?

Hedges, неидентифицируемость и bounds

Когда ID-алгоритм отказывается? Shpitser-Pearl (2006) дали структурный критерий: effect неидентифицируем тогда и только тогда, когда в DAG есть **hedge** - пара C-компонент, одна вложена в другую и обе содержат вершину из $X$. Hedge - формальное препятствие: никакая комбинация трёх правил do-исчисления не позволит выразить $P(Y \mid \text{do}(X))$ через наблюдаемое.

Простейший hedge - **bow arc**: $X \to Y$ плюс bidirected edge $X \leftrightarrow Y$ (общий скрытый предок $X$ и $Y$, оба недостижимы для условия). Тогда наблюдательное $P(Y \mid X)$ совместимо с любым $P(Y \mid \text{do}(X))$ в широком диапазоне.

Что делать, если effect неидентифицируем? Не сдаваться. Альтернативы есть.

**Manski bounds (partial identification):** дать диапазон $[L, U]$, в который причинный эффект гарантированно попадает при любых значениях скрытых параметров. Без сильных предположений bounds могут быть широкими, но они корректны - и часто ширина уже отвечает на бизнес-вопрос ("даже верхняя граница ниже стоимости").

**Sensitivity analysis:** насколько сильным должно быть скрытое confounding, чтобы перевернуть вывод? E-value, Rosenbaum bounds, методы VanderWeele. Если для отрицания эффекта нужен confounder, объясняющий 80% вариации - вывод робастен. Если хватает 5% - хрупок.

**Bayesian partial identification:** prior на ненаблюдаемые параметры плюс observed data дают posterior с широким credible interval. Решение принимается с явным указанием неопределённости.

**ML-приложение - Booking.com:** для решений по UX-экспериментам публикуют point estimate ATE, $95\%$ confidence interval AND Manski bounds в случаях, когда identifiability под вопросом. Если bounds пересекают ноль - решение откладывается до RCT, даже если point estimate значим. Это снимает риск бизнес-провалов из-за hidden confounding.

Если выборка достаточно велика, любой causal effect можно оценить - просто нужно больше данных и сложнее модель

Identifiability - структурное свойство DAG, а не статистическое. Если есть hedge, никакой объём данных и никакая ML-модель не дадут unbiased estimate; bounds и sensitivity - корректный ответ

Causal effect - функционал интервенционного распределения, а не наблюдательного. Из observational данных доступна только проекция; восстановить полное распределение можно лишь при структурных ограничениях DAG. Бесконечная выборка убирает variance, но не bias - смещение определяется не данными, а моделью

ID-алгоритм вернул FAIL: effect неидентифицируем из-за hedge. Выборка 5M, p-value $< 0.001$ для условной корреляции. Что корректнее всего сделать?

Ключевые идеи

**Identifiability** - однозначная вычислимость $P(Y \mid \text{do}(X))$ из наблюдательного $P(\text{observed})$ при заданной структуре DAG; свойство модели, а не данных.
**Три критерия** дают достаточные условия: backdoor (условие на наблюдаемый блокирующий набор), frontdoor (через медиатор), instrumental variable (внешняя вариация). **do-calculus** - полная аксиоматика, ID-алгоритм Tian-Pearl - её алгоритмическая реализация.
**Hedge** - структурное препятствие: пара вложенных C-компонент, делающая effect принципиально невычислимым. Никакая выборка и никакая модель не убирают bias.
**Когда не идентифицируется** - Manski bounds, sensitivity analysis, Bayesian partial identification дают честный диапазон вместо ложного point estimate.

Связанные темы

Идентифицируемость - центральный узел всего causal pipeline. Без неё каждый последующий шаг (estimation, sensitivity, deployment) рискует быть бессмысленным.

Backdoor criterion — Простейший достаточный критерий идентификации - ищем наблюдаемый блокирующий набор
Frontdoor criterion — Альтернативный путь, когда backdoor падает из-за hidden confounder
Three Rules of do-calculus — Полная аксиоматика идентификации; ID-алгоритм - её автоматизация

Вопросы для размышления

В рабочем датасете есть $5{,}000{,}000$ наблюдений и регрессия даёт $\hat{\beta} = 0.42$ с tight CI. Какие шаги нужны, прежде чем интерпретировать $\hat{\beta}$ как causal effect?
Почему идентифицируемость - свойство пары (DAG, distribution), а не отдельно данных? Какие следствия это имеет для валидации causal-моделей в продакшне?
В каком случае рациональнее опубликовать Manski bounds вместо point estimate, и как такой результат коммуницировать stakeholder-у, привыкшему видеть единственное число?

Связанные уроки

cc-03-backdoor — Backdoor criterion - первый и базовый достаточный признак идентифицируемости
cc-04-frontdoor — Frontdoor criterion даёт идентификацию там, где backdoor падает из-за hidden confounder
cc-06-do-calculus — Три правила do-исчисления - полная аксиоматика идентифицируемости в DAG
cc-08-mediation — Идентификация NDE и NIE - частный случай условной идентификации (IDC)
cc-11-causal-discovery — ID-алгоритм опирается на known DAG; causal discovery восстанавливает структуру из данных
stat-01-sampling