Causal Calculus

Causal AI в продакшне

2023 год. Команда выкатывает causal model в production: 6 месяцев работы, paper-quality математика. Через неделю менеджер замечает: оценка ATE на 200% отличается от A/B теста. Причина: positivity violation в одной из подгрупп - 5% пользователей имеют propensity score 0.99. Книги об этом не пишут. Курсы тоже. А именно эта разница между академической оценкой и реальностью съедает 90% causal-проектов в индустрии.

Booking.com: 25k экспериментов/год через TMLE-pipeline
Stripe Radar: causal models для fraud false-positive reduction
Uber Eats: causal forests для menu recommendations

TMLE: targeted maximum likelihood estimation

TMLE (van der Laan, Rose 2011) - современный standard для causal inference в продакшне. Метод сочетает гибкость machine learning для оценки nuisance-функций и асимптотическую эффективность semiparametric теории. FDA принимает TMLE-анализы для регистрации препаратов, Booking.com и Netflix используют его в A/B-тестировании для снижения дисперсии оценки ATE на 30% и более.

**TMLE pipeline (две стадии):** (1) initial estimator $\hat{Q}^0(A, W) = \mathbb{E}[Y \mid A, W]$ - регрессия исхода; (2) targeting step: пересчёт $\hat{Q}^0$ вдоль score-направления для эффекта лечения, через clever covariate $H(A, W) = \frac{A}{\hat{g}(W)} - \frac{1-A}{1-\hat{g}(W)}$, где $\hat{g}$ - propensity score.

Plug-in оценка: $\hat{\Psi}_{TMLE} = \frac{1}{n}\sum_i \bigl(\hat{Q}^*(1, W_i) - \hat{Q}^*(0, W_i)\bigr)$. Targeting гарантирует, что эмпирическое среднее efficient influence function равно нулю - именно это даёт асимптотическую нормальность и доверительные интервалы корректного покрытия.

**Doubly robust:** оценка $\hat{\Psi}_{TMLE}$ остаётся consistent, если корректна хотя бы одна из двух моделей - либо outcome regression $\hat{Q}$, либо propensity $\hat{g}$. Это критично для production: одна спецификация почти наверняка ошибочна, две одновременно ошибочны редко.

**Применения:** Booking.com снижает дисперсию ATE на ~30% через TMLE против naive difference-in-means. В фармацевтических RCT TMLE используется для adjustment по baseline covariates без нарушения randomization-валидности.

Что гарантирует свойство doubly robust в TMLE?

Sensitivity analysis: устойчивость к unmeasured confounders

Любая observational оценка ATE опирается на предпосылку no unmeasured confounding. Эта предпосылка в общем случае непроверяема в данных. Sensitivity analysis отвечает на чёткий вопрос: насколько сильным должен быть скрытый confounder, чтобы полностью объяснить наблюдаемый эффект?

**E-value (VanderWeele, Ding 2017):** минимальная сила связи (через risk ratio), которую неизмеренный confounder $U$ должен иметь одновременно с лечением и с исходом, чтобы редуцировать наблюдаемое RR до 1. Формула для observed RR > 1: $E = RR + \sqrt{RR \cdot (RR - 1)}$. E = 1 означает полное отсутствие защиты, E = 5 означает - confounder должен быть очень силён.

**Rosenbaum bounds:** допускают, что лечение присвоено не случайно, а с относительным шансом $\Gamma \geq 1$. Метод вычисляет минимальное $\Gamma$, при котором p-value наблюдаемого эффекта становится незначимым. Manski bounds дают непараметрический интервал значений ATE при максимально пессимистичных предположениях о confounding.

**Без секции sensitivity analysis observational causal claim не годится для деплоя.** В peer-review medical journals это уже стандарт; в ML-команд - часто игнорируется до первого incident.

**Применения:** Microsoft DoWhy включает sensitivity testing в API: refute_estimate с методами add_unobserved_common_cause, placebo_treatment_refuter. Стандартная практика: указывать E-value рядом с ATE и доверительным интервалом в любом отчёте.

Наблюдаемый relative risk RR = 2.0, E-value = 3.4. Что это означает для уверенности в causal claim?

Production pipeline для causal models

Production causal pipeline отличается от academic notebook на порядок по количеству guardrails. Минимальный набор шагов: data validation -> identifiability check -> estimation method selection (TMLE / Causal Forest / DR-learner) -> sensitivity analysis -> доверительные интервалы -> сравнение с A/B тестом, если он есть.

**Самые частые failure modes:** (1) positivity violation - в подгруппах propensity score близок к 0 или 1; (2) measurement error в confounders - даже малая ошибка измерения сильно смещает ATE; (3) post-treatment bias от использования переменных, которые сами зависят от лечения; (4) selection bias из-за неответов или потери observation.

**Tooling stack 2024-2026:** DoWhy и EconML (Microsoft) - identifiability + estimation; CausalML (Uber) - heterogeneous treatment effects на больших данных; TMLE-libraries (zEpid, tlverse) - semiparametric estimation; внутренние causal frameworks Stripe, Booking.com, Netflix - закрытые реализации этих же идей с monitoring-инфраструктурой.

**Monitoring в проде:** drift в распределении propensity score (Kullback-Leibler divergence между train и production), стабильность ATE по time slices (rolling window), falsification tests с negative control outcomes - переменными, на которые лечение причинно повлиять не может.

**Применения:** Uber Eats - causal forests для menu recommendations (heterogeneous effects по cohort); Stripe Radar - causal models для снижения false-positive в fraud detection; Booking.com - 25k экспериментов в год через стандартизованный TMLE-pipeline с автоматическими guardrails.

Какой production failure mode вызывает самые крупные ошибки оценки ATE на практике?

Interpretability: коммуникация causal-результатов

Stakeholders принимают решения, а не читают точечные оценки. Вопрос менеджера звучит как 'что произойдёт, если развернуть фичу на 10% больше пользователей', а не 'каков ATE = 0.034 [0.018, 0.051]'. Перевод между этими двумя языками - core skill applied causal-команды.

**Counterfactual narratives:** 'Без интервенции X примерно 1200 пользователей не сконвертировались бы' звучит сильнее и понятнее, чем 'ATE = 0.034'. Переход от per-unit эффекта к population-level числу делает результат actionable. Уровень неопределённости передаётся доверительным интервалом и sensitivity-диапазоном.

**Falsification tests:** negative control exposures - placebo-вмешательства, которые причинно не должны влиять на исход. Если метод находит эффект там, где его быть не может, есть unmeasured confounding или другая структурная ошибка. Этот тест ловит случаи, которые обычные внутренние метрики пропускают.

**Uncertainty communication обязательна.** Деплой решения 'ATE = 0.034' без указания CI или sensitivity-диапазона неэтичен и приводит к разрушительным последствиям при первом же distribution shift.

**Применения:** Stripe - решения causal-моделей о fraud действиях проходят review trust & safety команды до автоматизации. Pinterest - causal explanations включаются в algorithmic feed disclosures для регуляторного compliance.

Зачем включать negative control exposures в production causal pipeline?

Итоги

TMLE даёт doubly robust оценку ATE: достаточно корректности либо outcome-модели, либо propensity-модели - не обеих сразу
Sensitivity analysis (E-value, Rosenbaum bounds, Manski bounds) количественно отвечает на вопрос: насколько сильным должен быть unmeasured confounder, чтобы обнулить эффект
Production pipeline для causal models: data validation -> identifiability check -> estimation -> sensitivity -> CI -> A/B comparison. Каждый шаг ловит отдельный класс ошибок
Stakeholders понимают counterfactual narratives и решения, а не точечные оценки ATE с доверительными интервалами

Связанные темы

Куда ведут causal в продакшне:

Double ML и CATE — Production-готовые оценки гетерогенных эффектов
Causal Representation Learning — Связка с deep learning для feature stability
Statistical estimation — TMLE - продвинутый estimator из общей теории

Вопросы для размышления

В наблюдательном исследовании эффекта рекламы получено ATE = 0.05 с E-value = 1.3. Менеджер требует деплой. Какие риски стоит обозначить и какой sensitivity-аргумент честно отражает ситуацию?
A/B тест показывает ATE = 0.02, а TMLE на observational данных - ATE = 0.08. Какие три типичных источника расхождения между этими цифрами и как их различать?
Команда деплоит causal model для решения о выдаче скидок. Через месяц propensity score у 8% пользователей становится близок к 0 или 1. Что произошло с identifiability и какие действия требуются прежде чем продолжать использовать модель?

Связанные уроки

cc-12-double-ml-cate — TMLE builds on double ML foundations
cc-13-causal-repr — Causal representations are inputs to production pipelines
cc-09-counterfactuals — Counterfactual reasoning underlies stakeholder communication
stat-02-estimation — TMLE is an advanced semiparametric estimator
lt-01-pac-intro — Both deal with provable bounds on out-of-sample performance