Causal Calculus

Double ML и CATE: causal forests

2018: Виктор Чернозюков (MIT) и соавторы публикуют Double/Debiased ML в Econometrics Journal. До этого использование ML для контроля конфаундеров давало смещение оценки причинного эффекта до 100% за счёт регуляризации. Их двухшаговый алгоритм с cross-fitting восстанавливает root-n сходимость и делает любой ML-алгоритм пригодным для оценки nuisance functions. В том же году Вагер и Эти (Stanford) публикуют causal forests с honest trees - первый метод с валидными доверительными интервалами для CATE. Эти две работы запустили область causal ML.

**Персонализированная медицина:** исследование IPASS (NEJM, 2009) показало, что gefitinib (Iressa) при немелкоклеточном раке лёгких эффективен только у пациентов с мутацией EGFR. Это классический пример гетерогенного эффекта: общий ATE по всей популяции маскировал тот факт, что препарат полезен одной подгруппе и не превосходит химиотерапию у другой. После IPASS FDA-одобрение было ограничено EGFR-положительными пациентами.
**Политика занятости:** программы переквалификации (job training programs) - классический объект анализа CATE в эконометрике (LaLonde 1986, Dehejia & Wahba 1999). Effect heterogeneity по возрасту, образованию и предыдущему доходу делает таргетирование программ значительно эффективнее универсального покрытия.
**Uplift modeling в маркетинге:** crucial для retention-кампаний и скидок - вместо ATE надо знать, кто бы купил и без скидки (sleeping dogs), а кому скидка реально нужна (persuadables). Double ML и causal forests дают дебиасированные оценки CATE из обсервационных данных без A/B теста для каждого сегмента.

Предварительные знания

Потенциальные исходы: Y(0), Y(1), ATE = E[Y(1)-Y(0)]
Ignorability (unconfoundedness): Y(0),Y(1) perp D | X
Propensity score: e(x) = P(D=1|X=x)
Регуляризация в ML (Lasso, Random Forest) и её смещения
K-fold cross-validation

Conditional Average Treatment Effect (CATE)

**ATE (Average Treatment Effect)** - это среднее E[Y(1) - Y(0)] по всей популяции. Он отвечает на вопрос: "В среднем работает ли лечение?" Но средние скрывают критически важную информацию. **CATE** уточняет: tau(x) = E[Y(1) - Y(0) | X = x] - эффект для конкретного пациента (или сегмента) с характеристиками x. Разница между ATE и CATE - это разница между "аспирин снижает температуру" и "аспирин снижает температуру у взрослых мужчин с температурой выше 38.5 на 1.2 градуса".

**Потенциальные исходы (Neyman-Rubin framework):** каждый объект имеет два потенциальных исхода - Y(0) при отсутствии лечения и Y(1) при наличии. Наблюдается лишь один: Y = D*Y(1) + (1-D)*Y(0), где D - индикатор лечения. Фундаментальная проблема причинного вывода: нельзя наблюдать оба исхода одновременно.

Гетерогенность эффектов - не экзотика, а норма. В медицине - один и тот же препарат спасает одних и вредит другим в зависимости от генотипа. В экономике - субсидии работают для малого бизнеса и бесполезны для крупного. В онлайн-сервисах - скидка конвертирует новых пользователей и снижает маржу у лояльных. Игнорировать CATE значит принимать усреднённые решения там, где нужны персональные.

**Ловушка overlap:** если propensity score P(D=1|X=x) близко к 0 или 1 для некоторых значений x, оценка CATE в этой зоне крайне нестабильна. Никакой алгоритм не может надёжно оценить CATE там, где мы не наблюдаем контрфактуал. Всегда проверяй overlap перед интерпретацией результатов.

Исследование показало: ATE нового лекарства = +3 балла по шкале здоровья. Врач хочет назначить его всем пациентам. Что из этого является главным аргументом против?

Double/Debiased ML (Chernozhukov et al.)

В 2018 году Виктор Чернозюков (MIT) и соавторы опубликовали в Econometrics Journal работу "Double/Debiased Machine Learning for Treatment and Structural Parameters". Центральная проблема: если мы используем ML (Lasso, random forest) для контроля конфаундеров, регуляризация смещает оценку причинного эффекта - иногда до 100% смещения. Double ML решает это через двухшаговую "парциализацию" (partialling out).

**Cross-fitting - ключевой механизм.** Без него: nuisance model обучается на тех же данных, что и остатки. Регуляризация (L1/L2 в Lasso, деревья) создаёт корреляцию между fitted values и ошибками - это «regularization bias». Cross-fitting: K-fold, на каждом фолде nuisance модели обучаются на K-1 фолдах, предсказывают на оставшемся. Это разрывает корреляцию и восстанавливает root-n сходимость theta.

**Neyman orthogonality** - математическое основание метода. Момент-функция psi(theta, eta) для оценки theta должна иметь нулевую производную по nuisance параметрам eta в точке истинных значений: d/d_eta E[psi(theta_0, eta_0)] = 0. Это означает, что малые ошибки в оценке nuisance создают лишь ошибку второго порядка в theta - ошибка в theta = O(||eta_hat - eta_0||^2), а не O(||eta_hat - eta_0||). Именно поэтому можно использовать произвольный ML для nuisance без потери качества оценки theta.

**Double ML оценивает однородный эффект** (одно число theta), а не CATE. Для гетерогенных эффектов нужно либо расширение через R-learner, либо causal forests. Чернозюков и соавторы предложили расширение PLR (Partially Linear Regression) и interactive IV модели, но базовый алгоритм всё равно про скалярный theta.

Почему в Double ML используется cross-fitting (K-fold), а не простое разделение train/test?

Causal forests и мета-learners

2018 год: Стефан Вагер и Сьюзан Эти публикуют в JASA статью "Estimation and Inference of Heterogeneous Treatment Effects using Random Forests". Causal forests - это специализированный случай Generalized Random Forests (GRF), где каждое дерево оптимизирует не MSE предсказания, а вариацию лечебного эффекта между листьями. Вместо "похожие по X" деревья ищут разбиения по признаку "похожие по tau(X)".

**Honest trees - фундаментальный принцип.** Обычное дерево строит структуру (сплиты) и оценивает листья на одних и тех же данных - это приводит к смещению оценок в листьях. Честные деревья делят выборку: одна половина определяет структуру дерева (какие сплиты делать), вторая половина - оценивает CATE в каждом листе. Это позволяет строить валидные доверительные интервалы для tau(x).

**Выбор мета-learner на практике:** S-learner прост, но регуляризация часто занижает эффект обработки. T-learner работает при сбалансированных группах. X-learner выигрывает при сильном дисбалансе (treated << control или наоборот). R-learner (и causal forests как его частный случай) наиболее устойчив теоретически - ортогональность к nuisance ошибкам обеспечивает дебиасинг по аналогии с Double ML. На больших данных (>50k) разница нивелируется; на малых - X и R-learner превосходят T и S.

**Causal forests не идентифицируют структуру.** Они предполагают, что причинный граф (или хотя бы множество конфаундеров X) уже известен и допущение ignorability выполнено. Causal forests решают задачу оценки tau(x), но не задачу выбора правильного множества X для условной экзогенности.

Causal forests обнаруживают причинную структуру данных - какие переменные являются причинами, а какие следствиями

Causal forests оценивают гетерогенный эффект лечения tau(x) при заданной причинной структуре. Они предполагают, что конфаундеры X уже определены и ignorability выполнена

Термин «causal» в названии означает, что метод оценивает причинный эффект (а не просто предсказание), но не означает обнаружение причинных связей. Идентификация причинного графа - задача causal discovery (PC, FCI, NOTEARS из предыдущего урока).

В чём ключевое отличие «honest trees» в causal forests от обычных деревьев решений?

Ключевые идеи

**CATE tau(x) = E[Y(1)-Y(0)|X=x]** - гетерогенный эффект лечения, персонализированный для подгруппы x. ATE - частный случай: усреднение tau(x) по распределению X. Гетерогенность эффектов норма, а не исключение - игнорировать её значит принимать усреднённые решения там, где нужны персональные.
**Double ML (Chernozhukov 2018):** двухшаговый дебиасинг - предсказать Y и D из X любым ML (cross-fitting!), затем OLS на остатках. Neyman-orthogonality гарантирует, что ошибки nuisance функций дают лишь погрешность второго порядка в оценке эффекта. Работает для скалярного эффекта theta; для гетерогенного tau(x) нужны расширения.
**Causal forests (Wager & Athey 2018) и мета-learners:** causal forests - GRF с criterion на вариацию CATE + honest trees для валидных доверительных интервалов. Мета-learners (T/S/X/R) - гибкие оберки над любым ML. R-learner наиболее устойчив теоретически (ортогонален nuisance ошибкам). Все методы предполагают известную причинную структуру и ignorability - они оценивают CATE, а не обнаруживают причины.

Связанные темы

Double ML и causal forests строятся на фундаменте идентификации и связаны с несколькими темами курса:

DAG и потенциальные исходы — Ignorability в CATE - это backdoor criterion из DAG-теории. Правильный выбор множества X для conditioned effects требует знания графа.
Backdoor критерий — Множество X в CATE должно блокировать все backdoor пути D <- ... -> Y. Causal forests не выбирают X автоматически - это задача идентификации.
Контрфактуалы и structural causal models — CATE - это контрфактуальная разность E[Y_do(D=1) - Y_do(D=0) | X=x]. SCM дает формальное основание для потенциальных исходов.

Вопросы для размышления

Double ML требует ignorability: все конфаундеры включены в X. Как на практике проверить, что важный конфаундер не упущен - и что происходит с оценкой CATE при нарушении этого допущения?
R-learner и causal forests ортогональны ошибкам nuisance - значит ли это, что с достаточным количеством данных они дают правильный ответ независимо от качества nuisance моделей? Есть ли ситуации, где это не так?
Допустим, causal forests показывают, что эффект лечения для группы A значимо положительный, а для группы B - значимо отрицательный. Как принять управленческое решение с учётом доверительных интервалов, честности деревьев и возможной множественной проверки гипотез?

Связанные уроки

stat-01-sampling