Статистика
Потенциальные исходы (модель Рубина)
Цели урока
- Различать наблюдаемые и потенциальные исходы Y(1), Y(0)
- Записывать ATE, ATT, ATU, CATE и понимать, чем они отличаются
- Формулировать ignorability и overlap, объяснять их непроверяемость
- Связывать причинный вывод с off-policy evaluation в RL
- Распознавать selection bias как разность ATT и ATU
Предварительные знания
- Основы причинности и confounding
- Идея рандомизации в RCT
- Условные матожидания и базовая регрессия
1944, Нормандия. Один и тот же солдат получает один из двух приказов. Контрфакт - что было бы при другом приказе - навсегда останется неизвестен. Это и есть фундаментальная проблема причинности: для каждого юнита наблюдается только ОДИН из двух потенциальных исходов. Дональд Рубин в 1974 году превратил эту философскую проблему в работающий математический аппарат, и Y(1), Y(0) стали базой современного causal inference - от FDA до Meta.
- **FDA и фарма**: модель Рубина - стандарт регуляторики, оценка ATE препарата перед регистрацией
- **Tech A/B-тесты**: Meta, Google, Airbnb все используют framework потенциальных исходов для оценки фич
- **Healthcare**: персонализированная медицина строится на оценке CATE - кому препарат поможет больше
- **Reinforcement Learning**: off-policy evaluation - прямое применение counterfactual reasoning
- **Policy evaluation**: правительственные программы (минимальная зарплата, гранты) оцениваются через ATE
Рождение современного causal inference
В 1974 году Дональд Рубин опубликовал статью 'Estimating Causal Effects of Treatments in Randomized and Nonrandomized Studies', где формализовал модель потенциальных исходов. Идеи восходили к работе Ежи Неймана 1923 года (статья на польском о сельскохозяйственных экспериментах), но Рубин расширил аппарат на наблюдательные исследования, что было концептуальной революцией. Параллельно в 1990-х Джудеа Перл развил graph-based подход через DAG и do-calculus. Долгое время школы Рубина и Перла полемизировали, хотя математически эквивалентны. В 2010-х оба подхода слились в современный causal ML: DML Чернозукова (2018), Causal Forests Athey-Wager (2019), uplift modeling в индустрии.
Нотация Y(1) и Y(0): два мира одного человека
1944 год, Нормандия. Солдат получает один из двух возможных приказов: идти в атаку или удерживать позицию. Какой бы приказ ни поступил, второй сценарий - контрфакт - никогда не будет наблюдаем. В этом и состоит фундаментальная проблема причинности: один и тот же объект не может одновременно получить воздействие и не получить его. Дональд Рубин формализовал эту идею в 1974 году под названием 'модель потенциальных исходов', и простая запись Y(1) и Y(0) стала фундаментом современного причинного вывода - от клинических испытаний до A/B-тестов в техкомпаниях.
Для каждого юнита i (пациента, пользователя, региона) определяются два числа: Y_i(1) - исход при получении воздействия, Y_i(0) - исход без воздействия. Индивидуальный причинный эффект - это разность tau_i = Y_i(1) - Y_i(0). Если Аня приняла препарат и её давление упало на 10 единиц, это Y_Ани(1). Но что произошло бы с тем же организмом Ани в тот же момент без препарата - Y_Ани(0) - навсегда останется тайной.
Холланд (1986) назвал это 'фундаментальной проблемой причинного вывода': невозможно одновременно наблюдать Y(1) и Y(0) для одного и того же юнита. Все методы причинного вывода - способы обойти эту проблему за счёт усреднения по популяции.
В соцсетях вакцинация одного пользователя меняет вероятность заражения соседей по графу - это интерференция. В рекомендательных системах показ товара одному пользователю влияет на алгоритм для остальных. Когда SUTVA нарушено, нужны специальные методы: cluster randomization, network experiments, marketplace experiments.
ML-связь: offline policy evaluation
Логи продакшн-системы как потенциальные исходы
В offline reinforcement learning каждая залогированная траектория - это один из потенциальных исходов: то, что произошло при действиях текущей политики. Что произошло бы при действиях новой политики - контрфакт, который никогда не был наблюдаем. Importance sampling позволяет оценить ожидаемый исход новой политики, переваживая логи. Это та же логика, что и в модели Рубина: восстановить ненаблюдаемый потенциальный исход через статистические допущения.
Что такое 'фундаментальная проблема причинного вывода' по Холланду?
Каждый юнит фактически получает либо T=1, либо T=0 - и наблюдаемый исход соответствует лишь одному потенциальному исходу. Второй (контрфактический) исход всегда missing. Все методы причинного вывода - стратегии обойти эту missing data problem.
ATE, ATT, CATE: семейство средних эффектов
Если индивидуальный эффект ненаблюдаем, что вообще можно оценить? Ответ: средние эффекты по группам. Главные три величины - ATE, ATT, ATU - отличаются тем, по какой подгруппе берётся среднее. И различия между ними - не статистический шум, а индикатор selection bias, главного врага наблюдательных исследований.
ATE - средний эффект, если бы препарат дали всем подряд. ATT - средний эффект среди тех, кто реально получил препарат. ATU - средний эффект среди тех, кто его не получал (гипотетический). В RCT все три величины совпадают, потому что распределение в группе лечения статистически такое же, как и в контроле. В наблюдательных данных они расходятся - и именно это расхождение оценивает selection bias.
Препарат от давления
ATT и ATU расходятся - значит выбор лечения не случаен
В клинике препарат назначают самым тяжёлым пациентам - тем, у кого без лечения давление 180+. У них же физиологический потенциал к снижению давления больше: ATT = -20 единиц. Лёгкие пациенты препарат не получают, и их потенциальный эффект меньше: ATU = -8. Разница ATT - ATU = -12 - это сигнал, что лечение распределялось неслучайно. Если в наблюдательных данных оценивать ATE как простую разность средних, получится смесь причинного эффекта и selection bias.
CATE (Conditional ATE) - функция от ковариат: tau(x) = E[Y(1) - Y(0) | X = x]. Это уже не одно число, а целая функция, описывающая, как эффект зависит от характеристик юнита. Именно CATE нужна для персонализированных рекомендаций о лечении.
| Величина | Что оценивает | Когда полезна |
|---|---|---|
| ATE | Эффект на всю популяцию | Политические решения, обязательные программы |
| ATT | Эффект на тех, кто получил лечение | Оценка эффективности уже внедрённой программы |
| ATU | Гипотетический эффект на нелечённых | Стоит ли расширять программу на остальных |
| CATE tau(x) | Эффект как функция признаков | Персонализация: кому давать лечение |
Оценка CATE - центральная задача causal ML. Meta использует X-learner и DR-learner для предсказания, кому показ рекламы реально приносит конверсию (а не просто корреллирует с ней). Causal Forests (Athey, Wager 2019) дают непараметрическую оценку tau(x). Uplift modeling в маркетинге - это и есть CATE estimation: найти 'persuadables' - тех, для кого вмешательство максимально полезно.
Простое сравнение E[Y | T=1] - E[Y | T=0] в наблюдательных данных НЕ равно ATE. Разложение Холланда: E[Y | T=1] - E[Y | T=0] = ATT + selection bias. Selection bias = E[Y(0) | T=1] - E[Y(0) | T=0]: разница в том, что произошло бы без лечения у группы лечения и у контрольной группы. В RCT этот член равен нулю по построению.
Ignorability и Overlap: когда вообще можно оценить ATE
В RCT рандомизация гарантирует независимость воздействия от потенциальных исходов. В наблюдательных данных гарантий нет - нужны допущения. Два главных: ignorability (условная независимость) и overlap (positivity). Без них любая оценка ATE - это смесь причинности и selection bias. Эти допущения не проверяемы из самих данных - это содержательные гипотезы о механизме, которые опираются на знание предметной области.
Ignorability (она же strong ignorability, она же unconfoundedness) утверждает: после кондиционирования на наблюдаемых X, воздействие T статистически независимо от потенциальных исходов. То есть, все confounders включены в X. Если ignorability держится, то ATE идентифицируется как разность условных матожиданий, усреднённых по распределению X.
Overlap требует, чтобы в каждой страте X была хоть какая-то вероятность как получить воздействие, так и не получить. Если в стратах с X = x все юниты лечатся (P(T=1|X=x) = 1), то E[Y | T=0, X=x] не определено - и условный эффект нельзя оценить. На практике overlap часто нарушается на хвостах распределения признаков.
Чтобы проверить (Y(0), Y(1)) ⊥ T | X из данных, нужно наблюдать оба потенциальных исхода - что невозможно по фундаментальной проблеме. Поэтому ignorability - это всегда содержательная гипотеза о механизме отбора в лечение, а не статистическое заключение. Sensitivity analysis (урок 46) оценивает, насколько результат устойчив к скрытым нарушениям ignorability.
Когда ignorability ломается
Скрытый confounder и иллюзия эффекта
Хотим оценить эффект MBA на зарплату. В X включены: возраст, образование родителей, GPA. Кажется, что ignorability держится. Но 'мотивация' и 'связи' - не наблюдаемые - влияют и на решение получать MBA, и на будущую зарплату. Условная независимость нарушена. Простая регрессия выдаст оценку, которая на самом деле смешивает эффект MBA с эффектом мотивации. IV (урок 43) или RDD (урок 45) могут спасти, если найти подходящий инструмент или порог.
Никакая ML-модель не может сама определить, какие переменные нужно включить в X. Выбор confounders - это содержательное решение, требующее DAG-структуры (Перл) или знания механизма (Рубин). High-capacity модели вроде causal forests или DML дают эффективные оценки ATE/CATE - но только при условии, что аналитик правильно специфицировал, что включать в X. ML улучшает estimation, не identification.
Overlap можно проверить эмпирически: построить распределение propensity score e(X) = P(T=1|X) в группах лечения и контроля. Если хвосты сильно расходятся - overlap нарушен. Метод trimming: выкидывать юниты с e(X) близкими к 0 или 1, теряя обобщаемость, но сохраняя несмещённость.
Почему ignorability нельзя проверить из самих данных?
Ignorability - это условие независимости T от ПОТЕНЦИАЛЬНЫХ исходов Y(0), Y(1). Но по фундаментальной проблеме мы видим только один из двух. Поэтому проверка прямо из данных невозможна - ignorability всегда остаётся содержательной гипотезой о механизме отбора.
Контрфактическое мышление и off-policy evaluation
Контрфактическое мышление - 'что произошло бы, если...' - это не философский вопрос, а вычислимая величина в модели Рубина. RCT решают задачу через рандомизацию: если воздействие случайно, то группа контроля - валидный счётчик для группы лечения, потому что E[Y(0) | T=1] = E[Y(0) | T=0]. В наблюдательных данных приходится конструировать гипотетический контрфакт через модели и допущения.
Это равенство - сердце рандомизированных испытаний. Левый член - ненаблюдаем (что произошло бы с группой лечения без лечения), правый - наблюдается напрямую (что произошло с контрольной группой). Рандомизация делает их равными по построению, и средняя разность исходов даёт ATE без всяких допущений об X.
В off-policy evaluation в RL та же логика: оценить ожидаемую награду новой политики pi' по логам старой политики pi_0. Контрфакт - 'что было бы, если бы агент действовал по pi', - оценивается через importance sampling: r_estimate = (1/N) Σ (pi'(a|s) / pi_0(a|s)) * r.
ML-связь: importance sampling в RL
Контрфактическая оценка новой политики по старым логам
Recommender system запущен с политикой pi_0. За месяц собрано 100 млн логов: (state, action, reward). Дата-саентисты обучили новую политику pi' и хотят оценить её ожидаемую конверсию БЕЗ запуска в продакшн. Inverse propensity scoring: для каждой логированной тройки переваживаем reward на отношение pi'(a|s) / pi_0(a|s). Если pi' выбрала бы тот же action чаще - вес больше единицы, реже - меньше. Среднее перевзвешенных reward - оценка V(pi'). Это прямой аналог IPTW для причинного вывода.
Когда pi_0 и pi' сильно различаются, importance weights могут быть огромными, и оценка V(pi') становится очень шумной. Это аналог нарушения overlap в причинном выводе: если P(T=1|X) близко к 0 или 1, веса 1/e(X) взрываются. Методы стабилизации - clipping, snippet estimator, doubly robust - применимы в обоих контекстах.
CATE estimation - это и есть uplift modeling, центральная задача персонализации. Для каждого пользователя оценить tau(x) - сколько он купит при показе рекламы минус сколько без неё. Показывать только тем, у кого tau(x) > порога. Microsoft, Uber, Netflix используют эти методы для распределения промокодов, скидок, рекомендаций. Без causal framing уплифт-модели путают эффект интервенции с базовой склонностью к покупке.
Контрфактическое мышление меняет постановку задачи в ML. Стандартный supervised learning оценивает E[Y | X = x] - корреляционная величина. Causal ML оценивает E[Y(1) - Y(0) | X = x] - что произойдёт при интервенции. Эти задачи решают одни и те же данные, но требуют разных допущений и разных алгоритмов. Один и тот же признак x = 'клиент посетил сайт' может коррелировать с покупкой (correlation), но не вызывать её (causation), если оба зависят от 'интереса к продукту'.
Что в off-policy evaluation в RL играет роль propensity score?
Importance sampling переваживает логи на pi'(a|s) / pi_0(a|s). Знаменатель - вероятность реально наблюдаемого действия при политике сбора данных - это аналог e(X) в IPTW. Когда pi_0(a|s) близко к нулю, веса взрываются - тот же эффект, что и при нарушении positivity в причинном выводе.
Куда ведёт модель Рубина
Потенциальные исходы - фундамент, на котором строятся propensity score, IV, DiD, RDD, sensitivity analysis. Каждый из следующих методов - стратегия идентификации Y(0), Y(1) при разных допущениях.
- Propensity Score: matching и IPTW — Первая практическая стратегия идентификации ATE при ignorability - оценивает P(T=1|X) и использует для балансировки
- Инструментальные переменные — Стратегия идентификации LATE когда ignorability нарушена - использует внешний источник variation
Ключевые идеи
- Каждый юнит имеет два потенциальных исхода Y(1), Y(0); наблюдается только один
- Индивидуальный эффект tau_i = Y_i(1) - Y_i(0) ненаблюдаем - это fundamental problem
- ATE, ATT, ATU - средние эффекты по разным подгруппам; их различие диагностирует selection bias
- CATE tau(x) - условный эффект, основа персонализированных вмешательств и uplift modeling
- Ignorability и overlap - два допущения, делающие ATE идентифицируемым из наблюдательных данных
- Ignorability принципиально непроверяема из самих данных - всегда содержательная гипотеза
- Off-policy evaluation в RL - прямое применение counterfactual reasoning
Вопросы для размышления
- Почему индивидуальный причинный эффект tau_i никогда не наблюдается, но ATE можно оценить?
- В каких реальных ситуациях SUTVA нарушается, и какие методы это исправляют?
- Чем CATE отличается от обычного supervised learning - ведь оба оценивают условное матожидание?
- Какое допущение модели Рубина соответствует условию ограниченности importance weights в off-policy RL?
Связанные уроки
- stat-20-causal — База причинности и confounding
- stat-40-causal-rct — RCT решают проблему контрфактов
- stat-42-causal-propensity — Propensity score опирается на эту модель
- stat-43-causal-iv — IV - альтернатива при нарушении ignorability
- prob-03-conditional