Статистика

Потенциальные исходы (модель Рубина)

Цели урока

  • Различать наблюдаемые и потенциальные исходы Y(1), Y(0)
  • Записывать ATE, ATT, ATU, CATE и понимать, чем они отличаются
  • Формулировать ignorability и overlap, объяснять их непроверяемость
  • Связывать причинный вывод с off-policy evaluation в RL
  • Распознавать selection bias как разность ATT и ATU

Предварительные знания

  • Основы причинности и confounding
  • Идея рандомизации в RCT
  • Условные матожидания и базовая регрессия
  • Причинность и confounding
  • Randomized Controlled Trials

1944, Нормандия. Один и тот же солдат получает один из двух приказов. Контрфакт - что было бы при другом приказе - навсегда останется неизвестен. Это и есть фундаментальная проблема причинности: для каждого юнита наблюдается только ОДИН из двух потенциальных исходов. Дональд Рубин в 1974 году превратил эту философскую проблему в работающий математический аппарат, и Y(1), Y(0) стали базой современного causal inference - от FDA до Meta.

  • **FDA и фарма**: модель Рубина - стандарт регуляторики, оценка ATE препарата перед регистрацией
  • **Tech A/B-тесты**: Meta, Google, Airbnb все используют framework потенциальных исходов для оценки фич
  • **Healthcare**: персонализированная медицина строится на оценке CATE - кому препарат поможет больше
  • **Reinforcement Learning**: off-policy evaluation - прямое применение counterfactual reasoning
  • **Policy evaluation**: правительственные программы (минимальная зарплата, гранты) оцениваются через ATE

Рождение современного causal inference

В 1974 году Дональд Рубин опубликовал статью 'Estimating Causal Effects of Treatments in Randomized and Nonrandomized Studies', где формализовал модель потенциальных исходов. Идеи восходили к работе Ежи Неймана 1923 года (статья на польском о сельскохозяйственных экспериментах), но Рубин расширил аппарат на наблюдательные исследования, что было концептуальной революцией. Параллельно в 1990-х Джудеа Перл развил graph-based подход через DAG и do-calculus. Долгое время школы Рубина и Перла полемизировали, хотя математически эквивалентны. В 2010-х оба подхода слились в современный causal ML: DML Чернозукова (2018), Causal Forests Athey-Wager (2019), uplift modeling в индустрии.

Нотация Y(1) и Y(0): два мира одного человека

1944 год, Нормандия. Солдат получает один из двух возможных приказов: идти в атаку или удерживать позицию. Какой бы приказ ни поступил, второй сценарий - контрфакт - никогда не будет наблюдаем. В этом и состоит фундаментальная проблема причинности: один и тот же объект не может одновременно получить воздействие и не получить его. Дональд Рубин формализовал эту идею в 1974 году под названием 'модель потенциальных исходов', и простая запись Y(1) и Y(0) стала фундаментом современного причинного вывода - от клинических испытаний до A/B-тестов в техкомпаниях.

Для каждого юнита i (пациента, пользователя, региона) определяются два числа: Y_i(1) - исход при получении воздействия, Y_i(0) - исход без воздействия. Индивидуальный причинный эффект - это разность tau_i = Y_i(1) - Y_i(0). Если Аня приняла препарат и её давление упало на 10 единиц, это Y_Ани(1). Но что произошло бы с тем же организмом Ани в тот же момент без препарата - Y_Ани(0) - навсегда останется тайной.

Холланд (1986) назвал это 'фундаментальной проблемой причинного вывода': невозможно одновременно наблюдать Y(1) и Y(0) для одного и того же юнита. Все методы причинного вывода - способы обойти эту проблему за счёт усреднения по популяции.

В соцсетях вакцинация одного пользователя меняет вероятность заражения соседей по графу - это интерференция. В рекомендательных системах показ товара одному пользователю влияет на алгоритм для остальных. Когда SUTVA нарушено, нужны специальные методы: cluster randomization, network experiments, marketplace experiments.

ML-связь: offline policy evaluation

Логи продакшн-системы как потенциальные исходы

В offline reinforcement learning каждая залогированная траектория - это один из потенциальных исходов: то, что произошло при действиях текущей политики. Что произошло бы при действиях новой политики - контрфакт, который никогда не был наблюдаем. Importance sampling позволяет оценить ожидаемый исход новой политики, переваживая логи. Это та же логика, что и в модели Рубина: восстановить ненаблюдаемый потенциальный исход через статистические допущения.

Что такое 'фундаментальная проблема причинного вывода' по Холланду?

Каждый юнит фактически получает либо T=1, либо T=0 - и наблюдаемый исход соответствует лишь одному потенциальному исходу. Второй (контрфактический) исход всегда missing. Все методы причинного вывода - стратегии обойти эту missing data problem.

ATE, ATT, CATE: семейство средних эффектов

Если индивидуальный эффект ненаблюдаем, что вообще можно оценить? Ответ: средние эффекты по группам. Главные три величины - ATE, ATT, ATU - отличаются тем, по какой подгруппе берётся среднее. И различия между ними - не статистический шум, а индикатор selection bias, главного врага наблюдательных исследований.

ATE - средний эффект, если бы препарат дали всем подряд. ATT - средний эффект среди тех, кто реально получил препарат. ATU - средний эффект среди тех, кто его не получал (гипотетический). В RCT все три величины совпадают, потому что распределение в группе лечения статистически такое же, как и в контроле. В наблюдательных данных они расходятся - и именно это расхождение оценивает selection bias.

Препарат от давления

ATT и ATU расходятся - значит выбор лечения не случаен

В клинике препарат назначают самым тяжёлым пациентам - тем, у кого без лечения давление 180+. У них же физиологический потенциал к снижению давления больше: ATT = -20 единиц. Лёгкие пациенты препарат не получают, и их потенциальный эффект меньше: ATU = -8. Разница ATT - ATU = -12 - это сигнал, что лечение распределялось неслучайно. Если в наблюдательных данных оценивать ATE как простую разность средних, получится смесь причинного эффекта и selection bias.

CATE (Conditional ATE) - функция от ковариат: tau(x) = E[Y(1) - Y(0) | X = x]. Это уже не одно число, а целая функция, описывающая, как эффект зависит от характеристик юнита. Именно CATE нужна для персонализированных рекомендаций о лечении.

ВеличинаЧто оцениваетКогда полезна
ATEЭффект на всю популяциюПолитические решения, обязательные программы
ATTЭффект на тех, кто получил лечениеОценка эффективности уже внедрённой программы
ATUГипотетический эффект на нелечённыхСтоит ли расширять программу на остальных
CATE tau(x)Эффект как функция признаковПерсонализация: кому давать лечение

Оценка CATE - центральная задача causal ML. Meta использует X-learner и DR-learner для предсказания, кому показ рекламы реально приносит конверсию (а не просто корреллирует с ней). Causal Forests (Athey, Wager 2019) дают непараметрическую оценку tau(x). Uplift modeling в маркетинге - это и есть CATE estimation: найти 'persuadables' - тех, для кого вмешательство максимально полезно.

Простое сравнение E[Y | T=1] - E[Y | T=0] в наблюдательных данных НЕ равно ATE. Разложение Холланда: E[Y | T=1] - E[Y | T=0] = ATT + selection bias. Selection bias = E[Y(0) | T=1] - E[Y(0) | T=0]: разница в том, что произошло бы без лечения у группы лечения и у контрольной группы. В RCT этот член равен нулю по построению.

Ignorability и Overlap: когда вообще можно оценить ATE

В RCT рандомизация гарантирует независимость воздействия от потенциальных исходов. В наблюдательных данных гарантий нет - нужны допущения. Два главных: ignorability (условная независимость) и overlap (positivity). Без них любая оценка ATE - это смесь причинности и selection bias. Эти допущения не проверяемы из самих данных - это содержательные гипотезы о механизме, которые опираются на знание предметной области.

Ignorability (она же strong ignorability, она же unconfoundedness) утверждает: после кондиционирования на наблюдаемых X, воздействие T статистически независимо от потенциальных исходов. То есть, все confounders включены в X. Если ignorability держится, то ATE идентифицируется как разность условных матожиданий, усреднённых по распределению X.

Overlap требует, чтобы в каждой страте X была хоть какая-то вероятность как получить воздействие, так и не получить. Если в стратах с X = x все юниты лечатся (P(T=1|X=x) = 1), то E[Y | T=0, X=x] не определено - и условный эффект нельзя оценить. На практике overlap часто нарушается на хвостах распределения признаков.

Чтобы проверить (Y(0), Y(1)) ⊥ T | X из данных, нужно наблюдать оба потенциальных исхода - что невозможно по фундаментальной проблеме. Поэтому ignorability - это всегда содержательная гипотеза о механизме отбора в лечение, а не статистическое заключение. Sensitivity analysis (урок 46) оценивает, насколько результат устойчив к скрытым нарушениям ignorability.

Когда ignorability ломается

Скрытый confounder и иллюзия эффекта

Хотим оценить эффект MBA на зарплату. В X включены: возраст, образование родителей, GPA. Кажется, что ignorability держится. Но 'мотивация' и 'связи' - не наблюдаемые - влияют и на решение получать MBA, и на будущую зарплату. Условная независимость нарушена. Простая регрессия выдаст оценку, которая на самом деле смешивает эффект MBA с эффектом мотивации. IV (урок 43) или RDD (урок 45) могут спасти, если найти подходящий инструмент или порог.

Никакая ML-модель не может сама определить, какие переменные нужно включить в X. Выбор confounders - это содержательное решение, требующее DAG-структуры (Перл) или знания механизма (Рубин). High-capacity модели вроде causal forests или DML дают эффективные оценки ATE/CATE - но только при условии, что аналитик правильно специфицировал, что включать в X. ML улучшает estimation, не identification.

Overlap можно проверить эмпирически: построить распределение propensity score e(X) = P(T=1|X) в группах лечения и контроля. Если хвосты сильно расходятся - overlap нарушен. Метод trimming: выкидывать юниты с e(X) близкими к 0 или 1, теряя обобщаемость, но сохраняя несмещённость.

Почему ignorability нельзя проверить из самих данных?

Ignorability - это условие независимости T от ПОТЕНЦИАЛЬНЫХ исходов Y(0), Y(1). Но по фундаментальной проблеме мы видим только один из двух. Поэтому проверка прямо из данных невозможна - ignorability всегда остаётся содержательной гипотезой о механизме отбора.

Контрфактическое мышление и off-policy evaluation

Контрфактическое мышление - 'что произошло бы, если...' - это не философский вопрос, а вычислимая величина в модели Рубина. RCT решают задачу через рандомизацию: если воздействие случайно, то группа контроля - валидный счётчик для группы лечения, потому что E[Y(0) | T=1] = E[Y(0) | T=0]. В наблюдательных данных приходится конструировать гипотетический контрфакт через модели и допущения.

Это равенство - сердце рандомизированных испытаний. Левый член - ненаблюдаем (что произошло бы с группой лечения без лечения), правый - наблюдается напрямую (что произошло с контрольной группой). Рандомизация делает их равными по построению, и средняя разность исходов даёт ATE без всяких допущений об X.

В off-policy evaluation в RL та же логика: оценить ожидаемую награду новой политики pi' по логам старой политики pi_0. Контрфакт - 'что было бы, если бы агент действовал по pi', - оценивается через importance sampling: r_estimate = (1/N) Σ (pi'(a|s) / pi_0(a|s)) * r.

ML-связь: importance sampling в RL

Контрфактическая оценка новой политики по старым логам

Recommender system запущен с политикой pi_0. За месяц собрано 100 млн логов: (state, action, reward). Дата-саентисты обучили новую политику pi' и хотят оценить её ожидаемую конверсию БЕЗ запуска в продакшн. Inverse propensity scoring: для каждой логированной тройки переваживаем reward на отношение pi'(a|s) / pi_0(a|s). Если pi' выбрала бы тот же action чаще - вес больше единицы, реже - меньше. Среднее перевзвешенных reward - оценка V(pi'). Это прямой аналог IPTW для причинного вывода.

Когда pi_0 и pi' сильно различаются, importance weights могут быть огромными, и оценка V(pi') становится очень шумной. Это аналог нарушения overlap в причинном выводе: если P(T=1|X) близко к 0 или 1, веса 1/e(X) взрываются. Методы стабилизации - clipping, snippet estimator, doubly robust - применимы в обоих контекстах.

CATE estimation - это и есть uplift modeling, центральная задача персонализации. Для каждого пользователя оценить tau(x) - сколько он купит при показе рекламы минус сколько без неё. Показывать только тем, у кого tau(x) > порога. Microsoft, Uber, Netflix используют эти методы для распределения промокодов, скидок, рекомендаций. Без causal framing уплифт-модели путают эффект интервенции с базовой склонностью к покупке.

Контрфактическое мышление меняет постановку задачи в ML. Стандартный supervised learning оценивает E[Y | X = x] - корреляционная величина. Causal ML оценивает E[Y(1) - Y(0) | X = x] - что произойдёт при интервенции. Эти задачи решают одни и те же данные, но требуют разных допущений и разных алгоритмов. Один и тот же признак x = 'клиент посетил сайт' может коррелировать с покупкой (correlation), но не вызывать её (causation), если оба зависят от 'интереса к продукту'.

Что в off-policy evaluation в RL играет роль propensity score?

Importance sampling переваживает логи на pi'(a|s) / pi_0(a|s). Знаменатель - вероятность реально наблюдаемого действия при политике сбора данных - это аналог e(X) в IPTW. Когда pi_0(a|s) близко к нулю, веса взрываются - тот же эффект, что и при нарушении positivity в причинном выводе.

Куда ведёт модель Рубина

Потенциальные исходы - фундамент, на котором строятся propensity score, IV, DiD, RDD, sensitivity analysis. Каждый из следующих методов - стратегия идентификации Y(0), Y(1) при разных допущениях.

  • Propensity Score: matching и IPTW — Первая практическая стратегия идентификации ATE при ignorability - оценивает P(T=1|X) и использует для балансировки
  • Инструментальные переменные — Стратегия идентификации LATE когда ignorability нарушена - использует внешний источник variation

Ключевые идеи

  • Каждый юнит имеет два потенциальных исхода Y(1), Y(0); наблюдается только один
  • Индивидуальный эффект tau_i = Y_i(1) - Y_i(0) ненаблюдаем - это fundamental problem
  • ATE, ATT, ATU - средние эффекты по разным подгруппам; их различие диагностирует selection bias
  • CATE tau(x) - условный эффект, основа персонализированных вмешательств и uplift modeling
  • Ignorability и overlap - два допущения, делающие ATE идентифицируемым из наблюдательных данных
  • Ignorability принципиально непроверяема из самих данных - всегда содержательная гипотеза
  • Off-policy evaluation в RL - прямое применение counterfactual reasoning

Вопросы для размышления

  • Почему индивидуальный причинный эффект tau_i никогда не наблюдается, но ATE можно оценить?
  • В каких реальных ситуациях SUTVA нарушается, и какие методы это исправляют?
  • Чем CATE отличается от обычного supervised learning - ведь оба оценивают условное матожидание?
  • Какое допущение модели Рубина соответствует условию ограниченности importance weights в off-policy RL?

Связанные уроки

  • stat-20-causal — База причинности и confounding
  • stat-40-causal-rct — RCT решают проблему контрфактов
  • stat-42-causal-propensity — Propensity score опирается на эту модель
  • stat-43-causal-iv — IV - альтернатива при нарушении ignorability
  • prob-03-conditional
Потенциальные исходы (модель Рубина)

0

1

Войти

В клинике препарат назначают самым тяжёлым пациентам. Что верно?

Когда лечение распределяется неслучайно (selection on observables или prognosis), ATT и ATU начинают расходиться. Это не статистическая ошибка, а реальная гетерогенность эффекта между группами. Именно поэтому в наблюдательных данных простая разность средних не равна ATE.