Causal Calculus

Контрфактуальные рассуждения

Что было бы, если бы пациент не принял препарат? Этот вопрос нельзя ответить статистически - наблюдается только один исход. Контрфактуальный анализ Перла даёт строгий математический ответ через структурные причинные модели. Это позволяет оценивать индивидуальные причинные эффекты, а не только популяционные средние.

Правовая ответственность: 'был ли ущерб причинён именно этим действием?'
Персонализированная медицина: ожидаемый эффект лечения для конкретного пациента
Контрфактуальная справедливость в ML: изменился бы исход при смене защищённого атрибута?
Страхование: причинён ли убыток застрахованным событием?
Объяснимый ИИ: контрфактуальные объяснения ('изменение каких признаков изменило бы решение?')

Цели урока

Вычислять контрфактуалы через трёхшаговую процедуру: abduction, action, prediction
Различать три уровня лестницы причинности Перла: ассоциация, вмешательство, контрфактуалы
Оценивать ATE и ATT через потенциальные исходы и связывать с SCM-формализмом

Предварительные знания

Структурные причинные модели и do-исчисление
Условные распределения и байесовское обновление
Потенциальные исходы Рубина: $Y_i(1)$, $Y_i(0)$

Лестница причинности

Перл выделяет три уровня причинно-следственного мышления. Первый - ассоциация: $P(Y|X)$, корреляция. Второй - вмешательство: $P(Y|\mathrm{do}(X))$, что будет при изменении $X$. Третий - контрфактуалы: $P(Y_x|X=x', Y=y)$, что было бы при $X=x$, если наблюдалось $X=x', Y=y$. Только третий уровень требует знания функциональных уравнений SCM.

Потенциальные исходы и ATE

Фреймворк Рубина: $Y_i(d)$ - потенциальный исход субъекта $i$ при воздействии $D=d$. Наблюдается только $Y_i = D_i Y_i(1) + (1-D_i)Y_i(0)$. ATE $= E[Y(1)-Y(0)]$. При рандомизации $D \perp (Y(0), Y(1))$: ATE идентифицируется как $E[Y|D=1] - E[Y|D=0]$.

Эффект лечения на лечённых ATT $= E[Y(1)-Y(0)|D=1]$ отличается от ATE при наличии эффекта модификации: люди могут реагировать на лечение по-разному. Путать ATT и ATE - типичная ошибка при интерпретации наблюдательных исследований.

Определение контрфактуала

Страховое ценообразование использует контрфактуалы: «Попал бы этот водитель в аварию без алкоголя?» - британские суды требуют причинные модели для подобных вопросов с 2019 года. Контрфактуал Y_{X=x'}(u) спрашивает: каким был бы исход Y для конкретного индивида u, если бы X было установлено в x', при том что в реальности X=x.

Контрфактуалы требуют знания SCM (структурных уравнений), а не только распределения. Именно поэтому они находятся на третьем, высшем уровне лестницы причинности.

Чем контрфактуал Y_{x'}(u) отличается от интервенционного P(Y|do(X=x'))?

P(Y|do(X=x')) - это популяционное интервенционное распределение (второй уровень лестницы). Y_{x'}(u) - индивидуальный контрфактуал для конкретного u с фиксированными экзогенными шумами (третий уровень), требующий абдукции.

Лестница причинности Перля

Перль выделяет три уровня каузального знания: ассоциация (что?), интервенция (что если сделать?) и контрфактуал (что если бы было иначе?). Каждый уровень требует строго более сильных предпосылок и недостижим с нижних уровней.

Машинное обучение работает преимущественно на первой ступени. Большинство causal inference методов достигает второй. Третья ступень доступна только при полном знании SCM или сильных параметрических предположениях.

Какой уровень лестницы причинности требует полного знания SCM (структурных уравнений)?

Контрфактуалы требуют абдукции экзогенных переменных по наблюдённым фактам - это невозможно без знания структурных уравнений. DAG достаточен для второй ступени, наблюдательные данные - для первой.

Средний эффект лечения (ATE) и потенциальные исходы

Фреймворк потенциальных исходов Рубина формализует ATE через пару Y(1), Y(0) для каждого индивида. Фундаментальная проблема причинного вывода: для одного индивида наблюдается только один из двух исходов - но SCM позволяет вычислить оба аналитически.

ATE = E[Y|do(X=1)] - E[Y|do(X=0)] - это связь между фреймворком Рубина и do-calculus Перля. При SUTVA и ignorability оба подхода дают одинаковый результат.

Почему индивидуальный эффект лечения ITE = Y(1) - Y(0) ненаблюдаем?

Фундаментальная проблема причинного вывода: индивид либо получает лечение (наблюдается Y(1)), либо нет (наблюдается Y(0)). Контрфактуальный исход принципиально ненаблюдаем - отсюда необходимость в SCM или рандомизации для оценки ATE.

Трёхшаговый контрфактуал: пациент принял лекарство и выздоровел

Шаг 1 (abduction): обновить $P(U|X=1, Y=1)$ - какие фоновые факторы согласованы с наблюдением. Шаг 2 (action): установить $X \leftarrow 0$ в структурных уравнениях ($\mathrm{do}(X=0)$). Шаг 3 (prediction): вычислить $Y$ при обновлённом $U$ и $X=0$. Результат: $P(Y_{X=0}=1 | X=1, Y=1)$ - вероятность выздоровления без лекарства.

Итоги

Лестница причинности: ассоциация ($P(Y|X)$) < вмешательство ($P(Y|\mathrm{do}(X))$) < контрфактуалы ($Y_{x}(u)$)
Контрфактуал вычисляется через abduction (обновить $U$) + action (do) + prediction (вычислить $Y$)
ATE $= E[Y(1)-Y(0)]$ идентифицируется при рандомизации; наблюдательные данные требуют дополнительных допущений

Связь с другими темами

Контрфактуальная справедливость (Kusner 2017) использует этот аппарат для аудита алгоритмов: решение справедливо, если контрфактуальный исход совпадает при изменении защищённого атрибута. Медиационный анализ (NDE/NIE) - следующий шаг, декомпозирующий причинный эффект на прямой и косвенный.

Связанные темы — развивает

Вопросы для размышления

Почему контрфактуалы требуют знания функциональных уравнений SCM, а не только совместного распределения?
Допущение SUTVA (Stable Unit Treatment Value) запрещает интерференцию между субъектами. Как это нарушается в социальных сетях?
Можно ли вычислить контрфактуал для нелинейного SCM с ненаблюдаемыми экзогенными переменными?