Causal Calculus

Transportability и selection diagrams

2011 год. Исследование: статин снижает смертность от инфаркта на 30% в США. Минздрав Кении спрашивает: применимо ли это к нам? Демография другая, рацион другой, базовый уровень холестерина другой. До Bareinboim-Pearl единственный ответ был - 'наверное'. После 2011 - точный алгоритм: если selection diagram позволяет элиминировать S-переменные do-calculus, перенос идентифицируем. Если нет - доказуемо невозможен.

**Клинические испытания:** FDA требует изучить как данные из одной страны обобщаются на другую - transportability дает формальный инструмент вместо экспертного мнения
**Federated ML в медицине:** госпитали не могут делиться данными пациентов (GDPR), но могут обмениваться суммарной статистикой - mSBD criterion определяет, достаточно ли этого для каузального вывода
**Алгоритмическая справедливость:** перенос решения из одной демографической группы в другую - частный случай transportability, где S-узлы соответствуют атрибутам группы

Предварительные знания

Counterfactuals: Rung 3

Внешняя валидность

2011 год. Барайнбоим и Перл формализовали вопрос, который мучил клиническую эпидемиологию десятилетиями: испытание лекарства от гипертонии прошло в госпиталях США. Можно ли применить результаты в Кении? Демография отличается (возраст, генетика), протоколы лечения отличаются, даже инструменты измерения давления разные. Интуиция говорит - надо скорректировать. Но как? И когда это вообще невозможно принципиально?

Внешняя валидность - это вопрос: можно ли идентифицировать причинный эффект P*(y|do(x)) в целевой популяции из исходных данных P(·) плюс целевого распределения P*(·)? Ключевое слово - 'идентифицировать': существуют конфигурации, где перенос математически невозможен, никакие данные из источника не помогут. Перл и Барайнбоим дали точный критерий.

Три уровня проблемы переноса: 1. S-admissibility - простой перенос через переменные, которые различаются 2. Transportability - полный алгоритм через selection diagrams и do-calculus 3. Meta-transportability - несколько источников одновременно. Этот урок идёт снизу вверх.

Клинический RCT проведён в США. Какое из следующих утверждений корректно описывает проблему переноса в Кению?

Selection diagrams

Selection diagram - расширение DAG для двух популяций. К обычным узлам добавляются S-узлы (selection nodes) - специальные переменные без родителей в диаграмме. S-узел указывает на переменную V, если распределение V отличается между источником и целью. Источник: S=0, цель: S=1. Формально: S_i -> V_i означает что P(V_i | pa(V_i)) != P*(V_i | pa(V_i)).

Do-calculus в selection diagrams работает с тремя правилами Перла, дополненными S-переменными. Критерий транспортабельности: P*(y|do(x)) идентифицируем тогда и только тогда, когда do-calculus позволяет элиминировать все S-переменные из выражения. Если S-переменная находится на пути из X в Y, не заблокированном do(X) - перенос невозможен.

Три каузальных пути и S-узлы: 1. S на пути X->Y (механизм лечения отличается) - перенос невозможен без дополнительных данных 2. S на переменной-конфаундере Z - корректируем через P*(Z) 3. S на коллайдере - обычно безвредно, не блокирует перенос. Топологическое положение S в диаграмме определяет транспортабельность.

В selection diagram S_Z -> Z (возраст отличается) и X -> Y (механизм лечения одинаков). Какая формула даёт P*(Y|do(X))?

Transport formula

T-formula (transport formula) обобщает ID-алгоритм на случай двух популяций. Если P*(y|do(x)) идентифицируема в selection diagram, алгоритм возвращает явное выражение через P(·), P*(·) и интервенциональные распределения. Для нескольких источников Bareinboim (2016) разработал mSBD (meta-synthetic backdoor) - обобщение backdoor criteria на fusion нескольких датасетов.

Мета-анализ через transportability: вместо одного источника Pi = {P_1, ..., P_k} - набор исследований, каждое с частичными данными. mSBD criterion: задача идентифицируема если существует такое разбиение переменных, что каждый кусок может быть оценён из какого-то источника. Применение: федеративное каузальное обучение (разные госпитали, каждый видит только своих пациентов) и обобщение клинических испытаний.

Federated causal learning: когда несколько госпиталей не могут делиться сырыми данными из-за HIPAA/GDPR, transportability framework позволяет идентифицировать каузальный эффект через обмен только суммарной статистикой - при условии что selection diagram известна. Bareinboim & Pearl (2016) доказали необходимые и достаточные условия для такой fusion.

Если результаты RCT статистически значимы, они применимы к любой популяции

Статистическая значимость - это про внутреннюю валидность (отсутствие случайных ошибок). Внешняя валидность (перенос) - это отдельный вопрос, требующий анализа selection diagram.

RCT может быть абсолютно точным для своей популяции и абсолютно нерелевантным для другой. Bareinboim-Pearl дали формальный критерий: transportability определяется структурой каузального графа, не p-значением.

У нас два источника: P_1 (наблюдательные, с Z) и P_2 (RCT, без Z). Цель: P*(Z) известно. Почему нельзя просто взять ATE из P_2 (RCT)?

Ключевые идеи

**Selection diagram:** DAG + S-узлы (S_i -> V_i если P(V_i|pa(V_i)) != P*(V_i|pa(V_i))). Источник: S=0, цель: S=1. Позиция S в графе определяет возможность переноса.
**Transport formula:** P*(y|do(x)) идентифицируем если do-calculus элиминирует все S. Простейший случай: sum_z P(Y|X,z) * P*(z) при S только на конфаундере Z.
**mSBD для мета-анализа:** несколько источников Pi = {P_1,...,P_k} с частичными данными. Задача идентифицируема если существует fusion, где каждый компонент оценивается из какого-то источника.

Связанные темы

Transportability строится на do-calculus и связана с несколькими направлениями:

Do-operator и интервенции — Do-calculus - основной инструмент для элиминации S-переменных
Counterfactuals — Транспортабельность на уровне Rung 3 требует структурных уравнений

Вопросы для размышления

S-узел на X (механизм назначения лечения различается). Что означает это для RCT из источника? Как это меняет стратегию переноса?
Два госпиталя не могут делиться данными. Какую минимальную суммарную статистику они должны обменяться, чтобы идентифицировать P*(Y|do(X)) в третьем госпитале?
В federated learning модели обучаются локально, градиенты агрегируются. Это решает проблему transportability или только проблему конфиденциальности?

Связанные уроки

stat-01-sampling

Внешняя валидность

Клинический RCT проведён в США. Какое из следующих утверждений корректно описывает проблему переноса в Кению?

Selection diagrams

В selection diagram S_Z -> Z (возраст отличается) и X -> Y (механизм лечения одинаков). Какая формула даёт P*(Y|do(X))?

Transport formula

Если результаты RCT статистически значимы, они применимы к любой популяции

Ключевые идеи

**Selection diagram:** DAG + S-узлы (S_i -> V_i если P(V_i|pa(V_i)) != P*(V_i|pa(V_i))). Источник: S=0, цель: S=1. Позиция S в графе определяет возможность переноса.

**Transport formula:** P*(y|do(x)) идентифицируем если do-calculus элиминирует все S. Простейший случай: sum_z P(Y|X,z) * P*(z) при S только на конфаундере Z.

**mSBD для мета-анализа:** несколько источников Pi = {P_1,...,P_k} с частичными данными. Задача идентифицируема если существует fusion, где каждый компонент оценивается из какого-то источника.