Causal Calculus

Transportability и selection diagrams

2011 год. Исследование: статин снижает смертность от инфаркта на 30% в США. Минздрав Кении спрашивает: применимо ли это к нам? Демография другая, рацион другой, базовый уровень холестерина другой. До Bareinboim-Pearl единственный ответ был - 'наверное'. После 2011 - точный алгоритм: если selection diagram позволяет элиминировать S-переменные do-calculus, перенос идентифицируем. Если нет - доказуемо невозможен.

  • **Клинические испытания:** FDA требует изучить как данные из одной страны обобщаются на другую - transportability дает формальный инструмент вместо экспертного мнения
  • **Federated ML в медицине:** госпитали не могут делиться данными пациентов (GDPR), но могут обмениваться суммарной статистикой - mSBD criterion определяет, достаточно ли этого для каузального вывода
  • **Алгоритмическая справедливость:** перенос решения из одной демографической группы в другую - частный случай transportability, где S-узлы соответствуют атрибутам группы

Предварительные знания

  • Counterfactuals: Rung 3

Внешняя валидность

2011 год. Барайнбоим и Перл формализовали вопрос, который мучил клиническую эпидемиологию десятилетиями: испытание лекарства от гипертонии прошло в госпиталях США. Можно ли применить результаты в Кении? Демография отличается (возраст, генетика), протоколы лечения отличаются, даже инструменты измерения давления разные. Интуиция говорит - надо скорректировать. Но как? И когда это вообще невозможно принципиально?

Внешняя валидность - это вопрос: можно ли идентифицировать причинный эффект P*(y|do(x)) в целевой популяции из исходных данных P(·) плюс целевого распределения P*(·)? Ключевое слово - 'идентифицировать': существуют конфигурации, где перенос математически невозможен, никакие данные из источника не помогут. Перл и Барайнбоим дали точный критерий.

Три уровня проблемы переноса: 1. S-admissibility - простой перенос через переменные, которые различаются 2. Transportability - полный алгоритм через selection diagrams и do-calculus 3. Meta-transportability - несколько источников одновременно. Этот урок идёт снизу вверх.

Клинический RCT проведён в США. Какое из следующих утверждений корректно описывает проблему переноса в Кению?

Selection diagrams

Selection diagram - расширение DAG для двух популяций. К обычным узлам добавляются S-узлы (selection nodes) - специальные переменные без родителей в диаграмме. S-узел указывает на переменную V, если распределение V отличается между источником и целью. Источник: S=0, цель: S=1. Формально: S_i -> V_i означает что P(V_i | pa(V_i)) != P*(V_i | pa(V_i)).

Do-calculus в selection diagrams работает с тремя правилами Перла, дополненными S-переменными. Критерий транспортабельности: P*(y|do(x)) идентифицируем тогда и только тогда, когда do-calculus позволяет элиминировать все S-переменные из выражения. Если S-переменная находится на пути из X в Y, не заблокированном do(X) - перенос невозможен.

Три каузальных пути и S-узлы: 1. S на пути X->Y (механизм лечения отличается) - перенос невозможен без дополнительных данных 2. S на переменной-конфаундере Z - корректируем через P*(Z) 3. S на коллайдере - обычно безвредно, не блокирует перенос. Топологическое положение S в диаграмме определяет транспортабельность.

В selection diagram S_Z -> Z (возраст отличается) и X -> Y (механизм лечения одинаков). Какая формула даёт P*(Y|do(X))?

Transport formula

T-formula (transport formula) обобщает ID-алгоритм на случай двух популяций. Если P*(y|do(x)) идентифицируема в selection diagram, алгоритм возвращает явное выражение через P(·), P*(·) и интервенциональные распределения. Для нескольких источников Bareinboim (2016) разработал mSBD (meta-synthetic backdoor) - обобщение backdoor criteria на fusion нескольких датасетов.

Мета-анализ через transportability: вместо одного источника Pi = {P_1, ..., P_k} - набор исследований, каждое с частичными данными. mSBD criterion: задача идентифицируема если существует такое разбиение переменных, что каждый кусок может быть оценён из какого-то источника. Применение: федеративное каузальное обучение (разные госпитали, каждый видит только своих пациентов) и обобщение клинических испытаний.

Federated causal learning: когда несколько госпиталей не могут делиться сырыми данными из-за HIPAA/GDPR, transportability framework позволяет идентифицировать каузальный эффект через обмен только суммарной статистикой - при условии что selection diagram известна. Bareinboim & Pearl (2016) доказали необходимые и достаточные условия для такой fusion.

Если результаты RCT статистически значимы, они применимы к любой популяции

Статистическая значимость - это про внутреннюю валидность (отсутствие случайных ошибок). Внешняя валидность (перенос) - это отдельный вопрос, требующий анализа selection diagram.

RCT может быть абсолютно точным для своей популяции и абсолютно нерелевантным для другой. Bareinboim-Pearl дали формальный критерий: transportability определяется структурой каузального графа, не p-значением.

У нас два источника: P_1 (наблюдательные, с Z) и P_2 (RCT, без Z). Цель: P*(Z) известно. Почему нельзя просто взять ATE из P_2 (RCT)?

Ключевые идеи

  • **Selection diagram:** DAG + S-узлы (S_i -> V_i если P(V_i|pa(V_i)) != P*(V_i|pa(V_i))). Источник: S=0, цель: S=1. Позиция S в графе определяет возможность переноса.
  • **Transport formula:** P*(y|do(x)) идентифицируем если do-calculus элиминирует все S. Простейший случай: sum_z P(Y|X,z) * P*(z) при S только на конфаундере Z.
  • **mSBD для мета-анализа:** несколько источников Pi = {P_1,...,P_k} с частичными данными. Задача идентифицируема если существует fusion, где каждый компонент оценивается из какого-то источника.

Связанные темы

Transportability строится на do-calculus и связана с несколькими направлениями:

  • Do-operator и интервенции — Do-calculus - основной инструмент для элиминации S-переменных
  • Counterfactuals — Транспортабельность на уровне Rung 3 требует структурных уравнений

Вопросы для размышления

  • S-узел на X (механизм назначения лечения различается). Что означает это для RCT из источника? Как это меняет стратегию переноса?
  • Два госпиталя не могут делиться данными. Какую минимальную суммарную статистику они должны обменяться, чтобы идентифицировать P*(Y|do(X)) в третьем госпитале?
  • В federated learning модели обучаются локально, градиенты агрегируются. Это решает проблему transportability или только проблему конфиденциальности?

Связанные уроки

  • stat-01-sampling
Transportability и selection diagrams

0

1

Войти