Статистика

Конфаундеры и парадокс Симпсона

Цели урока

Определять конфаундер по DAG и отличать от медиатора/коллайдера
Распознавать парадокс Симпсона в продакшен-метриках
Применять back-door adjustment для оценки причинного эффекта
Строить минимальный adjustment set по причинному графу
Понимать, почему рандомизация устраняет конфаундинг

Предварительные знания

Базовое понятие причинности и do-оператора
Условные распределения и условная независимость
Линейная регрессия

Один и тот же датасет в 1973 году одновременно доказал и опроверг гендерную дискриминацию в Berkeley. Иск по дискриминации развалился не из-за нового опроса, а из-за статистика, который разбил данные по факультетам. Этот случай вошёл во все учебники как канонический пример конфаундинга - и стал толчком к развитию формального causal inference.

**Рекомендательные системы Instagram/TikTok**: модели обучаются на смещённой энгейджмент-выборке, парадокс Симпсона проявляется на масштабе - метрика растёт, удовлетворённость пользователей падает
**Клинические испытания**: пожилые пациенты получают и больше лечений, и имеют больше смертности - наивный анализ покажет, что лечение убивает
**Google Search quality**: общий CTR растёт, при этом per-query CTR падает - изменилась смесь запросов
**RLHF в LLM**: модели, обученные на оценках без контроля за сложностью запроса, учатся писать длиннее, путая длину с качеством

Парадокс с тремя авторами и одним именем

E.H. Simpson опубликовал статью 'The Interpretation of Interaction in Contingency Tables' в 1951 году, описав парадокс, носящий сегодня его имя. Сам Симпсон отметил, что результат 'не нов': те же явления описывали Udny Yule в 1903 и Karl Pearson в то же десятилетие. Современный фреймворк понимания механизма - Directed Acyclic Graphs - был формализован только в 1980-90-х годах в работах Judea Pearl, получившего за это премию Тьюринга в 2011 году.

Что такое конфаундер

1968 год, UC Berkeley. В аспирантуру поступило 44% мужчин и только 35% женщин. Газеты заговорили о гендерной дискриминации, против университета подали иск. Но когда статистики разбили данные по факультетам, картина перевернулась: почти на каждом факультете женщины принимались с равным или более высоким процентом, чем мужчины. Один и тот же набор данных показал и дискриминацию, и её отсутствие. Кто прав? Оба - и в этом суть парадокса Симпсона.

Конфаундер (confounding variable, смешивающая переменная) - это третья переменная Z, которая одновременно влияет и на причину X, и на следствие Y. Из-за неё корреляция между X и Y перестаёт отражать настоящий причинный эффект. В кейсе Berkeley конфаундером оказался выбор факультета: женщины массово подавали на гуманитарные программы с высоким конкурсом, мужчины - на технические с более низким.

Эта DAG-диаграмма читается так: Z причинно влияет и на X, и на Y. Если связь X-Y измерять без учёта Z, появится ложная (spurious) корреляция, которая не отражает реальной причинной зависимости.

Конфаундер - не любая третья переменная, а именно та, что лежит на back-door пути от X к Y. Переменные на причинной траектории (медиаторы) и переменные-коллайдеры обрабатываются совершенно иначе.

ML-пример: больничные модели

Классический случай selection bias и confounding в датасете.

Модель прогноза смертности пациентов обучили на данных одной крупной больницы. На тесте AUC = 0.92, в продакшене модель проваливается. Причина: в больницу попадают преимущественно тяжёлые случаи, более здоровые пациенты лечатся амбулаторно. Тяжесть состояния - конфаундер между симптомами и исходом. Модель выучила распределение, в котором тяжёлые симптомы почти всегда означают плохой исход - и не видела лёгких пациентов вообще.

Конфаундер - главная техническая причина, по которой 'correlation is not causation'. Без явной модели Z любая регрессия Y на X измеряет смесь причинного эффекта и confounding bias.

Модель скоринга кредитов обучена на исторических заявках, одобренных банком. На свежих данных модель работает хуже. Что произошло?

Решение об одобрении - конфаундер между признаками заявки и фактом возврата кредита. Модель видит только тех, кого банк счёл достаточно надёжными, и не учится на отказниках. Это структурная проблема, а не просто переобучение.

Парадокс Симпсона: механизм

Парадокс Симпсона - это формальный эффект: направление статистической связи внутри каждой страты конфаундера может быть противоположно направлению этой связи в агрегате. Не визуальная иллюзия и не ошибка вычислений - математически безупречный артефакт усреднения.

Факультет	Заявки М	Принято М	Заявки Ж	Принято Ж
A	825	62%	108	82%
B	560	63%	25	68%
C	325	37%	593	34%
D	417	33%	375	35%
E	191	28%	393	24%
F	373	6%	341	7%
Итого	2691	44%	1835	35%

На уровне факультетов женщины принимаются с равным или большим процентом в большинстве случаев. В агрегате - проигрывают на 9 процентных пунктов. Причина: женщины массово подают на факультеты C-F с низкой долей приёма, мужчины - на A и B с высокой.

Камни в почках: лечение A против B

Канонический медицинский пример Charig 1986.

Лечение A суммарно успешно в 78% случаев, B - в 83%. Кажется, B лучше. Но: при мелких камнях A успешно в 93%, B - в 87%. При крупных камнях A успешно в 73%, B - в 69%. То есть A лучше в обоих подгруппах. Размер камня - конфаундер: тяжёлым пациентам с крупными камнями назначали именно A, поэтому суммарная статистика A проседает. Метод A объективно лучше.

В ML-мониторинге продакшена парадокс Симпсона особенно коварен. Общий accuracy модели может расти от релиза к релизу, а внутри каждой демографической страты - падать. Если состав трафика меняется (например, выросла доля 'лёгких' запросов), агрегированная метрика обманет команду.

Если в сравнении двух политик/моделей доля наблюдений по ключевому признаку резко различается, а не зафиксирована экспериментом - готовьтесь к Симпсону.

Бывает обратная ситуация: на стратах эффект одинаков, в агрегате - другой из-за шума малых выборок. Парадокс Симпсона требует именно структурного смещения через конфаундер, а не случайных колебаний.

Команда A/B-тестит новый ранкер. По всем пользователям CTR вырос на 2%, но в каждой стране CTR упал. Что произошло?

Контроль за конфаундерами

Если конфаундеры наблюдаемы и измерены, причинный эффект можно восстановить. Три основных приёма: стратификация (анализ внутри страт), мэтчинг (подбор пар treatment-control с похожими Z) и регрессионная корректировка (включение Z в модель как ковариаты).

Это формула back-door adjustment по Пёрлу. Слева - что произошло бы, если бы X принудительно установили в x (вмешательство, do-оператор). Справа - то, что можно вычислить из наблюдаемых данных при условии, что Z блокирует все back-door пути от X к Y.

Рандомизация (RCT) делает X независимым от любых Z по построению, поэтому P(Z|X) = P(Z) и наивная разность средних совпадает с истинным каузальным эффектом. Это главная причина, по которой A/B-тесты работают как стандарт причинного вывода.

Если назначение в treatment/control не строго случайно (например, пользователи сами выбирают приложить новый функционал), conditioning на ковариатах не спасёт от ненаблюдаемых конфаундеров. Тогда нужны IV, RDD или DiD.

Регрессионная корректировка Y ~ X + Z даёт несмещённую оценку эффекта только при линейности и правильно специфицированной модели. На практике лучше комбинировать с propensity score или doubly robust методами.

Какое условие должно выполняться, чтобы back-door adjustment по множеству Z давал валидный причинный эффект?

Это формальный back-door criterion Пёрла. Включение потомка X в Z создаёт коллайдер-bias и портит оценку, даже если корреляции выглядят правильно.

DAG: формализация причинной структуры

Directed Acyclic Graph (направленный ациклический граф) - язык, на котором современная causal inference записывает гипотезы о структуре зависимостей. Узлы - переменные, стрелки - прямые причинные связи. Никаких циклов. Из DAG автоматически выводится, какие переменные надо контролировать, а какие - категорически нельзя.

Back-door путь от X к Y - это любой неориентированный путь, начинающийся стрелкой В X (то есть X<-...). Если такой путь существует и не блокирован условием на промежуточных узлах, он создаёт смещение.

Структура	Что делать	Эффект ошибки
Конфаундер: X <- Z -> Y	Контролировать Z	Без Z - ложная корреляция
Медиатор: X -> M -> Y	Не контролировать M	С M исчезнет реальный эффект
Коллайдер: X -> C <- Y	Не контролировать C	С C появится ложная связь
Прокси конфаундера: X <- Z -> W -> Y	Можно W вместо Z, если Z скрыт	Частичная коррекция

ML-пример: повторная госпитализация

Почему feature selection без causal графа создаёт хрупкие модели.

Модель прогнозирует повторную госпитализацию в течение 30 дней. Среди фичей есть 'выписан вопреки рекомендации врача' (discharge against medical advice, DAMA). DAMA - коллайдер: на неё влияет и состояние пациента, и характер пациента, и оба влияют на риск повторной госпитализации. Контроль за DAMA индуцирует ложную зависимость между состоянием и характером. В продакшене модель ломается при первом изменении в политике выписки больницы.

Часто существует несколько множеств Z, удовлетворяющих back-door criterion. Минимальное по размеру даёт меньшую дисперсию оценки. Алгоритмы (dagitty, DoWhy) находят их автоматически.

Граф рисует исследователь. Если структура задана неправильно (пропущенная стрелка, неучтённый скрытый конфаундер), все выводы об эффектах будут смещены. DAG не освобождает от знания предметной области - он его формализует.

В DAG: образование (E) -> доход (I), здоровье (H) -> доход (I), и образование (E) -> здоровье (H). Хотим оценить эффект E на I. Что включить в adjustment set?

H лежит на причинной траектории E -> H -> I, это медиатор, а не конфаундер. Контроль за H заблокирует часть причинного эффекта E на I и даст занижённую оценку.

Куда ведёт тема

Конфаундеры - центральная проблема причинного вывода. Все методы дальше - попытки её решить.

Рандомизированные испытания (RCT) — Рандомизация устраняет конфаундинг по построению - радикальное решение проблемы
Потенциальные исходы (модель Рубина) — Формальный язык для определения причинного эффекта и допущений идентификации

Ключевые идеи

Конфаундер Z одновременно влияет на причину X и следствие Y, создавая ложную корреляцию
Парадокс Симпсона - арифметически безупречная реверсия эффекта при агрегации по конфаундеру
Back-door adjustment: усреднение условного эффекта по маржинальному P(Z), а не по P(Z|X)
DAG формализует причинную структуру и автоматически указывает, что контролировать
Коллайдер ведёт себя противоположно конфаундеру: контроль за ним создаёт ложную связь
Рандомизация делает X независимым от любых Z по построению - радикальный способ устранить конфаундинг

Вопросы для размышления

Какие конфаундеры могут существовать в текущем production-датасете команды и как их обнаружить?
Может ли парадокс Симпсона проявиться в ключевой метрике, по которой принимаются продуктовые решения?
Какие из фичей в текущей ML-модели являются медиаторами, а какие - коллайдерами?
Что нужно изменить в дизайне сбора данных, чтобы конфаундер стал нейтрализуемым?

Связанные уроки

stat-20-causal — базовое понимание причинности и DAG
stat-40-causal-rct — RCT убирает влияние конфаундеров
stat-42-causal-propensity — propensity score балансирует конфаундеры
stat-30-stats-ml — selection bias в ML-датасетах
prob-04-bayes