Статистика

Sensitivity analysis: E-value, Rosenbaum

Цели урока

Понимать фундаментальный лимит наблюдательного вывода и роль скрытого конфаундера
Вычислять и интерпретировать E-value для оценки хрупкости результата
Применять Rosenbaum bounds в матчинговых исследованиях через критический Gamma*
Использовать критерии Bradford Hill и триангуляцию как зрелую стратегию причинного вывода
Включать sensitivity analysis в отчёт о любой наблюдательной causal-оценке

Предварительные знания

Основы причинного вывода и потенциальных исходов
Propensity score и матчинг
Логистическая регрессия и отношения рисков

Связь кофе и Паркинсона воспроизведена в десяти исследованиях. Но может ли скрытый генетический вариант объяснять её целиком? Sensitivity analysis отвечает количественно.

**Эпидемиология**: Оценка причинности связи диеты, физической активности и долголетия в когортах
**Клиническая медицина**: Анализ effectiveness лекарств вне RCT, post-marketing surveillance
**Экономика труда**: Эффект образования и тренинговых программ на зарплату в наблюдательных данных
**ML-системы**: Робастность uplift modeling и инкрементального эффекта в рекламе и e-commerce
**Социальные науки**: Эффект полицейских патрулей, mass media и социальных программ на поведение

От Корнфилда к VanderWeele

Джером Корнфилд в 1959 году в ответ на критику исследования курения и рака предложил первую формулу sensitivity analysis: какой силы должна быть скрытая переменная, чтобы объяснить эффект. Пол Розенбаум в 1987 году развил формальный фреймворк для матчинговых исследований с параметром Gamma. Тайлер Вандервейле и Пэн Дин в 2017 году в Annals of Internal Medicine ввели E-value - простую и универсальную метрику, доступную клиницистам без специальной статистической подготовки. Критерии Брэдфорда Хилла 1965 года остаются современными и используются в каждой серьёзной эпидемиологической работе. Sensitivity analysis превратился из академической экзотики в обязательный пункт review-чеклиста ведущих медицинских журналов.

Скрытый конфаундер: фундаментальный лимит

Наблюдательное исследование сообщает: у заядлых кофеманов риск болезни Паркинсона на 30 процентов ниже. Поправка сделана на возраст, пол, курение, физическую активность. Ассоциация воспроизводится в десяти независимых работах. Но это причинная связь или нет? Может быть, существует генетический вариант, который и тянет человека к кофе, и защищает от Паркинсона. Такой скрытый конфаундер невозможно обнаружить статистическим тестом, имея только наблюдательные данные.

Sensitivity analysis отвечает не на вопрос "есть ли скрытый конфаундер", а на вопрос "насколько сильным он должен быть, чтобы разрушить вывод". Это сдвигает дискуссию от двоичного "да или нет" к количественной оценке хрупкости.

Пример: гормонозаместительная терапия

Один из самых известных провалов наблюдательной эпидемиологии.

Когортные исследования 1990-х сообщали, что гормонозаместительная терапия снижает сердечно-сосудистый риск на 40-50 процентов. Поправка на десяток ковариат. Рандомизированное исследование Women's Health Initiative в 2002 году показало противоположное: ГЗТ повышает риск. Причина - скрытый "healthy user bias": женщины, выбиравшие ГЗТ, систематически вели более здоровый образ жизни, что не было учтено.

Метод не превращает наблюдательное исследование в эксперимент. Он лишь количественно описывает, насколько хрупким должно быть найденное скрытое объяснение. Слово "unmeasured" - честное признание ограничения.

ML-применение: bias в логированных данных рекомендательных систем. Если показанные пользователю товары систематически отличаются от непоказанных по скрытому атрибуту (например, бюджету или возрасту), оценка причинного эффекта показа становится смещённой. Sensitivity analysis показывает, насколько сильным должно быть это различие, чтобы перевернуть вывод.

Что именно делает sensitivity analysis?

Sensitivity analysis не доказывает и не опровергает причинность - он сдвигает обсуждение от двоичного к количественному: насколько хрупок результат к гипотетическому скрытому конфаундеру.

E-value: минимальная сила конфаундера

Тайлер Вандервейле и Пэн Дин в 2017 году в Annals of Internal Medicine предложили простую и удивительно мощную метрику. E-value - это минимальная сила ассоциации, которую гипотетический скрытый конфаундер должен иметь и с лечением, и с исходом (на шкале отношения рисков), чтобы полностью объяснить наблюдаемый эффект.

E-value не привязан к конкретному списку известных переменных. Он рассматривает наихудший случай: максимально невыгодный конфаундер. Если такой гипотетический "монстр-конфаундер" неправдоподобен, наблюдательная оценка считается устойчивой.

Пример: кофе и Паркинсон

Применение E-value к когортному исследованию связи кофе и болезни Паркинсона.

Скорректированное отношение рисков для пьющих более 4 чашек кофе в день составляет 0.62 (95% CI: 0.50-0.77). После инверсии: RR = 1/0.62 = 1.61. E-value = 1.61 + sqrt(1.61 * 0.61) = 1.61 + 0.99 = 2.60. Нижняя граница CI: 1/0.77 = 1.30, E_LL = 1.30 + sqrt(1.30 * 0.30) = 1.30 + 0.62 = 1.92. Чтобы объяснить эффект, нужен скрытый конфаундер с ассоциациями выше 2.6x и с кофе, и с Паркинсоном. Известные сильные конфаундеры (курение, генетика) дают ассоциации 1.3-1.8x. Вывод: эффект относительно устойчив, но не неопровержим.

RR	E-value	Интерпретация хрупкости
1.2	1.69	Хрупкий: достаточно слабого скрытого конфаундера
1.5	2.37	Умеренный: нужен заметный конфаундер
2.0	3.41	Устойчивый: нужен очень сильный конфаундер
3.0	5.45	Очень устойчивый: маловероятен такой скрытый конфаундер
5.0	9.47	Чрезвычайно устойчивый: практически вне сомнений

ML-применение: E-value в model card-ах для causal ML. Когда модель оценивает treatment effect из observational data (uplift modeling, инкрементальный эффект рекламы), report включает E-value и его интерпретацию. Это особенно важно для решений с реальными последствиями: ценообразование, медицинские рекомендации, скоринг.

Формула предполагает наихудший случай. На практике скрытый конфаундер действует определённым образом, и его влияние можно сузить через доменное знание. E-value - первый, грубый, но честный шаг анализа чувствительности.

Что показывает E-value в анализе чувствительности?

E-value - минимальная сила ассоциации скрытого конфаундера с обеими сторонами связи (лечение и исход), требуемая для объяснения эффекта целиком. Большое E - устойчивый вывод, маленькое E - хрупкий.

Rosenbaum bounds: матчинг и Gamma

Пол Розенбаум в 1987 году разработал альтернативный подход - sensitivity bounds для наблюдательных исследований с матчингом. Идея: после propensity matching пары субъектов считаются "одинаковыми по наблюдаемым". Но они могут различаться по неучтённому фактору. Параметр Gamma измеряет, насколько сильно скрытый фактор может разводить шансы лечения внутри пары.

Gamma = 1 соответствует идеальной рандомизации внутри пар - никакой скрытый конфаундер не разводит шансы. Gamma = 2 означает, что один член пары может иметь до двух раз большие шансы получения лечения из-за скрытого фактора, чем другой. С ростом Gamma неопределённость p-value растёт.

Пример: курение и рак лёгких

Классическое исследование, переанализированное Розенбаумом и Корнфилдом.

Sensitivity analysis показала, что для разрушения ассоциации курение - рак лёгких потребовался бы скрытый конфаундер с Gamma* > 6. То есть некий ген или образ жизни должен был бы повышать шансы курить в 6 раз сильнее у заболевших, чем у здоровых, среди матченных по возрасту, полу и району пар. Такого мощного скрытого фактора в эпидемиологии не нашлось. Вывод о причинной природе связи был признан устойчивым.

Gamma*	Интерпретация устойчивости	Пример из практики
1.0 - 1.2	Очень хрупкий	Многие маркетинговые корреляции
1.2 - 1.5	Слабая устойчивость	Эффекты программ занятости в наблюдательных данных
1.5 - 2.5	Умеренная устойчивость	Эффекты лекарств в крупных когортах
2.5 - 5.0	Высокая устойчивость	Эффекты диеты в долгосрочных исследованиях
> 5.0	Чрезвычайная устойчивость	Курение и рак лёгких

ML-применение: тестирование робастности оценок treatment effect из A/B-тестов с нарушением рандомизации. Если устройство пользователя влияло на распределение по группам (например, мобильные чаще попадали в treatment из-за бага в коде распределения), Rosenbaum bounds показывают, насколько устойчив итоговый вывод об эффекте к этой утечке.

Wilcoxon signed-rank, Hodges-Lehmann, M-estimators дают разные p-value bounds для одного и того же Gamma. Стандарт - использовать robust rank-based статистики и сообщать критический Gamma* как часть отчёта. Пакеты rbounds (R) и senmw (Stata) автоматизируют расчёт.

Что означает Gamma* = 3.0 в анализе Розенбаума?

Gamma* - параметр устойчивости. Значение 3.0 означает: вывод о значимом эффекте сохраняется, пока скрытый конфаундер не приводит к различиям шансов лечения внутри пары более чем в 3 раза.

Когда доверять наблюдательным результатам

В 1965 году Остин Брэдфорд Хилл в инаугурационной речи Королевского медицинского общества предложил девять критериев причинности. Это не алгоритм, а контрольный список вопросов, которые исследователь должен задать своей наблюдательной находке прежде, чем называть её причинной.

Современная синтетическая стратегия - триангуляция: одна и та же причинная гипотеза тестируется несколькими независимыми методами с разными допущениями. Если IV, DiD, propensity matching и RDD дают согласованные оценки, вероятность того, что все они одновременно нарушают свои допущения в одну сторону, мала.

Критерий Bradford Hill	Что проверяется	Сила свидетельства
Сила ассоциации	Большой эффект RR > 3	Высокая: труднее объяснить конфаундерами
Воспроизводимость	Подтверждение в разных популяциях	Высокая при согласии независимых исследований
Специфичность	Связь конкретного X с конкретным Y	Умеренная: не обязательна, но полезна
Темпоральность	X предшествует Y во времени	Обязательно для причинности
Биологический градиент	Доза-эффект зависимость	Высокая: монотонность поддерживает причинность
Биологическая плаузибельность	Механизм имеет смысл	Умеренная: зависит от знаний области
Когерентность	Согласованность с другими фактами	Умеренная
Эксперимент	Прямая интервенция меняет Y	Очень высокая: золотой стандарт
Аналогия	Похожие связи известны	Слабая

Пример: курение и рак лёгких, 1950-е

Хрестоматийный случай триангуляции причинных свидетельств.

К 1964 году аргумент о причинной связи курения и рака лёгких опирался на: cohort studies Doll & Hill с RR около 10, case-control исследования с воспроизводимыми результатами, дозо-эффектную зависимость, гистологические доказательства, биологическую плаузибельность через канцерогены табачного дыма, и невозможность RCT по этическим причинам. Sensitivity analysis Корнфилда показала, что скрытый конфаундер с Gamma* > 9 потребовался бы для разрушения вывода. Триангуляция всех линий свидетельств сделала причинный вывод неопровержимым - без эксперимента.

ML-применение: триангуляция в causal ML pipeline. Хорошая практика индустрии (Microsoft EconML, Google causal team): каждая causal claim прогоняется через несколько идентификационных стратегий (DML, doubly robust, propensity stratification, IV если доступен). Согласованные оценки + reported E-value + Rosenbaum bounds создают научно обоснованный отчёт для бизнеса. Epistemic humility - стандарт зрелого causal ML.

Sensitivity analysis в зрелом causal pipeline

Современный отчёт о наблюдательной причинной оценке включает: точечную оценку, доверительный интервал, балансировку ковариат, e-value для главных результатов, Rosenbaum bounds если использовался матчинг, и результаты триангуляции через альтернативные методы. Это not optional, это стандарт качества.

Конфаундеры и парадокс Симпсона — Sensitivity analysis отвечает на вопрос: насколько сильным должен быть скрытый конфаундер чтобы отменить найденный эффект
Propensity Score: matching и IPTW — Propensity-based оценки особенно уязвимы к скрытому конфаундингу - e-value и Rosenbaum bounds обязательны как часть отчёта

Ключевые идеи

Sensitivity analysis отвечает на вопрос "насколько хрупок вывод", а не "есть ли скрытый конфаундер"
E-value - минимальная сила ассоциации скрытого конфаундера, требуемая для разрушения эффекта
Большое E-value (3+) означает устойчивость, маленькое E (1.2-1.5) - хрупкость
Rosenbaum bounds через критический Gamma* применимы к матчинговым исследованиям
Триангуляция через несколько независимых методов - стандарт зрелого causal inference
Критерии Bradford Hill 1965 года остаются актуальным контрольным списком
Эпистемическая скромность: любая наблюдательная causal-оценка должна сопровождаться sensitivity report

Вопросы для размышления

Какой скрытый конфаундер реалистично мог бы объяснить связь кофе и Паркинсона? Достигнет ли он E-value = 2.6?
В какой ML-системе sensitivity analysis особенно важен и почему?
Согласие IV-, DiD- и PSM-оценок усиливает уверенность - но в каких случаях это согласие может быть ложным?
Что лучше: одно крупное RCT или десять наблюдательных исследований с устойчивыми E-values и согласованными оценками?
Как должен меняться отчёт о causal ML-модели, если E-value главного эффекта оказался равен 1.3?

Связанные уроки

stat-20-causal — Основы причинного вывода и конфаундеров
stat-42-causal-propensity — Бэкграунд по propensity score и матчингу
stat-39-causal-confounders — Прямая работа с неучтёнными конфаундерами
stat-45-causal-rdd — Sensitivity analysis применим и к RDD-оценкам
prob-04-bayes