Causal Calculus

Причинный вывод с текстом и NLP

Тексты - конфаундеры: врач пишет детальные записи для тяжёлых пациентов, поэтому 'подробность записи' коррелирует с плохим исходом. Если не контролировать текст, оценка эффекта лечения будет смещена. Причинный NLP решает: как использовать языковые модели для устранения текстового конфаундинга.

Здравоохранение: клинические записи как конфаундер при оценке эффекта лечения
Социальные науки: тональность новостей как конфаундер при изучении поведения рынка
Реклама: тексты объявлений как конфаундер при оценке кликабельности
Правовые исследования: язык судебных решений и расовые предубеждения
Аудит алгоритмов: дискриминация через прокси-признаки в текстах

Цели урока

Использовать BERT-эмбеддинги как прокси для текстовых конфаундеров в причинном анализе
Применять двойно-робастный оценщик DR-Learner для оценки CATE
Интерпретировать E-value как меру устойчивости к ненаблюдаемым конфаундерам

Предварительные знания

Причинная идентификация и критерий бэкдора
Оценка склонности (propensity score) и IPW
Трансформеры и BERT: контекстуальные эмбеддинги

Текст как конфаундер

Если неструктурированный текст $T$ (клинические записи, описания продуктов) влияет как на лечение $D$, так и на исход $Y$, то $T$ является конфаундером. Контроль за $T$ через bag-of-words теряет семантику. BERT предоставляет богатые эмбеддинги $\phi(T)$ как прокси для $T$, позволяя применять стандартные методы причинного вывода.

E-value: устойчивость к ненаблюдаемым конфаундерам

E-value (VanderWeele 2017): минимальная сила ненаблюдаемого конфаундера, необходимая для объяснения наблюдаемой ассоциации. $E = RR + \sqrt{RR(RR-1)}$ для относительного риска $RR$. Большое E-value означает робастность: конфаундер должен быть очень сильным, чтобы объяснить результат.

Контроль текстовых конфаундеров через нейросетевые эмбеддинги работает только при допущении достаточности прокси: $T \perp\!\!\!\perp (D, Y) | \phi(T)$. Это непроверяемое допущение; качество зависит от экспрессивности эмбеддингов.

Текст как прокси конфаундера

Roberts et al. (2020) использовали тематические модели на отзывах к препаратам для контроля «здоровья пациента» (ненаблюдаемый конфаундер) при оценке побочных эффектов. Veitch et al. (2020): BERT-эмбеддинги как признаки пропенсити-модели уменьшают bias на 40-60% по сравнению с наивным OLS, когда текст частично наблюдает конфаундер.

Почему двойно-робастный оценщик предпочтительнее простого IPW?

E-value и чувствительность к скрытому конфаундингу

VanderWeele & Ding (2017) ввели E-value: минимальная сила незамеченного конфаундера (измеренная в RR), чтобы объяснить наблюдаемый эффект. E-value = RR + sqrt(RR(RR-1)). Для текстовых данных: анализируем чувствительность к пропущенным словам или тематикам. Если E-value велик, результат устойчив.

Что измеряет E-value (VanderWeele & Ding)?

BERT-пропенсити для текстового конфаундинга

Модель склонности: $e(T) = P(D=1|T) = \sigma(w^T \phi_{BERT}(T))$. IPW-оценка: $\hat{\tau}_{IPW} = \frac{1}{n}\sum_i \frac{D_i Y_i}{e(T_i)} - \frac{(1-D_i)Y_i}{1-e(T_i)}$. Двойно-робастный оценщик остаётся состоятельным при правильной спецификации либо модели исхода, либо пропенсити.

Итоги

Текст как конфаундер: BERT-эмбеддинги $\phi(T)$ используются как прокси для контроля в IPW и DR-оценщиках
Двойно-робастный оценщик DR состоятелен при правильной спецификации хотя бы одной из двух моделей
E-value измеряет минимальную силу ненаблюдаемого конфаундера для объяснения результата: больше E-value - больше робастность

Связь с другими темами

Причинный NLP объединяет два направления: нейросетевые языковые модели и потенциальные исходы Рубина. Смежные методы: синтетический контроль с текстовыми данными, причинная инференция для рекомендательных систем, дебиасинг языковых моделей через причинный аудит.

Связанные темы — развивает

Вопросы для размышления

Когда BERT-эмбеддинги как прокси для конфаундера недостаточны? Приведите пример, где семантика не захватывает релевантный конфаундер.
Двойная робастность: если обе модели (пропенсити и исход) неверны, оценщик DR несостоятелен. Как проверить их корректность?
E-value 2.5 означает: конфаундер должен в 2.5 раза увеличивать риск лечения и исхода для объяснения результата. Как интерпретировать это для клинического исследования?