Causal Calculus
Причинный вывод с текстом и NLP
Тексты - конфаундеры: врач пишет детальные записи для тяжёлых пациентов, поэтому 'подробность записи' коррелирует с плохим исходом. Если не контролировать текст, оценка эффекта лечения будет смещена. Причинный NLP решает: как использовать языковые модели для устранения текстового конфаундинга.
- Здравоохранение: клинические записи как конфаундер при оценке эффекта лечения
- Социальные науки: тональность новостей как конфаундер при изучении поведения рынка
- Реклама: тексты объявлений как конфаундер при оценке кликабельности
- Правовые исследования: язык судебных решений и расовые предубеждения
- Аудит алгоритмов: дискриминация через прокси-признаки в текстах
Цели урока
- Использовать BERT-эмбеддинги как прокси для текстовых конфаундеров в причинном анализе
- Применять двойно-робастный оценщик DR-Learner для оценки CATE
- Интерпретировать E-value как меру устойчивости к ненаблюдаемым конфаундерам
Предварительные знания
- Причинная идентификация и критерий бэкдора
- Оценка склонности (propensity score) и IPW
- Трансформеры и BERT: контекстуальные эмбеддинги
Текст как конфаундер
Если неструктурированный текст $T$ (клинические записи, описания продуктов) влияет как на лечение $D$, так и на исход $Y$, то $T$ является конфаундером. Контроль за $T$ через bag-of-words теряет семантику. BERT предоставляет богатые эмбеддинги $\phi(T)$ как прокси для $T$, позволяя применять стандартные методы причинного вывода.
E-value: устойчивость к ненаблюдаемым конфаундерам
E-value (VanderWeele 2017): минимальная сила ненаблюдаемого конфаундера, необходимая для объяснения наблюдаемой ассоциации. $E = RR + \sqrt{RR(RR-1)}$ для относительного риска $RR$. Большое E-value означает робастность: конфаундер должен быть очень сильным, чтобы объяснить результат.
Контроль текстовых конфаундеров через нейросетевые эмбеддинги работает только при допущении достаточности прокси: $T \perp\!\!\!\perp (D, Y) | \phi(T)$. Это непроверяемое допущение; качество зависит от экспрессивности эмбеддингов.
Текст как прокси конфаундера
Roberts et al. (2020) использовали тематические модели на отзывах к препаратам для контроля «здоровья пациента» (ненаблюдаемый конфаундер) при оценке побочных эффектов. Veitch et al. (2020): BERT-эмбеддинги как признаки пропенсити-модели уменьшают bias на 40-60% по сравнению с наивным OLS, когда текст частично наблюдает конфаундер.
Почему двойно-робастный оценщик предпочтительнее простого IPW?
E-value и чувствительность к скрытому конфаундингу
VanderWeele & Ding (2017) ввели E-value: минимальная сила незамеченного конфаундера (измеренная в RR), чтобы объяснить наблюдаемый эффект. E-value = RR + sqrt(RR(RR-1)). Для текстовых данных: анализируем чувствительность к пропущенным словам или тематикам. Если E-value велик, результат устойчив.
Что измеряет E-value (VanderWeele & Ding)?
BERT-пропенсити для текстового конфаундинга
Модель склонности: $e(T) = P(D=1|T) = \sigma(w^T \phi_{BERT}(T))$. IPW-оценка: $\hat{\tau}_{IPW} = \frac{1}{n}\sum_i \frac{D_i Y_i}{e(T_i)} - \frac{(1-D_i)Y_i}{1-e(T_i)}$. Двойно-робастный оценщик остаётся состоятельным при правильной спецификации либо модели исхода, либо пропенсити.
Итоги
- Текст как конфаундер: BERT-эмбеддинги $\phi(T)$ используются как прокси для контроля в IPW и DR-оценщиках
- Двойно-робастный оценщик DR состоятелен при правильной спецификации хотя бы одной из двух моделей
- E-value измеряет минимальную силу ненаблюдаемого конфаундера для объяснения результата: больше E-value - больше робастность
Связь с другими темами
Причинный NLP объединяет два направления: нейросетевые языковые модели и потенциальные исходы Рубина. Смежные методы: синтетический контроль с текстовыми данными, причинная инференция для рекомендательных систем, дебиасинг языковых моделей через причинный аудит.
- Связанные темы — развивает
Вопросы для размышления
- Когда BERT-эмбеддинги как прокси для конфаундера недостаточны? Приведите пример, где семантика не захватывает релевантный конфаундер.
- Двойная робастность: если обе модели (пропенсити и исход) неверны, оценщик DR несостоятелен. Как проверить их корректность?
- E-value 2.5 означает: конфаундер должен в 2.5 раза увеличивать риск лечения и исхода для объяснения результата. Как интерпретировать это для клинического исследования?