Статистика
Регрессионный разрыв (RDD)
Цели урока
- Понимать идею RDD: произвольный порог как локальный квазиэксперимент
- Различать Sharp и Fuzzy RDD по характеру назначения лечения
- Применять локальную линейную регрессию с MSE-оптимальной полосой и CCT-корректировкой
- Проводить проверки валидности: McCrary-тест, плацебо-пороги, балансировка ковариат
- Интерпретировать оценку как LATE для compliers вблизи порога
Предварительные знания
- Понятия причинного вывода и потенциальных исходов
- Идея инструментальных переменных и LATE
- Линейная регрессия с весами и доверительные интервалы
Флорида 2000: 537 голосов решили судьбу президентских выборов. RDD превращает такие пороги в инструмент причинного вывода.
- **Образование**: Эффект попадания в программу для одарённых по баллу теста, граница 90-й перцентиль
- **Финансы**: Эффект одобрения кредита по FICO-скору, автоматическая граница около 660
- **Медицина**: Эффект назначения статинов по риску ССЗ, граница 7.5 процентов по гайдлайну AHA
- **Политика**: Эффект победы на местных выборах с минимальным перевесом на долгосрочную карьеру
- **ML-системы**: Эффект автоматической рекомендации с порогом скора на удержание пользователей
Рождение метода и credibility revolution
Thistlethwaite и Campbell ввели RDD в 1960 году, изучая эффект сертификатов National Merit Scholarship на карьерные траектории. На десятилетия метод оказался забыт. Credibility revolution в экономике 2000-х годов переоткрыла его. Имбенс и Лемье в обзоре 2008 года в Journal of Econometrics дали современное изложение, а Calonico, Cattaneo и Titiunik в 2014 предложили робастные доверительные интервалы. К 2015 году RDD вошёл в тройку самых цитируемых методов причинного вывода в эмпирической экономике. Главная сила метода - минимальные допущения о селекции в лечение, нужна лишь непрерывность других факторов на пороге.
Sharp RDD: разрыв на пороге
Флорида, 2000 год. Президентские выборы США, пересчёт голосов. Разрыв между Бушем и Гором составил 537 голосов. Этого хватило, чтобы один человек стал президентом, а другой нет. Порог решил судьбу страны. RDD эксплуатирует ровно эту логику: произвольная граница создаёт почти случайное распределение единиц по обе стороны от черты.
Студенты, набравшие на экзамене 80 баллов, попадают в программу для одарённых. Набравшие 79 - нет. Разница между 79 и 80 практически шум, но последствия для образовательной траектории огромны. Если сравнить судьбы тех, кто рядом с порогом по обе стороны, получится оценка причинного эффекта попадания в программу.
Sharp RDD работает там, где назначение в группу - детерминированная функция от так называемой бегущей переменной (running variable): D_i = 1{X_i >= c}. Никаких исключений из правила, граница чёткая.
Пример: грант для одарённых школьников
Реальное исследование Hoxby & Avery, программа отбора по результатам теста.
Бегущая переменная - балл стандартизированного теста, порог - 90-й перцентиль. Те, кто чуть выше, получают приглашение в элитный университет. Сравнение долгосрочных карьерных траекторий тех, кто получил 89 и 91 балл, даёт причинный эффект отбора в программу. Разница в зарплате через 10 лет - около 12 процентов в пользу попавших в программу.
RDD оценивает эффект только для единиц у самого порога. Эффект для отличников с 99 баллами или троечников с 60 баллами может быть совершенно иным. Это плата за минимум допущений.
Что именно оценивает Sharp RDD?
RDD идентифицирует LATE - локальный средний эффект именно на границе. Экстраполяция за пределы окрестности порога не оправдана.
Оценивание: локальная линейная регрессия
Соблазн оценить разрыв через полином высокой степени с обеих сторон порога велик и опасен. Gelman и Imbens в работе 2019 года показали: полиномы выше третьей степени порождают артефактные разрывы. Хвосты распределения тянут регрессионную кривую в стороны, и в точке c появляется фиктивный скачок.
Современный стандарт - локальная линейная регрессия с симметричной полосой пропускания h. На каждой стороне порога подгоняется отдельная линейная модель только для точек X в окне [c-h, c+h]. Оценка эффекта - разница интерсептов.
Полоса пропускания h - центральный гиперпараметр. Узкая полоса даёт несмещённую, но шумную оценку. Широкая полоса добавляет смещение из-за нелинейности E[Y|X], но снижает дисперсию. Это классический bias-variance tradeoff.
ML-применение: пороги кредитного скоринга
Stripe, Klarna и другие финтех-системы используют автоматические пороги одобрения займов.
Заявка с FICO-скором 660 одобряется автоматически, с 659 - отклоняется. Сравнение долгосрочного дефолта заёмщиков рядом с порогом даёт причинный эффект одобрения кредита. Локальная линейная регрессия с CCT-полосой - стандарт в индустрии для аудита справедливости алгоритмов кредитования.
Кубики и полиномы четвёртой степени могут породить фиктивные разрывы из-за поведения хвостов. Стандарт ревью в журналах - локальная линейная или локальная квадратичная регрессия плюс отчёт о чувствительности к h.
Почему рекомендуют избегать полиномов высокой степени при оценке RDD?
Gelman и Imbens показали: хвосты распределения тянут аппроксимирующую кривую и фиктивно повышают видимый скачок на пороге. Локальная линейная регрессия с подобранной полосой - безопаснее.
Проверки валидности: тест McCrary и манипуляции
Самая страшная угроза RDD - сортировка. Если единицы могут сознательно подвинуть свою бегущую переменную через порог, идентифицирующее допущение рушится. Студент может пересдать тест ради 80 баллов, врач может поставить пациенту "нужный" диагноз ради включения в страховую программу.
Тест плотности McCrary (2008) проверяет непрерывность плотности бегущей переменной в точке c. Если плотность "горбится" с одной стороны и "проседает" с другой - это сигнал манипуляции.
ML-применение: gaming в алгоритмах
Пользователи могут "играть" против ML-системы, чтобы перешагнуть порог.
Алгоритм одобрения подписки на премиум-уровень требует скор активности 0.7. Пользователи учатся набивать клики и просмотры, чтобы оказаться чуть выше 0.7. McCrary-тест для плотности скора покажет аномальный горб справа от порога. Это сигнал того, что RDD-оценка эффекта подписки заражена селекцией.
| Проверка | Что тестируется | Сигнал тревоги |
|---|---|---|
| McCrary density | Непрерывность плотности X в c | p-value < 0.05 на скачок плотности |
| Балансировка ковариат | Скачок ковариат на пороге | Любая ковариата разрывна в c |
| Плацебо-порог | Эффект на фиктивном c' | Значимый эффект при отсутствии лечения |
| Donut RDD | Чувствительность к границам | Резкое изменение оценки после выкидывания близких точек |
Прохождение McCrary не гарантирует отсутствие сортировки. Манипулировать можно слабо, но систематически. Серьёзный анализ RDD требует прохождения всех четырёх проверок плюс качественного аргумента о том, почему сортировка невозможна институционально.
Какая угроза идентификации в RDD наиболее серьёзна?
Сортировка (manipulation, gaming) ломает условие непрерывности и делает оценку смещённой. McCrary-тест и анализ ковариат на пороге призваны её ловить.
Fuzzy RDD: порог как инструмент
В реальности порог часто не определяет лечение жёстко, а лишь повышает вероятность его получения. Клиническое руководство "рекомендует" терапию пациентам с уровнем холестерина выше 240, но врач принимает финальное решение. Условие D_i = 1{X_i >= c} нарушается: часть пациентов выше порога не лечится, часть ниже - получает лечение.
В этом случае порог становится инструментом для фактического лечения. Оценка перестраивается через 2SLS: пересечение порога Z_i = 1{X_i >= c} - инструмент, фактическое лечение D_i - эндогенная переменная, исход Y_i - целевая.
Пример: клиническое руководство по статинам
Алгоритм AHA рекомендует статины пациентам с риском ССЗ выше 7.5 процентов.
Доля назначений статинов скачком вырастает с 22 процентов слева от порога до 58 процентов справа (pi = 0.36). Смертность через 5 лет снижается на 1.2 процентных пункта (rho = -0.012). Fuzzy RDD-оценка эффекта статинов на смертность для compliers: tau = -0.012 / 0.36 = -0.033, то есть снижение смертности на 3.3 п.п. для пациентов, чьё назначение определяется руководством.
ML-применение: системы рекомендаций с мягкими порогами. Стриминговая платформа "рекомендует" фильм пользователям с предсказанной оценкой выше 4.2, но они вольны его игнорировать. Fuzzy RDD оценивает причинный эффект рекомендации на просмотр и удержание подписчика для compliers - тех, кого именно рекомендация толкнула к просмотру.
Если скачок pi в первой стадии мал (например, 0.05), Fuzzy RDD страдает от проблемы слабого инструмента. Доверительные интервалы расширяются нелинейно. Стандарт - проверить F-статистику первой стадии и применить процедуры Anderson-Rubin для робастных интервалов.
Что оценивает Fuzzy RDD?
Fuzzy RDD по логике совпадает с IV: оценивается локальный средний эффект для compliers - подгруппы, реагирующей на инструмент. Always-takers и never-takers вне идентификации.
RDD в экосистеме причинного вывода
RDD занимает нишу между чистой рандомизацией RCT и наблюдательными методами вроде propensity score. Sharp RDD оценивает разрыв детерминированно, Fuzzy RDD сводится к IV и наследует LATE-интерпретацию. На фоне DiD требует меньше допущений (только непрерывность на пороге), но даёт локальную оценку.
- Инструментальные переменные — Fuzzy RDD напрямую сводится к 2SLS IV с инструментом = индикатор перехода порога
- Sensitivity analysis: E-value, Rosenbaum — Проверка устойчивости оценки RDD к нарушению допущения непрерывности на пороге
Ключевые идеи
- RDD идентифицирует причинный эффект через скачок исхода на произвольном пороге бегущей переменной
- Sharp RDD требует детерминированного назначения, Fuzzy RDD допускает вероятностное
- Стандарт оценивания - локальная линейная регрессия с MSE-оптимальной или CCT-полосой пропускания
- Полиномы высокой степени создают артефактные разрывы и не рекомендуются
- McCrary-тест плотности, проверка ковариат и плацебо-пороги - обязательная валидация
- Оценка локальна: справедлива только для единиц у самого порога, не экстраполируется
- Fuzzy RDD сводится к 2SLS и наследует интерпретацию LATE для compliers
Вопросы для размышления
- В какой реальной системе порог принятия решения создаёт условия для RDD? Какие проверки понадобятся?
- Почему именно непрерывность плотности у порога важна для валидности метода?
- Как соотносится оценка Fuzzy RDD с оценкой IV, если бегущая переменная одна, а порогов несколько?
- В каких ML-системах сортировка пользователей у порога особенно вероятна и как её обнаружить?
- Можно ли расширить локальную оценку LATE на более широкую популяцию, и какой ценой?
Связанные уроки
- stat-20-causal — Базовые понятия причинного вывода
- stat-40-causal-rct — RDD - локальная альтернатива RCT
- stat-43-causal-iv — Fuzzy RDD это частный случай IV
- stat-46-causal-sensitivity — Проверка устойчивости оценок RDD
- calc-06-derivative-intro