Статистика

Регрессионный разрыв (RDD)

Цели урока

Понимать идею RDD: произвольный порог как локальный квазиэксперимент
Различать Sharp и Fuzzy RDD по характеру назначения лечения
Применять локальную линейную регрессию с MSE-оптимальной полосой и CCT-корректировкой
Проводить проверки валидности: McCrary-тест, плацебо-пороги, балансировка ковариат
Интерпретировать оценку как LATE для compliers вблизи порога

Предварительные знания

Понятия причинного вывода и потенциальных исходов
Идея инструментальных переменных и LATE
Линейная регрессия с весами и доверительные интервалы

Флорида 2000: 537 голосов решили судьбу президентских выборов. RDD превращает такие пороги в инструмент причинного вывода.

**Образование**: Эффект попадания в программу для одарённых по баллу теста, граница 90-й перцентиль
**Финансы**: Эффект одобрения кредита по FICO-скору, автоматическая граница около 660
**Медицина**: Эффект назначения статинов по риску ССЗ, граница 7.5 процентов по гайдлайну AHA
**Политика**: Эффект победы на местных выборах с минимальным перевесом на долгосрочную карьеру
**ML-системы**: Эффект автоматической рекомендации с порогом скора на удержание пользователей

Рождение метода и credibility revolution

Thistlethwaite и Campbell ввели RDD в 1960 году, изучая эффект сертификатов National Merit Scholarship на карьерные траектории. На десятилетия метод оказался забыт. Credibility revolution в экономике 2000-х годов переоткрыла его. Имбенс и Лемье в обзоре 2008 года в Journal of Econometrics дали современное изложение, а Calonico, Cattaneo и Titiunik в 2014 предложили робастные доверительные интервалы. К 2015 году RDD вошёл в тройку самых цитируемых методов причинного вывода в эмпирической экономике. Главная сила метода - минимальные допущения о селекции в лечение, нужна лишь непрерывность других факторов на пороге.

Sharp RDD: разрыв на пороге

Флорида, 2000 год. Президентские выборы США, пересчёт голосов. Разрыв между Бушем и Гором составил 537 голосов. Этого хватило, чтобы один человек стал президентом, а другой нет. Порог решил судьбу страны. RDD эксплуатирует ровно эту логику: произвольная граница создаёт почти случайное распределение единиц по обе стороны от черты.

Студенты, набравшие на экзамене 80 баллов, попадают в программу для одарённых. Набравшие 79 - нет. Разница между 79 и 80 практически шум, но последствия для образовательной траектории огромны. Если сравнить судьбы тех, кто рядом с порогом по обе стороны, получится оценка причинного эффекта попадания в программу.

Sharp RDD работает там, где назначение в группу - детерминированная функция от так называемой бегущей переменной (running variable): D_i = 1{X_i >= c}. Никаких исключений из правила, граница чёткая.

Пример: грант для одарённых школьников

Реальное исследование Hoxby & Avery, программа отбора по результатам теста.

Бегущая переменная - балл стандартизированного теста, порог - 90-й перцентиль. Те, кто чуть выше, получают приглашение в элитный университет. Сравнение долгосрочных карьерных траекторий тех, кто получил 89 и 91 балл, даёт причинный эффект отбора в программу. Разница в зарплате через 10 лет - около 12 процентов в пользу попавших в программу.

RDD оценивает эффект только для единиц у самого порога. Эффект для отличников с 99 баллами или троечников с 60 баллами может быть совершенно иным. Это плата за минимум допущений.

Что именно оценивает Sharp RDD?

RDD идентифицирует LATE - локальный средний эффект именно на границе. Экстраполяция за пределы окрестности порога не оправдана.

Оценивание: локальная линейная регрессия

Соблазн оценить разрыв через полином высокой степени с обеих сторон порога велик и опасен. Gelman и Imbens в работе 2019 года показали: полиномы выше третьей степени порождают артефактные разрывы. Хвосты распределения тянут регрессионную кривую в стороны, и в точке c появляется фиктивный скачок.

Современный стандарт - локальная линейная регрессия с симметричной полосой пропускания h. На каждой стороне порога подгоняется отдельная линейная модель только для точек X в окне [c-h, c+h]. Оценка эффекта - разница интерсептов.

Полоса пропускания h - центральный гиперпараметр. Узкая полоса даёт несмещённую, но шумную оценку. Широкая полоса добавляет смещение из-за нелинейности E[Y|X], но снижает дисперсию. Это классический bias-variance tradeoff.

ML-применение: пороги кредитного скоринга

Stripe, Klarna и другие финтех-системы используют автоматические пороги одобрения займов.

Заявка с FICO-скором 660 одобряется автоматически, с 659 - отклоняется. Сравнение долгосрочного дефолта заёмщиков рядом с порогом даёт причинный эффект одобрения кредита. Локальная линейная регрессия с CCT-полосой - стандарт в индустрии для аудита справедливости алгоритмов кредитования.

Кубики и полиномы четвёртой степени могут породить фиктивные разрывы из-за поведения хвостов. Стандарт ревью в журналах - локальная линейная или локальная квадратичная регрессия плюс отчёт о чувствительности к h.

Почему рекомендуют избегать полиномов высокой степени при оценке RDD?

Gelman и Imbens показали: хвосты распределения тянут аппроксимирующую кривую и фиктивно повышают видимый скачок на пороге. Локальная линейная регрессия с подобранной полосой - безопаснее.

Проверки валидности: тест McCrary и манипуляции

Самая страшная угроза RDD - сортировка. Если единицы могут сознательно подвинуть свою бегущую переменную через порог, идентифицирующее допущение рушится. Студент может пересдать тест ради 80 баллов, врач может поставить пациенту "нужный" диагноз ради включения в страховую программу.

Тест плотности McCrary (2008) проверяет непрерывность плотности бегущей переменной в точке c. Если плотность "горбится" с одной стороны и "проседает" с другой - это сигнал манипуляции.

ML-применение: gaming в алгоритмах

Пользователи могут "играть" против ML-системы, чтобы перешагнуть порог.

Алгоритм одобрения подписки на премиум-уровень требует скор активности 0.7. Пользователи учатся набивать клики и просмотры, чтобы оказаться чуть выше 0.7. McCrary-тест для плотности скора покажет аномальный горб справа от порога. Это сигнал того, что RDD-оценка эффекта подписки заражена селекцией.

Проверка	Что тестируется	Сигнал тревоги
McCrary density	Непрерывность плотности X в c	p-value < 0.05 на скачок плотности
Балансировка ковариат	Скачок ковариат на пороге	Любая ковариата разрывна в c
Плацебо-порог	Эффект на фиктивном c'	Значимый эффект при отсутствии лечения
Donut RDD	Чувствительность к границам	Резкое изменение оценки после выкидывания близких точек

Прохождение McCrary не гарантирует отсутствие сортировки. Манипулировать можно слабо, но систематически. Серьёзный анализ RDD требует прохождения всех четырёх проверок плюс качественного аргумента о том, почему сортировка невозможна институционально.

Какая угроза идентификации в RDD наиболее серьёзна?

Сортировка (manipulation, gaming) ломает условие непрерывности и делает оценку смещённой. McCrary-тест и анализ ковариат на пороге призваны её ловить.

Fuzzy RDD: порог как инструмент

В реальности порог часто не определяет лечение жёстко, а лишь повышает вероятность его получения. Клиническое руководство "рекомендует" терапию пациентам с уровнем холестерина выше 240, но врач принимает финальное решение. Условие D_i = 1{X_i >= c} нарушается: часть пациентов выше порога не лечится, часть ниже - получает лечение.

В этом случае порог становится инструментом для фактического лечения. Оценка перестраивается через 2SLS: пересечение порога Z_i = 1{X_i >= c} - инструмент, фактическое лечение D_i - эндогенная переменная, исход Y_i - целевая.

Пример: клиническое руководство по статинам

Алгоритм AHA рекомендует статины пациентам с риском ССЗ выше 7.5 процентов.

Доля назначений статинов скачком вырастает с 22 процентов слева от порога до 58 процентов справа (pi = 0.36). Смертность через 5 лет снижается на 1.2 процентных пункта (rho = -0.012). Fuzzy RDD-оценка эффекта статинов на смертность для compliers: tau = -0.012 / 0.36 = -0.033, то есть снижение смертности на 3.3 п.п. для пациентов, чьё назначение определяется руководством.

ML-применение: системы рекомендаций с мягкими порогами. Стриминговая платформа "рекомендует" фильм пользователям с предсказанной оценкой выше 4.2, но они вольны его игнорировать. Fuzzy RDD оценивает причинный эффект рекомендации на просмотр и удержание подписчика для compliers - тех, кого именно рекомендация толкнула к просмотру.

Если скачок pi в первой стадии мал (например, 0.05), Fuzzy RDD страдает от проблемы слабого инструмента. Доверительные интервалы расширяются нелинейно. Стандарт - проверить F-статистику первой стадии и применить процедуры Anderson-Rubin для робастных интервалов.

Что оценивает Fuzzy RDD?

Fuzzy RDD по логике совпадает с IV: оценивается локальный средний эффект для compliers - подгруппы, реагирующей на инструмент. Always-takers и never-takers вне идентификации.

RDD в экосистеме причинного вывода

RDD занимает нишу между чистой рандомизацией RCT и наблюдательными методами вроде propensity score. Sharp RDD оценивает разрыв детерминированно, Fuzzy RDD сводится к IV и наследует LATE-интерпретацию. На фоне DiD требует меньше допущений (только непрерывность на пороге), но даёт локальную оценку.

Инструментальные переменные — Fuzzy RDD напрямую сводится к 2SLS IV с инструментом = индикатор перехода порога
Sensitivity analysis: E-value, Rosenbaum — Проверка устойчивости оценки RDD к нарушению допущения непрерывности на пороге

Ключевые идеи

RDD идентифицирует причинный эффект через скачок исхода на произвольном пороге бегущей переменной
Sharp RDD требует детерминированного назначения, Fuzzy RDD допускает вероятностное
Стандарт оценивания - локальная линейная регрессия с MSE-оптимальной или CCT-полосой пропускания
Полиномы высокой степени создают артефактные разрывы и не рекомендуются
McCrary-тест плотности, проверка ковариат и плацебо-пороги - обязательная валидация
Оценка локальна: справедлива только для единиц у самого порога, не экстраполируется
Fuzzy RDD сводится к 2SLS и наследует интерпретацию LATE для compliers

Вопросы для размышления

В какой реальной системе порог принятия решения создаёт условия для RDD? Какие проверки понадобятся?
Почему именно непрерывность плотности у порога важна для валидности метода?
Как соотносится оценка Fuzzy RDD с оценкой IV, если бегущая переменная одна, а порогов несколько?
В каких ML-системах сортировка пользователей у порога особенно вероятна и как её обнаружить?
Можно ли расширить локальную оценку LATE на более широкую популяцию, и какой ценой?

Связанные уроки

stat-20-causal — Базовые понятия причинного вывода
stat-40-causal-rct — RDD - локальная альтернатива RCT
stat-43-causal-iv — Fuzzy RDD это частный случай IV
stat-46-causal-sensitivity — Проверка устойчивости оценок RDD
calc-06-derivative-intro