Статистика
Difference-in-Differences
Цели урока
- Понимать конструкцию 2x2 и регрессионное представление DiD
- Знать допущение параллельных трендов и способы его косвенной проверки
- Различать классический DiD и поэтапные дизайны, видеть ловушки TWFE
- Уметь применять современные оценщики Callaway-Sant'Anna и Sun-Abraham
- Владеть диагностикой: плацебо-тесты, event study, синтетический контроль
Предварительные знания
- Базовые понятия причинности и потенциальных исходов
- Линейная регрессия и фиксированные эффекты
- Анализ панельных данных и кластерные стандартные ошибки
Когда рандомизация невозможна, две разности заменяют один эксперимент - и эта простая идея перевернула экономику труда.
- **Эконом. политика**: оценка эффекта минимальной зарплаты, налоговых льгот, торговых тарифов между штатами и странами
- **Здравоохранение**: эффект расширения Medicaid - сравнение принявших штатов с непринявшими
- **ML-системы**: оценка раскатки новой версии приложения на одну географию с matched control market
- **Эпидемиология**: классическое исследование Сноу о холере - первый эмпирический DiD за 140 лет до формализации метода
- **Финансы**: эффект Базельских правил на банковское кредитование - страны до и после внедрения
От Сноу до Гудмана-Бэкона
Расследование Джона Сноу в Лондоне 1854 года часто называют первым DiD-исследованием. Он сравнивал смертность от холеры в домах, обслуживаемых разными водопроводными компаниями, до и после смены источника воды Lambeth Company. Формальная эконометрическая рамка DiD сложилась в 1980-90-х. Работа Карда и Крюгера 1994 года о минимальной зарплате в Нью-Джерси сделала метод стандартом политологических и экономических исследований. Проблема поэтапного внедрения была вскрыта Гудманом-Бэконом в препринте 2018 года и формально решена в работах 2021 года (Callaway-Sant'Anna, Sun-Abraham, де Шазейаль-д'Отрив-Доферр).
Конструкция 2x2
1992 год. Губернатор Нью-Джерси поднимает минимальную зарплату с 4.25 до 5.05 долларов в час. Все экономические учебники предсказывают рост безработицы - спрос на труд при повышении цены должен упасть. Дэвид Кард и Алан Крюгер предлагают неожиданный ход: сравнить заведения фастфуда Нью-Джерси с заведениями соседней Пенсильвании, где минимальная зарплата не изменилась. Замеры до и после, в одной группе и в другой. Занятость в Нью-Джерси не упала, а даже немного выросла относительно Пенсильвании. Эта работа 1994 года, принёсшая Карду Нобелевскую премию 2021 года, разрушила консенсус и превратила difference-in-differences в основной инструмент эмпирической социальной науки.
DiD - это сравнение разностей: разность во времени для обработанной группы минус разность во времени для контрольной. Простой расчёт по таблице 2x2 убирает и стабильные различия групп, и общие временные тренды.
| Группа | До | После | Разность |
|---|---|---|---|
| Обработанная | Y_T0 | Y_T1 | Y_T1 - Y_T0 |
| Контрольная | Y_C0 | Y_C1 | Y_C1 - Y_C0 |
| DiD | - | - | (Y_T1 - Y_T0) - (Y_C1 - Y_C0) |
Регрессионная форма этой конструкции компактна и удобна для добавления контролей и фиксированных эффектов:
Коэффициент при взаимодействии δ - это и есть DiD-оценка причинного эффекта. β улавливает стабильную разницу между группами, γ - общий временной тренд.
Минимальная зарплата по Карду и Крюгеру
Что показал расчёт
В Нью-Джерси среднее число работников на ресторан выросло с 20.4 до 21.0 после повышения минимальной зарплаты. В Пенсильвании в тех же временных рамках занятость упала с 23.3 до 21.2. DiD-эффект: (21.0 - 20.4) - (21.2 - 23.3) = 2.7 работника на ресторан в пользу группы с повышением. Результат, на котором стоял десятилетиями консенсус об отрицательном эффекте минималки, рухнул.
Netflix, Airbnb и крупные ритейлеры регулярно используют DiD для оценки эффекта новой фичи. Запуск раскатывается на одной географии, в качестве контроля берутся matched-рынки с похожей динамикой до релиза. Разность разностей выдаёт чистый эффект фичи, очищенный от сезонности и общеотраслевых сдвигов.
Что именно убирает DiD по сравнению с простой разностью "до и после"?
Сравнение до и после смешивает эффект treatment с любыми временными сдвигами в экономике. DiD вычитает временной тренд контрольной группы и тем самым изолирует именно влияние обработки.
Допущение параллельных трендов
DiD оживает только при одном ключевом предположении: в отсутствие treatment обе группы двигались бы параллельно. Иначе разница в динамике после вмешательства может отражать просто разную траекторию, а не эффект. Это допущение нельзя проверить напрямую - оно касается контрфактической реальности, в которой обработанная группа не была обработана. Зато его можно проверить косвенно: посмотреть, шли ли группы параллельно до treatment.
Параллельные тренды - это утверждение об идентификации, а не о реальности. Если до момента вмешательства линии графика держались параллельно, есть основание верить, что они продолжили бы идти так же.
Event study
Как смотреть на тренды
Вместо одной точки до и одной после строится регрессия с индикаторами относительного времени: -3 года, -2, -1, 0, +1, +2, +3 от момента treatment. Если коэффициенты до 0 близки к нулю - тренды параллельны. Если коэффициенты после 0 растут - есть динамический эффект. Этот формат стал стандартом топовых журналов после работ Доби-Уоррена и Кларка.
Если до treatment обработанные регионы росли быстрее, простой DiD припишет этот рост вмешательству. Кризис COVID показал, как географические тренды могут разойтись резко. Решения: синтетический контроль (Абади 2010), staggered DiD с гетерогенными эффектами, добавление группо-специфических временных трендов.
Берётся фиктивный момент treatment до настоящего вмешательства. DiD должен дать ноль - если он показывает значимый эффект там, где его быть не может, само допущение под вопросом.
Иногда параллельность приходится навязывать через matching: для каждого обработанного объекта подбирается контрольный с похожей предтрендовой динамикой. После этого DiD применяется уже на согласованной выборке. Это и есть популярный подход matching+DiD, используемый в исследованиях рынка труда и здравоохранения.
Сравнивая когорту пользователей, зарегистрировавшихся в январе, с когортой марта, можно нарваться на нарушение параллельных трендов - у поздних когорт другая мотивация и среда. Сетевые эффекты в социальных продуктах создают ту же проблему: контрольная группа "загрязняется" через друзей из treatment-группы.
Допущение параллельных трендов нельзя проверить напрямую. Что делают вместо этого?
Само допущение касается контрфактического сценария и непроверяемо. Косвенно его проверяют параллельностью в предтрит-периоде, плацебо-тестами и event study с относительным временем.
Поэтапное внедрение и TWFE
Реальная политика редко вводится одним днём для всех. Штаты США легализуют каннабис в разные годы, страны вводят локдауны с разрывом в недели, банки внедряют новые правила оценки кредитов поэтапно. Если разные единицы получают treatment в разное время, классическая регрессия с двусторонними фиксированными эффектами (TWFE) превращает причинный вывод в минное поле.
TWFE - регрессия с фиксированными эффектами по единицам и по времени плюс индикатор treatment. До 2018 года считалось, что это просто обобщение DiD на много периодов. Гудман-Бэкон (2021) показал: это смесь множества попарных DiD-сравнений, и при гетерогенных эффектах знак коэффициента может оказаться противоположным истинному.
Проблема: коэффициент δ из этой регрессии оказывается взвешенным средним всех попарных DiD-сравнений между когортами, причём часть весов отрицательна. Когорта, обработанная раньше, играет роль контроля для когорты, обработанной позже - и наоборот. При неоднородных динамических эффектах это смешение даёт чистую путаницу.
Декомпозиция Гудмана-Бэкона
Что скрывается внутри TWFE
Если есть три когорты (ранняя, средняя, поздняя) и treatment-эффект растёт со временем, TWFE будет использовать раннюю как контроль для поздней. Но к моменту поздней обработки в ранней эффект уже растёт - то есть "контроль" сам меняется. Получается отрицательный вес, и итоговая оценка может быть смещена в противоположную сторону.
| Метод | Поэтапный treatment | Гетерогенные эффекты | Год |
|---|---|---|---|
| TWFE | формально работает | ломается | до 2018 |
| Callaway-Sant'Anna | корректно | корректно | 2021 |
| Sun-Abraham | корректно | корректно | 2021 |
| Borusyak-Jaravel-Spiess | корректно | корректно | 2024 |
Callaway & Sant'Anna (2021) предложили оценку ATT(g, t) для каждой комбинации когорты g и периода t отдельно, а потом агрегируют веса. Sun & Abraham (2021) сделали аналогичную поправку для event study. Borusyak, Jaravel & Spiess (2024) построили imputation estimator, который восстанавливает контрфактические значения для каждого обработанного наблюдения. Все три метода устраняют негативные веса.
Платформа меняет правила модерации поэтапно по 50 штатам в течение года. Наивный TWFE даст странный результат из-за гетерогенности и разного времени запуска. Корректная оценка по Callaway-Sant'Anna показывает реальный эффект на каждую когорту запуска - и это меняет решение о дальнейшей раскатке.
Литература 2018-2024 годов фактически переписала методологию panel data. То, что десятилетиями считалось стандартом, оказалось ловушкой - и многие старые результаты были пересмотрены. Это редкий случай, когда статистическая теория догнала практику с опозданием в тридцать лет.
Применения и диагностика
Самая знаменитая работа по DiD старше самой методологии на 140 лет. Джон Сноу в 1854 году в Лондоне сравнивал смертность от холеры в домах, обслуживаемых двумя водопроводными компаниями - Southwark & Vauxhall (грязная вода из Темзы) и Lambeth (чистая вода выше по течению). До 1849 года обе компании брали воду из загрязнённой части реки, после Lambeth переместила водозабор выше. Сравнение смертности до и после, между домами разных компаний, по сути и есть DiD - за 130 лет до формализации метода в эконометрике.
Карта смертности Сноу
Первый эмпирический DiD
Дома, обслуживаемые Southwark & Vauxhall, имели 315 смертей на 10000 домохозяйств. Дома Lambeth - 37 на 10000. Разница в 8.5 раз. Но картина становится особенно убедительной, когда сравниваются те же районы до и после изменения водозабора Lambeth. Этот контраст помог отвергнуть теорию миазмов и установить водный путь передачи холеры за десятилетия до Коха.
Современные требования к DiD-исследованию: показать предтрит-параллельность, провести плацебо-тесты на дотриты, проверить чувствительность к альтернативным контрольным группам, продемонстрировать стабильность при разных временных окнах.
| Диагностика | Что проверяет | Что делать при провале |
|---|---|---|
| Предтрит event study | параллельность до treatment | matching, синтетический контроль |
| Плацебо на дотриты | ложные эффекты | пересмотр спецификации |
| Альтернативные контроли | робастность | взвешивание контролей |
| Goodman-Bacon decomposition | веса в TWFE | Callaway-Sant'Anna |
Когда подходящей контрольной группы просто нет (например, оценка эффекта объединения Германии или Брексита), используется синтетический контроль (Абади и соавторы, 2010, 2015). Он строит взвешенную комбинацию доступных контролей так, чтобы взвешенная серия максимально совпадала с обработанной единицей в дотрит-периоде. Это DiD на стероидах для случая одной обработанной единицы.
Если контрольных единиц много, но прямой матч плохой, делают двушаговую процедуру: сначала propensity score matching по дотрит-характеристикам, затем DiD на полученной выборке. Это совмещает selection-on-observables со снятием инвариантных конфаундеров.
Измерение влияния редизайна приложения на retention через DiD: пользователи, которым обновление пришло раньше, - treatment-когорта, остальные - контроль. На панельных данных уровня пользователя считается событийный study с относительным временем от установки апдейта. Метод устойчив к сезонности и общеплатформенным изменениям, в отличие от простого до/после.
DiD за тридцать лет прошёл путь от изящного учебного приёма до целой индустрии методов с десятками вариаций. Базовая идея осталась той же - вычесть лишнее через двойную разность - но техническая надстройка изменилась радикально. Современный эмпирический исследователь обязан владеть и базовым DiD, и его поэтапными расширениями.
Где DiD соединяется с курсом
Метод разностей разностей опирается на регрессионную технику и панельные данные, расширяясь во многие направления.
- Регрессионный разрыв (RDD) — RDD - аналог DiD для порогового дизайна: тоже локальный эффект, но идентификация через непрерывность, не параллельные тренды
- Sensitivity analysis: E-value, Rosenbaum — После DiD-оценки нужно проверить устойчивость к нарушению параллельных трендов
Ключевые идеи
- DiD - вычитание временного тренда контрольной группы из временного тренда обработанной
- Регрессионная форма: коэффициент при взаимодействии Treated x Post - оценка эффекта
- Допущение параллельных трендов непроверяемо напрямую, проверяется в дотрит-периоде
- Event study с относительным временем - стандарт визуализации динамических эффектов
- TWFE при поэтапном treatment даёт смещённые оценки из-за отрицательных весов
- Современные оценщики (Callaway-Sant'Anna, Sun-Abraham) корректно работают с гетерогенностью
- Синтетический контроль решает задачу при единичной обработанной единице
- Matching + DiD - стандартный workflow для наблюдательных исследований
Вопросы для размышления
- Какой эксперимент в продукте можно переосмыслить как DiD с matched контрольной группой?
- Если параллельность трендов нарушена в дотрит-периоде, какие альтернативы остаются?
- Почему регрессия TWFE может выдать неправильный знак при поэтапном treatment?
- Чем синтетический контроль отличается от обычного matching?
- Как сетевые эффекты в социальных продуктах могут нарушить DiD-вывод?
Связанные уроки
- stat-40-causal-rct — DiD - альтернатива рандомизации
- stat-43-causal-iv — разные стратегии идентификации
- stat-39-causal-confounders — DiD убирает инвариантные конфаундеры
- stat-45-causal-rdd — соседние подходы к локальной идентификации
- la-06-gauss