Статистика

Difference-in-Differences

Цели урока

  • Понимать конструкцию 2x2 и регрессионное представление DiD
  • Знать допущение параллельных трендов и способы его косвенной проверки
  • Различать классический DiD и поэтапные дизайны, видеть ловушки TWFE
  • Уметь применять современные оценщики Callaway-Sant'Anna и Sun-Abraham
  • Владеть диагностикой: плацебо-тесты, event study, синтетический контроль

Предварительные знания

  • Базовые понятия причинности и потенциальных исходов
  • Линейная регрессия и фиксированные эффекты
  • Анализ панельных данных и кластерные стандартные ошибки
  • Введение в причинный вывод
  • Рандомизированные эксперименты
  • Конфаундеры и DAG

Когда рандомизация невозможна, две разности заменяют один эксперимент - и эта простая идея перевернула экономику труда.

  • **Эконом. политика**: оценка эффекта минимальной зарплаты, налоговых льгот, торговых тарифов между штатами и странами
  • **Здравоохранение**: эффект расширения Medicaid - сравнение принявших штатов с непринявшими
  • **ML-системы**: оценка раскатки новой версии приложения на одну географию с matched control market
  • **Эпидемиология**: классическое исследование Сноу о холере - первый эмпирический DiD за 140 лет до формализации метода
  • **Финансы**: эффект Базельских правил на банковское кредитование - страны до и после внедрения

От Сноу до Гудмана-Бэкона

Расследование Джона Сноу в Лондоне 1854 года часто называют первым DiD-исследованием. Он сравнивал смертность от холеры в домах, обслуживаемых разными водопроводными компаниями, до и после смены источника воды Lambeth Company. Формальная эконометрическая рамка DiD сложилась в 1980-90-х. Работа Карда и Крюгера 1994 года о минимальной зарплате в Нью-Джерси сделала метод стандартом политологических и экономических исследований. Проблема поэтапного внедрения была вскрыта Гудманом-Бэконом в препринте 2018 года и формально решена в работах 2021 года (Callaway-Sant'Anna, Sun-Abraham, де Шазейаль-д'Отрив-Доферр).

Конструкция 2x2

1992 год. Губернатор Нью-Джерси поднимает минимальную зарплату с 4.25 до 5.05 долларов в час. Все экономические учебники предсказывают рост безработицы - спрос на труд при повышении цены должен упасть. Дэвид Кард и Алан Крюгер предлагают неожиданный ход: сравнить заведения фастфуда Нью-Джерси с заведениями соседней Пенсильвании, где минимальная зарплата не изменилась. Замеры до и после, в одной группе и в другой. Занятость в Нью-Джерси не упала, а даже немного выросла относительно Пенсильвании. Эта работа 1994 года, принёсшая Карду Нобелевскую премию 2021 года, разрушила консенсус и превратила difference-in-differences в основной инструмент эмпирической социальной науки.

DiD - это сравнение разностей: разность во времени для обработанной группы минус разность во времени для контрольной. Простой расчёт по таблице 2x2 убирает и стабильные различия групп, и общие временные тренды.

ГруппаДоПослеРазность
ОбработаннаяY_T0Y_T1Y_T1 - Y_T0
КонтрольнаяY_C0Y_C1Y_C1 - Y_C0
DiD--(Y_T1 - Y_T0) - (Y_C1 - Y_C0)

Регрессионная форма этой конструкции компактна и удобна для добавления контролей и фиксированных эффектов:

Коэффициент при взаимодействии δ - это и есть DiD-оценка причинного эффекта. β улавливает стабильную разницу между группами, γ - общий временной тренд.

Минимальная зарплата по Карду и Крюгеру

Что показал расчёт

В Нью-Джерси среднее число работников на ресторан выросло с 20.4 до 21.0 после повышения минимальной зарплаты. В Пенсильвании в тех же временных рамках занятость упала с 23.3 до 21.2. DiD-эффект: (21.0 - 20.4) - (21.2 - 23.3) = 2.7 работника на ресторан в пользу группы с повышением. Результат, на котором стоял десятилетиями консенсус об отрицательном эффекте минималки, рухнул.

Netflix, Airbnb и крупные ритейлеры регулярно используют DiD для оценки эффекта новой фичи. Запуск раскатывается на одной географии, в качестве контроля берутся matched-рынки с похожей динамикой до релиза. Разность разностей выдаёт чистый эффект фичи, очищенный от сезонности и общеотраслевых сдвигов.

Что именно убирает DiD по сравнению с простой разностью "до и после"?

Сравнение до и после смешивает эффект treatment с любыми временными сдвигами в экономике. DiD вычитает временной тренд контрольной группы и тем самым изолирует именно влияние обработки.

Допущение параллельных трендов

DiD оживает только при одном ключевом предположении: в отсутствие treatment обе группы двигались бы параллельно. Иначе разница в динамике после вмешательства может отражать просто разную траекторию, а не эффект. Это допущение нельзя проверить напрямую - оно касается контрфактической реальности, в которой обработанная группа не была обработана. Зато его можно проверить косвенно: посмотреть, шли ли группы параллельно до treatment.

Параллельные тренды - это утверждение об идентификации, а не о реальности. Если до момента вмешательства линии графика держались параллельно, есть основание верить, что они продолжили бы идти так же.

Event study

Как смотреть на тренды

Вместо одной точки до и одной после строится регрессия с индикаторами относительного времени: -3 года, -2, -1, 0, +1, +2, +3 от момента treatment. Если коэффициенты до 0 близки к нулю - тренды параллельны. Если коэффициенты после 0 растут - есть динамический эффект. Этот формат стал стандартом топовых журналов после работ Доби-Уоррена и Кларка.

Если до treatment обработанные регионы росли быстрее, простой DiD припишет этот рост вмешательству. Кризис COVID показал, как географические тренды могут разойтись резко. Решения: синтетический контроль (Абади 2010), staggered DiD с гетерогенными эффектами, добавление группо-специфических временных трендов.

Берётся фиктивный момент treatment до настоящего вмешательства. DiD должен дать ноль - если он показывает значимый эффект там, где его быть не может, само допущение под вопросом.

Иногда параллельность приходится навязывать через matching: для каждого обработанного объекта подбирается контрольный с похожей предтрендовой динамикой. После этого DiD применяется уже на согласованной выборке. Это и есть популярный подход matching+DiD, используемый в исследованиях рынка труда и здравоохранения.

Сравнивая когорту пользователей, зарегистрировавшихся в январе, с когортой марта, можно нарваться на нарушение параллельных трендов - у поздних когорт другая мотивация и среда. Сетевые эффекты в социальных продуктах создают ту же проблему: контрольная группа "загрязняется" через друзей из treatment-группы.

Допущение параллельных трендов нельзя проверить напрямую. Что делают вместо этого?

Само допущение касается контрфактического сценария и непроверяемо. Косвенно его проверяют параллельностью в предтрит-периоде, плацебо-тестами и event study с относительным временем.

Поэтапное внедрение и TWFE

Реальная политика редко вводится одним днём для всех. Штаты США легализуют каннабис в разные годы, страны вводят локдауны с разрывом в недели, банки внедряют новые правила оценки кредитов поэтапно. Если разные единицы получают treatment в разное время, классическая регрессия с двусторонними фиксированными эффектами (TWFE) превращает причинный вывод в минное поле.

TWFE - регрессия с фиксированными эффектами по единицам и по времени плюс индикатор treatment. До 2018 года считалось, что это просто обобщение DiD на много периодов. Гудман-Бэкон (2021) показал: это смесь множества попарных DiD-сравнений, и при гетерогенных эффектах знак коэффициента может оказаться противоположным истинному.

Проблема: коэффициент δ из этой регрессии оказывается взвешенным средним всех попарных DiD-сравнений между когортами, причём часть весов отрицательна. Когорта, обработанная раньше, играет роль контроля для когорты, обработанной позже - и наоборот. При неоднородных динамических эффектах это смешение даёт чистую путаницу.

Декомпозиция Гудмана-Бэкона

Что скрывается внутри TWFE

Если есть три когорты (ранняя, средняя, поздняя) и treatment-эффект растёт со временем, TWFE будет использовать раннюю как контроль для поздней. Но к моменту поздней обработки в ранней эффект уже растёт - то есть "контроль" сам меняется. Получается отрицательный вес, и итоговая оценка может быть смещена в противоположную сторону.

МетодПоэтапный treatmentГетерогенные эффектыГод
TWFEформально работаетломаетсядо 2018
Callaway-Sant'Annaкорректнокорректно2021
Sun-Abrahamкорректнокорректно2021
Borusyak-Jaravel-Spiessкорректнокорректно2024

Callaway & Sant'Anna (2021) предложили оценку ATT(g, t) для каждой комбинации когорты g и периода t отдельно, а потом агрегируют веса. Sun & Abraham (2021) сделали аналогичную поправку для event study. Borusyak, Jaravel & Spiess (2024) построили imputation estimator, который восстанавливает контрфактические значения для каждого обработанного наблюдения. Все три метода устраняют негативные веса.

Платформа меняет правила модерации поэтапно по 50 штатам в течение года. Наивный TWFE даст странный результат из-за гетерогенности и разного времени запуска. Корректная оценка по Callaway-Sant'Anna показывает реальный эффект на каждую когорту запуска - и это меняет решение о дальнейшей раскатке.

Литература 2018-2024 годов фактически переписала методологию panel data. То, что десятилетиями считалось стандартом, оказалось ловушкой - и многие старые результаты были пересмотрены. Это редкий случай, когда статистическая теория догнала практику с опозданием в тридцать лет.

Применения и диагностика

Самая знаменитая работа по DiD старше самой методологии на 140 лет. Джон Сноу в 1854 году в Лондоне сравнивал смертность от холеры в домах, обслуживаемых двумя водопроводными компаниями - Southwark & Vauxhall (грязная вода из Темзы) и Lambeth (чистая вода выше по течению). До 1849 года обе компании брали воду из загрязнённой части реки, после Lambeth переместила водозабор выше. Сравнение смертности до и после, между домами разных компаний, по сути и есть DiD - за 130 лет до формализации метода в эконометрике.

Карта смертности Сноу

Первый эмпирический DiD

Дома, обслуживаемые Southwark & Vauxhall, имели 315 смертей на 10000 домохозяйств. Дома Lambeth - 37 на 10000. Разница в 8.5 раз. Но картина становится особенно убедительной, когда сравниваются те же районы до и после изменения водозабора Lambeth. Этот контраст помог отвергнуть теорию миазмов и установить водный путь передачи холеры за десятилетия до Коха.

Современные требования к DiD-исследованию: показать предтрит-параллельность, провести плацебо-тесты на дотриты, проверить чувствительность к альтернативным контрольным группам, продемонстрировать стабильность при разных временных окнах.

ДиагностикаЧто проверяетЧто делать при провале
Предтрит event studyпараллельность до treatmentmatching, синтетический контроль
Плацебо на дотритыложные эффектыпересмотр спецификации
Альтернативные контролиробастностьвзвешивание контролей
Goodman-Bacon decompositionвеса в TWFECallaway-Sant'Anna

Когда подходящей контрольной группы просто нет (например, оценка эффекта объединения Германии или Брексита), используется синтетический контроль (Абади и соавторы, 2010, 2015). Он строит взвешенную комбинацию доступных контролей так, чтобы взвешенная серия максимально совпадала с обработанной единицей в дотрит-периоде. Это DiD на стероидах для случая одной обработанной единицы.

Если контрольных единиц много, но прямой матч плохой, делают двушаговую процедуру: сначала propensity score matching по дотрит-характеристикам, затем DiD на полученной выборке. Это совмещает selection-on-observables со снятием инвариантных конфаундеров.

Измерение влияния редизайна приложения на retention через DiD: пользователи, которым обновление пришло раньше, - treatment-когорта, остальные - контроль. На панельных данных уровня пользователя считается событийный study с относительным временем от установки апдейта. Метод устойчив к сезонности и общеплатформенным изменениям, в отличие от простого до/после.

DiD за тридцать лет прошёл путь от изящного учебного приёма до целой индустрии методов с десятками вариаций. Базовая идея осталась той же - вычесть лишнее через двойную разность - но техническая надстройка изменилась радикально. Современный эмпирический исследователь обязан владеть и базовым DiD, и его поэтапными расширениями.

Где DiD соединяется с курсом

Метод разностей разностей опирается на регрессионную технику и панельные данные, расширяясь во многие направления.

  • Регрессионный разрыв (RDD) — RDD - аналог DiD для порогового дизайна: тоже локальный эффект, но идентификация через непрерывность, не параллельные тренды
  • Sensitivity analysis: E-value, Rosenbaum — После DiD-оценки нужно проверить устойчивость к нарушению параллельных трендов

Ключевые идеи

  • DiD - вычитание временного тренда контрольной группы из временного тренда обработанной
  • Регрессионная форма: коэффициент при взаимодействии Treated x Post - оценка эффекта
  • Допущение параллельных трендов непроверяемо напрямую, проверяется в дотрит-периоде
  • Event study с относительным временем - стандарт визуализации динамических эффектов
  • TWFE при поэтапном treatment даёт смещённые оценки из-за отрицательных весов
  • Современные оценщики (Callaway-Sant'Anna, Sun-Abraham) корректно работают с гетерогенностью
  • Синтетический контроль решает задачу при единичной обработанной единице
  • Matching + DiD - стандартный workflow для наблюдательных исследований

Вопросы для размышления

  • Какой эксперимент в продукте можно переосмыслить как DiD с matched контрольной группой?
  • Если параллельность трендов нарушена в дотрит-периоде, какие альтернативы остаются?
  • Почему регрессия TWFE может выдать неправильный знак при поэтапном treatment?
  • Чем синтетический контроль отличается от обычного matching?
  • Как сетевые эффекты в социальных продуктах могут нарушить DiD-вывод?

Связанные уроки

  • stat-40-causal-rct — DiD - альтернатива рандомизации
  • stat-43-causal-iv — разные стратегии идентификации
  • stat-39-causal-confounders — DiD убирает инвариантные конфаундеры
  • stat-45-causal-rdd — соседние подходы к локальной идентификации
  • la-06-gauss
Difference-in-Differences

0

1

Войти

Что показал Гудман-Бэкон о регрессии TWFE при поэтапном treatment?

Гудман-Бэкон в 2021 году доказал, что TWFE-оценка в поэтапном дизайне - это взвешенное среднее множества попарных DiD-сравнений между когортами. При гетерогенных динамических эффектах часть весов отрицательна, и итоговая оценка может иметь неправильный знак.

Какой инструмент применяют, когда подходящей контрольной группы для DiD просто нет?

Синтетический контроль (Abadie et al. 2010, 2015) строит искусственный контроль из взвешенной комбинации доступных единиц так, чтобы он совпадал с обработанной единицей в дотрит-периоде. Это решение для уникальных случаев вроде объединения Германии или Брексита.