Causal Calculus
Метод синтетического контроля
Как оценить, что произошло бы с Калифорнией без антитабачного налога, если альтернативная история не наблюдаема по определению?
- **Политика здравоохранения:** Proposition 99 в Калифорнии - синтетический контроль показал снижение потребления сигарет на 25 пачек в год на душу населения
- **Макроэкономика:** оценка экономических потерь от терроризма в Стране Басков через синтетическую Испанию без конфликта
- **Финансы:** оценка влияния ввода евро на ВВП отдельных стран через синтетические контрфактуалы
- **Технологическая политика:** оценка эффекта запрета TikTok в отдельных регионах через синтетический контроль из незатронутых рынков
Предварительные знания
- Потенциальные исходы (PO-framework)
- Линейная алгебра: нормы и проекции
- Оптимизация с ограничениями
Метод синтетического контроля (Abadie, Diamond, Hainmueller, 2010) решает фундаментальную проблему причинного вывода для агрегированных единиц - государств, регионов, компаний. Традиционные методы (DiD, регрессия) требуют большого числа сравнимых единиц. Синтетический контроль работает с одной воздействуемой единицей и небольшим донорским пулом.
Синтетический контроль предпочтителен перед DiD, когда: (1) воздействие получает одна агрегированная единица, (2) предобработочный период достаточно длинный для подбора весов, (3) допущение о параллельных трендах выглядит сомнительным.
Extrapolation bias: если воздействуемая единица находится вне выпуклой оболочки доноров по ковариатам, синтетика будет интерполировать некорректно. Проверяйте R2 в предобработочный период - он должен быть близок к 1.
Метод синтетического контроля
В 1998 году Калифорния приняла Proposition 99 - первый в США крупный налог на табак. Абади и Гардеасабаль (2003) оценили причинный эффект через синтетический контроль: потребление сигарет упало на 25 пачек на душу населения относительно синтетической Калифорнии, построенной как взвешенная комбинация других штатов. Метод решает фундаментальную проблему: для агрегированной воздействуемой единицы (штата, страны, фирмы) контрфактуал не наблюдаем, а классические DiD и регрессия требуют большого числа сопоставимых единиц.
Ключевое допущение: синтетика хорошо аппроксимирует воздействуемую единицу в предобработочный период t <= T0. Это допущение проверяемо по данным через предобработочный R-квадрат, в отличие от допущения о параллельных трендах в DiD.
Метод предпочтителен, когда воздействие получает одна агрегированная единица, предобработочный период достаточно длинный для подбора весов, а допущение параллельных трендов сомнительно. Расширения через nuclear-norm регуляризацию (matrix completion) обобщают подход на случай множественных воздействуемых единиц.
Почему ограничение w >= 0 и sum(w) = 1 является важной частью метода?
Выбор донорского пула
Качество синтетического контроля определяется составом донорского пула. Идеальные доноры: единицы, похожие на воздействуемую по предобработочным характеристикам и не получившие воздействия или близкого по природе шока. Включение слишком разнородных доноров приводит к разреженным весам с переобучением; слишком узкий пул не позволяет добиться хорошей подгонки.
Extrapolation bias: если воздействуемая единица лежит вне выпуклой оболочки доноров по ковариатам, синтетика не сможет её воспроизвести при ограничении w >= 0. Решения - расширить пул, разрешить экстраполяцию (синтетический DiD), либо признать неприменимость метода.
Практическое правило Abadie: исключать из пула единицы, получившие схожее воздействие в предобработочный или постобработочный период; единицы с сильным идиосинкратическим шоком (например, природной катастрофой); единицы с принципиально иной структурой экономики.
Какой диагностический признак указывает на проблему extrapolation bias?
Статистический вывод и устойчивость
Статистическая значимость эффекта в синтетическом контроле оценивается через плацебо-тесты, а не через классические стандартные ошибки. Идея: применить метод к каждой невоздействуемой единице как к псевдо-воздействуемой. Распределение полученных плацебо-эффектов задаёт нулевое распределение, относительно которого проверяется истинный эффект.
Проверка устойчивости включает: leave-one-out по донорам, варьирование длины предобработочного периода, изменение набора ковариат, плацебо во времени (предтест на pretreatment-периоде). Только совокупность тестов даёт уверенность в каузальной интерпретации.
Что показывает leave-one-out анализ в синтетическом контроле?
Связи с другими методами каузального вывода
Синтетический контроль расширяет и дополняет классические методы policy evaluation для агрегированных данных.
- Difference-in-Differences — Связанная тема
- Regression Discontinuity Design — Связанная тема
- Matching Methods — Связанная тема
- Matrix Completion / Factor Models — Связанная тема
Итоги
- Синтетический контроль строит контрфактуал как выпуклую комбинацию доноров: w >= 0, sum(w) = 1
- Веса оптимизируются по предобработочному соответствию ковариат и траекторий исхода
- Эффект tau_t = Y_1t - sum(w_j * Y_jt) оценивается в каждый постобработочный период
- Статистический вывод через placebo-тесты: применение метода ко всем донорам поочередно
- Метод устойчив к нарушению параллельных трендов за счет скрытых факторов в факторной модели
- Ограничение: требует хорошей предобработочной подгонки (R2 близко к 1) и достаточного числа доноров
Для чего используются placebo-тесты в методе синтетического контроля?
Placebo-тесты применяют синтетический контроль к каждому донору псевдо-воздействие. Если эффект воздействуемой единицы значительно больше распределения placebo-эффектов, это свидетельствует об истинном каузальном эффекте.