Causal Calculus

Метод синтетического контроля

Как оценить, что произошло бы с Калифорнией без антитабачного налога, если альтернативная история не наблюдаема по определению?

**Политика здравоохранения:** Proposition 99 в Калифорнии - синтетический контроль показал снижение потребления сигарет на 25 пачек в год на душу населения
**Макроэкономика:** оценка экономических потерь от терроризма в Стране Басков через синтетическую Испанию без конфликта
**Финансы:** оценка влияния ввода евро на ВВП отдельных стран через синтетические контрфактуалы
**Технологическая политика:** оценка эффекта запрета TikTok в отдельных регионах через синтетический контроль из незатронутых рынков

Предварительные знания

Потенциальные исходы (PO-framework)
Линейная алгебра: нормы и проекции
Оптимизация с ограничениями

Regression Discontinuity Design

Метод синтетического контроля (Abadie, Diamond, Hainmueller, 2010) решает фундаментальную проблему причинного вывода для агрегированных единиц - государств, регионов, компаний. Традиционные методы (DiD, регрессия) требуют большого числа сравнимых единиц. Синтетический контроль работает с одной воздействуемой единицей и небольшим донорским пулом.

Синтетический контроль предпочтителен перед DiD, когда: (1) воздействие получает одна агрегированная единица, (2) предобработочный период достаточно длинный для подбора весов, (3) допущение о параллельных трендах выглядит сомнительным.

Extrapolation bias: если воздействуемая единица находится вне выпуклой оболочки доноров по ковариатам, синтетика будет интерполировать некорректно. Проверяйте R2 в предобработочный период - он должен быть близок к 1.

Метод синтетического контроля

В 1998 году Калифорния приняла Proposition 99 - первый в США крупный налог на табак. Абади и Гардеасабаль (2003) оценили причинный эффект через синтетический контроль: потребление сигарет упало на 25 пачек на душу населения относительно синтетической Калифорнии, построенной как взвешенная комбинация других штатов. Метод решает фундаментальную проблему: для агрегированной воздействуемой единицы (штата, страны, фирмы) контрфактуал не наблюдаем, а классические DiD и регрессия требуют большого числа сопоставимых единиц.

Ключевое допущение: синтетика хорошо аппроксимирует воздействуемую единицу в предобработочный период t <= T0. Это допущение проверяемо по данным через предобработочный R-квадрат, в отличие от допущения о параллельных трендах в DiD.

Метод предпочтителен, когда воздействие получает одна агрегированная единица, предобработочный период достаточно длинный для подбора весов, а допущение параллельных трендов сомнительно. Расширения через nuclear-norm регуляризацию (matrix completion) обобщают подход на случай множественных воздействуемых единиц.

Почему ограничение w >= 0 и sum(w) = 1 является важной частью метода?

Выбор донорского пула

Качество синтетического контроля определяется составом донорского пула. Идеальные доноры: единицы, похожие на воздействуемую по предобработочным характеристикам и не получившие воздействия или близкого по природе шока. Включение слишком разнородных доноров приводит к разреженным весам с переобучением; слишком узкий пул не позволяет добиться хорошей подгонки.

Extrapolation bias: если воздействуемая единица лежит вне выпуклой оболочки доноров по ковариатам, синтетика не сможет её воспроизвести при ограничении w >= 0. Решения - расширить пул, разрешить экстраполяцию (синтетический DiD), либо признать неприменимость метода.

Практическое правило Abadie: исключать из пула единицы, получившие схожее воздействие в предобработочный или постобработочный период; единицы с сильным идиосинкратическим шоком (например, природной катастрофой); единицы с принципиально иной структурой экономики.

Какой диагностический признак указывает на проблему extrapolation bias?

Статистический вывод и устойчивость

Статистическая значимость эффекта в синтетическом контроле оценивается через плацебо-тесты, а не через классические стандартные ошибки. Идея: применить метод к каждой невоздействуемой единице как к псевдо-воздействуемой. Распределение полученных плацебо-эффектов задаёт нулевое распределение, относительно которого проверяется истинный эффект.

Проверка устойчивости включает: leave-one-out по донорам, варьирование длины предобработочного периода, изменение набора ковариат, плацебо во времени (предтест на pretreatment-периоде). Только совокупность тестов даёт уверенность в каузальной интерпретации.

Что показывает leave-one-out анализ в синтетическом контроле?

Связи с другими методами каузального вывода

Синтетический контроль расширяет и дополняет классические методы policy evaluation для агрегированных данных.

Difference-in-Differences — Связанная тема
Regression Discontinuity Design — Связанная тема
Matching Methods — Связанная тема
Matrix Completion / Factor Models — Связанная тема

Итоги

Синтетический контроль строит контрфактуал как выпуклую комбинацию доноров: w >= 0, sum(w) = 1
Веса оптимизируются по предобработочному соответствию ковариат и траекторий исхода
Эффект tau_t = Y_1t - sum(w_j * Y_jt) оценивается в каждый постобработочный период
Статистический вывод через placebo-тесты: применение метода ко всем донорам поочередно
Метод устойчив к нарушению параллельных трендов за счет скрытых факторов в факторной модели
Ограничение: требует хорошей предобработочной подгонки (R2 близко к 1) и достаточного числа доноров

Для чего используются placebo-тесты в методе синтетического контроля?

Placebo-тесты применяют синтетический контроль к каждому донору псевдо-воздействие. Если эффект воздействуемой единицы значительно больше распределения placebo-эффектов, это свидетельствует об истинном каузальном эффекте.

Метод синтетического контроля

Почему ограничение w >= 0 и sum(w) = 1 является важной частью метода?

Выбор донорского пула

Какой диагностический признак указывает на проблему extrapolation bias?

Статистический вывод и устойчивость

Что показывает leave-one-out анализ в синтетическом контроле?

Итоги

Синтетический контроль строит контрфактуал как выпуклую комбинацию доноров: w >= 0, sum(w) = 1

Веса оптимизируются по предобработочному соответствию ковариат и траекторий исхода

Эффект tau_t = Y_1t - sum(w_j * Y_jt) оценивается в каждый постобработочный период

Статистический вывод через placebo-тесты: применение метода ко всем донорам поочередно

Метод устойчив к нарушению параллельных трендов за счет скрытых факторов в факторной модели

Ограничение: требует хорошей предобработочной подгонки (R2 близко к 1) и достаточного числа доноров