Статистика

Инструментальные переменные

Цели урока

Понимать природу эндогенности и три её источника
Знать три условия валидного инструмента и уметь их защищать
Считать оценку IV через ковариации и через 2SLS
Различать LATE и ATE, понимать роль компайеров
Распознавать слабые инструменты и применять тест Андерсона-Рубина

Предварительные знания

Базовые понятия причинности и DAG
Потенциальные исходы и SUTVA
Линейная регрессия и метод наименьших квадратов

Образование увеличивает зарплату - или способные люди и учатся больше, и зарабатывают больше? Инструмент даёт ответ.

**Экономика труда**: оценка отдачи от образования через квартал рождения, расстояние до колледжа, лотереи стипендий
**Эпидемиология**: менделевская рандомизация - генетические варианты как инструмент для уровня холестерина и риска инфаркта
**ML-системы**: позиция показа как инструмент для клика в поисковых системах и лентах рекомендаций
**Реклама**: случайное назначение в группы показа как инструмент для exposure при измерении эффективности кампаний
**Политика**: близость к границе штата с другим законом как инструмент для эффекта политики на занятость и преступность

От Райта до Нобелевской премии Ангриста

Считается, что Филип Райт первым применил IV в работе о спросе и предложении на льняное семя (1928), хотя долгое время авторство приписывалось его сыну Сьюэллу. Современный язык структурной эконометрики выработали в 1940-50-х Хаавельмо и Купманс в комиссии Коулза. В 1990-х началась credibility revolution - Ангрист и Крюгер (1991) использовали квартал рождения, Кард (1995) - близость к колледжу, Левитт (1997) - найм полиции через сроки выборов мэра. В 2021 году Ангрист, Имбенс и Кард разделили Нобелевскую премию по экономике за вклад в причинный вывод на наблюдательных данных.

Проблема эндогенности

Выпускники колледжей зарабатывают в среднем на 60% больше тех, кто закончил только школу. Кажется очевидным: учись и получай прибавку. Но беда в том, что в колледж идут не случайные люди - туда чаще попадают более способные, мотивированные, из обеспеченных семей. И зарабатывают они больше не только из-за диплома, но и благодаря этим скрытым качествам. Корреляция образования и зарплаты смешивает реальный эффект учёбы с эффектом способностей. Простая регрессия отдаёт смесь, а не причинный эффект.

Эндогенность - это ситуация, когда объясняющая переменная коррелирует с ошибкой модели. Три классических источника: пропущенные переменные, обратная причинность и ошибки измерения.

В этом случае оценка обычным методом наименьших квадратов смещена даже в пределе:

Три классические ловушки

Где эндогенность ломает регрессию

Отдача от образования: способности влияют и на учёбу, и на доход - смещение вверх. Цена и спрос: цена реагирует на спрос, спрос реагирует на цену - одновременность. Качество больницы: тяжёлые пациенты едут в лучшие клиники - и смертность там выше, хотя помощь лучше.

Обучение модели на сигнале "пользователь, который досмотрел больше, делает ленту лучше" циркулярно. Просмотры порождаются рекомендациями, а рекомендации обучаются на просмотрах. Без инструмента (например, случайной позиции) система измеряет не качество, а собственное эхо.

Необходим источник вариации в X, который не связан с ε. Если такой источник есть в данных - его называют инструментом, и он спасает регрессию от смещения.

Почему OLS даёт смещённую оценку отдачи от образования?

Это классический пример пропущенной переменной: способности влияют на оба наблюдаемых признака, создавая ненулевую ковариацию X и ε.

Инструмент и три условия

В 1990 году Джошуа Ангрист и Алан Крюгер заметили странную вещь: квартал рождения влияет на уровень образования. Дети, рождённые в первом квартале, идут в школу почти на год позже сверстников, рождённых в четвёртом, и потому к моменту, когда им разрешено бросить школу по закону, успевают проучиться меньше. Квартал рождения практически случаен, но создаёт небольшую разницу в годах обучения. И эта разница не связана со способностями. Идеальный инструмент - и работа Ангриста легла в основу Нобелевской премии 2021 года.

Инструмент Z должен удовлетворять трём условиям: релевантность, исключение и независимость. Нарушение любого ломает причинный вывод.

Природные эксперименты как инструменты

Откуда брать случайность

Лотерея призыва в армию Вьетнама (Ангрист 1990) - инструмент для службы. Расстояние до колледжа (Кард 1995) - инструмент для образования. Погода - инструмент для урожая и цен. Граница штата с разной политикой - инструмент для регулирования. Лотерея школ - инструмент для качества образования.

Квартал рождения может влиять на здоровье ребёнка через сезонные эффекты в утробе. Если так, канал "квартал - здоровье - заработок" нарушает исключение. Хорошая работа по IV всегда долго защищает именно это допущение.

В поисковой выдаче и рекомендациях позиция элемента почти случайна для пользователя, но сильно влияет на клик. Позиция работает как инструмент для измерения истинного качества контента, очищая клики от смещения внимания.

Какое из трёх условий валидного инструмента нельзя проверить статистическими тестами?

Релевантность проверяется силой первой стадии (F-тест). Независимость частично тестируема. А исключение - это аргумент о том, что Z не влияет на Y напрямую, и его обосновывают теорией, а не данными.

Двухшаговый метод наименьших квадратов

Идея 2SLS красива и проста: сначала очистить treatment от эндогенной части, потом регрессировать исход на очищенную версию. Первая стадия выделяет из X ту вариацию, которая объясняется инструментом - то есть гарантированно экзогенную. Вторая стадия использует эту чистую вариацию для оценки причинного эффекта.

Сила первой стадии измеряется F-статистикой. Старое правило: F > 10. Современная работа Lee, McCrary, Moreira и Porter (2022) показала, что для корректного вывода нужен порог F > 104.7.

Когда Cov(Z, X) мала, знаменатель IV-формулы близок к нулю. Оценка взрывается, стандартные ошибки занижаются, доверительные интервалы становятся фикцией. Слабый инструмент хуже отсутствия инструмента - он даёт ложную уверенность.

Тест Андерсона-Рубина

Робастный к слабым инструментам

Стандартные доверительные интервалы 2SLS неверны при слабом инструменте. Тест Андерсона-Рубина (1949) строит интервал инверсией теста на гипотезу β = β0 и остаётся валидным даже при крайне слабой релевантности. В современных пакетах (ivreg2, ivmodel) этот тест включён по умолчанию.

В системах Facebook и YouTube исследователи используют 2SLS с позицией показа как инструментом для клика. Это даёт несмещённую оценку эффекта рекомендации на потребление, очищая от эффекта внимания. То же применяется для измерения эффективности рекламы: случайное распределение по группам показа - инструмент для exposure.

Подход	Что измеряет	Когда применять
OLS	Корреляция	Когда нет конфаундеров
2SLS с сильным инструментом	LATE на компайерах	Когда есть валидный Z
2SLS со слабым инструментом	Шум, замаскированный под эффект	Никогда без коррекции
Тест Андерсона-Рубина	Робастный интервал	При сомнениях в силе

Что делает первая стадия 2SLS?

Первая стадия регрессирует X на Z и получает X_hat - проекцию treatment на пространство инструмента, то есть его экзогенную составляющую.

LATE против ATE: эффект на компайерах

Главное откровение современной теории IV: метод оценивает не средний эффект по всему населению, а эффект на так называемых компайерах - на тех, кто меняет своё поведение в ответ на инструмент. Это сильно ограничивает обобщение и сделало IV в 1990-х предметом ожесточённой дискуссии Имбенса и Хекмана.

В зависимости от реакции на инструмент Z люди делятся на четыре типа: always-takers (всегда берут treatment), never-takers (никогда), compliers (следуют инструменту), defiers (делают наоборот). IV видит только компайеров.

Тип	Z=0	Z=1	Видим эффект?
Always-taker	X=1	X=1	Нет
Never-taker	X=0	X=0	Нет
Complier	X=0	X=1	Да - вклад в LATE
Defier	X=1	X=0	Нарушает монотонность

Для существования LATE нужно дополнительное условие монотонности: дефаеров нет. Тогда IV-оценка строго равна среднему причинному эффекту среди компайеров. Имбенс и Ангрист доказали это в 1994 году - и именно за эту теорию они получили Нобелевскую премию вместе с Кардом.

Лотерея чартерных школ

Кто такие компайеры

Лотерея распределяет места в чартерной школе случайно. Семьи, которые в любом случае нашли бы хорошую школу, - always-takers. Семьи, которые в любом случае пойдут в обычную школу, - never-takers. Семьи, которые пойдут в чартерную школу только при выигрыше в лотерее, - компайеры. Эффект чартерных школ из IV - это эффект только на эту маржинальную группу, и он не обязательно равен эффекту на всех.

Если эффект treatment гетерогенен (а в реальности так почти всегда), LATE может сильно отличаться от среднего эффекта на население. Расстояние до колледжа как инструмент даёт LATE для тех, кому география важна - обычно это менее обеспеченные семьи, для которых отдача от образования может быть выше или ниже средней.

В мобильных приложениях не все пользователи реагируют на пуш-уведомления, баннеры или приглашения попробовать новую функцию. ITT (intent-to-treat) - простая разница средних между группами назначения - даёт практический эффект развёртывания. LATE из IV (назначение как инструмент для реального использования) даёт эффект на тех, кто откликнулся. Это разные числа, и продакту нужны оба.

Когда LATE равен ATE? Только при гомогенных эффектах - если бы treatment действовал одинаково на всех. В этом случае нет разницы, кого мы измеряем. На практике такое почти не случается, и поэтому современная литература по IV всегда обсуждает, кто такие компайеры в конкретном исследовании.

Где IV встречается дальше

Метод инструментальных переменных - не изолированная техника, а звено в большой цепи причинного анализа.

Difference-in-Differences — DiD использует панельные данные как альтернативный источник идентификации - параллельные тренды вместо инструмента
Регрессионный разрыв (RDD) — RDD использует пороговое правило назначения как естественный инструмент - Fuzzy RDD напрямую сводится к 2SLS

Ключевые идеи

Эндогенность - корреляция X с ошибкой - смещает OLS и ломает причинный вывод
Инструмент Z должен быть релевантным, удовлетворять условию исключения и быть независимым
Условие исключения нельзя проверить статистикой, только теорией
2SLS реализует IV в две стадии: очистка X через Z, затем регрессия Y на X_hat
Слабые инструменты (F < 10) дают взрывную дисперсию и неверные доверительные интервалы
IV оценивает LATE - эффект только на компайерах, не ATE
Природные эксперименты (лотереи, погода, политические разрывы) дают валидные инструменты
В ML позиция показа служит инструментом для очистки кликов от смещения внимания

Вопросы для размышления

Какие источники случайности есть в данных приложения, которые можно превратить в инструменты?
Если бы пришлось защищать условие исключения для квартала рождения, какие альтернативные каналы влияния стоило бы исключить?
Почему компайеры в исследовании отдачи от образования через расстояние до колледжа - это, скорее всего, дети из менее обеспеченных семей?
Чем LATE отличается от эффекта, который интересует продакт-менеджера при оценке новой фичи?
Как байесовская перспектива помогает интерпретировать IV-оценку при слабом инструменте?

Связанные уроки

stat-41-causal-potential-outcomes — потенциальные исходы - язык причинности
stat-44-causal-did — альтернативная стратегия идентификации
stat-39-causal-confounders — IV решает проблему скрытых конфаундеров
stat-40-causal-rct — природный аналог рандомизации
la-06-gauss