Статистика

Иерархические модели (полный байес)

Как объединить данные из нескольких групп (школ, клиник, стран) для улучшения оценок каждой группы, не сливая всё в одну кучу?

**8-школьный эксперимент Рубина:** иерархическая модель оценивает эффекты SAT-подготовки в 8 школах, допуская частичный пулинг данных
**Фармацевтика:** метаанализ клинических испытаний нового препарата в 20 центрах; Stan используется в крупнейших фармкомпаниях мира
**Образование:** IRT (Item Response Theory) в PISA - иерархическая модель способностей учеников и сложностей заданий
**Спорт:** оценка эффекта домашнего поля в футбольных лигах через иерархическую модель с частичным пулингом по командам

Предварительные знания

Байесовский вывод
Нормальная модель
Эмпирический байес

Иерархические модели формализуют обмен информацией между группами. Гиперпараметр τ контролирует «похожесть» групп: при τ → 0 все группы одинаковы (полный пулинг); при τ → ∞ каждая группа независима (no pooling). Байесовский вывод автоматически находит оптимальный τ из данных.

Практика Stan: слабоинформативные априорные для τ - Half-Normal(0, 1) или Exponential(1), а не Uniform(0, ∞). Геллман рекомендует нецентральную параметризацию (non-centered): θ_j = μ + τ·z_j, z_j ~ N(0,1) - устраняет воронкообразную геометрию апостериорного при малых n_j.

Проблема воронки (funnel problem) в иерархических моделях: при малых данных τ близок к нулю, а θ_j концентрируются около μ. В пространстве (τ, θ_j) апостериорное принимает форму воронки - узкой при τ → 0 и широкой при τ → ∞. Стандартный HMC имеет трудности с воронкой: шаг интегрирования, оптимальный для широкой части, слишком большой для узкой. Нецентральная параметризация устраняет эту проблему, делая геометрию более равномерной.

Модели случайных эффектов в метаанализе - прямое приложение иерархических моделей: θ_k ~ N(μ, τ²) для k = 1,...,K исследований. Параметр μ - общий эффект, τ² - гетерогенность между исследованиями. Оценка τ² через Restricted Maximum Likelihood (REML) соответствует EB-подходу. Кокрановская программа Review Manager использует модели случайных эффектов как стандарт.

Байесовская оптимизация применяет иерархические модели: GP-суррогатная модель f(x) обновляется после каждого наблюдения y = f(x) + ε. Функция приобретения (acquisition function) определяет следующую точку x* для оценки. Expected Improvement EI(x) = E[max(f(x) - f*, 0)] балансирует exploration и exploitation. BoTorch и Ax от Facebook реализуют иерархические GP для настройки гиперпараметров ML-моделей.

иерархическая байесовская структура

Иерархическая модель организует параметры в уровни: наблюдения y_{ij} зависят от групповых параметров θ_j, а θ_j — от гиперпараметров φ. Полный байес назначает априоры всем неизвестным, включая φ. Это позволяет одновременно учитывать индивидуальную и групповую информацию, не выбирая между полным пулингом (все группы одинаковы) и его отсутствием (группы независимы).

Канонический пример: 'eight schools' (Rubin 1981) - 8 школ оценивают эффект подготовки к SAT, иерархия объединяет 'нет эффекта' и 'разные эффекты' через распределение N(μ, τ²) на школьные θ_j.

Какое преимущество даёт иерархическая модель по сравнению с моделированием каждой группы независимо?

Иерархия — компромисс между двумя крайностями: полный пулинг (все θ_j = μ) недооценивает гетерогенность, отсутствие пулинга (θ_j независимы) даёт шумные оценки для малых групп. Общий уровень φ позволяет 'слабым' группам подтягиваться к среднему, а 'сильным' — отклоняться от него. Эффект особенно велик при разном размере групп.

частичный пулинг

Частичный пулинг — следствие иерархической структуры. Апостериорное среднее группового параметра θ_j оказывается взвешенной комбинацией выборочного среднего ȳ_j (no-pooling) и общего среднего μ (complete pooling). Веса определяются точностями данных и группы: малые n_j или большой шум — больше веса к μ; много данных или большой межгрупповой разброс — больше веса к ȳ_j.

Funnel plot: визуализация |θ̂_j - μ̂| против n_j. В отсутствии пулинга — расходящаяся воронка; при частичном пулинге — сжатая, особенно для малых n_j.

Что происходит с оценкой θ_j при увеличении n_j в иерархической нормальной модели?

B_j = (σ²/n_j) / (σ²/n_j + τ²): при n_j → ∞ числитель → 0, B_j → 0, и E[θ_j | y] = (1-B_j)ȳ_j + B_j·μ → ȳ_j. Большие группы 'доверяют' своим данным; малые подтягиваются к общему среднему. Это автоматическое поведение — сильное преимущество иерархических моделей.

MCMC и HMC-NUTS

Сэмплирование из апостериорного p(θ, φ | y) — основной вычислительный приём в иерархическом байесе. Метрополис-Гастингс работает плохо в высокой размерности из-за случайных блужданий. Hamiltonian Monte Carlo (HMC) использует градиент log-плотности для долгих информированных прыжков; NUTS (No-U-Turn Sampler) автоматически подбирает длину траектории.

Чем HMC принципиально эффективнее Метрополис-Гастингса в высокой размерности?

В p-мерии случайное блуждание M-H требует шаг порядка 1/√p для приемлемого acceptance, поэтому смесь медленная (O(p) шагов на один независимый сэмпл). HMC интегрирует гамильтонову динамику, что сохраняет высокий acceptance даже при больших шагах, и автокорреляция падает пропорционально p^{1/4} вместо p. NUTS добавляет автонастройку длины траектории.

Иерархические модели и смежные области

Иерархические байесовские модели — стандарт для анализа сгруппированных данных в медицине, психологии и экономике.

Смешанные модели (LME) — Частотная LME — частный случай иерархической модели с точечной оценкой τ вместо полного апостериорного
Метаанализ — Иерархия по исследованиям даёт случайные эффекты и оценку межисследовательской дисперсии τ²
Stan / PyMC — Основные инструменты для NUTS-сэмплирования из апостериорного иерархических моделей

Итоги

Иерархическая модель: y_{ij}|θ_i, θ_i|τ ~ N(μ, τ²); τ контролирует схожесть групп
Частичный пулинг: θ̂_j - взвешенная сумма ȳ_j и μ̂; малые n_j сильнее сжимаются к общему среднему
HMC использует градиент log p(θ|y) для предложения далёких точек с высоким acceptance rate
NUTS автоматически выбирает длину траектории; автоматизирует настройку HMC
R̂ < 1.1 по Гельману-Рубину - стандартный критерий сходимости нескольких MCMC-цепей
Нецентральная параметризация θ_j = μ + τ·z_j устраняет воронкообразную геометрию апостериорного

иерархическая байесовская структура

Какое преимущество даёт иерархическая модель по сравнению с моделированием каждой группы независимо?

частичный пулинг

Что происходит с оценкой θ_j при увеличении n_j в иерархической нормальной модели?

MCMC и HMC-NUTS

Чем HMC принципиально эффективнее Метрополис-Гастингса в высокой размерности?

Итоги

Иерархическая модель: y_{ij}|θ_i, θ_i|τ ~ N(μ, τ²); τ контролирует схожесть групп

Частичный пулинг: θ̂_j - взвешенная сумма ȳ_j и μ̂; малые n_j сильнее сжимаются к общему среднему

HMC использует градиент log p(θ|y) для предложения далёких точек с высоким acceptance rate

NUTS автоматически выбирает длину траектории; автоматизирует настройку HMC

R̂ < 1.1 по Гельману-Рубину - стандартный критерий сходимости нескольких MCMC-цепей

Нецентральная параметризация θ_j = μ + τ·z_j устраняет воронкообразную геометрию апостериорного