Статистика
Эмпирический байес
Как улучшить точность оценки сразу всех параметров, используя информацию об их коллективном распределении, даже не задавая полную байесовскую модель?
- **Геномика limma:** пакет Smyth (2004) применяет EB к t-статистикам для 20 000 генов; стал стандартом микрочиповых исследований с более 20 000 цитирований
- **Спортивная статистика:** Эфрон и Моррис (1975) показали, что batting averages 18 игроков MLB оцениваются точнее совместным сжатием
- **Рейтинги:** Elo-подобные системы неявно используют EB - апостериорная оценка силы команды через общее распределение
- **Медицинская визуализация:** EB-сглаживание PET/fMRI изображений через пространственные гиперпараметры
Предварительные знания
- Нормальное распределение
- Байесовский вывод
- Риск и функции потерь
Чарльз Стейн в 1956 году доказал, что при p ≥ 3 оценка максимального правдоподобия MLE = X является недопустимой по среднеквадратичному риску: существует другая оценка с меньшим риском при всех значениях параметра. Это открытие опровергло интуицию об оптимальности MLE.
Связь с байесовским выводом: EB - приближённый байесовский подход, где гиперпараметры оцениваются из данных вместо задания полного априорного. Полный байес ставит гиперприорное на B; EB подставляет B̂ - экономит вычисления при похожих результатах.
EB для локального FDR (Efron, 2008): при множественном тестировании наблюдается вектор z-статистик z₁,...,z_m. Эмпирическая смесь f(z) = π₀·f₀(z) + π₁·f₁(z), где f₀ - N(0,1) под H₀, f₁ - неизвестная плотность под H₁. EB оценивает f(z) из данных (например, Poisson regression на гистограмме z). Локальный fdr(z) = π₀·f₀(z)/f(z) - вероятность нулевой гипотезы для конкретного z.
Формула Стейна для нормальных данных (SURE - Stein's Unbiased Risk Estimate): для любой дифференцируемой функции g(X) оценка E[‖g(X) - μ‖²] = p·σ² + E[‖g(X) - X‖²] + 2σ²·E[∇·g(X)]. Это позволяет оценивать риск без знания истинного μ. SURE минимизируется для подбора параметров сжатия λ в wavelet-денойзинге (Donoho & Johnstone, 1994).
EB-оценки в кредитном скоринге: если μ_i - истинный скор заёмщика i, наблюдаемый x_i имеет шум σ_i² (зависит от истории транзакций). EB сжимает x_i к общему среднему пропорционально ненадёжности: μ̂_i^EB = (1 - σ_i²/(σ_i² + B))x_i + σ_i²/(σ_i² + B)·μ̂. Новые заёмщики (большая σ_i²) получают большее сжатие; опытные (малая σ_i²) - их историческую оценку.
Wavelet-денойзинг и EB: Donoho & Johnstone (1995) показали, что мягкое пороговое отсечение (soft thresholding) wavelet-коэффициентов при пороге λ = σ√(2·log n) является почти оптимальной адаптивной оценкой - оракульным оценщиком в классе разреженных сигналов. Через SURE интерпретируется как EB-оценка при двойном экспоненциальном априорном на коэффициенты. ImageJ и waveletDen в MATLAB реализуют этот алгоритм.
оценка Джеймса-Стейна
Парадокс Стейна (1956): при оценке вектора средних θ ∈ ℝ^p многомерного нормального распределения N_p(θ, I) с p ≥ 3 наблюдаемое среднее X̄ — недопустимая оценка. Существует оценка с равномерно меньшим средним квадратом ошибки. Это шокирующий результат: оптимальная одномерная оценка перестаёт быть оптимальной при объединении нескольких независимых задач.
Что утверждает парадокс Стейна о выборочном среднем X̄ как оценке вектора средних θ ∈ ℝ^p?
Стейн доказал, что MSE(X̄, θ) = p·σ² (риск растёт с p), но оценка Джеймса-Стейна θ̂_JS = (1 - (p-2)σ²/||X||²)X имеет строго меньший MSE для любого θ при p ≥ 3. Сжатие к нулю эффективно 'заимствует силу' между независимыми задачами — это и есть начало эмпирического байеса.
эмпирическое байесовское сжатие
Эмпирический байес (Робинс, 1955) использует данные для оценки параметров априорного распределения, после чего применяет байесовскую процедуру. В двухуровневой модели X_i | θ_i ~ N(θ_i, σ²), θ_i ~ N(μ, τ²) гиперпараметры (μ, τ²) оцениваются по маргинальному распределению X_i ~ N(μ, σ² + τ²) методом моментов или ML.
Связь с иерархической моделью: EB — приближение к полному байесу, где гиперпараметрам тоже даны априоры. EB игнорирует неопределённость в (μ, τ²), но проще и часто почти не теряет в точности при больших p.
Чем эмпирический байес отличается от полностью байесовского подхода?
В полном байесе всем неизвестным (включая гиперпараметры) приписываются априоры, и инференция идёт через совместное апостериорное распределение. EB останавливается на шаг раньше: оценивает (μ, τ²) методом моментов или маргинальным MLE из P(X_i | μ, τ²) и подставляет точечные оценки. Дёшево, состоятельно при большом p, но недооценивает неопределённость низкоуровневых параметров.
EB для множественного тестирования
Иерархическая EB-модель естественно решает задачу множественного тестирования. В двукомпонентной модели Эфрона X_i имеет долю π_0 из нулевой плотности f_0 (шум) и долю 1-π_0 из альтернативной f_1 (истинные эффекты). Локальный FDR fdr(x) = π_0 f_0(x) / f(x) — апостериорная вероятность нулевой гипотезы при наблюдении X = x.
В микрочипах EB-методы (limma, locfdr) превосходят классический BH по мощности, потому что используют дополнительную структуру данных: совместное распределение всех тестов сразу.
Чем локальный FDR Эфрона отличается от FDR Бенджамини-Хохберга?
Локальный fdr — это поточечная байесовская мера, отвечающая на вопрос 'насколько правдоподобна H_0 для именно этого x_i'. FDR BH — глобальная частотная мера ожидаемой доли ложных открытий E[V/R] среди отвергнутых. Локальный fdr строже на хвостах распределения и точнее ранжирует индивидуальные открытия.
Эмпирический байес и смежные методы
EB соединяет классическую статистику, байесовский подход и методы регуляризации через оценку гиперпараметров из данных.
- Ridge-регрессия — Ridge — MAP при гауссовском априорном, λ играет роль EB-оценки дисперсии
- Иерархические модели — EB — частный случай иерархического байеса с точечной оценкой гиперпараметров вместо полной интеграции
- FDR-контроль — Local fdr Эфрона использует EB для оценки нулевой плотности и идентификации значимых эффектов
Итоги
- Стейн (1956): MLE недопустима при p≥3 - существует оценка с меньшим E‖μ̂-μ‖² при всех μ
- Оценка Джеймса-Стейна сжимает X к нулю; риск JS = p·σ² - (p-2)²σ⁴/E‖X‖² < p·σ²
- EB оценивает гиперпараметр B = Var(μ_i) из данных; коэффициент сжатия B/(B+σ²) оптимален при гауссовском априорном
- limma использует EB-смягчение дисперсий генов: смешивает s_g² с общей s_0²; t̃_g устойчив при малом n_g
- EB приближает полный байесовский вывод: гиперпараметры подставляются вместо маргинализации