Статистика

Эмпирический байес

Как улучшить точность оценки сразу всех параметров, используя информацию об их коллективном распределении, даже не задавая полную байесовскую модель?

**Геномика limma:** пакет Smyth (2004) применяет EB к t-статистикам для 20 000 генов; стал стандартом микрочиповых исследований с более 20 000 цитирований
**Спортивная статистика:** Эфрон и Моррис (1975) показали, что batting averages 18 игроков MLB оцениваются точнее совместным сжатием
**Рейтинги:** Elo-подобные системы неявно используют EB - апостериорная оценка силы команды через общее распределение
**Медицинская визуализация:** EB-сглаживание PET/fMRI изображений через пространственные гиперпараметры

Предварительные знания

Нормальное распределение
Байесовский вывод
Риск и функции потерь

Чарльз Стейн в 1956 году доказал, что при p ≥ 3 оценка максимального правдоподобия MLE = X является недопустимой по среднеквадратичному риску: существует другая оценка с меньшим риском при всех значениях параметра. Это открытие опровергло интуицию об оптимальности MLE.

Связь с байесовским выводом: EB - приближённый байесовский подход, где гиперпараметры оцениваются из данных вместо задания полного априорного. Полный байес ставит гиперприорное на B; EB подставляет B̂ - экономит вычисления при похожих результатах.

EB для локального FDR (Efron, 2008): при множественном тестировании наблюдается вектор z-статистик z₁,...,z_m. Эмпирическая смесь f(z) = π₀·f₀(z) + π₁·f₁(z), где f₀ - N(0,1) под H₀, f₁ - неизвестная плотность под H₁. EB оценивает f(z) из данных (например, Poisson regression на гистограмме z). Локальный fdr(z) = π₀·f₀(z)/f(z) - вероятность нулевой гипотезы для конкретного z.

Формула Стейна для нормальных данных (SURE - Stein's Unbiased Risk Estimate): для любой дифференцируемой функции g(X) оценка E[‖g(X) - μ‖²] = p·σ² + E[‖g(X) - X‖²] + 2σ²·E[∇·g(X)]. Это позволяет оценивать риск без знания истинного μ. SURE минимизируется для подбора параметров сжатия λ в wavelet-денойзинге (Donoho & Johnstone, 1994).

EB-оценки в кредитном скоринге: если μ_i - истинный скор заёмщика i, наблюдаемый x_i имеет шум σ_i² (зависит от истории транзакций). EB сжимает x_i к общему среднему пропорционально ненадёжности: μ̂_i^EB = (1 - σ_i²/(σ_i² + B))x_i + σ_i²/(σ_i² + B)·μ̂. Новые заёмщики (большая σ_i²) получают большее сжатие; опытные (малая σ_i²) - их историческую оценку.

Wavelet-денойзинг и EB: Donoho & Johnstone (1995) показали, что мягкое пороговое отсечение (soft thresholding) wavelet-коэффициентов при пороге λ = σ√(2·log n) является почти оптимальной адаптивной оценкой - оракульным оценщиком в классе разреженных сигналов. Через SURE интерпретируется как EB-оценка при двойном экспоненциальном априорном на коэффициенты. ImageJ и waveletDen в MATLAB реализуют этот алгоритм.

оценка Джеймса-Стейна

Парадокс Стейна (1956): при оценке вектора средних θ ∈ ℝ^p многомерного нормального распределения N_p(θ, I) с p ≥ 3 наблюдаемое среднее X̄ — недопустимая оценка. Существует оценка с равномерно меньшим средним квадратом ошибки. Это шокирующий результат: оптимальная одномерная оценка перестаёт быть оптимальной при объединении нескольких независимых задач.

Что утверждает парадокс Стейна о выборочном среднем X̄ как оценке вектора средних θ ∈ ℝ^p?

Стейн доказал, что MSE(X̄, θ) = p·σ² (риск растёт с p), но оценка Джеймса-Стейна θ̂_JS = (1 - (p-2)σ²/||X||²)X имеет строго меньший MSE для любого θ при p ≥ 3. Сжатие к нулю эффективно 'заимствует силу' между независимыми задачами — это и есть начало эмпирического байеса.

эмпирическое байесовское сжатие

Эмпирический байес (Робинс, 1955) использует данные для оценки параметров априорного распределения, после чего применяет байесовскую процедуру. В двухуровневой модели X_i | θ_i ~ N(θ_i, σ²), θ_i ~ N(μ, τ²) гиперпараметры (μ, τ²) оцениваются по маргинальному распределению X_i ~ N(μ, σ² + τ²) методом моментов или ML.

Связь с иерархической моделью: EB — приближение к полному байесу, где гиперпараметрам тоже даны априоры. EB игнорирует неопределённость в (μ, τ²), но проще и часто почти не теряет в точности при больших p.

Чем эмпирический байес отличается от полностью байесовского подхода?

В полном байесе всем неизвестным (включая гиперпараметры) приписываются априоры, и инференция идёт через совместное апостериорное распределение. EB останавливается на шаг раньше: оценивает (μ, τ²) методом моментов или маргинальным MLE из P(X_i | μ, τ²) и подставляет точечные оценки. Дёшево, состоятельно при большом p, но недооценивает неопределённость низкоуровневых параметров.

EB для множественного тестирования

Иерархическая EB-модель естественно решает задачу множественного тестирования. В двукомпонентной модели Эфрона X_i имеет долю π_0 из нулевой плотности f_0 (шум) и долю 1-π_0 из альтернативной f_1 (истинные эффекты). Локальный FDR fdr(x) = π_0 f_0(x) / f(x) — апостериорная вероятность нулевой гипотезы при наблюдении X = x.

В микрочипах EB-методы (limma, locfdr) превосходят классический BH по мощности, потому что используют дополнительную структуру данных: совместное распределение всех тестов сразу.

Чем локальный FDR Эфрона отличается от FDR Бенджамини-Хохберга?

Локальный fdr — это поточечная байесовская мера, отвечающая на вопрос 'насколько правдоподобна H_0 для именно этого x_i'. FDR BH — глобальная частотная мера ожидаемой доли ложных открытий E[V/R] среди отвергнутых. Локальный fdr строже на хвостах распределения и точнее ранжирует индивидуальные открытия.