Статистика
Робастная статистика
Один неверный ввод данных, один прибор с батарейкой, один пациент с редкой аномалией - и классическое среднее значение или регрессия выдаёт бессмыслицу. Робастная статистика проектирует оценки, которые выживают в реальном мире.
- Финансовый риск: fat-tail распределения доходностей делают VaR на основе среднего опасным; нужна робастная ковариация
- Промышленные датчики: зашумлённые IoT данные требуют M-оценок для надёжной агрегации показаний
- Компьютерное зрение: RANSAC - робастная подгонка геометрических моделей при outlier-точках в stereo matching
Предварительные знания
Breakdown point: мера устойчивости оценки
В 1964 году Питер Хьюбер показал: одно загрязняющее наблюдение из 1000 уже разрушает обычное среднее. Чтобы измерить, сколько выбросов оценка переносит, ввели breakdown point - у медианы он равен 0.5, у MCD достигает примерно 0.5 в размерности 50.
**Три критерия устойчивости:** 1. Breakdown Point - глобальная мера (% выбросов, переносимых оценкой) 2. Influence Function - локальная чувствительность к малому засорению 3. Rejection Point - минимальное значение выброса, при котором оценка «перестаёт реагировать» (для ограниченных M-оценок). Идеальная оценка: высокий BP + ограниченная IF + высокая статистическая эффективность (при нормальных данных близка к МНК).
У оценки T breakdown point = 0.25. Это означает, что если заменить 25% данных на произвольные числа, оценка...
M-оценки: Huber, Bisquare, Hampel
**M-оценки** минимизируют ∑ᵢ ρ(xᵢ−θ), где ρ - функция потерь. Условие оптимальности: ∑ψ(xᵢ−θ) = 0, где ψ = ρ'. **Huber-функция:** ρ(u) = u²/2 при |u|≤k, k·|u|−k²/2 при |u|>k - квадратичная в центре, линейная на хвостах. При k→∞: МНК; k→0: медиана. **Тьюки Bisquare (Biweight):** полностью отвергает выбросы за порогом c: ψ(u) = u(1−(u/c)²)² при |u|<c, 0 иначе.
**Выбор k в Хьюбере:** k=1.345 даёт 95% асимптотической эффективности при нормальных данных. Меньшее k → выше устойчивость, ниже эффективность. Правило: масштаб σ нужно оценивать робастно (MAD = Median Absolute Deviation / 0.6745) - иначе один выброс испортит σ и сместит k. IRLS (Iteratively Reweighted Least Squares) - стандартный алгоритм для M-оценок: быстрая сходимость, связь с WLS.
Bisquare ψ-функция равна нулю при |u| > c=4.685. Что происходит с наблюдением, у которого остаток r_i = 6σ?
S-оценки, MM-оценки и MCD
**S-оценка** минимизирует дисперсию: min_θ s(r₁,...,rₙ), где s - робастная σ. Имеет высокий BP (до 50%), но низкую эффективность (~30% Gaussian). **MM-оценка (Yohai 1987):** двухэтапная: 1. S-оценка → начальное θ 2. M-оценка с Bisquare на масштабе s. Объединяет высокий BP S-оценки с высокой эффективностью Bisquare (~95%). **MCD** (Minimum Covariance Determinant): находит h≥n/2+1 наблюдений с минимальным det(Σ) - многомерная робастная оценка ковариации.
**Masking и swamping:** masking - выбросы образуют кластер и «маскируют» друг друга (классическая M-оценка не видит группу выбросов); swamping - чистые наблюдения неверно идентифицируются как выбросы из-за влияния других выбросов на σ. MCD и MM-оценки разработаны для борьбы с masking. Для регрессии: MM-регрессия в R (robustbase::lmrob), Python (statsmodels.robust.robust_linear_model).
MM-оценка в два этапа: S-оценка (BP~50%, эффективность~30%), затем M-оценка с Bisquare. Какой BP итоговой MM-оценки?
Ключевые идеи
- Breakdown point: BP(среднее)=0, BP(медиана)=0.5 - максимум для location оценок
- Influence function: GES(OLS)=∞, GES(медиана) конечна - мера чувствительности к выбросу
- M-оценки: ∑ψ(rᵢ/σ)=0; Huber - компромисс; Bisquare - полный отказ за c·σ
- MM-оценки: BP~50% (от S-step) + эффективность ~95% (от Bisquare M-step)
- MCD: min det(Σ) на h наблюдениях → робастная ковариация для многомерного анализа
Робастная статистика и курс
Робастная статистика защищает все остальные методы: робастная ковариация основа многомерного анализа, M-оценки основа робастной регрессии, MCD используется в Mahalonobis outlier detection.
- Многомерный анализ — MCD даёт робастные μ и Σ для расстояния Махаланобиса при выбросах
- Непараметрические методы — Непараметрика - альтернативный подход к устойчивости: ранги вместо значений
Вопросы для размышления
- Почему нельзя просто «удалять выбросы» вместо использования робастных оценок? Когда автоматическое удаление выбросов приводит к ещё большему смещению?
- RANSAC (Random Sample Consensus) - алгоритм в компьютерном зрении: случайно выбирает минимальный набор точек, строит модель, считает inliers. Как это связано с идеей S-оценок? В чём вычислительный trade-off?
- В медицинском исследовании несколько пациентов имеют экстремальные значения биомаркера. Объясните последствия выбора между тремя стратегиями: 1. удалить как выбросы 2. использовать среднее 3. использовать MM-оценку.