Статистика
Точечные оценки: хорошие, плохие и смещённые
В 1990 году NASA запустило телескоп Hubble с зеркалом, отполированным с поразительной точностью - но систематически неправильно. Нуллификатор имел смещение 1.3 мм, и каждый из тысяч замеров давал одну и ту же ошибку 2.2 мкм. Исправление на орбите обошлось в $700 млн. Это история о смещённом оценщике.
- ML регуляризация: Ridge и Lasso - намеренно смещённые оценщики с меньшим MSE
- Телескоп Hubble (1990): систематическая ошибка зеркала - классический пример bias
- A/B тестирование: несостоятельный оценщик не улучшается при увеличении выборки
- BatchNorm в DL: смещённая дисперсия на батчах - намеренный инженерный выбор
- Thompson Sampling: состоятельный Байесовский оценщик для многоруких бандитов
- Оценки при малых выборках: поправка Бесселя n-1 в дисперсии - компенсация bias
Предварительные знания
- (no prerequisites)
Три вопроса к любой оценке
**24 апреля 1990 года. NASA запускает космический телескоп Hubble.** Зеркало диаметром 2.4 метра - самое точно отполированное зеркало из когда-либо созданных. Инженеры компании Perkin-Elmer проверяли его форму тысячи раз специальным прибором - нуллификатором. Каждый раз получали: идеально. Первые снимки с орбиты пришли размытыми. Зеркало было отполировано с поразительной точностью - но **систематически неправильно**. Нуллификатор имел конструктивный дефект: одна линза была смещена на 1.3 мм. Каждый замер давал одну и ту же ошибку 2.2 микрометра от нужной формы. Три года астрономия смотрела сквозь кривое стекло. Исправление на орбите в 1993 году обошлось ещё в $700 млн. **Это история о смещённом оценщике.**
**Чему этот урок учит на самом деле**: не «как вычислить выборочное среднее», а почему у любой оценки **три независимых свойства** - и что происходит, когда одно из них сломано. Bias убил Hubble. Variance делает предсказания нестабильными. Отсутствие состоятельности убивает доверие при масштабировании. Каждый раз, когда выбирается loss function или метод нормализации - мы выбираем оценщик с определёнными свойствами. Через 30 минут будет видно, почему n-1 в формуле дисперсии - это не опечатка, и зачем L2-регуляризация намеренно вносит смещение.
Три вопроса к любой оценке
**Точечная оценка** - это любая функция от данных выборки, которую используют для приближения неизвестного параметра. Выборочное среднее X̄ - оценка для μ. Выборочная дисперсия - оценка для σ². Но у одного параметра может быть бесконечно много оценщиков. Вопрос: какой правильный? Вот три критерия которые отвечают на этот вопрос.
| Свойство | Вопрос | Что будет если сломано | Аналог в ML |
|---|---|---|---|
| Несмещённость | Попадает ли оценка в цель в среднем? | Hubble: систематически неправильно. Модель с постоянным underfitting | Систематическая ошибка модели, bias в feature engineering |
| Эффективность | Насколько она разбросана от выборки к выборке? | Нестабильные предсказания при разных сплитах | Overfitting, высокая дисперсия весов без регуляризации |
| Состоятельность | Улучшается ли оценка с ростом n? | Алгоритм не учится на данных | Модель не масштабируется с объёмом обучающей выборки |
**Bias-variance tradeoff** - не метафора, а буквальная формула: MSE(θ̂) = Bias²(θ̂) + Var(θ̂). Любая регуляризация (L1, L2, dropout) обменивает одно на другое. Ridge вносит bias, но снижает variance. Knowing this makes hyperparameter tuning logical, not trial-and-error.
Какие три независимых свойства характеризуют любую точечную оценку?
Несмещённость: попадать в цель в среднем
Несмещённость: попадать в цель в среднем
Оценщик несмещённый, если при бесконечно большом числе повторений (берём разные выборки, вычисляем оценку каждый раз) - в среднем попадаем точно в истинный параметр. Точнее: математическое ожидание оценки равно истинному значению.
Несмещённость: E[θ̂] = θ, то есть Bias(θ̂) = E[θ̂] - θ = 0 Выборочное среднее X̄ = (X₁ + ... + Xₙ) / n: E[X̄] = E[(X₁ + ... + Xₙ) / n] = (E[X₁] + ... + E[Xₙ]) / n [линейность E] = (μ + μ + ... + μ) / n = n·μ / n = μ ✓ несмещённое Выборочная дисперсия с делением на n: S²_n = (1/n)·Σ(Xᵢ - X̄)² E[S²_n] = (n-1)/n · σ² ≠ σ² ← смещённая! С делением на n-1 (поправка Бесселя): S² = (1/(n-1))·Σ(Xᵢ - X̄)² E[S²] = σ² ✓ несмещённая ПОЧЕМУ n-1? Когда вычисляется X̄ из той же выборки, отклонения Xᵢ - X̄ теряют одну степень свободы: их сумма ВСЕГДА равна нулю. Из n отклонений лишь n-1 свободны - последнее известно из остальных.
Степени свободы: интуиция без формул
Почему n-1
Выборка: {10, 12, 14}. X̄ = 12. Отклонения от среднего: {10-12, 12-12, 14-12} = {-2, 0, +2}. Сумма отклонений = -2 + 0 + 2 = 0 - ВСЕГДА. Это значит: если знаем первые два отклонения (-2 и 0), третье (+2) определено автоматически. Свободных = n-1 = 2. Деление на n-1 вместо n компенсирует эту потерю: мы «платим» за использование X̄ вместо настоящего μ.
Почему выборочная дисперсия S² использует деление на n-1, а не на n?
Эффективность и MSE: когда смещение выгодно
Эффективность и MSE: когда смещение выгодно
Среди несмещённых оценщиков хочется выбрать тот с **наименьшей дисперсией** - он будет ближе к истинному значению для каждой конкретной выборки. Но несмещённость - не единственный критерий. Иногда выгоднее взять чуть смещённый, но гораздо более стабильный оценщик.
Mean Squared Error объединяет оба недостатка: MSE(θ̂) = E[(θ̂ - θ)²] = Var(θ̂) + Bias²(θ̂) Доказательство: E[(θ̂ - θ)²] = E[(θ̂ - E[θ̂] + E[θ̂] - θ)²] = Var(θ̂) + (E[θ̂] - θ)² ✓ Сравнение оценщиков для μ при N(μ, σ²): θ̂₁ = X̄: Bias = 0, Var = σ²/n → MSE = σ²/n θ̂₂ = X₁: Bias = 0, Var = σ² → MSE = σ² (в n раз хуже!) При n=100: дисперсия X̄ в 100 раз меньше X₁. Обе несмещённые - но X̄ несравнимо эффективнее. Парадокс Штейна (1961): при оценке вектора μ ∈ ℝᵏ (k≥3) X̄ НЕ является оптимальным по MSE. Всегда существует смещённый «shrinkage»-оценщик с меньшим MSE. Именно из этого вырастает L2-регуляризация в ML.
**Парадокс**: при малых n смещённая дисперсия (деление на n) часто имеет **меньший MSE**, чем несмещённая! Это потому, что несмещённость немного увеличивает дисперсию оценщика. В ML это обосновывает L2-регуляризацию: намеренно смещаем веса к нулю, но зато они стабильнее от запуска к запуску и на разных частях данных.
MSE(θ̂) = Bias²(θ̂) + Var(θ̂). Что эта декомпозиция означает практически?
Состоятельность: умнеет ли оценщик с данными
Состоятельность: умнеет ли оценщик с данными
Несмещённость - это про среднее. Состоятельность - про поведение при росте n. **Хорошая оценка должна становиться точнее при добавлении данных.** Это минимальное требование здравого смысла - и оно не следует автоматически из несмещённости.
Оценщик θ̂ₙ состоятелен, если: ∀ε > 0: P(|θ̂ₙ - θ| > ε) → 0 при n → ∞ Обозначение: θ̂ₙ →_P θ X̄ состоятельно - следствие Закона Больших Чисел: X̄ₙ →_P μ ✓ Примеры несоответствия несмещённости и состоятельности: θ̂ = X₁ (первое наблюдение): E[X₁] = μ ← НЕСМЕЩЁННЫЙ ✓ Var(X₁) = σ² ← не уменьшается с n → НЕСОСТОЯТЕЛЬНЫЙ ✗ θ̂ = S²_n (деление на n): E[S²_n] = (n-1)/n · σ² ← СМЕЩЁННЫЙ ✗ Смещение → 0 при n→∞, Var→0 → СОСТОЯТЕЛЬНЫЙ ✓ Вывод: четыре комбинации реальны: [несмещ + состоят]: X̄ для μ ← лучший вариант [несмещ + несост]: X₁ для μ ← бесполезный [смещён + состоят]: S²_n для σ² ← приемлемый [смещён + несост]: 2X₁ для θ≠2μ ← провальный
**Состоятельность - минимальное требование.** Несостоятельный оценщик не обучается на данных: при n=10 он так же точен (или неточен), как при n=10 000. В ML аналог: модель, которая не улучшается при увеличении тренировочного датасета, - это несостоятельный алгоритм. Это диагноз, а не настройка.
Какая оценка несмещённая, но НЕсостоятельная?
Где эти свойства живут в реальных системах
Где эти свойства живут в реальных системах
Bias, variance, consistency - не абстракции учебника. Это инженерные характеристики каждого компонента ML-системы. Когда Netflix оценивает предпочтения пользователя или Stripe оценивает вероятность фрода - работают оценщики с конкретными свойствами, выбранными намеренно.
**Финальный кадр**: Hubble исправили в 1993 году - корректирующая оптика COSTAR компенсировала систематическую ошибку. В статистике аналог - debiasing: вычесть оценку смещения из оценщика. В ML - BatchNorm correction при inference, calibration нейросетей. Как только понято, что сломано (bias или variance), появляется и инструмент исправления.
Какой компонент ML-системы является аналогом несостоятельного оценщика?
Практика: диагностика оценщиков
Практика: диагностика оценщиков
На практике вы диагностируете оценщик: на симуляциях средняя по 10 000 повторений равна истинному параметру, но дисперсия оценщика не убывает при росте n. Какой диагноз?
Что унести из урока
- **Hubble-урок**: bias убивает результат даже при идеальной точности. Проверять оценщик на смещение нужно до запуска системы
- **Три независимых свойства**: несмещённость (E[θ̂]=θ), эффективность (min Var среди несмещённых), состоятельность (θ̂→θ при n→∞)
- **n-1 в дисперсии**: поправка Бесселя компенсирует потерю одной степени свободы при вычислении X̄ из той же выборки
- **MSE = bias² + variance**: единая мера качества. Смещённый оценщик с меньшим MSE лучше несмещённого с большим - основа Ridge/BatchNorm
- **Несмещённость ≠ состоятельность**: X₁ несмещённый, но несостоятельный. S²_n смещённая, но состоятельная
- **В ML каждый день**: L2-регуляризация = намеренный bias; BatchNorm = смещённая дисперсия на batch; Thompson Sampling = состоятельный Bayesian оценщик
Куда дальше
Теперь понятно, что оценки бывают плохими. Дальше - как найти наилучшую.
- Метод максимального правдоподобия — Универсальный метод построения состоятельных и асимптотически эффективных оценок
- Доверительные интервалы — Не точка, а отрезок с гарантией покрытия - правильный способ сообщать об оценке
- Граница Крамера-Рао — Нижний предел дисперсии несмещённого оценщика - теоретический фундамент эффективности
- Bootstrap — Оценить bias и variance любого оценщика без знания распределения - современный рабочий инструмент