Статистика

Точечные оценки: хорошие, плохие и смещённые

В 1990 году NASA запустило телескоп Hubble с зеркалом, отполированным с поразительной точностью - но систематически неправильно. Нуллификатор имел смещение 1.3 мм, и каждый из тысяч замеров давал одну и ту же ошибку 2.2 мкм. Исправление на орбите обошлось в $700 млн. Это история о смещённом оценщике.

ML регуляризация: Ridge и Lasso - намеренно смещённые оценщики с меньшим MSE
Телескоп Hubble (1990): систематическая ошибка зеркала - классический пример bias
A/B тестирование: несостоятельный оценщик не улучшается при увеличении выборки
BatchNorm в DL: смещённая дисперсия на батчах - намеренный инженерный выбор
Thompson Sampling: состоятельный Байесовский оценщик для многоруких бандитов
Оценки при малых выборках: поправка Бесселя n-1 в дисперсии - компенсация bias

Предварительные знания

(no prerequisites)

Sampling: how 1,000 people predict the behavior of a billion

Три вопроса к любой оценке

**24 апреля 1990 года. NASA запускает космический телескоп Hubble.** Зеркало диаметром 2.4 метра - самое точно отполированное зеркало из когда-либо созданных. Инженеры компании Perkin-Elmer проверяли его форму тысячи раз специальным прибором - нуллификатором. Каждый раз получали: идеально. Первые снимки с орбиты пришли размытыми. Зеркало было отполировано с поразительной точностью - но **систематически неправильно**. Нуллификатор имел конструктивный дефект: одна линза была смещена на 1.3 мм. Каждый замер давал одну и ту же ошибку 2.2 микрометра от нужной формы. Три года астрономия смотрела сквозь кривое стекло. Исправление на орбите в 1993 году обошлось ещё в $700 млн. **Это история о смещённом оценщике.**

**Чему этот урок учит на самом деле**: не «как вычислить выборочное среднее», а почему у любой оценки **три независимых свойства** - и что происходит, когда одно из них сломано. Bias убил Hubble. Variance делает предсказания нестабильными. Отсутствие состоятельности убивает доверие при масштабировании. Каждый раз, когда выбирается loss function или метод нормализации - мы выбираем оценщик с определёнными свойствами. Через 30 минут будет видно, почему n-1 в формуле дисперсии - это не опечатка, и зачем L2-регуляризация намеренно вносит смещение.

Три вопроса к любой оценке

**Точечная оценка** - это любая функция от данных выборки, которую используют для приближения неизвестного параметра. Выборочное среднее X̄ - оценка для μ. Выборочная дисперсия - оценка для σ². Но у одного параметра может быть бесконечно много оценщиков. Вопрос: какой правильный? Вот три критерия которые отвечают на этот вопрос.

Свойство	Вопрос	Что будет если сломано	Аналог в ML
Несмещённость	Попадает ли оценка в цель в среднем?	Hubble: систематически неправильно. Модель с постоянным underfitting	Систематическая ошибка модели, bias в feature engineering
Эффективность	Насколько она разбросана от выборки к выборке?	Нестабильные предсказания при разных сплитах	Overfitting, высокая дисперсия весов без регуляризации
Состоятельность	Улучшается ли оценка с ростом n?	Алгоритм не учится на данных	Модель не масштабируется с объёмом обучающей выборки

**Bias-variance tradeoff** - не метафора, а буквальная формула: MSE(θ̂) = Bias²(θ̂) + Var(θ̂). Любая регуляризация (L1, L2, dropout) обменивает одно на другое. Ridge вносит bias, но снижает variance. Knowing this makes hyperparameter tuning logical, not trial-and-error.

Какие три независимых свойства характеризуют любую точечную оценку?

Несмещённость: попадать в цель в среднем

Оценщик несмещённый, если при бесконечно большом числе повторений (берём разные выборки, вычисляем оценку каждый раз) - в среднем попадаем точно в истинный параметр. Точнее: математическое ожидание оценки равно истинному значению.

Несмещённость: E[θ̂] = θ, то есть Bias(θ̂) = E[θ̂] - θ = 0 Выборочное среднее X̄ = (X₁ + ... + Xₙ) / n: E[X̄] = E[(X₁ + ... + Xₙ) / n] = (E[X₁] + ... + E[Xₙ]) / n [линейность E] = (μ + μ + ... + μ) / n = n·μ / n = μ ✓ несмещённое Выборочная дисперсия с делением на n: S²_n = (1/n)·Σ(Xᵢ - X̄)² E[S²_n] = (n-1)/n · σ² ≠ σ² ← смещённая! С делением на n-1 (поправка Бесселя): S² = (1/(n-1))·Σ(Xᵢ - X̄)² E[S²] = σ² ✓ несмещённая ПОЧЕМУ n-1? Когда вычисляется X̄ из той же выборки, отклонения Xᵢ - X̄ теряют одну степень свободы: их сумма ВСЕГДА равна нулю. Из n отклонений лишь n-1 свободны - последнее известно из остальных.

Степени свободы: интуиция без формул

Почему n-1

Выборка: {10, 12, 14}. X̄ = 12. Отклонения от среднего: {10-12, 12-12, 14-12} = {-2, 0, +2}. Сумма отклонений = -2 + 0 + 2 = 0 - ВСЕГДА. Это значит: если знаем первые два отклонения (-2 и 0), третье (+2) определено автоматически. Свободных = n-1 = 2. Деление на n-1 вместо n компенсирует эту потерю: мы «платим» за использование X̄ вместо настоящего μ.

Почему выборочная дисперсия S² использует деление на n-1, а не на n?

Эффективность и MSE: когда смещение выгодно

Среди несмещённых оценщиков хочется выбрать тот с **наименьшей дисперсией** - он будет ближе к истинному значению для каждой конкретной выборки. Но несмещённость - не единственный критерий. Иногда выгоднее взять чуть смещённый, но гораздо более стабильный оценщик.

Mean Squared Error объединяет оба недостатка: MSE(θ̂) = E[(θ̂ - θ)²] = Var(θ̂) + Bias²(θ̂) Доказательство: E[(θ̂ - θ)²] = E[(θ̂ - E[θ̂] + E[θ̂] - θ)²] = Var(θ̂) + (E[θ̂] - θ)² ✓ Сравнение оценщиков для μ при N(μ, σ²): θ̂₁ = X̄: Bias = 0, Var = σ²/n → MSE = σ²/n θ̂₂ = X₁: Bias = 0, Var = σ² → MSE = σ² (в n раз хуже!) При n=100: дисперсия X̄ в 100 раз меньше X₁. Обе несмещённые - но X̄ несравнимо эффективнее. Парадокс Штейна (1961): при оценке вектора μ ∈ ℝᵏ (k≥3) X̄ НЕ является оптимальным по MSE. Всегда существует смещённый «shrinkage»-оценщик с меньшим MSE. Именно из этого вырастает L2-регуляризация в ML.

**Парадокс**: при малых n смещённая дисперсия (деление на n) часто имеет **меньший MSE**, чем несмещённая! Это потому, что несмещённость немного увеличивает дисперсию оценщика. В ML это обосновывает L2-регуляризацию: намеренно смещаем веса к нулю, но зато они стабильнее от запуска к запуску и на разных частях данных.

MSE(θ̂) = Bias²(θ̂) + Var(θ̂). Что эта декомпозиция означает практически?

Состоятельность: умнеет ли оценщик с данными

Несмещённость - это про среднее. Состоятельность - про поведение при росте n. **Хорошая оценка должна становиться точнее при добавлении данных.** Это минимальное требование здравого смысла - и оно не следует автоматически из несмещённости.

Оценщик θ̂ₙ состоятелен, если: ∀ε > 0: P(|θ̂ₙ - θ| > ε) → 0 при n → ∞ Обозначение: θ̂ₙ →_P θ X̄ состоятельно - следствие Закона Больших Чисел: X̄ₙ →_P μ ✓ Примеры несоответствия несмещённости и состоятельности: θ̂ = X₁ (первое наблюдение): E[X₁] = μ ← НЕСМЕЩЁННЫЙ ✓ Var(X₁) = σ² ← не уменьшается с n → НЕСОСТОЯТЕЛЬНЫЙ ✗ θ̂ = S²_n (деление на n): E[S²_n] = (n-1)/n · σ² ← СМЕЩЁННЫЙ ✗ Смещение → 0 при n→∞, Var→0 → СОСТОЯТЕЛЬНЫЙ ✓ Вывод: четыре комбинации реальны: [несмещ + состоят]: X̄ для μ ← лучший вариант [несмещ + несост]: X₁ для μ ← бесполезный [смещён + состоят]: S²_n для σ² ← приемлемый [смещён + несост]: 2X₁ для θ≠2μ ← провальный

**Состоятельность - минимальное требование.** Несостоятельный оценщик не обучается на данных: при n=10 он так же точен (или неточен), как при n=10 000. В ML аналог: модель, которая не улучшается при увеличении тренировочного датасета, - это несостоятельный алгоритм. Это диагноз, а не настройка.

Какая оценка несмещённая, но НЕсостоятельная?

Где эти свойства живут в реальных системах

Bias, variance, consistency - не абстракции учебника. Это инженерные характеристики каждого компонента ML-системы. Когда Netflix оценивает предпочтения пользователя или Stripe оценивает вероятность фрода - работают оценщики с конкретными свойствами, выбранными намеренно.

**Финальный кадр**: Hubble исправили в 1993 году - корректирующая оптика COSTAR компенсировала систематическую ошибку. В статистике аналог - debiasing: вычесть оценку смещения из оценщика. В ML - BatchNorm correction при inference, calibration нейросетей. Как только понято, что сломано (bias или variance), появляется и инструмент исправления.

Какой компонент ML-системы является аналогом несостоятельного оценщика?

Практика: диагностика оценщиков

На практике вы диагностируете оценщик: на симуляциях средняя по 10 000 повторений равна истинному параметру, но дисперсия оценщика не убывает при росте n. Какой диагноз?

Что унести из урока

**Hubble-урок**: bias убивает результат даже при идеальной точности. Проверять оценщик на смещение нужно до запуска системы
**Три независимых свойства**: несмещённость (E[θ̂]=θ), эффективность (min Var среди несмещённых), состоятельность (θ̂→θ при n→∞)
**n-1 в дисперсии**: поправка Бесселя компенсирует потерю одной степени свободы при вычислении X̄ из той же выборки
**MSE = bias² + variance**: единая мера качества. Смещённый оценщик с меньшим MSE лучше несмещённого с большим - основа Ridge/BatchNorm
**Несмещённость ≠ состоятельность**: X₁ несмещённый, но несостоятельный. S²_n смещённая, но состоятельная
**В ML каждый день**: L2-регуляризация = намеренный bias; BatchNorm = смещённая дисперсия на batch; Thompson Sampling = состоятельный Bayesian оценщик

Куда дальше

Теперь понятно, что оценки бывают плохими. Дальше - как найти наилучшую.

Метод максимального правдоподобия — Универсальный метод построения состоятельных и асимптотически эффективных оценок
Доверительные интервалы — Не точка, а отрезок с гарантией покрытия - правильный способ сообщать об оценке
Граница Крамера-Рао — Нижний предел дисперсии несмещённого оценщика - теоретический фундамент эффективности
Bootstrap — Оценить bias и variance любого оценщика без знания распределения - современный рабочий инструмент

Связанные уроки

ml-08-regularization

Статистика

Точечные оценки: хорошие, плохие и смещённые

ML регуляризация: Ridge и Lasso - намеренно смещённые оценщики с меньшим MSE
Телескоп Hubble (1990): систематическая ошибка зеркала - классический пример bias
A/B тестирование: несостоятельный оценщик не улучшается при увеличении выборки
BatchNorm в DL: смещённая дисперсия на батчах - намеренный инженерный выбор
Thompson Sampling: состоятельный Байесовский оценщик для многоруких бандитов
Оценки при малых выборках: поправка Бесселя n-1 в дисперсии - компенсация bias

Предварительные знания

(no prerequisites)

Sampling: how 1,000 people predict the behavior of a billion

Три вопроса к любой оценке

Свойство	Вопрос	Что будет если сломано	Аналог в ML
Несмещённость	Попадает ли оценка в цель в среднем?	Hubble: систематически неправильно. Модель с постоянным underfitting	Систематическая ошибка модели, bias в feature engineering
Эффективность	Насколько она разбросана от выборки к выборке?	Нестабильные предсказания при разных сплитах	Overfitting, высокая дисперсия весов без регуляризации
Состоятельность	Улучшается ли оценка с ростом n?	Алгоритм не учится на данных	Модель не масштабируется с объёмом обучающей выборки

Какие три независимых свойства характеризуют любую точечную оценку?

Несмещённость: попадать в цель в среднем

Степени свободы: интуиция без формул

Почему n-1

Почему выборочная дисперсия S² использует деление на n-1, а не на n?

Эффективность и MSE: когда смещение выгодно

MSE(θ̂) = Bias²(θ̂) + Var(θ̂). Что эта декомпозиция означает практически?

Состоятельность: умнеет ли оценщик с данными

Какая оценка несмещённая, но НЕсостоятельная?

Где эти свойства живут в реальных системах

Какой компонент ML-системы является аналогом несостоятельного оценщика?

Практика: диагностика оценщиков

Что унести из урока

**Hubble-урок**: bias убивает результат даже при идеальной точности. Проверять оценщик на смещение нужно до запуска системы
**Три независимых свойства**: несмещённость (E[θ̂]=θ), эффективность (min Var среди несмещённых), состоятельность (θ̂→θ при n→∞)
**n-1 в дисперсии**: поправка Бесселя компенсирует потерю одной степени свободы при вычислении X̄ из той же выборки
**MSE = bias² + variance**: единая мера качества. Смещённый оценщик с меньшим MSE лучше несмещённого с большим - основа Ridge/BatchNorm
**Несмещённость ≠ состоятельность**: X₁ несмещённый, но несостоятельный. S²_n смещённая, но состоятельная
**В ML каждый день**: L2-регуляризация = намеренный bias; BatchNorm = смещённая дисперсия на batch; Thompson Sampling = состоятельный Bayesian оценщик

Куда дальше

Теперь понятно, что оценки бывают плохими. Дальше - как найти наилучшую.

Метод максимального правдоподобия — Универсальный метод построения состоятельных и асимптотически эффективных оценок
Доверительные интервалы — Не точка, а отрезок с гарантией покрытия - правильный способ сообщать об оценке
Граница Крамера-Рао — Нижний предел дисперсии несмещённого оценщика - теоретический фундамент эффективности
Bootstrap — Оценить bias и variance любого оценщика без знания распределения - современный рабочий инструмент

Связанные уроки

ml-08-regularization