Статистика

Статистика в ML: теоретические основы

Всё, что делает ML-инженер каждый день - регуляризация, кросс-валидация, выбор модели - имеет строгое статистическое обоснование. Понимание этого превращает набор трюков в связную теорию, объясняющую почему одни подходы работают, а другие - нет.

Ridge/Lasso в геномике: p >> n (500k SNP, 5k пациентов) - без регуляризации OLS бессмысленен
Hyperparameter search в AutoML: Bayesian optimization использует cross-validation как objective
Double descent на практике: современные нейросети работают в interpolation regime - что полностью нарушает «классические» рекомендации по выбору сложности

Предварительные знания

Causal Inference

Bias-variance decomposition

**Bias-variance decomposition** для MSE: E[(f̂(x)−y)²] = [Bias(f̂(x))]² + Var(f̂(x)) + σ². Bias = E[f̂(x)] − f(x) - систематическое отклонение (underfitting). Variance = E[(f̂(x) − E[f̂(x)])²] - чувствительность к случайности обучающих данных (overfitting). σ² = Var(ε) - неустранимый шум. Классическое утверждение: bias↑ ↔ variance↓ при изменении сложности модели.

**Double descent:** в современных overparameterized моделях нейросетей bias-variance trade-off нарушается. При числе параметров p > n (interpolation threshold) test error снова снижается - вторая кривая спуска. Объяснение: SGD при интерполяции находит минимум с минимальной нормой (implicit regularization). Классический trade-off верен для фиксированной H и ERM - для современных нейросетей нужна более тонкая теория.

Модель A: Bias=0.5, Variance=0.1. Модель B: Bias=0.1, Variance=0.6. Шум σ²=0.05. Какую выбрать?

Регуляризация как байесовский приор

**Эквивалентность:** MAP оценка при гауссовском приоре ↔ Ridge: arg max log P(w|X,y) = arg max [log P(y|X,w) + log P(w)] = arg min [RSS + λ‖w‖²] при w ~ N(0, 1/λ·I). L2 регуляризация = гауссовский приор. L1 регуляризация (Lasso) = лаплассовский приор: w ~ Laplace(0, 1/λ). Лаплас имеет острый пик при 0 → индуцирует разреженность (sparsity).

**Bayesian interpretation of modern DL:** weight decay в нейросетях = гауссовский приор на веса. Dropout = приблизительный байесовский вывод (Gal & Ghahramani 2016). Batch normalization имеет регуляризирующий эффект через шум мини-батча. Early stopping эквивалентен Ridge регуляризации при линейных сетях (Bishop 1995). Таким образом, большинство практик DL имеют байесовскую интерпретацию.

Ridge регрессия с λ=5 и σ²=1. Какому приору соответствует это с байесовской точки зрения?

Cross-validation, Bootstrap и Double Descent

**k-fold Cross-Validation:** делим данные на k частей; каждую используем как validation при обучении на остальных. CV оценивает ожидаемую ошибку обобщения (generalization error). LOOCV: k=n - несмещённая, но дорогая (O(n²) для линейных моделей имеет O(n) trick). **Bootstrap .632+**: скорректированная оценка, учитывающая optimism bias bootstrap. **Double descent:** test error имеет два минимума - один при «правильной» сложности, второй при сверхбольшом числе параметров. Объяснение: implicit regularization интерполирующих решений.

**Утечка данных (data leakage) в CV:** нормализация на всём датасете до CV → train/test распределения «протекают», CV даёт оптимистичную оценку. Правило: все трансформации (StandardScaler, PCA, feature selection) должны быть ВНУТРИ CV fold, не снаружи. В sklearn: Pipeline + cross_val_score автоматически предотвращает leakage. Temporal leakage в временных рядах: нужен TimeSeriesSplit, не обычный k-fold.

LOOCV даёт несмещённую оценку ошибки, но имеет высокую дисперсию. Почему?

Ключевые идеи

MSE = Bias² + Variance + σ²; оптимум балансирует оба члена
Ridge = MAP N(0,σ²/λ); Lasso = MAP Laplace(0,1/λ); Lasso → sparsity
CV оценивает ожидаемое обобщение; leakage → оптимистичная оценка
LOOCV: несмещённа но высокая дисперсия; 5-10 fold - компромисс
Double descent: при p >> n минимум нормы interprets как implicit L2 regul.

Статистика в ML и весь курс

Этот урок объединяет весь курс. Bias-variance → VC-теория. Регуляризация как приор → байесовская статистика. CV → оценка неопределённости. Double descent → понимание, почему классические советы нарушаются в глубоком обучении.

Теория Вапника-Червоненкиса — Bias-variance decomposition - конкретная реализация approximation + estimation error из VC
Байесовская статистика — Регуляризация = prior; MAP = point estimate; полный байесовский подход усредняет по всем моделям

Вопросы для размышления

Доказательство: MAE оптимизирует медианный предиктор, MSE - среднее. Что это означает для выбора функции потерь при асимметричных данных доходов (income) или времени отклика? Как это связано с bias-variance разложением для MAE?
Dropout в нейросетях с вероятностью p рандомно зануляет нейроны. Gal & Ghahramani показали, что это приближённый байесовский вывод. Какому приору на веса это соответствует? Как это объясняет regularization эффект dropout?
Double descent создаёт парадокс: увеличение сложности модели (p↑) сначала ухудшает, затем улучшает test error. Как это меняет практические рекомендации по выбору архитектуры нейросети? Всегда ли нужно искать «правильный» размер?

Связанные уроки

aie-36-fine-tuning

Bias-variance decomposition

Модель A: Bias=0.5, Variance=0.1. Модель B: Bias=0.1, Variance=0.6. Шум σ²=0.05. Какую выбрать?

Регуляризация как байесовский приор

Ridge регрессия с λ=5 и σ²=1. Какому приору соответствует это с байесовской точки зрения?

Cross-validation, Bootstrap и Double Descent

LOOCV даёт несмещённую оценку ошибки, но имеет высокую дисперсию. Почему?

Ключевые идеи

MSE = Bias² + Variance + σ²; оптимум балансирует оба члена

Ridge = MAP N(0,σ²/λ); Lasso = MAP Laplace(0,1/λ); Lasso → sparsity

CV оценивает ожидаемое обобщение; leakage → оптимистичная оценка

LOOCV: несмещённа но высокая дисперсия; 5-10 fold - компромисс

Double descent: при p >> n минимум нормы interprets как implicit L2 regul.