Статистическая теория обучения

Теория обобщения и регуляризации

ResNet-50 на ImageNet (1.2M изображений, 25M параметров) достигает 75% top-1 accuracy без early stopping. Классический bias-variance tradeoff предсказывал бы catastrophic overfitting при таком ratio. Double descent теория (Belkin 2019, Hastie 2019) объяснила феномен: SGD находит min-norm interpolant, а overparameterization снижает variance. OpenAI использует это при масштабировании GPT: больше параметров = лучше при достаточно большом датасете.

  • **Grokking (Power et al. 2022):** нейросеть сначала memorizes (100% train, 0% test), потом после долгого обучения generalize (100% train, 100% test). Epoch-wise double descent в явном виде.
  • **Weight decay в AdamW:** PyTorch, HuggingFace - AdamW с weight decay 0.01-0.1 усиливает implicit bias SGD к решениям с малой нормой весов. Стандарт в LLM pre-training.
  • **Neural Scaling Laws (Hoffmann 2022):** Chinchilla: loss ≈ A/n^α + B/p^β. Double descent объясняет, почему 'compute-optimal' точка - n_tokens ≈ 20×n_params.

Bias-variance tradeoff: классический и современный режим

**ResNet-50 на ImageNet (1.2M изображений, 1000 классов) достигает 75% top-1 accuracy - double descent теория объясняет, почему оверфиттинг с нуля не происходит.** Классический bias-variance tradeoff предсказывает U-образную кривую ошибки. Но нейронные сети нарушают это правило: после interpolation threshold ошибка снова падает.

**Классический vs modern:** при polynomial degree > n_train классические методы diverge из-за экстремальной variance. Но SGD + implicit regularization в нейросетях находит min-norm solution, что возвращает variance вниз.

Что происходит с variance в overparameterized режиме при использовании SGD?

SGD в overparameterized режиме находит min-norm interpolating solution - решение с минимальной нормой, которое точно фитит train data. Это implicit regularization снижает variance, создавая второй спуск в double descent.

Double descent: interpolation threshold и modern ML

**Double descent** (Belkin et al., 2019; Hastie et al., 2019) - феномен, при котором test error имеет два минимума: один в underparameterized режиме, пик на interpolation threshold (n_params = n_data), и снова минимум в overparameterized режиме. ResNet на CIFAR-10 демонстрирует это при добавлении label noise.

**Практические следствия:** ранняя остановка обучения (early stopping) работает как регуляризация в epoch-wise double descent. Width нейросети - аналог p в линейной модели. Увеличение ширины сети улучшает generalization в overparameterized режиме.

Что происходит с test error при p/n → ∞ в overparameterized режиме?

В overparameterized режиме (p >> n) min-norm interpolant имеет норму ~sqrt(n/p)*||beta*||. Risk убывает как sigma²·n/p + ||beta*||²·n/p → 0 при p → ∞. Именно поэтому очень широкие нейросети обобщают.

Implicit regularization: SGD как регуляризатор

**Implicit regularization** - феномен, при котором оптимизационный алгоритм (SGD, gradient flow) сам по себе выбирает решение с определёнными свойствами, даже без явного регуляризационного члена. Для линейных моделей SGD сходится к min-norm решению; для нейросетей - к решениям с малой spectral norm матриц весов.

**Практическое значение:** implicit regularization объясняет, почему нейросети обобщают без explicit regularization. Weight decay (L2) и batch normalization усиливают implicit bias. Learning rate расписание влияет на implicit regularization: высокий lr => больший implicit bias.

К какому решению сходится gradient descent из нулевой инициализации в overparameterized линейной регрессии?

Gradient descent из нулевой инициализации остаётся в row space(X) на всей траектории. При t → ∞ он сходится к проекции 0 на множество {β: Xβ=y} - это min-norm solution β = X^+(y). Это ключевой результат implicit regularization теории.

Ключевые идеи

  • **Bias-variance:** MSE = Bias² + Variance + σ². Классически оптимум - баланс. Modern ML: overparameterization снижает variance через implicit regularization.
  • **Double descent:** риск пикует при p/n=1 (interpolation threshold), потом снижается при p/n >> 1. Работает и по числу эпох (epoch-wise double descent).
  • **Min-norm interpolant:** при p > n существует бесконечно много решений Xβ=y. SGD из нуля находит то, что минимизирует ||β||₂.
  • **Implicit regularization:** оптимизатор определяет inductive bias. SGD → L2, exponentiated gradient → L1, deep matrix factorization → nuclear norm.
  • **Практика:** weight decay, learning rate schedule, batch size - всё влияет на implicit regularization и итоговое generalization.

Связанные темы

Generalization theory соединяет классику и modern deep learning:

  • Deep generalization paradox — Урок 13: эмпирические наблюдения Zhang 2017
  • VC dimension и PAC — Предыдущий урок: классическая теория

Связанные уроки

  • lt-13-deep-generalization — Углублённый взгляд на double descent из урока 13
  • lt-18-vc-sample-complexity — VC theory объясняет classical bias-variance, но не double descent
  • lt-17-kernel-methods — NTK объясняет implicit regularization в deep nets
Теория обобщения и регуляризации

0

1

Войти