Статистическая теория обучения
Теория обобщения и регуляризации
ResNet-50 на ImageNet (1.2M изображений, 25M параметров) достигает 75% top-1 accuracy без early stopping. Классический bias-variance tradeoff предсказывал бы catastrophic overfitting при таком ratio. Double descent теория (Belkin 2019, Hastie 2019) объяснила феномен: SGD находит min-norm interpolant, а overparameterization снижает variance. OpenAI использует это при масштабировании GPT: больше параметров = лучше при достаточно большом датасете.
- **Grokking (Power et al. 2022):** нейросеть сначала memorizes (100% train, 0% test), потом после долгого обучения generalize (100% train, 100% test). Epoch-wise double descent в явном виде.
- **Weight decay в AdamW:** PyTorch, HuggingFace - AdamW с weight decay 0.01-0.1 усиливает implicit bias SGD к решениям с малой нормой весов. Стандарт в LLM pre-training.
- **Neural Scaling Laws (Hoffmann 2022):** Chinchilla: loss ≈ A/n^α + B/p^β. Double descent объясняет, почему 'compute-optimal' точка - n_tokens ≈ 20×n_params.
Bias-variance tradeoff: классический и современный режим
**ResNet-50 на ImageNet (1.2M изображений, 1000 классов) достигает 75% top-1 accuracy - double descent теория объясняет, почему оверфиттинг с нуля не происходит.** Классический bias-variance tradeoff предсказывает U-образную кривую ошибки. Но нейронные сети нарушают это правило: после interpolation threshold ошибка снова падает.
**Классический vs modern:** при polynomial degree > n_train классические методы diverge из-за экстремальной variance. Но SGD + implicit regularization в нейросетях находит min-norm solution, что возвращает variance вниз.
Что происходит с variance в overparameterized режиме при использовании SGD?
SGD в overparameterized режиме находит min-norm interpolating solution - решение с минимальной нормой, которое точно фитит train data. Это implicit regularization снижает variance, создавая второй спуск в double descent.
Double descent: interpolation threshold и modern ML
**Double descent** (Belkin et al., 2019; Hastie et al., 2019) - феномен, при котором test error имеет два минимума: один в underparameterized режиме, пик на interpolation threshold (n_params = n_data), и снова минимум в overparameterized режиме. ResNet на CIFAR-10 демонстрирует это при добавлении label noise.
**Практические следствия:** ранняя остановка обучения (early stopping) работает как регуляризация в epoch-wise double descent. Width нейросети - аналог p в линейной модели. Увеличение ширины сети улучшает generalization в overparameterized режиме.
Что происходит с test error при p/n → ∞ в overparameterized режиме?
В overparameterized режиме (p >> n) min-norm interpolant имеет норму ~sqrt(n/p)*||beta*||. Risk убывает как sigma²·n/p + ||beta*||²·n/p → 0 при p → ∞. Именно поэтому очень широкие нейросети обобщают.
Implicit regularization: SGD как регуляризатор
**Implicit regularization** - феномен, при котором оптимизационный алгоритм (SGD, gradient flow) сам по себе выбирает решение с определёнными свойствами, даже без явного регуляризационного члена. Для линейных моделей SGD сходится к min-norm решению; для нейросетей - к решениям с малой spectral norm матриц весов.
**Практическое значение:** implicit regularization объясняет, почему нейросети обобщают без explicit regularization. Weight decay (L2) и batch normalization усиливают implicit bias. Learning rate расписание влияет на implicit regularization: высокий lr => больший implicit bias.
К какому решению сходится gradient descent из нулевой инициализации в overparameterized линейной регрессии?
Gradient descent из нулевой инициализации остаётся в row space(X) на всей траектории. При t → ∞ он сходится к проекции 0 на множество {β: Xβ=y} - это min-norm solution β = X^+(y). Это ключевой результат implicit regularization теории.
Ключевые идеи
- **Bias-variance:** MSE = Bias² + Variance + σ². Классически оптимум - баланс. Modern ML: overparameterization снижает variance через implicit regularization.
- **Double descent:** риск пикует при p/n=1 (interpolation threshold), потом снижается при p/n >> 1. Работает и по числу эпох (epoch-wise double descent).
- **Min-norm interpolant:** при p > n существует бесконечно много решений Xβ=y. SGD из нуля находит то, что минимизирует ||β||₂.
- **Implicit regularization:** оптимизатор определяет inductive bias. SGD → L2, exponentiated gradient → L1, deep matrix factorization → nuclear norm.
- **Практика:** weight decay, learning rate schedule, batch size - всё влияет на implicit regularization и итоговое generalization.
Связанные темы
Generalization theory соединяет классику и modern deep learning:
- Deep generalization paradox — Урок 13: эмпирические наблюдения Zhang 2017
- VC dimension и PAC — Предыдущий урок: классическая теория
Связанные уроки
- lt-13-deep-generalization — Углублённый взгляд на double descent из урока 13
- lt-18-vc-sample-complexity — VC theory объясняет classical bias-variance, но не double descent
- lt-17-kernel-methods — NTK объясняет implicit regularization в deep nets