Теория информации
Information Theory в Deep Learning
GPT-4 с триллионом параметров обобщает на новых задачах лучше маленькой сети. Почему? Информационно-теоретический ответ начинается с вопроса: сколько информации о конкретных обучающих примерах сохраняют веса?
- **Weight compression** в QuantizedLLaMA (4-bit quantization) снижает I(W;S) - и часто не только не ухудшает, но иногда улучшает обобщение. MDL объясняет почему.
- **Dropout** - случайное отключение нейронов - с MDL-точки зрения: добавление шума к коду весов уменьшает I(W;S). Hinton изначально вдохновился идеями сжатия.
- **Knowledge Distillation** (Hinton, 2015) - обучение маленькой сети на soft-labels большой. С IT-точки зрения: teacher передаёт более «сжатое» представление о данных.
Предварительные знания
Обобщение через информацию
Почему нейросети с миллиардами параметров не переобучаются на практике? Information-теоретический ответ: SGD неявно ограничивает количество информации, которую веса сохраняют о конкретных обучающих примерах. Обобщение связано с I(W; S), где W - веса и S - обучающая выборка. Меньше информации о конкретных примерах → лучшее обобщение.
**Xu & Raginsky (2017):** Обобщающая ошибка ограничена сверху: E[gen_gap] ≤ √(I(W;S) / 2n). Где I(W;S) - взаимная информация между весами и обучающей выборкой, n - размер выборки. Вывод: регуляризация, dropout, ранняя остановка - все они уменьшают I(W;S).
| Техника | Эффект на I(W;S) | Механизм |
|---|---|---|
| L2 регуляризация | Снижает | Веса ближе к prior N(0,σ²) |
| Dropout | Снижает | Stochasticity в весах |
| Ранняя остановка | Снижает | Меньше итераций = меньше «запоминания» |
| Большой batch size | Повышает | Более детерминированный SGD |
| Малый lr | Снижает (возможно) | Модель «не успевает» запомнить детали |
Историческая справка
Arimoto-Blahut алгоритм (1972) был предшественником современного понимания. Xu и Raginsky в 2017 установили прямую связь между I(W;S) и обобщением. Это открыло новое направление: «algorithmic stability through information theory».
Большие нейросети переобучаются по определению
Обобщение зависит от I(W;S), а не от числа параметров. SGD на больших моделях может сохранять малое I(W;S) благодаря implicit regularization.
Феномен double descent: при росте параметров сначала переобучение растёт, затем падает. Это связано с тем, что большие модели находят «плоские» минимумы с малым I(W;S).
Обучающая выборка n=10000 примеров, I(W;S)=500 бит. Чему равна верхняя граница обобщающей ошибки?
PAC-Bayes Theory
PAC-Bayes (McAllester, 1999) - информационно-теоретическая основа для верхних границ обобщения. Ключевая теорема: для любого posteriori распределения Q над гипотезами, с вероятностью 1−δ: E_Q[R(h)] ≤ E_Q[R̂(h)] + √((KL[Q||P] + log(1/δ)) / 2n). KL[Q||P] - информационное расстояние от posterior Q до prior P.
**PAC-Bayes bound:** с вероятностью 1−δ над случайной выборкой S~D^n: E_{h~Q}[R(h)] ≤ E_{h~Q}[R̂_S(h)] + √((KL(Q||P) + ln(1/δ)) / (2n)). Интерпретация: чем больше posterior Q отличается от prior P (большой KL), тем слабее гарантия обобщения. P - до просмотра данных; Q - после.
| Компонент | Интерпретация | Влияние на обобщение |
|---|---|---|
| E_Q[R̂(h)] | Обучающая ошибка | Прямое (меньше = лучше) |
| KL[Q||P] | Сложность модели | Больше KL → хуже обобщение |
| n | Размер выборки | Больше n → лучше обобщение |
| P (prior) | До просмотра данных | Более информативный prior → меньше KL |
Историческая справка
PAC-Bayes предложил McAllester в 1998-1999. В 2017-2020 годах PAC-Bayes получил новое внимание: было показано, что PAC-Bayes границы могут объяснить «double descent» и обобщение больших нейросетей, где классические VC-dimension границы катастрофически слабы.
PAC-Bayes требует, чтобы сама нейросеть была байесовской
PAC-Bayes - это теоретическая рамка для любой гипотезы. Мы выбираем posterior Q как дельта-функцию в точке обученных весов, а prior P - до обучения.
PAC-Bayes применим к детерминированным моделям: Q = δ(w − w*), KL = измеримая сложность. Это позволяет анализировать обычный SGD.
В PAC-Bayes теореме prior P должен быть выбран до просмотра обучающих данных. Почему?
Information Plane
Гипотеза информационной плоскости (Tishby, 2015-2017): в процессе обучения нейросети, если отображать (I(X;T), I(T;Y)) для каждого слоя T, можно наблюдать две фазы. Фаза fitting: I(X;T) и I(T;Y) растут. Фаза compression: I(X;T) убывает при неизменном I(T;Y). Гипотеза утверждает, что compression фаза необходима для обобщения.
**Information plane:** каждый слой T нейросети - точка (I(X;T), I(T;Y)). Идеально: максимальное I(T;Y) при минимальном I(X;T). Data Processing Inequality: I(T;Y) ≤ I(X;Y) - слой не может знать Y лучше входа. Оптимальная точка: T - достаточная статистика для Y.
| Наблюдение | Согласуется с IB | Объяснение Saxe et al. |
|---|---|---|
| Compression при tanh | Да | Артефакт насыщенной функции активации |
| Compression при ReLU | Нет | I(X;T) не убывает для несатурирующих |
| Два слоя: меньше I(X;T) | Да | Более глубокое сжатие |
| Обобщение связано с I(X;T) | Спорно | Корреляция, не причинность |
Историческая справка
Tishby и Schweighofer представили гипотезу информационной плоскости на ICLR 2017. Это вызвало волну дискуссий. Saxe et al. (2018, Google Brain) показали, что compression phase - артефакт выбора функции активации. Несмотря на оспариваемость, идея стимулировала много важных исследований.
Information plane однозначно объясняет, почему нейросети обобщают
Гипотеза информационной плоскости - спорная. Compression phase наблюдается только для определённых активаций и зависит от метрики оценки I(X;T).
Оценка I(X;T) в высокой размерности чрезвычайно сложна. Разные методы оценки дают разные ответы о том, сжимают ли нейросети информацию.
Saxe et al. показали, что compression phase не наблюдается при ReLU активациях. Что это говорит о гипотезе информационной плоскости?
Сжатие как регуляризация
Связь между сжатием и обобщением - более чем метафора. MDL (Minimum Description Length) принцип: лучшая гипотеза - та, которая вместе с данными описывается кратчайшим кодом. Regularization = сжатие гипотезы. L2-регуляризация = гауссовский prior. Dropout = случайное кодирование. Это делает каждую технику regularization понятной через единый информационный принцип.
**MDL principle (Rissanen):** best model = min(L(model) + L(data|model)). L(model) = −log p(model) = сложность гипотезы. L(data|model) = −log p(data|model) = качество подгонки. MAP-оценка: max p(θ|D) = min(−log p(θ) − log p(D|θ)) = min(prior_code + likelihood). L2-регуляризация = гауссовский prior = ограничение на сложность.
| Техника | MDL-интерпретация | Prior |
|---|---|---|
| L2 регуляризация | Минимизировать |w|² | Гауссовский N(0,λ⁻¹) |
| L1 / Lasso | Минимизировать |w| | Лапласовский Laplace(0,λ⁻¹) |
| Dropout | Случайная маска = случайный код | Mixture prior |
| Weight quantization | Округлить до k бит | Ограниченная длина кода |
| Early stopping | Остановить до запоминания | Неявно ограничивает I(W;S) |
Историческая справка
Принцип MDL предложил Юрки Риссанен в 1978. Хинтон и ван Камп применили его к нейросетям в 1993 году («Keeping Neural Networks Simple»). Connections weight sharing в CNN - прямое следствие MDL: один общий фильтр = короткий код. Это объясняет, почему CNN обобщают лучше fully-connected на изображениях.
Regularization - это просто хак для предотвращения больших весов
Regularization - это формальный информационный принцип: ограничение длины описания модели. Каждая техника соответствует конкретному prior в MDL-рамке.
MDL связывает regularization с байесовским выводом: регуляризатор = -log prior. Это даёт теоретическое обоснование и направление для разработки новых техник.
L1-регуляризация создаёт sparse веса (много нулей), тогда как L2 - нет. Какой MDL-prior соответствует L1?
Ключевые идеи
- **Обобщение через I(W;S):** обобщающая ошибка ограничена √(I(W;S)/2n). Меньше информации о конкретных примерах → лучше обобщение.
- **PAC-Bayes:** формальная граница через KL[Q||P]. Regularization = уменьшение KL от posterior к prior.
- **Information plane:** гипотеза Tishby о двух фазах обучения. Спорная, но стимулировала важные исследования.
- **MDL = регуляризация:** L2 = гауссовский prior, L1 = лапласовский, dropout = случайный код. Единый информационный принцип.
Связанные темы
IT в DL связывает теорию обобщения с практикой обучения:
- Information Theory в ML — ELBO и IB - предшествующие концепции для понимания DL
- Типичные последовательности и AEP — AEP-идеи используются в доказательствах PAC-Bayes границ
- Info Theory на собеседовании — MDL и regularization - продвинутые ML-системные вопросы
Вопросы для размышления
- Если regularization = сжатие модели, то какую «минимальную длину кода» имеет хорошо обученный GPT-4?
- Double descent показывает, что очень большие модели обобщают лучше. Как это объясняется через I(W;S)?
- Knowledge Distillation передаёт soft-labels. Какую информацию содержат soft-labels, которой нет в hard-labels? Как это связано с MDL?