Теория информации

Information Theory в Deep Learning

GPT-4 с триллионом параметров обобщает на новых задачах лучше маленькой сети. Почему? Информационно-теоретический ответ начинается с вопроса: сколько информации о конкретных обучающих примерах сохраняют веса?

**Weight compression** в QuantizedLLaMA (4-bit quantization) снижает I(W;S) - и часто не только не ухудшает, но иногда улучшает обобщение. MDL объясняет почему.
**Dropout** - случайное отключение нейронов - с MDL-точки зрения: добавление шума к коду весов уменьшает I(W;S). Hinton изначально вдохновился идеями сжатия.
**Knowledge Distillation** (Hinton, 2015) - обучение маленькой сети на soft-labels большой. С IT-точки зрения: teacher передаёт более «сжатое» представление о данных.

Предварительные знания

Information Theory in Machine Learning

Обобщение через информацию

Почему нейросети с миллиардами параметров не переобучаются на практике? Information-теоретический ответ: SGD неявно ограничивает количество информации, которую веса сохраняют о конкретных обучающих примерах. Обобщение связано с I(W; S), где W - веса и S - обучающая выборка. Меньше информации о конкретных примерах → лучшее обобщение.

**Xu & Raginsky (2017):** Обобщающая ошибка ограничена сверху: E[gen_gap] ≤ √(I(W;S) / 2n). Где I(W;S) - взаимная информация между весами и обучающей выборкой, n - размер выборки. Вывод: регуляризация, dropout, ранняя остановка - все они уменьшают I(W;S).

Техника	Эффект на I(W;S)	Механизм
L2 регуляризация	Снижает	Веса ближе к prior N(0,σ²)
Dropout	Снижает	Stochasticity в весах
Ранняя остановка	Снижает	Меньше итераций = меньше «запоминания»
Большой batch size	Повышает	Более детерминированный SGD
Малый lr	Снижает (возможно)	Модель «не успевает» запомнить детали

Историческая справка

Arimoto-Blahut алгоритм (1972) был предшественником современного понимания. Xu и Raginsky в 2017 установили прямую связь между I(W;S) и обобщением. Это открыло новое направление: «algorithmic stability through information theory».

Большие нейросети переобучаются по определению

Обобщение зависит от I(W;S), а не от числа параметров. SGD на больших моделях может сохранять малое I(W;S) благодаря implicit regularization.

Феномен double descent: при росте параметров сначала переобучение растёт, затем падает. Это связано с тем, что большие модели находят «плоские» минимумы с малым I(W;S).

Обучающая выборка n=10000 примеров, I(W;S)=500 бит. Чему равна верхняя граница обобщающей ошибки?

PAC-Bayes Theory

PAC-Bayes (McAllester, 1999) - информационно-теоретическая основа для верхних границ обобщения. Ключевая теорема: для любого posteriori распределения Q над гипотезами, с вероятностью 1−δ: E_Q[R(h)] ≤ E_Q[R̂(h)] + √((KL[Q||P] + log(1/δ)) / 2n). KL[Q||P] - информационное расстояние от posterior Q до prior P.

**PAC-Bayes bound:** с вероятностью 1−δ над случайной выборкой S~D^n: E_{h~Q}[R(h)] ≤ E_{h~Q}[R̂_S(h)] + √((KL(Q||P) + ln(1/δ)) / (2n)). Интерпретация: чем больше posterior Q отличается от prior P (большой KL), тем слабее гарантия обобщения. P - до просмотра данных; Q - после.

Компонент	Интерпретация	Влияние на обобщение
E_Q[R̂(h)]	Обучающая ошибка	Прямое (меньше = лучше)
KL[Q\|\|P]	Сложность модели	Больше KL → хуже обобщение
n	Размер выборки	Больше n → лучше обобщение
P (prior)	До просмотра данных	Более информативный prior → меньше KL

Историческая справка

PAC-Bayes предложил McAllester в 1998-1999. В 2017-2020 годах PAC-Bayes получил новое внимание: было показано, что PAC-Bayes границы могут объяснить «double descent» и обобщение больших нейросетей, где классические VC-dimension границы катастрофически слабы.

PAC-Bayes требует, чтобы сама нейросеть была байесовской

PAC-Bayes - это теоретическая рамка для любой гипотезы. Мы выбираем posterior Q как дельта-функцию в точке обученных весов, а prior P - до обучения.

PAC-Bayes применим к детерминированным моделям: Q = δ(w − w*), KL = измеримая сложность. Это позволяет анализировать обычный SGD.

В PAC-Bayes теореме prior P должен быть выбран до просмотра обучающих данных. Почему?

Information Plane

Гипотеза информационной плоскости (Tishby, 2015-2017): в процессе обучения нейросети, если отображать (I(X;T), I(T;Y)) для каждого слоя T, можно наблюдать две фазы. Фаза fitting: I(X;T) и I(T;Y) растут. Фаза compression: I(X;T) убывает при неизменном I(T;Y). Гипотеза утверждает, что compression фаза необходима для обобщения.

**Information plane:** каждый слой T нейросети - точка (I(X;T), I(T;Y)). Идеально: максимальное I(T;Y) при минимальном I(X;T). Data Processing Inequality: I(T;Y) ≤ I(X;Y) - слой не может знать Y лучше входа. Оптимальная точка: T - достаточная статистика для Y.

Наблюдение	Согласуется с IB	Объяснение Saxe et al.
Compression при tanh	Да	Артефакт насыщенной функции активации
Compression при ReLU	Нет	I(X;T) не убывает для несатурирующих
Два слоя: меньше I(X;T)	Да	Более глубокое сжатие
Обобщение связано с I(X;T)	Спорно	Корреляция, не причинность

Историческая справка

Tishby и Schweighofer представили гипотезу информационной плоскости на ICLR 2017. Это вызвало волну дискуссий. Saxe et al. (2018, Google Brain) показали, что compression phase - артефакт выбора функции активации. Несмотря на оспариваемость, идея стимулировала много важных исследований.

Information plane однозначно объясняет, почему нейросети обобщают

Гипотеза информационной плоскости - спорная. Compression phase наблюдается только для определённых активаций и зависит от метрики оценки I(X;T).

Оценка I(X;T) в высокой размерности чрезвычайно сложна. Разные методы оценки дают разные ответы о том, сжимают ли нейросети информацию.

Saxe et al. показали, что compression phase не наблюдается при ReLU активациях. Что это говорит о гипотезе информационной плоскости?

Сжатие как регуляризация

Связь между сжатием и обобщением - более чем метафора. MDL (Minimum Description Length) принцип: лучшая гипотеза - та, которая вместе с данными описывается кратчайшим кодом. Regularization = сжатие гипотезы. L2-регуляризация = гауссовский prior. Dropout = случайное кодирование. Это делает каждую технику regularization понятной через единый информационный принцип.

**MDL principle (Rissanen):** best model = min(L(model) + L(data|model)). L(model) = −log p(model) = сложность гипотезы. L(data|model) = −log p(data|model) = качество подгонки. MAP-оценка: max p(θ|D) = min(−log p(θ) − log p(D|θ)) = min(prior_code + likelihood). L2-регуляризация = гауссовский prior = ограничение на сложность.

Техника	MDL-интерпретация	Prior
L2 регуляризация	Минимизировать \|w\|²	Гауссовский N(0,λ⁻¹)
L1 / Lasso	Минимизировать \|w\|	Лапласовский Laplace(0,λ⁻¹)
Dropout	Случайная маска = случайный код	Mixture prior
Weight quantization	Округлить до k бит	Ограниченная длина кода
Early stopping	Остановить до запоминания	Неявно ограничивает I(W;S)

Историческая справка

Принцип MDL предложил Юрки Риссанен в 1978. Хинтон и ван Камп применили его к нейросетям в 1993 году («Keeping Neural Networks Simple»). Connections weight sharing в CNN - прямое следствие MDL: один общий фильтр = короткий код. Это объясняет, почему CNN обобщают лучше fully-connected на изображениях.

Regularization - это просто хак для предотвращения больших весов

Regularization - это формальный информационный принцип: ограничение длины описания модели. Каждая техника соответствует конкретному prior в MDL-рамке.

MDL связывает regularization с байесовским выводом: регуляризатор = -log prior. Это даёт теоретическое обоснование и направление для разработки новых техник.

L1-регуляризация создаёт sparse веса (много нулей), тогда как L2 - нет. Какой MDL-prior соответствует L1?

Ключевые идеи

**Обобщение через I(W;S):** обобщающая ошибка ограничена √(I(W;S)/2n). Меньше информации о конкретных примерах → лучше обобщение.
**PAC-Bayes:** формальная граница через KL[Q||P]. Regularization = уменьшение KL от posterior к prior.
**Information plane:** гипотеза Tishby о двух фазах обучения. Спорная, но стимулировала важные исследования.
**MDL = регуляризация:** L2 = гауссовский prior, L1 = лапласовский, dropout = случайный код. Единый информационный принцип.

Связанные темы

IT в DL связывает теорию обобщения с практикой обучения:

Information Theory в ML — ELBO и IB - предшествующие концепции для понимания DL
Типичные последовательности и AEP — AEP-идеи используются в доказательствах PAC-Bayes границ
Info Theory на собеседовании — MDL и regularization - продвинутые ML-системные вопросы

Вопросы для размышления

Если regularization = сжатие модели, то какую «минимальную длину кода» имеет хорошо обученный GPT-4?
Double descent показывает, что очень большие модели обобщают лучше. Как это объясняется через I(W;S)?
Knowledge Distillation передаёт soft-labels. Какую информацию содержат soft-labels, которой нет в hard-labels? Как это связано с MDL?

Связанные уроки

Теория информации

Information Theory в Deep Learning

**Weight compression** в QuantizedLLaMA (4-bit quantization) снижает I(W;S) - и часто не только не ухудшает, но иногда улучшает обобщение. MDL объясняет почему.
**Dropout** - случайное отключение нейронов - с MDL-точки зрения: добавление шума к коду весов уменьшает I(W;S). Hinton изначально вдохновился идеями сжатия.
**Knowledge Distillation** (Hinton, 2015) - обучение маленькой сети на soft-labels большой. С IT-точки зрения: teacher передаёт более «сжатое» представление о данных.

Предварительные знания

Information Theory in Machine Learning

Обобщение через информацию

Техника	Эффект на I(W;S)	Механизм
L2 регуляризация	Снижает	Веса ближе к prior N(0,σ²)
Dropout	Снижает	Stochasticity в весах
Ранняя остановка	Снижает	Меньше итераций = меньше «запоминания»
Большой batch size	Повышает	Более детерминированный SGD
Малый lr	Снижает (возможно)	Модель «не успевает» запомнить детали

Историческая справка

Большие нейросети переобучаются по определению

Обучающая выборка n=10000 примеров, I(W;S)=500 бит. Чему равна верхняя граница обобщающей ошибки?

PAC-Bayes Theory

Компонент	Интерпретация	Влияние на обобщение
E_Q[R̂(h)]	Обучающая ошибка	Прямое (меньше = лучше)
KL[Q\|\|P]	Сложность модели	Больше KL → хуже обобщение
n	Размер выборки	Больше n → лучше обобщение
P (prior)	До просмотра данных	Более информативный prior → меньше KL

Историческая справка

PAC-Bayes требует, чтобы сама нейросеть была байесовской

В PAC-Bayes теореме prior P должен быть выбран до просмотра обучающих данных. Почему?

Information Plane

Наблюдение	Согласуется с IB	Объяснение Saxe et al.
Compression при tanh	Да	Артефакт насыщенной функции активации
Compression при ReLU	Нет	I(X;T) не убывает для несатурирующих
Два слоя: меньше I(X;T)	Да	Более глубокое сжатие
Обобщение связано с I(X;T)	Спорно	Корреляция, не причинность

Историческая справка

Information plane однозначно объясняет, почему нейросети обобщают

Сжатие как регуляризация

Техника	MDL-интерпретация	Prior
L2 регуляризация	Минимизировать \|w\|²	Гауссовский N(0,λ⁻¹)
L1 / Lasso	Минимизировать \|w\|	Лапласовский Laplace(0,λ⁻¹)
Dropout	Случайная маска = случайный код	Mixture prior
Weight quantization	Округлить до k бит	Ограниченная длина кода
Early stopping	Остановить до запоминания	Неявно ограничивает I(W;S)

Историческая справка

Regularization - это просто хак для предотвращения больших весов

L1-регуляризация создаёт sparse веса (много нулей), тогда как L2 - нет. Какой MDL-prior соответствует L1?

Ключевые идеи

**Обобщение через I(W;S):** обобщающая ошибка ограничена √(I(W;S)/2n). Меньше информации о конкретных примерах → лучше обобщение.
**PAC-Bayes:** формальная граница через KL[Q||P]. Regularization = уменьшение KL от posterior к prior.
**Information plane:** гипотеза Tishby о двух фазах обучения. Спорная, но стимулировала важные исследования.
**MDL = регуляризация:** L2 = гауссовский prior, L1 = лапласовский, dropout = случайный код. Единый информационный принцип.

Связанные темы

IT в DL связывает теорию обобщения с практикой обучения:

Information Theory в ML — ELBO и IB - предшествующие концепции для понимания DL
Типичные последовательности и AEP — AEP-идеи используются в доказательствах PAC-Bayes границ
Info Theory на собеседовании — MDL и regularization - продвинутые ML-системные вопросы

Вопросы для размышления

Если regularization = сжатие модели, то какую «минимальную длину кода» имеет хорошо обученный GPT-4?
Double descent показывает, что очень большие модели обобщают лучше. Как это объясняется через I(W;S)?
Knowledge Distillation передаёт soft-labels. Какую информацию содержат soft-labels, которой нет в hard-labels? Как это связано с MDL?