Статистическая теория обучения

Информационно-теоретические границы обобщения

VC-теория говорит: для нейросетей с миллиардами параметров generalization gap бесконечен. Но GPT-4 generalize-ит. Что-то не сходится. Russo, Zou в 2016 предложили альтернативу: generalization не зависит от размера модели, а от того, сколько модель ЗАПОМНИЛА из данных. Mutual information между весами и выборкой. Эта идея запустила post-VC эру learning theory - где deep networks больше не парадокс, а математически объяснимы.

**Information bottleneck (Tishby 2017):** SGD автоматически compresses representations - implicit regularization без явного штрафа
**PAC-Bayes for DNNs (Dziugaite, Roy 2017):** первые конечные bounds для нейросетей - 16% при 2% test error на MNIST
**Scaling laws через MI:** Anthropic, OpenAI используют info-theoretic анализ для прогноза performance крупных моделей
**Network pruning с гарантиями:** Google и Meta применяют PAC-Bayes-style сжатие для формальных guarantees после прунинга

Предварительные знания

Mutual information $I(X; Y) = H(X) - H(X \mid Y)$ - сколько случайности в $X$ устраняется знанием $Y$
KL-дивергенция $\text{KL}(Q \| P) = \mathbb{E}_Q[\log Q/P]$ - информационное расстояние между распределениями
PAC-Bayes bound: $\mathbb{E}_Q[R] \leq \mathbb{E}_Q[\hat{R}] + \sqrt{(\text{KL}(Q \| P) + \log(1/\delta))/(2n)}$
$\sigma$-субгауссова случайная величина: $\mathbb{E}[e^{\lambda(X - \mathbb{E}X)}] \leq e^{\lambda^2 \sigma^2 / 2}$

Mutual information и обобщение: формула Russo-Zou

Классическая PAC-теория строит границы через VC-размерность и Rademacher complexity. Для overparametrized нейросетей это не работает: $\text{VCdim} \geq W$ может быть в миллиардах, формальная граница вакуусна. Но в реальности GPT-4 и ResNet обобщаются. Значит, мера сложности должна зависеть не от класса гипотез, а от связи между обученной моделью и обучающей выборкой. Russo, Zou (2016) предложили такую меру: mutual information $I(W; S)$ между случайными весами $W$ обученной модели и обучающей выборкой $S$. Их теорема: для $\sigma$-субгауссовой потери $$\mathbb{E}[R(W) - \hat{R}_S(W)] \leq \sqrt{\frac{2 \sigma^2 I(W; S)}{n}}.$$ Интуиция: $I(W; S)$ - сколько информации о выборке записано в весах. Если $W$ независимы от $S$ ($I = 0$), generalization gap нулевой. Чем больше модель запомнила про $S$, тем больше потенциальный gap. Это количественное определение memorization.

**Почему это работает там, где VC не работает:** VC bound зависит от $\text{VCdim}(\mathcal{H})$ - наихудшего случая по всему классу. Информационная граница зависит от $I(W; S)$ - конкретного алгоритма обучения и распределения данных. Для overparametrized сетей $\text{VCdim} \geq n$, но $I(W; S)$ может быть $O(\log n)$ или меньше: SGD проходит по выборке, но обновления зашумлены, и итоговые веса хранят лишь сжатый сигнал. Xu, Raginsky (2017) доказали: для SGLD (стохастический Langevin) после $T$ шагов $I(W_T; S) \leq \frac{\eta T L^2}{\sigma^2 n}$, где $\eta$ - learning rate, $L$ - липшицевая константа градиента. Граница не зависит от числа параметров - только от шума и числа шагов. **Information bottleneck (Tishby, Schwartz-Ziv 2017):** SGD во время обучения проходит две фазы - fitting (растёт $I(\text{features}; \text{labels})$) и compression (падает $I(\text{features}; \text{input})$). Compression коррелирует с улучшением обобщения. Эмпирическое подтверждение информационной интерпретации generalization.

MI напрямую почти невозможно оценить в высоких размерностях. На практике используют variational оценки: MINE (Belghazi 2018), InfoNCE (Oord 2018), CLUB (Cheng 2020). Все они дают нижнюю или верхнюю оценку на $I(W; S)$ через нейросетевой критик. Для PAC-Bayes-style анализа достаточно верхней границы - её даёт KL между posterior и data-independent prior.

Что измеряет $I(W; S)$ в формуле Russo-Zou и почему это лучше VC-размерности для нейросетей?

Conditional Mutual Information bounds

У формулы Russo-Zou есть слабое место: $I(W; S)$ часто оказывается бесконечной для детерминированных алгоритмов с непрерывными весами. Если SGD из фиксированной инициализации даёт детерминированную функцию от $S$, то $H(W \mid S) = 0$ и $I(W; S) = H(W)$ - бесконечно для континуальных $W$. Steinke, Zakynthinou (2020) предложили обходной приём - conditional mutual information через supersample. Берётся 2n независимых примеров $\tilde{Z} = (Z_0, Z_1)$, где каждая пара $(Z_{i,0}, Z_{i,1})$ - два iid примера. Случайный битовый вектор $U \in \{0,1\}^n$ выбирает по одному из каждой пары: $S = \{Z_{i, U_i}\}$. Алгоритм обучается на $S$, получает веса $W$. CMI определяется как $\text{CMI}(\mathcal{A}) = I(W; U \mid \tilde{Z})$ - сколько информации о выборе $U$ записано в $W$, учитывая знание всех 2n примеров. Их теорема: $$\mathbb{E}[R(W) - \hat{R}_S(W)] \leq \sqrt{\frac{2 \text{CMI}(\mathcal{A})}{n}}.$$ Ключ: $\text{CMI} \leq n \log 2$ - конечная всегда, в отличие от $I(W; S)$. Для алгоритмов с малой чувствительностью к $U$ (то есть похожим выходом на $S = Z_0$ и $S = Z_1$) CMI близка к нулю.

**Чем CMI лучше vanilla MI:** | Свойство | $I(W; S)$ | $\text{CMI}(\mathcal{A})$ | |----------|-----------|---------------------------| | Конечность | Не всегда (бесконечна для детерминированных алгоритмов) | Всегда $\leq n \log 2$ | | Зависимость от $\mathcal{H}$ | Да | Только через алгоритм | | Оценка эмпирически | Сложно | Через supersample experiment | | Tightness | Часто завышена | Tighter в среднем | **Supersample эксперимент в коде:** 1. Сгенерировать $2n$ примеров. 2. Многократно сэмплировать $U \in \{0,1\}^n$, обучать модель на $S(U)$. 3. Оценить $I(W; U \mid \tilde{Z})$ через variational bound на разнице log-likelihoods. **Где CMI даёт tight bounds:** - kNN: алгоритм игнорирует большинство примеров, $\text{CMI} = O(k \log n)$. - Gaussian process regression: $\text{CMI} \approx \frac{1}{2} \log \det(I + K/\lambda)$ - effective dimension ядра. - SGD на overparametrized linear regression: Microsoft Research показали (Negrea et al. 2019, Haghifam et al. 2020) tight CMI bounds для benign overfitting в линейных моделях.

Линия Steinke-Zakynthinou открыла серию улучшений: Haghifam et al. (2020) показали как комбинировать CMI с stability arguments; Hellström, Durisi (2022) обобщили на f-divergences; Wang, Mao (2023) дали tight CMI bounds для трансформеров на synthetic data. Это активная research line - почти каждый год NeurIPS/ICML приносит новые улучшения для конкретных классов алгоритмов.

Чем CMI Steinke-Zakynthinou принципиально лучше vanilla MI Russo-Zou?

PAC-Bayes через информационную линзу

PAC-Bayes formula McAllester-Catoni - это информационная граница, замаскированная под классическую. Для prior $P$ (data-independent) и posterior $Q$ (data-dependent): $$\mathbb{E}_{h \sim Q}[R(h)] \leq \mathbb{E}_{h \sim Q}[\hat{R}_S(h)] + \sqrt{\frac{\text{KL}(Q \| P) + \log(1/\delta)}{2n}}.$$ KL-член $\text{KL}(Q \| P) = \mathbb{E}_{h \sim Q}[\log Q(h)/P(h)]$ - чисто информационная величина: на сколько $Q$ отошла от $P$. И через цепное правило $\mathbb{E}_S[\text{KL}(Q_S \| P)] = I(S; H)$, где $H \sim Q_S$. То есть PAC-Bayes - алгоритм-зависимая верхняя оценка для $I(S; H)$ через выбор prior. **Dziugaite, Roy (2017)** оптимизировали $Q$ - распределение над весами малой DNN на MNIST - так чтобы балансировать train error и KL. Получили первую нон-вакуусную границу для нейросети: 16% при 2% test error. Не tight, но конечно. До этого для нейросетей вообще не было конечных bounds. **Развитие линии:** - Dziugaite (2018): data-dependent priors - центрировать $P$ в окрестности initialization, KL уменьшается. - Zhou et al. (2019): bound через сжатие сети до короткого описания - tight для сильно прунинговых архитектур. - Pérez-Ortiz et al. (2021): PAC-Bayes meta-learning - prior учится на похожих задачах. - Self-distillation perspective: student с posterior $Q$ близким к teacher prior $P$ имеет малый KL, отсюда tight bound (Mobahi 2020).

**Эквивалентность PAC-Bayes и MI bounds:** For любой алгоритм $\mathcal{A}$, выходящий $W = \mathcal{A}(S)$: $$I(W; S) = \mathbb{E}_S[\text{KL}(P_{W \mid S} \| P_W)],$$ где $P_W$ - маргинал. То есть mutual information = ожидаемая KL posterior относительно маргинального prior. PAC-Bayes использует свободу выбора $P$ (любой data-independent prior). Если выбрать $P = P_W$ (маргинальный по выборке prior), KL term ровно совпадает с conditional KL, и в среднем по $S$ даёт $I(W; S)$. То есть PAC-Bayes - upper bound для MI bound с data-dependent posterior optimization. **Mass concentration на flat minima:** flat minimum (малый Hessian trace) позволяет взять $Q$ с большим $\sigma$ (gauss посередине минимума) без увеличения $\mathbb{E}_Q[\hat{R}]$. Большой $\sigma$ при центре около prior $P$ даёт малый KL. Связка: flat minimum -> большой $\sigma$ posterior -> малый KL -> tight PAC-Bayes bound. Это формальное обоснование почему SGD small-batch (находящий flat minima) даёт хорошее обобщение - не через прямой алгоритмический анализ, а через информационную емкость найденного решения. **Применение в индустрии:** Google Research, Meta AI используют PAC-Bayes-style сжатие для tight generalization guarantees в network pruning. Цель: после pruning описание сети короче -> меньше KL относительно coding prior -> формальная гарантия performance.

Как PAC-Bayes bound связан с информационной границей $I(W; S)$?

Frontier: stochastic gradient and chained MI

Самое мощное применение информационных bounds - анализ SGD. Hardt, Recht, Singer (2016) показали algorithmic stability SGD: если функция потерь $L$-липшицева и $\beta$-гладкая, то после $T$ шагов SGD $\epsilon$-uniformly stable с $\epsilon = O(L^2 \beta T / n)$. Stability напрямую переводится в generalization bound. Информационная переформулировка: stability подразумевает малый $I(W_T; S)$. Замена примера в $S$ меняет $W_T$ слабо -> $W_T$ слабо зависит от конкретных примеров -> малый mutual information. Проблема исходной формулы Russo-Zou: для длинного training $I(W_T; S)$ может расти с $T$. Решение - chained MI (Asadi, Abbe, Verdú 2018): $$I(W_T; S) \leq \sum_{t=1}^{T} I(W_t; S \mid W_{t-1}).$$ Каждый член $I(W_t; S \mid W_{t-1})$ ограничен дисперсией одного gradient step. Для SGD с шумом масштаба $\sigma_g$: $I(W_t; S \mid W_{t-1}) = O(\eta^2 / \sigma_g^2)$ - зависит от ratio learning rate к шуму, не от $n$ или $W$. Содержательный вывод: SGD с большим шумом (large learning rate, small batch) даёт лучшее обобщение через информационную линзу. Это формализация эмпирического наблюдения о implicit regularization SGD.

**Что info bounds объясняют, чего не могут VC bounds:** | Феномен | VC bound | Info bound | |---------|----------|------------| | Overparametrization без переобучения | Вакуусный (VC >= n) | Малая $I(W;S)$ для шумного SGD | | Double descent | Не предсказывает | Частично (Bartlett et al. 2020 для линейных) | | Implicit SGD regularization | Не видит | Прямой механизм через $\sum I(W_t; S \mid W_{t-1})$ | | Scaling laws | Противоречие (больше параметров - хуже bound) | Согласовано если $I/n$ остаётся ограниченным | | Self-distillation | Не объясняет | Student имеет малый KL от teacher = регуляризация | **Открытые проблемы 2024-2026:** - **Adaptive optimizers (Adam, Lion):** preconditioner $V_t$ зависит от истории градиентов, $I(V_t; S)$ растёт сложным образом. Tight bounds открыты. - **Chinchilla scaling laws (Hoffmann 2022):** оптимальный $N \sim D$ - можно ли вывести информационно? Anthropic interpretability team работает над IT-формулировкой. - **Foundation models:** $I(W; S)$ для pretraining vs fine-tuning - надо ли считать совместный MI или separate. Активная research line в Anthropic, OpenAI. - **Mechanistic interpretability:** $I(\text{circuit}; \text{task})$ - сколько информации о задаче содержится в конкретной подсхеме сети. Связь с $I(W; S)$ не формализована. **Anthropic's scaling hypothesis:** утверждение что capabilities emerge при увеличении масштаба - имеет частичную IT-теоретическую базу через scaling of $I(W; S)$ при фиксированном $I(W; S)/N$ ratio.

Информационные bounds - не панацея. Текущие границы остаются вакуусными для GPT-4-масштабных сетей: точные оценки $I(W; S)$ требуют либо variational методов с большой variance, либо conservative upper bounds через PAC-Bayes с вакуусным KL. Прогресс есть (Lotfi et al. 2022, Pérez-Ortiz 2021), но gap между bound и реальной ошибкой для больших архитектур остаётся в десятки процентов. Утверждение 'теория обобщения для DL решена' - неверно. Утверждение 'есть инструмент, объясняющий направление и качественные эффекты' - корректно.

Что забрать из урока

**Russo-Zou (2016):** $\mathbb{E}[R - \hat{R}] \leq \sqrt{2 \sigma^2 I(W; S) / n}$. Generalization gap определяется mutual information между весами и выборкой - алгоритм-зависимая мера, ушедшая от VC-комбинаторики
**Steinke-Zakynthinou CMI (2020):** supersample trick делает MI всегда конечной ($\leq n \log 2$). Tight bounds для kNN, GP, certain DNNs - обходит проблему бесконечной MI для детерминированных алгоритмов
**PAC-Bayes как информационная граница:** $\text{KL}(Q \| P)$ - upper bound для $I(W; S)$, при $P = P_W$ совпадают в среднем. Свобода выбора prior - источник tightness. Dziugaite-Roy 2017 первая нон-вакуусная для DNN
**Chained MI Asadi-Abbe-Verdú (2018):** $I(W_T; S) \leq \sum I(W_t; S \mid W_{t-1})$. Раскладывает trajectory analysis на per-step MI - формализует implicit SGD regularization через learning rate и gradient noise
**Что объясняют info bounds:** overparametrization без переобучения, implicit SGD bias, эффект шумного gradient descent, частично double descent, scaling laws с фиксированным $I/n$
**Открытые проблемы:** tight bounds для adaptive optimizers (Adam), foundation models (pretraining + fine-tuning), mechanistic interpretability circuits. Активная research line 2024-2026 в Anthropic, Microsoft Research, DeepMind

Связи с другими концепциями

Куда ведут info-theoretic bounds:

VC dimension — Классические bounds, которые info-theoretic улучшают - VC даёт worst-case по классу, MI - algorithm-specific
PAC-Bayes — Информационная переформулировка PAC: $\text{KL}(Q \| P)$ - upper bound для $I(W; S)$
Deep generalization — Применение info bounds к нейросетям объясняет paradox Zhang 2017 без вакуусности
Information theory: entropy and MI — Базовые определения mutual information и энтропии - инструментарий всех bounds в этом уроке
Information projection — PAC-Bayes posterior $Q$ как KL-проекция на ограничение train error - геометрия в пространстве распределений

Вопросы для размышления

Russo-Zou bound даёт $\sqrt{2\sigma^2 I(W; S)/n}$. Для overparametrized сети с шумным SGD утверждается что $I(W; S)$ может быть малой даже при $W$ в миллиардах. Какие условия на алгоритм и распределение данных нужны чтобы это утверждение было доказуемым, а не просто эвристическим? Достаточно ли SGD-стабильности или нужны более сильные структурные предположения о геометрии loss surface?
PAC-Bayes Dziugaite-Roy 2017 даёт bound 16% при test error 2% на MNIST. Для ResNet-152 на ImageNet прямое применение даёт вакуусные bounds. Что именно ломается при масштабировании - сам формализм PAC-Bayes (например, неподходящий prior space для гигантских сетей) или техника оптимизации posterior, или фундаментальный предел информационных bounds для сетей такого размера? Какой эксперимент мог бы различить эти гипотезы?
Chained MI bound разлагает $I(W_T; S)$ на per-step contributions. Для SGD с шумом каждый шаг даёт $O(\eta^2/\sigma_g^2)$. Но в реальности fine-tuning foundation models - это short training с low noise (не SGLD-подобное). Как по информационной линзе объяснить почему fine-tuning не разрушает обобщение, если pretraining уже потратил всю 'информационную ёмкость' модели? Связано ли это с feature learning vs feature reuse и можно ли формализовать через decomposition $I(W_{\text{ft}}; S_{\text{ft}}) = I(W_{\text{ft}}; S_{\text{ft}} \mid W_{\text{pre}}) + I(W_{\text{ft}}; W_{\text{pre}}; S_{\text{ft}})$?

Связанные уроки

lt-04-vc-dimension — Info-theoretic bounds tighten classical VC results
lt-09-pac-bayes — PAC-Bayes is info-theoretic in disguise
lt-13-deep-generalization — Deep nets are the canonical use case for these bounds
it-01 — Mutual information is the core quantity
ig-08-info-projection — Both use KL/MI on parameter spaces