Информационная геометрия

Статистические многообразия: распределения как точки геометрии

1945 год: Рао замечает что пространство вероятностных распределений само является многообразием с натуральной геометрией. Это наблюдение ждало 40 лет до работ Амари. Сегодня оно лежит в основе Adam, K-FAC, TRPO и VAE - то есть в основе практически всего современного глубокого обучения.

Adam - диагональная аппроксимация empirical Fisher: $g/\sqrt{E[g^2]}$ - это diagonal natural gradient
K-FAC и Shampoo - блочные аппроксимации Fisher для 2-5x ускорения обучения LLM
TRPO/PPO - шаг в Fisher-Rao метрике: KL-constraint на изменение policy
VAE ELBO - минимизация $\mathrm{KL}(q_\phi \| p)$: m-проекция posterior на параметрическое семейство
Mirror descent на симплексе: exponentiated gradient для online learning и bandit-алгоритмов

Предварительные знания

Частные производные и градиент функции нескольких переменных
Матожидание: $\mathbb{E}[f(X)] = \int f(x) p(x) dx$
Log-likelihood и MLE: $\hat\theta = \arg\max \sum \log p(x_i; \theta)$

Распределения как точки: статистическое многообразие

1945 год: Рао замечает что пространство вероятностных распределений само является многообразием с натуральной геометрией. Это наблюдение ждало 40 лет до работ Амари. Вот идея: параметрическое семейство $\mathcal{M} = \{p(x; \theta) : \theta \in \Theta \subset \mathbb{R}^d\}$ - это не просто набор функций, а **многообразие**. Каждое $\theta$ - точка. Параметры - координаты. К этому объекту применимы все инструменты дифференциальной геометрии.

**Касательный вектор** в точке $\theta$ - это $\partial_i \log p(x; \theta)$, называемый **score-функцией**. Это случайная функция от $x$, и она живёт в касательном пространстве $T_\theta \mathcal{M}$. Интуиция: score - это направление наибольшего роста log-likelihood, именно то, что считает backprop при обучении.

**ML-инсайт:** когда нейросеть обновляется через градиент по $\theta$, она движется в евклидовом пространстве параметров - как будто многообразие плоское. Но оно не плоское. Маленький шаг по $\theta$ может дать большой сдвиг в распределении выходов (и наоборот). Information geometry даёт правильную метрику - ту, которая отражает разницу между распределениями, а не между координатами.

Что является 'точкой' на статистическом многообразии $\mathcal{M} = \{p(x; \theta)\}$?

Метрика Фишера: правильное расстояние между распределениями

Если $\mathcal{M}$ - многообразие, нужна метрика. Рао предложил скалярное произведение в касательном пространстве через матожидание произведения score-функций: $g_{ij}(\theta) = \mathbb{E}_{p(x;\theta)}[\partial_i \log p \cdot \partial_j \log p]$. В матричной форме это **матрица Фишера**: $\mathcal{I}(\theta) = \mathbb{E}[\nabla_\theta \log p \cdot (\nabla_\theta \log p)^\top]$.

**Три эквивалентные формулы** (при регулярности): $\mathcal{I}(\theta) = \mathbb{E}[\nabla \log p \cdot (\nabla \log p)^\top] = -\mathbb{E}[\nabla^2 \log p] = \mathrm{Cov}(\nabla \log p)$. **Cramér-Rao bound:** $\mathrm{Var}(\hat\theta) \geq \mathcal{I}^{-1}$ - любая несмещённая оценка не точнее обратной матрицы Фишера. **Natural gradient:** $\theta \leftarrow \theta - \eta \mathcal{I}^{-1} \nabla L$ - шаг в Fisher-Rao метрике, инвариантный к репараметризации.

**Главный сюрприз для инженера:** пространство гауссовых распределений $\{N(\mu, \sigma)\}$ с метрикой Фишера - не евклидово, а **гиперболическое** (плоскость Лобачевского). Это значит: расстояние между $N(0,1)$ и $N(0,2)$ не равно расстоянию между $N(0,1)$ и $N(1,1)$, даже если в координатах они на одинаковом расстоянии. Именно поэтому SGD по $\sigma$ страдает от нестабильности у границ.

Матрица Фишера $\mathcal{I}(\theta) = \mathbb{E}[\nabla\log p \cdot (\nabla\log p)^\top]$ равна нулю когда:

Экспоненциальные семейства: плоская геометрия и дуальность

Экспоненциальные семейства $p(x; \theta) = h(x) \exp(\theta^\top T(x) - A(\theta))$ - канонический объект информационной геометрии. Амари показал: на таких многообразиях есть **две** естественные системы координат. Natural parameters $\theta$ и mean parameters $\eta = \mathbb{E}[T(X)] = \nabla A(\theta)$. Связь - Legendre-преобразование: $A^*(\eta) = \sup_\theta (\theta^\top \eta - A(\theta))$.

**Дуально-плоская структура (Амари):** каждая из двух систем координат ($\theta$ и $\eta$) порождает свою плоскую аффинную связность. $\theta$-координаты плоские в e-connection (exponential), $\eta$-координаты - в m-connection (mixture). Это и есть dual flat structure. **KL как Bregman-дивергенция:** $\mathrm{KL}(p_\theta \| p_{\theta'}) = A(\theta') - A(\theta) - \nabla A(\theta)^\top(\theta' - \theta)$ - брегмановская дивергенция от $A$.

**В продакшн ML:** Adam - диагональное приближение empirical Fisher. K-FAC - блочное приближение (Kronecker-product). TRPO/PPO - шаг в Fisher-Rao метрике с KL-constraint. VAE ELBO - проекция posterior на $q_\phi$ в m-connection. Mirror descent на симплексе - exponentiated gradient. Не теория - инструмент, без которого современный ML не работает.

В экспоненциальном семействе $p(x; \theta) = h(x) \exp(\theta^\top T(x) - A(\theta))$ mean parameters $\eta$ связаны с natural parameters $\theta$ как:

Итог

$\mathcal{M} = \{p(x; \theta)\}$ - многообразие: точки - распределения, координаты - параметры, касательное пространство - score-функции $\partial_i \log p$
$\mathcal{I}(\theta) = \mathbb{E}[\nabla\log p \cdot (\nabla\log p)^\top]$ - Fisher-Rao метрика, единственная инвариантная метрика на статистическом многообразии
Пространство гауссовых $N(\mu, \sigma)$ гиперболическое; симплекс сферический. Евклидов SGD не видит этой геометрии
Natural gradient $\mathcal{I}^{-1} g$: инвариантен к репараметризации, решает $\min_\Delta L$ при KL-constraint. Adam, K-FAC, Shampoo - его приближения
Exp-семейства: dual flat structure ($\theta$ и $\eta = \nabla A(\theta)$); KL как Bregman-дивергенция; MLE = m-проекция
TRPO/PPO, K-FAC, VAE/ELBO, mirror descent - IG в проде, не в теории

Куда дальше

Многообразие задано. Дальше - его детальная геометрия и приложения.

Метрика Фишера — Точное определение как риманновой метрики. Свойства, связь с Cramér-Rao
Экспоненциальные семейства — Natural и mean параметры, log-partition function, связь с MLE и sufficient statistics
KL и Bregman-дивергенции — KL как Bregman от log-partition. Asymmetry, Pythagorean property
Natural gradient — Главное практическое приложение IG. Почему быстрее SGD, какие приближения работают в проде

Вопросы для размышления

В каких текущих ML-задачах команды используют KL-дивергенцию (VAE, RLHF, distillation)? Понимают ли инженеры что они работают с информационной геометрией?
Если бы оптимизатор выбирался не как 'Adam by default', а из понимания Fisher-метрики loss-поверхности - что поменялось бы в обучении больших моделей?
Какие проблемы в архитектурах (vanishing gradients, instability у границ softmax, mode collapse в GAN) можно переформулировать как 'неподходящая метрика на многообразии'?

Связанные уроки

stat-27-graphical-models

Предварительные знания

Частные производные и градиент функции нескольких переменных

Матожидание: $\mathbb{E}[f(X)] = \int f(x) p(x) dx$

Log-likelihood и MLE: $\hat\theta = \arg\max \sum \log p(x_i; \theta)$

Распределения как точки: статистическое многообразие

Что является 'точкой' на статистическом многообразии $\mathcal{M} = \{p(x; \theta)\}$?

Метрика Фишера: правильное расстояние между распределениями

Матрица Фишера $\mathcal{I}(\theta) = \mathbb{E}[\nabla\log p \cdot (\nabla\log p)^\top]$ равна нулю когда:

Экспоненциальные семейства: плоская геометрия и дуальность

В экспоненциальном семействе $p(x; \theta) = h(x) \exp(\theta^\top T(x) - A(\theta))$ mean parameters $\eta$ связаны с natural parameters $\theta$ как:

Итог

$\mathcal{M} = \{p(x; \theta)\}$ - многообразие: точки - распределения, координаты - параметры, касательное пространство - score-функции $\partial_i \log p$

$\mathcal{I}(\theta) = \mathbb{E}[\nabla\log p \cdot (\nabla\log p)^\top]$ - Fisher-Rao метрика, единственная инвариантная метрика на статистическом многообразии

Пространство гауссовых $N(\mu, \sigma)$ гиперболическое; симплекс сферический. Евклидов SGD не видит этой геометрии

Natural gradient $\mathcal{I}^{-1} g$: инвариантен к репараметризации, решает $\min_\Delta L$ при KL-constraint. Adam, K-FAC, Shampoo - его приближения

Exp-семейства: dual flat structure ($\theta$ и $\eta = \nabla A(\theta)$); KL как Bregman-дивергенция; MLE = m-проекция

TRPO/PPO, K-FAC, VAE/ELBO, mirror descent - IG в проде, не в теории