Информационная геометрия

α-связности Амари: целое семейство геодезик

Чернов 1952: ввёл α-divergence для асимптотической статистики - тестов гипотез, где «расстояние» между распределениями надо мерить так, чтобы оно работало в больших выборках. Амари 1985: понял, что это два разных способа двигаться по multinomial симплексу. Один - аддитивный (через mixture, $p_t = (1-t)p_0 + tp_1$). Другой - мультипликативный (через exponential, $p_t \propto p_0^{1-t} p_1^t$). Между ними - целое семейство геодезик $\nabla^{(\alpha)}$, и каждое ML-обучение неявно выбирает одну из них. Adam идёт по евклидовой прямой. K-FAC по $\alpha=0$. Mirror descent с KL по $\alpha=-1$. EM чередует $\alpha=\pm 1$. Один параметр $\alpha$ структурирует половину прикладной оптимизации.

**Natural gradient / K-FAC** ($\alpha=0$): движение по геодезикам Levi-Civita метрики Фишера. Используется в production-обучении крупных моделей в Google Brain - даёт 2-5x ускорение по сравнению с Adam на задачах с чёткой exp-family структурой
**KL-mirror descent / Hedge / Exponentiated Gradient** ($\alpha=-1$): m-flat поток на симплексе. AdaBoost, portfolio optimization, online learning - один и тот же мультипликативный шаг в трёх разных областях
**EM (GMM, HMM, LDA, VAE)**: чередование $\alpha=-1$ (m-projection, E-step) и $\alpha=+1$ (e-projection, M-step). Csiszár-Tusnády 1984 доказали сходимость через теорему Пифагора Амари - геометрия, не эвристика
**RLHF / PPO**: $D_{KL}(\pi_\theta \| \pi_{ref})$ - reverse KL ($\alpha=+1$), mode-seeking. Именно поэтому fine-tuned политика концентрируется около хорошего поведения, а не размазывается

Предварительные знания

KL и Bregman-дивергенция
Метрика Фишера и Cramér-Rao
Двойственно плоская структура: e- и m-связности

Две связности на симплексе и интерполяция

Две естественные связности на симплексе

На пространстве распределений нет одной канонической геодезики. Две координатные системы - $\theta$ (натуральные параметры exp-семейства) и $\eta$ (параметры ожидания) - живут на одном многообразии и каждая порождает свою плоскостность.

**e-связность** $\nabla^{(e)}$ объявляет прямыми те кривые, что линейны в $\theta$. Между двумя распределениями $p_0$ и $p_1$ е-геодезика - это $\theta_t = (1-t)\theta_0 + t\theta_1$. В пространстве плотностей это log-аффинная интерполяция: $\log p_t = (1-t)\log p_0 + t\log p_1 - \log Z_t$. Мультипликативное смешение, нормированное на $Z_t$.

**m-связность** $\nabla^{(m)}$ объявляет прямыми кривые, линейные в $\eta$: $\eta_t = (1-t)\eta_0 + t\eta_1$. В пространстве плотностей это аффинная смесь: $p_t = (1-t)p_0 + t p_1$. Аддитивное смешение, без нормировки - симплекс уже выпуклый.

**Физическая интуиция**. e-геодезика - это «плавный шум»: смешать два распределения через лог-домен значит постепенно перетекать вероятностной массой так, как делает softmax при изменении логитов. m-геодезика - это «плавный mix»: буквально достать с вероятностью $1-t$ образец из $p_0$, иначе из $p_1$. Один и тот же путь между $p_0$ и $p_1$, но с разными промежуточными точками.

α-семейство: интерполяция между e и m

Амари 1985: между $\nabla^{(e)}$ и $\nabla^{(m)}$ лежит целое однопараметрическое семейство. Параметр $\alpha \in [-1, 1]$ задаёт смесь:

Крайние точки. $\alpha=1$: выживает только $\nabla^{(e)}$ - e-связность, e-плоское многообразие, геодезики в $\theta$. $\alpha=-1$: выживает $\nabla^{(m)}$ - m-связность, m-плоское, геодезики в $\eta$. $\alpha=0$: ровно посередине - получается риманова связность Леви-Чивита, та, что задаётся метрикой Фишера. Именно по ней движется натуральный градиент Амари 1998.

**Что важно**. e- и m-связности обе плоские (нулевая кривизна), но не одна и та же связность. Промежуточные $\alpha \in (-1, 1)$ уже не плоские - кривизна $\nabla^{(\alpha)}$ ненулевая для всех $\alpha \neq \pm 1$. Геометрия меандрирует между двумя плоскими экстремумами, а Фишер-Леви-Чивита - её центр тяжести.

Какая $\alpha$-связность совпадает с римановой связностью Леви-Чивита, порождённой метрикой Фишера?

α-дивергенции и связь с Renyi

α-дивергенция: одна формула - всё семейство

Каждой $\alpha$-связности соответствует своя дивергенция. Стандартная форма Амари (для $\alpha \neq \pm 1$):

Подставить $\alpha \to 1$ или $\alpha \to -1$ в лоб не получится (деление на ноль), но предел существует. $\alpha \to 1$: $D_1(p\|q) = D_{KL}(q \| p)$ - reverse KL. $\alpha \to -1$: $D_{-1}(p\|q) = D_{KL}(p \| q)$ - forward KL. Два знакомых обитателя ML внезапно оказываются крайними точками одного континуума.

При $\alpha = 0$ получается квадрат расстояния Хеллингера $H^2(p,q) = \tfrac{1}{2}\int (\sqrt{p} - \sqrt{q})^2\, dx$ - симметричная f-дивергенция, лежащая ровно посередине. Это не случайность: $\alpha=0$ даёт Levi-Civita, а соответствующая дивергенция симметрична относительно перестановки аргументов.

**Связь с Renyi**. Дивергенция Реньи $R_\beta(p\|q) = \tfrac{1}{\beta-1}\log \int p^\beta q^{1-\beta}\, dx$ для $\beta = (1-\alpha)/2$ переходит в монотонное преобразование α-дивергенции Амари. Реньи и Амари - одно семейство, записанное в разных шкалах. Параметр Реньи $\beta = 1$ даёт KL, $\beta = 1/2$ - Bhattacharyya / Hellinger, $\beta \to \infty$ - max-divergence (Differential Privacy).

Какая дивергенция получается из α-семейства Амари при $\alpha = 0$?

Дуальность ∇^(α) и ∇^(-α) относительно Фишера

Дуальность $\nabla^{(\alpha)}$ и $\nabla^{(-\alpha)}$ относительно метрики Фишера

Главное свойство α-семейства - не взаимозаменяемость, а взаимная дополнительность. Связности $\nabla^{(\alpha)}$ и $\nabla^{(-\alpha)}$ дуальны относительно метрики Фишера $g$. Формально - условие Codazzi-дуальности:

Перевод. Если переносить вектор $Y$ параллельно с помощью $\nabla^{(\alpha)}$, а вектор $Z$ - с помощью $\nabla^{(-\alpha)}$, то их скалярное произведение по Фишеру сохраняется. Один поток компенсирует другой. Это и есть смысл «двойственности» в информационной геометрии: пара связностей удерживает метрику инвариантной.

Симметричное следствие на дивергенциях: $D_\alpha(p\|q) = D_{-\alpha}(q\|p)$. Перестановка аргументов = смена знака $\alpha$. Forward KL ($\alpha=-1$) и reverse KL ($\alpha=+1$) - не два разных объекта, а одна и та же дивергенция, просмотренная с противоположных α-точек.

**Pythagoras для α-проекций**. e-projection (минимизация $D_{KL}(q\|p)$ по $q$ на e-плоском подмногообразии) и m-projection (минимизация $D_{KL}(p\|q)$ по $q$ на m-плоском) - частные случаи α-проекций при $\alpha = \pm 1$. Теорема Пифагора Амари 1985: при ортогональности геодезик в дуальной паре связностей разложение $D_\alpha(p\|r) = D_\alpha(p\|q) + D_\alpha(q\|r)$ выполняется точно. Это гарантирует монотонную сходимость EM, Sinkhorn и многих вариационных схем.

Дуальность $\nabla^{(\alpha)}$ и $\nabla^{(-\alpha)}$ относительно метрики Фишера означает, что...

ML: natural gradient, mirror descent, EM как α-структуры

**Натуральный градиент** (Amari 1998). Шаг $\theta \leftarrow \theta - \eta\, \mathcal{F}^{-1} \nabla L$ - это спуск вдоль геодезики связности Леви-Чивита, то есть $\alpha=0$. Нейтральный поток, не привязанный ни к e-, ни к m-стороне. K-FAC, Shampoo, Natural Policy Gradient - всё это аппроксимации одного и того же $\alpha=0$ движения по многообразию exp-семейства.

**Mirror descent** (Beck-Teboulle 2003). Шаг с Bregman-дивергенцией, порождённой выпуклой $\psi$ - это движение по m-плоской структуре, $\alpha = -1$. KL-mirror descent на симплексе ($\psi = $ негэнтропия) даёт замкнутую форму exponentiated gradient: $p_{t+1, i} \propto p_{t,i} \cdot e^{-\eta g_i}$. Тот же Hedge / Multiplicative Weights, что лежит в AdaBoost и portfolio theory - всё это m-flat поток.

**EM-алгоритм** (Csiszár-Tusnády 1984). Каждая итерация - чередование e- и m-проекций между наблюдаемым распределением $p_{data}$ и параметрической моделью $p_\theta$. E-step - m-проекция (вычисление posterior над скрытыми переменными). M-step - e-проекция (максимизация log-likelihood, то есть проекция на e-плоское подмногообразие $\theta$). Csiszár и Tusnády доказали монотонную сходимость через теорему Пифагора Амари - не эвристика, геометрический факт.

**Variational inference: forward KL vs reverse KL**. Forward $D_{KL}(p \| q)$ ($\alpha=-1$) - m-проекция, mode-covering: аппроксимация $q$ растягивается, чтобы накрыть все моды истинного $p$. Reverse $D_{KL}(q \| p)$ ($\alpha=+1$) - e-проекция, mode-seeking: $q$ сжимается в одну моду. RLHF и стандартные VAE минимизируют именно reverse KL - mode-seeking даёт чёткие, уверенные распределения, что и нужно для генерации текста или сэмплирования. Forward KL применяется реже, но появляется в expectation propagation и в forward-KL вариантах VI.

Bregman-дивергенция как $\alpha=\pm 1$ случай. Любая Bregman-дивергенция $D_\psi$ - это α-дивергенция при $\alpha = -1$ для подходящей выпуклой $\psi$ (с $\psi = $ негэнтропия получается forward KL). Симметричная пара $\alpha = +1$ - это reverse Bregman, она же Bregman с переставленными аргументами. Так что весь мир Брегман-методов - это два среза одного α-многообразия.

α-связности - чисто теоретическая конструкция, в практическом ML нужна только Fisher metric

Каждый алгоритм неявно выбирает α: SGD - евклидов поток, natural gradient - α=0, mirror descent с KL - α=-1, EM - чередование α=±1. Выбор α определяет, что значит «двигаться прямо» в пространстве моделей

Это не разные оптимизаторы с разной скоростью. Это разные геометрии, и каждая лучше подходит для своей задачи: α=0 - для уверенных параметрических моделей, α=-1 - для оптимизации над симплексом, α=+1 - для mode-seeking аппроксимаций. Перепутать - значит платить за неподходящую геометрию каждым шагом обучения.

В RLHF при тонкой настройке политики через KL-regularization обычно минимизируется $D_{KL}(\pi_\theta \| \pi_{ref})$. Какая это α-проекция и почему так?

Что унести из урока

**$\nabla^{(\alpha)} = \tfrac{1+\alpha}{2}\nabla^{(e)} + \tfrac{1-\alpha}{2}\nabla^{(m)}$**: однопараметрическое семейство связностей. $\alpha=1$ - e-flat, $\alpha=-1$ - m-flat, $\alpha=0$ - Levi-Civita метрики Фишера
**α-дивергенция $D_\alpha$**: $D_{-1} = D_{KL}(p\|q)$ (forward), $D_{+1} = D_{KL}(q\|p)$ (reverse), $D_0 \propto H^2$ (Hellinger). Renyi $R_\beta$ - то же семейство в другой шкале
**Дуальность $\nabla^{(\alpha)} \leftrightarrow \nabla^{(-\alpha)}$**: пара связностей сохраняет метрику Фишера через условие Codazzi. Симметрия дивергенций: $D_\alpha(p\|q) = D_{-\alpha}(q\|p)$
**ML-перевод**: natural gradient = $\alpha=0$ поток, mirror descent с KL = $\alpha=-1$, EM = чередование $\alpha=\pm 1$, RLHF reverse KL = $\alpha=+1$. Bregman-дивергенция - частный случай $\alpha=\pm 1$
**Pythagoras для α-проекций**: при ортогональности дуальных геодезик $D_\alpha(p\|r) = D_\alpha(p\|q) + D_\alpha(q\|r)$ - точное равенство. Гарантия монотонной сходимости EM, Sinkhorn и вариационных алгоритмов

Куда дальше

α-семейство - инфраструктура. Конкретные алгоритмы строятся поверх:

Натуральный градиент ($\alpha=0$) — Levi-Civita поток на параметрическом многообразии: K-FAC, Shampoo, NPG
Информационные проекции — e- и m-проекции при $\alpha=\pm 1$ - инструмент EM, Sinkhorn, expectation propagation
Mirror descent ($\alpha=-1$) — Bregman-проекция как m-flat поток на выпуклом множестве
Information geometry в deep learning — VAE, normalizing flows, diffusion - поверх α-структур над exp-семействами

Вопросы для размышления

Bregman-дивергенция - частный случай α-дивергенции при $\alpha = \pm 1$. Почему промежуточные $\alpha \in (-1, 1)$ выпадают из Bregman-картины и какую роль они играют тогда?
RLHF минимизирует reverse KL ($\alpha=+1$, mode-seeking). Что произойдёт с поведением политики, если заменить эту регуляризацию на forward KL ($\alpha=-1$, mode-covering) - почему это эмпирически даёт нестабильную генерацию?
EM монотонно сходится через теорему Пифагора Амари - геометрический факт. Но EM застревает в локальных максимумах. Где геометрия не помогает: в монотонности шагов или в выборе начальной точки?

Связанные уроки

ig-02-fisher-metric — α-связности дуальны относительно метрики Фишера - без неё нет дуальности
ig-04-kl-bregman — α=±1 случаи дают KL и обратный KL - именно Bregman-дивергенцию
ig-05-dual-flat — e- и m-связности - крайние точки α-семейства
ig-07-natural-gradient — Натуральный градиент - риманов поток с α=0 (Levi-Civita)
ig-09-mirror-descent — Mirror descent с KL - именно m-flat (α=-1) Bregman-проекция
ig-10-deep-learning — Variational inference и EM в нейросетях - чередование α=±1 проекций
stat-01-sampling