Информационная геометрия

KL как Bregman divergence

За PPO, TRPO, натуральным градиентом, зеркальным спуском и VAE ELBO стоит одна геометрия - дивергенции Брегмана. KL-дивергенция - не специальная формула. Это один элемент большого семейства, определяемого выбором выпуклой функции. Смените функцию - получите другой алгоритм оптимизации с другой геометрией.

**PPO / TRPO**: ограничение шага политики через $D_{KL}(\pi_{new} \| \pi_{old}) \leq \delta$ - Bregman-проекция на множество допустимых политик
**VAE ELBO**: член $-D_{KL}(q_\phi \| p)$ в нижней вариационной оценке - Bregman-расстояние от аппроксимации к prior
**Натуральный градиент (Amari)**: метрика Фишера - гессиан логарифмической функции разделения в exp-семействе, то есть гессиан порождающей $\varphi$
**Mirror descent / Hedge**: онлайн-оптимизация над симплексом - мультипликативный шаг как Bregman-проекция с KL
**Sinkhorn (Cuturi 2013)**: энтропийная регуляризация в OT - проекция на транспортный политоп в KL-метрике

Предварительные знания

Дивергенция Брегмана

Начнём с провокации. За PPO, TRPO, натуральным градиентом, зеркальным спуском и VAE ELBO стоит одна геометрия - дивергенции Брегмана. KL-дивергенция - не специальная формула с особой физикой. Это один элемент большого семейства, порождённого выпуклой функцией.

Пусть $\varphi: \mathbb{R}^n \to \mathbb{R}$ - строго выпуклая дифференцируемая функция. Дивергенция Брегмана, порождённая $\varphi$:

Читается просто: это разность между истинным значением $\varphi(p)$ и линейной аппроксимацией $\varphi$ вокруг точки $q$, применённой к точке $p$. Геометрически - зазор между функцией и касательной гиперплоскостью в $q$. Выпуклость $\varphi$ гарантирует $D_\varphi \geq 0$ с равенством тогда и только тогда, когда $p = q$.

**Ключевое свойство**: $D_\varphi$ несимметрична. $D_\varphi(p \| q) \neq D_\varphi(q \| p)$ в общем случае. Это не дефект - это следствие геометрии касательной плоскости, которая строится в разных точках.

Дивергенция Брегмана $D_\varphi(p \| q) = 0$ тогда и только тогда, когда...

KL как частный случай Брегмана

Выберем $\varphi(p) = \sum_i p_i \log p_i$ - отрицательную энтропию (негэнтропию). Подставим в формулу Брегмана и упростим (члены с единицами сворачиваются при нормировке $\sum p_i = \sum q_i = 1$):

KL-дивергенция - это Брегман с $\varphi = $ негэнтропия. Всё. Никакой отдельной мистики. Асимметрия KL - это та же асимметрия касательной плоскости, что и у любого Брегмана.

**Почему это важно для ML**. VAE обучает модель минимизировать ELBO = реконструкция - $D_{KL}(q \| p)$. В PPO ограничение на шаг политики задаётся через $D_{KL}(\pi_{new} \| \pi_{old}) \leq \delta$. В обоих случаях - это Брегман-проекция с $\varphi = $ негэнтропия. Геометрия одна.

Какая порождающая функция $\varphi$ даёт KL-дивергенцию через Bregman?

Зеркальный спуск: шаг как Bregman-проекция

Обычный градиентный шаг - это проекция в евклидовой метрике. Замените евклидово расстояние $\|\cdot\|^2$ на произвольный Брегман $D_\varphi$ - получите зеркальный спуск:

При $\varphi = $ негэнтропия и $\mathcal{C} = $ симплекс замкнутая форма решения - мультипликативный шаг Hedge:

Это и есть Hedge / Multiplicative Weights - алгоритм, который лежит в основе экспертного обучения с подкреплением, онлайн-оптимизации и AdaBoost. Один алгоритм. Одна геометрия.

**Натуральный градиент как частный случай**. В экспоненциальном семействе метрика Фишера - это гессиан $\varphi$ (логарифмической функции разделения). Натуральный градиентный шаг Амари - это зеркальный спуск с Bregman-дивергенцией, порождённой логарифмической функцией разделения. TRPO, Natural Policy Gradient, K-FAC - все используют эту геометрию.

KL(p||q) - это просто мера 'разницы' между распределениями, как расстояние

KL - это асимметричная дивергенция Брегмана. Направление имеет значение: forward KL и reverse KL - разные геометрические операции

Forward KL $D_{KL}(p \| q)$ (mode-covering) используется в ELBO. Reverse KL $D_{KL}(q \| p)$ (mode-seeking) - в других вариационных схемах. Оба - Брегман с одной $\varphi$, но с переставленными аргументами. Проекция в разные стороны.

В зеркальном спуске с $\varphi = $ негэнтропия шаг $p_{t+1,i} \propto p_{t,i} \cdot e^{-\eta g_i}$. Что происходит при $\eta \to 0$?

Ключевые идеи

**Дивергенция Брегмана** $D_\varphi(p\|q) = \varphi(p) - \varphi(q) - \langle\nabla\varphi(q), p-q\rangle$ - зазор между функцией и касательной гиперплоскостью
**KL = Bregman** с $\varphi = $ негэнтропия $\sum p_i \log p_i$. Асимметрия KL - следствие геометрии касательной плоскости
**Зеркальный спуск**: замена евклидовой проекции на Bregman-проекцию. При $\varphi = $ негэнтропия - мультипликативный шаг Hedge
**Натуральный градиент**: гессиан $\nabla^2\varphi$ в exp-семействе - это метрика Фишера. Шаг натурального градиента = зеркальный спуск
**PPO, VAE, Sinkhorn** - все три используют KL как Bregman для ограничения или регуляризации шага

Что дальше

Bregman-структура пронизывает весь информационно-геометрический ландшафт:

Dual flat structure — Двойственные координаты в exp-семействе - это дуальность Брегмана
Mirror descent — Детальный разбор алгоритма как Bregman-проекции
Натуральный градиент — Градиентный спуск в Bregman-метрике на многообразии exp-семейств

Вопросы для размышления

Почему евклидово расстояние $\|p - q\|^2$ - частный случай Bregman-дивергенции? Какая $\varphi$ его порождает и почему результат симметричен?
PPO ограничивает шаг политики через KL. Что геометрически означает это ограничение в терминах Bregman-проекции?
Forward KL и reverse KL минимизируются разными алгоритмами и дают разные результаты. Как это объясняется через направление Bregman-проекции?
Зеркальный спуск с $\varphi = \|\cdot\|^2$ - это обычный gradient descent. Что изменится в алгоритме, если заменить $\varphi$ на негэнтропию?

Связанные уроки

it-03 — KL как дивергенция - определение и свойства
ig-07-natural-gradient — Натуральный градиент - Bregman в exp-family
ig-09-mirror-descent — Зеркальный спуск - алгоритмическое следствие
cvx-07 — Проксимальные методы: та же геометрия проекций
ot-03-wasserstein — Wasserstein - альтернативная дивергенция без Bregman структуры
stat-01-sampling