Информационная геометрия
Информационные проекции: e и m
MLE и variational inference - разные формулы, разная мотивация, разные сообщества. Байесовцы используют ELBO, частотники - log-likelihood. Но оба метода - это информационная проекция. Разница в одном: направлении KL-дивергенции. MLE проецирует модель на данные по $D_{KL}(q \| p_{data})$ - mode-seeking. VI проецирует posterior-аппроксимацию по $D_{KL}(q \| p_{true})$ - тоже mode-seeking. Если поменять направление - получится forward KL, mode-covering. Две кнопки, два поведения. Пифагор объединяет их в одну геометрию - и из этого вырастает понимание EM, belief propagation и Sinkhorn.
- **MLE и moment matching**: обучение GPT, BERT, любой LLM - это e-проекция эмпирического распределения на параметрическое семейство. Cross-entropy loss = $D_{KL}(p_{data} \| p_\theta)$ до константы. 50257 токенов, триллионы пар - одна формула проекции
- **VAE и VQ-VAE**: ELBO-оптимизация - это e-проекция $q_\phi(z|x)$ на $p(z|x)$. Stable Diffusion использует VAE для сжатия в латентное пространство. Каждое обучение - миллионы m-проекций posterior на гауссиан
- **EM в продакшне**: GMM, HMM, LDA (тематическое моделирование), EM-алгоритм для выровненных последовательностей в ASR (Whisper внутри), K-Means как вырожденный EM - все чередуют e/m проекции по Csiszar-Tusnady 1984
- **Belief propagation и factor graphs**: Loopy BP в Ising модели, message passing в LDA, турбо-коды (iterative decoding через BP) - последовательные m-проекции на факторные ограничения. Expectation Propagation (EP) - e-проекции для улучшенной сходимости в циклах
Предварительные знания
- KL-дивергенция как Bregman-дивергенция
- Экспоненциальные семейства и натуральные параметры
- α-связности: e- и m-связности как крайние точки
e-проекция: moment matching и MLE
e-проекция: ближайшая точка в экспоненциальном семействе
Есть произвольное распределение $p$ и экспоненциальное подмногообразие $\mathcal{E}$ - семейство вида $q_\theta \propto \exp(\theta \cdot T(x))$. Задача: найти $q^* \in \mathcal{E}$, ближайшее к $p$ в смысле KL-дивергенции. e-проекция - это:
Минимизировать $D_{KL}(q \| p) = \mathbb{E}_q[\log q - \log p]$ по параметрам $\theta$ - это не что иное как максимизация $\mathbb{E}_q[\log p]$, то есть log-likelihood. Но здесь скрыт поворот: в экспоненциальном семействе $D_{KL}(q_\theta \| p)$ достигает минимума ровно тогда, когда совпадают **достаточные статистики** - $\mathbb{E}_{q^*}[T(x)] = \mathbb{E}_p[T(x)]$. Это и называется moment matching.
**Moment matching = e-проекция.** Если $\mathcal{E}$ - семейство гауссиан, e-проекция $p$ на $\mathcal{E}$ - это гауссиан с теми же средним и дисперсией, что у $p$. Если $\mathcal{E}$ - мультиномиальное, проекция совпадает с эмпирическим распределением. Никакой оптимизации: только матчинг моментов - и проекция готова.
**M-step EM - это e-проекция.** В EM-алгоритме для GMM или HMM параметры обновляются так, чтобы максимизировать ожидаемый log-likelihood - то есть e-проецируется текущий posterior на параметрическое подмногообразие $\mathcal{E}$. Csiszar-Tusnady 1984: доказали, что именно это делает M-step, и именно это гарантирует монотонный рост likelihood на каждой итерации.
e-проекция $q^* = \arg\min_{q \in \mathcal{E}} D_{KL}(q \| p)$ эквивалентна...
m-проекция: mean-field и вариационный вывод
m-проекция: ближайшая точка в смесевом подмногообразии
Теперь поменяем направление KL. Подмногообразие $\mathcal{M}$ - m-плоское (mixture семейство, например, факторизованные распределения). m-проекция $p$ на $\mathcal{M}$:
Минимизировать $D_{KL}(p \| q) = \mathbb{E}_p[\log p - \log q]$ - значит максимизировать $\mathbb{E}_p[\log q]$. Это **mass-covering**: $q$ вынужден покрывать все области, где $p > 0$, иначе $D_{KL}(p \| q) = \infty$. Если $q$ пропустит хоть одну моду $p$ - штраф бесконечный.
**Mean-field variational inference** - это m-проекция на подмногообразие факторизованных распределений. VAE минимизирует $D_{KL}(q_\phi(z|x) \| p(z|x))$ - это m-проекция posterior на параметрическое семейство $q_\phi$. ELBO = нижняя граница log-evidence - это и есть отрицательный KL до константы. VQ-VAE, иерархические VAE, diffusion через ELBO - все они m-проецируют posterior на tractable семейство.
**Ключевое различие: mode-seeking vs mode-covering.** e-проекция ($D_{KL}(q \| p)$): если $q(x) > 0$, а $p(x) = 0$ - штраф бесконечный. Поэтому $q$ не может выходить за поддержку $p$, но может игнорировать моды $p$. Это mode-seeking: $q$ выберет одну моду и сосредоточится там. m-проекция ($D_{KL}(p \| q)$): если $p(x) > 0$, а $q(x) = 0$ - штраф бесконечный. Поэтому $q$ обязан покрывать все, где $p > 0$. Это mode-covering: $q$ размазывается по всем модам $p$.
Почему стандартный VAE (ELBO = $\mathbb{E}_q[\log p(x|z)] - D_{KL}(q(z|x) \| p(z))$) даёт mode-seeking аппроксимацию posterior?
Теорема Пифагора в информационной геометрии
Пифагор без евклидова пространства
В евклидовой геометрии теорема Пифагора - это $|AC|^2 = |AB|^2 + |BC|^2$ для прямоугольного треугольника. В информационной геометрии Амари 1985 вывел точный аналог для KL-дивергенции - без квадратов, без евклидовых расстояний, зато для любых распределений из экспоненциального семейства:
Где $q^*$ - e-проекция $r$ на e-плоское подмногообразие, проходящее через $p$. Или, что эквивалентно, m-проекция $p$ на m-плоское подмногообразие через $r$. Условие: e-геодезика из $q^*$ в $p$ и m-геодезика из $q^*$ в $r$ должны быть **ортогональны** в метрике Фишера. Это и есть «прямой угол» в статистическом смысле.
**Что даёт теорема Пифагора.** Если $q^*$ - это проекция $p$ на подмногообразие $\mathcal{M}$, то для любого другого $r \in \mathcal{M}$: $D_{KL}(p \| r) \geq D_{KL}(p \| q^*)$. Проекция минимальна. Это не эвристика - это следствие ортогональности геодезик. Так доказывают, что EM не расходится: каждый шаг уменьшает KL, и никакая точка из $\mathcal{M}$ не даст меньшего KL, чем проекция.
Теорема Пифагора Амари $D_{KL}(p \| r) = D_{KL}(p \| q^*) + D_{KL}(q^* \| r)$ выполняется при условии...
EM и belief propagation как проекции
EM: два шага - два вида проекций
Csiszar и Tusnady 1984 - за год до книги Амари - дали точное геометрическое описание EM. Алгоритм EM работает на двух подмногообразиях: $\mathcal{E}$ - e-плоское (параметрическая модель $p_\theta$) и $\mathcal{M}$ - m-плоское (completed-data distributions, joint над данными и скрытыми переменными).
E-step: m-проекция $p_\theta$ на m-плоское подмногообразие $\mathcal{M}$ - вычисление posterior $q(z|x, \theta)$. M-step: e-проекция $q$ на e-плоское $\mathcal{E}$ - moment matching, максимизация ожидаемого log-likelihood. Два шага, две проекции, чередование. Теорема Пифагора гарантирует, что log-likelihood не уменьшается: $D_{KL}(p_{data} \| p_{\theta^{(t+1)}}) \leq D_{KL}(p_{data} \| p_{\theta^{(t)}})$.
**Belief propagation как последовательные проекции.** В факторных графах (LDA, Ising модель, байесовские сети) message passing - это последовательное применение m-проекций на факторные ограничения. Каждое сообщение $\mu_{f \to x}$ - это m-проекция локального joint на маргинальное подмногообразие. Loopy BP в Ising модели - это итерированные m-проекции, которые могут не сходиться в циклических графах. Expectation Propagation (Minka 2001) - это обобщение: e-проекции на семейство факторизованных распределений, более устойчивое к циклам.
**Sinkhorn = EM для OT.** Алгоритм Синкхорна для optimal transport - это EM на транспортном многообразии. Строчная нормировка - m-проекция на маргинальное ограничение по $x$. Столбцовая нормировка - m-проекция на маргинальное ограничение по $y$. Теорема Пифагора снова гарантирует монотонную сходимость. Три разные задачи (смесевые модели, байесовские сети, OT) - один геометрический механизм.
EM сходится потому что каждый шаг оптимален - M-step находит глобальный максимум
Монотонность EM - геометрический факт (теорема Пифагора для e/m-проекций), не следствие глобальной оптимальности шагов
EM может застрять в локальном максимуме. Теорема гарантирует только монотонность: каждый шаг не хуже предыдущего. Где конкретно застрянет алгоритм - определяет стартовая точка, не геометрия. Геометрия отвечает за монотонность шагов, но не за глобальность решения.
В EM-алгоритме для GMM E-step - это m-проекция, M-step - это e-проекция. Что гарантирует монотонный рост log-likelihood?
Что унести из урока
- **e-проекция** $q^* = \arg\min_{q \in \mathcal{E}} D_{KL}(q \| p)$: mode-seeking, moment matching, эквивалентна MLE. M-step EM - это e-проекция на параметрическое подмногообразие
- **m-проекция** $q^* = \arg\min_{q \in \mathcal{M}} D_{KL}(p \| q)$: mode-covering, mean-field VI, ELBO. E-step EM - это m-проекция на completed-data manifold
- **Теорема Пифагора**: $D_{KL}(p \| r) = D_{KL}(p \| q^*) + D_{KL}(q^* \| r)$ при ортогональности e/m геодезик. Гарантирует минимальность проекции и монотонность EM
- **EM = e/m чередование**: E-step - m-проекция, M-step - e-проекция. Csiszar-Tusnady 1984: монотонность доказана через Пифагора, не эвристика
- **Belief propagation и Sinkhorn** - те же последовательные m-проекции на факторные ограничения. Один механизм, три задачи: смеси, графовые модели, optimal transport
Куда дальше
Информационные проекции - инструмент. Применения строятся поверх:
- Mirror descent ($\alpha=-1$) — m-проекция на выпуклое множество с Bregman-дивергенцией
- Information geometry в deep learning — VAE, диффузия, нормализующие потоки через e/m проекции
Вопросы для размышления
- VAE минимизирует $D_{KL}(q_\phi(z|x) \| p(z|x))$ - это e-проекция, mode-seeking. Если заменить на forward KL $D_{KL}(p(z|x) \| q_\phi(z|x))$, что произойдёт с качеством генерации и почему это сложнее обучать?
- Belief propagation в циклических графах не сходится. Expectation Propagation (EP) заменяет m-проекции на e-проекции. Почему e-проекции дают лучшую сходимость в циклах - что именно меняет направление KL?
- EM для GMM монотонно увеличивает likelihood, но застревает в локальных максимумах. K-Means - вырожденный EM с жёсткими assignments. Что теряется при переходе от мягких (EM) к жёстким (K-Means) posterior, и какую роль здесь играет геометрия проекций?
Связанные уроки
- ig-06-alpha-connections — e- и m-проекции - это α=+1 и α=-1 случаи α-семейства связностей
- ig-07-natural-gradient — Натуральный градиент - α=0 поток, проекции работают на α=±1 крайних точках
- ig-09-mirror-descent — Mirror descent с KL - m-проекция на выпуклое множество, прямое следствие
- ig-10-deep-learning — VAE ELBO = m-проекция, EM в GMM/LDA = чередование e/m проекций
- ig-04-kl-bregman — KL-дивергенция - основной инструмент обоих видов проекций
- stat-01-sampling