Информационная геометрия

α-Дивергенции и двойственная геометрия

Вариационный вывод в VAE (2013, DeepMind) минимизирует KL-дивергенцию - частный случай α-дивергенции при α→1. Выбор α определяет mass-covering vs mode-seeking поведение: при α=-1 вариационный вывод покрывает все моды апостериорного распределения, при α=1 коллапсирует к одной.

VAE (Kingma & Welling, 2013): ELBO = -KL(q||p) + E[log p(x|z)], KL = α→1 дивергенция
Power EP (Minka, 2004): α=-1 для надёжного вариационного вывода с захватом нескольких мод
Rényi α-dивергенция (Li & Turner, 2016): обобщение ELBO для α≠1 с лучшим posterior fitting

α-Дивергенции: единое семейство

Variational Autoencoder в Stable Diffusion 3 (2024) минимизирует α-divergence: 8 миллиардов параметров, KL-loss как частный случай при α→1. VAE минимизирует KL(q||p) - и это вынуждает вариационное распределение коллапсировать к одной моде. Увеличь α до −1 - и оптимизатор начнёт покрывать все моды апостериора. Это не разные методы, а одна семья: α-дивергенции объединяют KL, Hellinger, χ² и обратный KL в единое геометрическое семейство.

Rényi дивергенция R_α(p||q) = 1/(α−1)·log∫ p^α q^{1−α} тесно связана с α-дивергенцией. ELBO в VAE = нижняя граница −R_1, обобщённый ELBO Rényi = нижняя граница −R_α.

Почему вариационный вывод с KL(q‖p) (α=1) приводит к mode-seeking поведению?

Двойственная плоскость и теорема Пифагора

В евклидовом пространстве теорема Пифагора: |AC|² = |AB|² + |BC|² при прямом угле в B. На статистическом многообразии аналог: D(p‖r) = D(p‖q) + D(q‖r) когда q - проекция p на e-плоское подмногообразие, и r - проекция на m-плоское. Это основа EM-алгоритма.

Теорема Пифагора в информационной геометрии объясняет сходимость EM: каждая пара E/M шагов строго уменьшает KL между текущей моделью и истинным распределением.

В EM-алгоритме E-шаг вычисляет q(z|x), а M-шаг максимизирует ELBO. Как это связано с информационной геометрией?

Дивергенции Брегмана и экспоненциальные семейства

KL-дивергенция - дивергенция Брегмана от функции отрицательной энтропии F(p) = ∑p·log(p). Это не совпадение: для любого экспоненциального семейства KL равен дивергенции Брегмана от log-partition функции A(θ). Это даёт единый взгляд на k-means, EM, логистическую регрессию и вариационный вывод.

k-means - это дивергенция Брегмана от евклидова расстояния (F = ‖x‖²/2). Мягкий k-means с KL - это EM для смеси распределений Больцмана. Одна математика, разные приложения.

Дивергенция Брегмана B_F(y‖x) = F(y)−F(x)−∇F(x)^T(y−x). При F(η) = ∑η_i log η_i (негативная энтропия) что получается?

Итоги

α-дивергенция: D_α(p||q) = 4/(1-α²) [1 - ∫ p^{(1+α)/2} q^{(1-α)/2} dx]
Предельные случаи: α→1 → KL(p||q), α→-1 → KL(q||p), α=0 → 2·Hellinger²
Pythagorean теорема: для e/m-плоских подмногообразий D(p||r) = D(p||q*) + D(q*||r)
KL как Bregman divergence: KL(p||q) = B_F(η_q||η_p) где F = минус энтропия

Вопросы для размышления

Почему при α=1 вариационный вывод коллапсирует к одной моде (mode-seeking), а при α=-1 покрывает все моды?
Как теорема Пифагора в информационной геометрии связана с EM-алгоритмом?
Что значит, что KL-дивергенция является дивергенцией Брегмана?

Связанные уроки

ig-04-kl-bregman — ig-19 обобщает KL до всего семейства α-дивергенций
ig-05-dual-flat — Двойственная плоскость - основа геометрии α-дивергенций

α-Дивергенции: единое семейство

Почему вариационный вывод с KL(q‖p) (α=1) приводит к mode-seeking поведению?

Двойственная плоскость и теорема Пифагора

В EM-алгоритме E-шаг вычисляет q(z|x), а M-шаг максимизирует ELBO. Как это связано с информационной геометрией?

Дивергенции Брегмана и экспоненциальные семейства

Дивергенция Брегмана B_F(y‖x) = F(y)−F(x)−∇F(x)^T(y−x). При F(η) = ∑η_i log η_i (негативная энтропия) что получается?

Итоги

α-дивергенция: D_α(p||q) = 4/(1-α²) [1 - ∫ p^{(1+α)/2} q^{(1-α)/2} dx]

Предельные случаи: α→1 → KL(p||q), α→-1 → KL(q||p), α=0 → 2·Hellinger²

Pythagorean теорема: для e/m-плоских подмногообразий D(p||r) = D(p||q*) + D(q*||r)

KL как Bregman divergence: KL(p||q) = B_F(η_q||η_p) где F = минус энтропия