Информационная геометрия

IG в генеративных моделях

Stable Diffusion, FLUX.1, VAE в ChatGPT - за каждым генеративным фреймворком стоит одна идея: как проектировать одно распределение на другое кратчайшим путём в пространстве вероятностей. Score functions, ELBO, flow matching - всё это разные формулировки одной информационно-геометрической задачи.

DDPM score matching = обучение касательных векторов к многообразию зашумлённых данных
FLUX.1 (Black Forest Labs) - flow matching ускоряет генерацию в 3-5x через OT-геодезики
beta-VAE: увеличение beta = усиление регуляризации проекции на prior sphere

ELBO как информационно-геометрическая проекция

**Evidence Lower Bound** - центральный объект VAE. Формула: $\mathcal{L}(\theta, \phi; x) = \mathbb{E}_{q_\phi(z|x)}[\log p_\theta(x|z)] - D_{KL}(q_\phi(z|x) \| p(z))$. Первый член - качество реконструкции, второй - регуляризация latent space.

**Информационно-геометрическая интерпретация:** максимизация ELBO - это m-проекция $q_\phi$ на многообразие точных posteriors. KL-член - квадрат расстояния Фишера-Рао от $q$ до prior $p(z)$. Геодезическое расстояние измеряется метрикой Фишера: $d^2(q, p) = D_{KL}(q \| p) + D_{KL}(p \| q)$.

**Amortized inference gap** - разрыв между ELBO и log-likelihood. Это KL-расстояние от amortized posterior $q_\phi(z|x)$ до истинного posterior $p_\theta(z|x)$: $\log p(x) - \mathcal{L} = D_{KL}(q_\phi(z|x) \| p_\theta(z|x)) \geq 0$. Геометрически: $q$ не достигает многообразия точных posteriors - мощности encoder недостаточно.

Stable Diffusion использует VAE latent space размером 64x64x4 вместо 512x512x3. Качество VAE-проекции напрямую ограничивает качество генерации - плохой encoder создаёт amortized gap, который diffusion model не может исправить.

Почему ELBO является нижней оценкой log-likelihood?

Score functions как геометрия распределений

**Score function** $s_\theta(x) = \nabla_x \log p_\theta(x)$ - вектор, указывающий в направлении роста плотности. В терминах информационной геометрии: это касательный вектор к многообразию распределений в метрике Фишера. Нет нужды вычислять нормировочную константу - она уходит при дифференцировании.

**Fisher information через score:** $\mathcal{F}(\theta) = \mathbb{E}[\nabla_\theta \log p_\theta \cdot \nabla_\theta \log p_\theta^T]$. Score matching (Hyvärinen, 2005) обучает score function напрямую, минимизируя $\mathbb{E}[\|\nabla_x \log p_\theta - \nabla_x \log p_{data}\|^2]$ - без вычисления нормировочных констант.

**Stein discrepancy** обобщает KL-дивергенцию через scores: $S(q, p) = \mathbb{E}_q[\|\nabla \log q - \nabla \log p\|^2_{\mathcal{F}^{-1}}]$. Это расстояние между распределениями в римановой метрике. Оно равно нулю тогда и только тогда, когда $q = p$ - корректная мера расхождения.

DDPM обучает $\varepsilon_\theta(x_t, t) \approx -\sqrt{1-\bar\alpha_t} \nabla_{x_t} \log p_t(x_t)$. Это в точности score function зашумлённого распределения с обратным знаком и масштабом. Stable Diffusion, Imagen, DALL-E 3 - все используют эту параметризацию.

Что такое score function в контексте информационной геометрии?

Диффузионные модели через линзу IG

**Forward diffusion process:** $q(x_t \mid x_0) = \mathcal{N}(x_t; \sqrt{\bar\alpha_t} x_0, (1-\bar\alpha_t)I)$. В пространстве гауссовских распределений с метрикой Фишера-Рао - это геодезическая от распределения данных до изотропной гауссианы $\mathcal{N}(0, I)$. Шумление - не произвольное, а кратчайший путь.

**Denoising score matching loss:** $\mathcal{L}_{DSM} = \mathbb{E}_{t, x_0, \varepsilon}[\|\varepsilon_\theta(x_t, t) - \varepsilon\|^2]$ - фактически это квадратичное расстояние Фишера между истинным и предсказанным score. Минимум достигается когда модель точно знает касательный вектор к геодезической в каждой точке.

**Flow matching** (Lipman et al., 2022) - непрерывная версия diffusion. Вектор-поле $v_t(x)$ на многообразии порождает путь $x_0 \to x_1$ через ODE: $dx/dt = v_t(x)$. Optimal transport conditional flow matching (OT-CFM) выбирает $v_t$ так, чтобы пути были геодезическими Вассерштейна - кратчайшими в пространстве мер.

**Schrödinger bridge** - диффузионный процесс с минимальной KL-дивергенцией от reference process. Формально: $\min_{P} D_{KL}(P \| W)$ где $W$ - винеровская мера, $P$ - процесс с заданными маргиналами. Это задача m-проекции на пространстве мер на путях.

FLUX.1 (Black Forest Labs, 2024) использует flow matching поверх latent diffusion с rectified flows. OT-CFM ускоряет сходимость в 3-5x по сравнению с DDPM за счёт прямолинейных путей - меньше шагов для качественной генерации.

Как flow matching связан с optimal transport?

Унифицированный взгляд: VAE, GAN, Flow, Diffusion

Все четыре семейства генеративных моделей - проекции на разные многообразия в пространстве распределений. **VAE:** m-проекция amortized posterior на многообразие факторизованных priors (минимизация KL). **GAN:** adversarial аппроксимация Wasserstein/JS-дивергенции. **Normalizing flows:** точная e-проекция через цепочку диффеоморфизмов. **Diffusion/score:** обратный транспорт по геодезическим score-поля.

**Обобщённая теорема Пифагора:** в плоской дуальной геометрии $D_{KL}(p \| r) = D_{KL}(p \| q) + D_{KL}(q \| r)$ при условии, что $q$ - m-проекция $p$ на подмногообразие, содержащее $r$. Это геометрическое обобщение теоремы Пифагора на e-/m-геодезики.

**Mode coverage vs mode dropping.** m-проекция (VAE) покрывает все моды распределения данных - она минимизирует $D_{KL}(q \| p)$, которая штрафует за нулевую вероятность там, где $p > 0$. e-проекция (GAN, flow к данным) может пропускать моды - она минимизирует $D_{KL}(p \| q)$, которая терпит нулевую $q$ там. Геометрически: разные проекции на одно подмногообразие.

Понимание failure modes через геометрию: VAE размывает изображения (m-projection усредняет по всем модам), GAN создаёт артефакты и mode collapse (e-projection концентрируется на части мод). Выбор дивергенции = выбор геометрии пространства поиска = качественно разные артефакты.

Почему VAE 'размывает' изображения в отличие от GAN?

Итоги

ELBO - это m-проекция amortized posterior на многообразие точных posteriors; KL-член измеряет расстояние Фишера-Рао от $q$ до prior
Score function $\nabla_x \log p(x)$ - касательный вектор к многообразию распределений в метрике Фишера; DDPM обучает его через denoising
Forward diffusion - геодезическая на многообразии гауссиан; OT-CFM находит прямолинейные траектории как геодезические Вассерштейна
VAE, GAN, Flow, Diffusion - проекции на разные многообразия: выбор дивергенции определяет mode coverage vs mode dropping

Связанные темы

Куда ведёт геометрия генеративных моделей:

Information Projection — ELBO maximization is m-projection; amortized inference gap is the residual KL distance to the exact posterior manifold
Wasserstein vs Fisher — Diffusion models use Fisher geometry (score matching); flow matching uses Wasserstein geometry (OT geodesics)
Flow Matching — OT-CFM - непрерывная формулировка генерации через геодезические в пространстве распределений

Вопросы для размышления

Как изменится поведение VAE при переходе от $D_{KL}(q \| p)$ к $D_{KL}(p \| q)$ в качестве training objective? Какой failure mode исчезнет, какой появится?
Schrödinger bridge минимизирует KL от процесса до винеровской меры. В каком смысле это обобщает и ELBO, и optimal transport?
Почему normalizing flows не страдают от mode dropping в отличие от GAN, если оба являются e-проекциями?

Связанные уроки

ig-08-info-projection — Оптимизация ELBO - это m-проекция на многообразие posteriors
ig-11-wasserstein-vs-fisher — Генеративные модели выбирают между геометрией Фишера и Вассерштейна
ig-07-natural-gradient — Score functions - ковариантные градиенты в метрике Фишера
ot-11-flow-matching — Flow matching - геодезический транспорт на многообразии распределений
ig-04-kl-bregman — KL-дивергенция определяет все проекции в ELBO и диффузии