Информационная геометрия

Альфа-дивергенции и обобщённая геометрия

VAE минимизирует KL(q||p) и получает размытые генерации. GAN минимизирует Jensen-Shannon дивергенцию и получает острые, но нестабильные. f-VAE, alpha-divergence VI, Wasserstein AE - все это попытки найти «правильную» дивергенцию. Амари показал: существует единое параметрическое семейство, объединяющее все эти случаи.

VAE: alpha = 1 (обратный KL), mode-seeking; beta-VAE: KL с весом beta - регуляризация по alpha-геометрии
Renyi-alpha divergence в privacy: differential privacy использует Renyi-дивергенцию для анализа утечки информации
Alpha-divergence VI (Li & Turner 2016): alpha = 0.5 даёт промежуточное качество между VAE и importance sampling

Семейство альфа-дивергенций Амари

KL(P||Q) и KL(Q||P) - разные дивергенции с разными свойствами. Амари объединил их в одно параметрическое семейство через параметр alpha in (-inf, inf). При alpha = 1: прямой KL. При alpha = -1: обратный KL. При alpha = 0: симметричная версия.

Alpha = 0 соответствует квадрату расстояния Хеллингера: D^(0) = 2*(1 - integral sqrt(p*q)). Это единственная симметричная альфа-дивергенция: D^(0)(P||Q) = D^(0)(Q||P). Остальные - несимметричны.

D^(alpha = 1)(P||Q) = ?

Mode-seeking vs mode-covering: практика VAE

Главная практическая разница: KL(q||p) - mode-seeking (alpha = -1), KL(p||q) - mode-covering (alpha = +1). Если p - двугорбое распределение, а q - одногорбое: минимизация KL(q||p) выберет одну из горб. Минимизация KL(p||q) растянет q, чтобы покрыть обе горбы (ценой «провала» между ними).

Почему VAE даёт размытые изображения: VAE минимизирует KL(q(z|x) || p(z)) - обратный KL, mode-seeking. Декодер должен восстанавливать из любой точки в z-пространстве, куда «растёкся» q. Для этого выход усредняется - отсюда blur. Это не баг, это свойство выбранной дивергенции.

alpha-divergence variational inference (alpha-VI) с alpha = 0 или alpha = 0.5 даёт промежуточный результат: частично покрывает моды, частично концентрируется. Библиотека Edward2 (TensorFlow Probability) реализует alpha-VI для экспериментов с разными alpha.

VAE минимизирует KL(q(z|x) || p(z|x)). Это mode-seeking или mode-covering? Что это означает практически?

Renyi-дивергенция и дифференциальная приватность

Renyi-дивергенция порядка alpha: R_alpha(P||Q) = 1/(alpha-1) * log(integral p^alpha * q^(1-alpha)). При alpha -> 1: R_1 = KL(P||Q). При alpha = 2: R_2 - chi-квадрат статистика. При alpha -> inf: R_inf = sup log(p(x)/q(x)) - наихудший случай.

Renyi-DP (Mironov 2017) используется в PyTorch Opacus и TensorFlow Privacy для обучения нейросетей с дифференциальной приватностью. Renyi-дивергенция удобнее KL для анализа DP: она «складывается» при многократном применении алгоритма (subcomposition).

Почему Renyi-дивергенция удобнее KL для анализа differential privacy?

Альфа-связности: геометрия между e и m

Амари ввёл параметрическое семейство аффинных связностей на статистическом многообразии, параметризованное alpha. При alpha = +1: e-связность (экспоненциальная геометрия). При alpha = -1: m-связность (смесевая геометрия). При alpha = 0: связность Лevi-Civita (Риманнова геометрия).

Дуальность: e-связность и m-связность дуальны относительно метрики Фишера: g(nabla^(alpha) X, Y) + g(X, nabla^(-alpha) Y) = X g(Y, Z) - это определение дуальных связностей. Пространство с парой дуальных связностей называется дуально плоским, если обе кривизны нулевые - это и есть статистическое многообразие для экспоненциального семейства.

Практически: выбор alpha = 0 (Риманнова геометрия) даёт натуральный градиент Амари. Выбор alpha = 1 (e-геометрия) - оптимизацию в пространстве натуральных параметров (K-FAC). Библиотека Geomstats (Python) реализует альфа-связности для экспоненциальных семейств.

Какой alpha-связности соответствует натуральный градиент Амари?

Итоги

Альфа-дивергенция Амари: $D^{(\alpha)}(P \| Q) = \frac{4}{1-\alpha^2}\left(1 - \int p(x)^{(1+\alpha)/2} q(x)^{(1-\alpha)/2} dx\right)$
При $\alpha \to 1$: $D^{(1)} = \mathrm{KL}(P \| Q)$; при $\alpha \to -1$: $D^{(-1)} = \mathrm{KL}(Q \| P)$
Alpha = +1: zero-avoiding (mode-covering), q охватывает все моды p; alpha = -1: zero-forcing (mode-seeking), q концентрируется на одной моде
Renyi-дивергенция порядка alpha связана с alpha-дивергенцией Амари через монотонное преобразование

Связанные темы

Альфа-дивергенции объединяют геометрию и статистику:

KL-дивергенция и Брегман — KL - граничный случай alpha-дивергенции
e/m-проекции — Alpha-проекции обобщают e- и m-проекции
Генеративные модели — Выбор дивергенции определяет качество генерации

Вопросы для размышления

VAE даёт размытые изображения. Как изменится качество, если перейти от KL(q||p) к KL(p||q)? Почему на практике это не делают напрямую?
Renyi-alpha дивергенция используется для анализа differential privacy. Почему именно Renyi, а не KL?
Если alpha-дивергенции с разными alpha дают разные компромиссы между покрытием мод, какой alpha выбрать для реальной задачи генерации изображений?

Связанные уроки

ig-15-stat-manifold-advanced — e/m-геодезические и питагорова теорема
ig-04-kl-bregman — KL как частный случай альфа-дивергенции
ig-13-generative — GANs используют другие дивергенции