Информационная геометрия

Статистические многообразия: e- и m-геодезические

Вариационный вывод в VAE, EM-алгоритм в смесях гауссиан, натуральный градиент в TRPO - за всеми этими алгоритмами стоит одна геометрическая идея: чередующиеся проекции на дуальные плоские многообразия. Амари показал, что KL-дивергенция - это «пифагорова теорема» этой геометрии.

VAE (Kingma & Welling 2013): ELBO-оптимизация = e-проекция приближающего распределения на истинное posterior
EM-алгоритм: E-шаг = m-проекция, M-шаг = e-проекция; монотонность гарантируется геометрически
Mean-field variational inference в Pyro, NumPyro: каждый шаг оптимизации - проекция в e-плоской геометрии

Экспоненциальное семейство как e-плоское многообразие

GPT-4 использует softmax - это проекция на симплекс вероятностных распределений, e-плоское многообразие. Adam optimizer сходится быстрее SGD именно потому, что адаптивно приближает натуральный градиент на этом многообразии. Нормальное, Бернулли, Пуассон - все в единой форме: p(x;θ) = exp(θᵀT(x) - A(θ))h(x).

Числовой пример для Бернулли(p): натуральный параметр theta = log(p/(1-p)) (log-odds). Момент eta = E[X] = p. Связь: p = sigma(theta) = 1/(1+e^{-theta}). Для theta = 0: p = 0.5, eta = 0.5. Для theta = 2: p = e^2/(1+e^2) ≈ 0.88, eta = 0.88.

e-геодезическая между p(x; theta_0) и p(x; theta_1) - это распределение p(x; (1-t)*theta_0 + t*theta_1) при t in [0,1]. Прямая смесь в пространстве натуральных параметров. Экспоненциальное семейство «замкнуто» относительно таких смесей.

Для экспоненциального семейства p(x;theta) = exp(theta*T(x) - A(theta)): что вычисляет градиент dA/dtheta?

e- и m-геодезические: два способа интерполировать

На статистическом многообразии существуют два канонических типа геодезических. e-геодезическая (экспоненциальная): смесь в натуральных параметрах theta. m-геодезическая (смесевая): смесь в моментах eta. Они различны, если многообразие искривлено.

Для нормального распределения с фиксированной дисперсией e- и m-геодезические совпадают: и в theta, и в eta-пространстве интерполяция даёт одно и то же. Различие появляется при смешивании дисперсий или для других семейств.

m-геодезическая между p_0 и p_1 - это:

Питагорова теорема для KL-дивергенции

Главная теорема информационной геометрии: для трёх точек P_1, P_2, P_3 на статистическом многообразии, если P_3 является m-проекцией P_2 на e-плоское подмногообразие, содержащее P_1, то KL-дивергенции удовлетворяют питагоровой теореме.

Числовой пример: P_2 = N(1, 2), e-плоское многообразие Q = {N(mu, 1): mu in R} (все нормальные с sigma=1). m-проекция P_2 на Q: находим N(mu*, 1) с минимальным KL(P_2 || N(mu*, 1)) = N(1, 1). Проверка: KL(N(1,2) || N(1,1)) + KL(N(1,1) || N(0,1)) = KL(N(1,2) || N(0,1)).

Питагорова теорема KL объясняет, почему проекция на многообразие уменьшает суммарный KL: «ортогональные» компоненты разделяются. Это основа вариационного вывода: минимизация KL(q||p) по q из ограниченного класса - это именно m-проекция.

В вариационном выводе минимизируется KL(q(z) || p(z|x)) по q из класса факторизованных распределений. Это:

EM-алгоритм: геометрия чередующихся проекций

EM-алгоритм для смеси гауссиан сходится - но почему? Классическое доказательство через нижнюю оценку ELBO. Геометрическое доказательство: E-шаг и M-шаг - это чередующиеся m- и e-проекции, и питагорова теорема гарантирует монотонное убывание KL.

E-шаг: фиксируем theta, обновляем распределение на латентных переменных q(z) = p(z|x, theta). Это m-проекция полного распределения p(x, z; theta) на многообразие, согласованное с наблюдаемыми x. M-шаг: фиксируем q(z), максимизируем ожидание log-likelihood. Это e-проекция на многообразие допустимых theta.

Монотонность EM: питагорова теорема гарантирует KL(q || p_new) <= KL(q || p_old) после M-шага. Сходимость - только к локальному максимуму, не глобальному. Разные инициализации дают разные решения - это не баг алгоритма, это геометрия невыпуклого многообразия.

Почему log-likelihood монотонно возрастает при каждой итерации EM?

Итоги

e-геодезические: прямые в натуральных параметрах $\theta$; экспоненциальное семейство $p(x;\theta) = \exp(\theta^\top T(x) - A(\theta))$
m-геодезические: прямые в моментах $\eta = \nabla A(\theta)$; смеси распределений
Питагорова теорема: $\mathrm{KL}(P_2 \| P_1) = \mathrm{KL}(P_2 \| P_3) + \mathrm{KL}(P_3 \| P_1)$ при $P_3$ = m-проекция $P_2$ на e-плоское подмногообразие
EM = чередующиеся проекции: E-шаг (m-проекция), M-шаг (e-проекция); монотонность из питагоровой теоремы

Связанные темы

Дуальная геометрия объединяет оптимизацию и статистику:

Дуально плоские многообразия — Основа e/m-структуры
Информационные проекции — e- и m-проекции как основные операции
Natural gradient — Натуральный градиент - градиент в e-геометрии

Вопросы для размышления

В VAE мы минимизируем KL(q(z|x) || p(z|x)). Это e-проекция или m-проекция? Что произойдёт, если поменять порядок аргументов KL?
EM гарантированно сходится к локальному максимуму правдоподобия. Как питагорова теорема KL объясняет монотонность? Когда монотонность нарушается?
Mean-field предполагает факторизацию q(z) = prod q_i(z_i). Это ограничение задаёт e-плоское или m-плоское подмногообразие?

Связанные уроки

ig-05-dual-flat — Дуальная плоская структура - основа для e/m-геодезических
ig-08-info-projection — Проекция на многообразие - ключевой инструмент
ig-14-neural — NTK как метрика в пространстве функций