Информационная геометрия

Геодезические на статистических многообразиях

EM-алгоритм сходится монотонно - это было известно с 1977 года. Почему именно - объяснила информационная геометрия Амари в 1985: каждый шаг EM является геодезической проекцией, а монотонность следует из теоремы Пифагора для KL.

EM-алгоритм: E-шаг - m-проекция, M-шаг - e-проекция; теорема Пифагора KL объясняет монотонное возрастание правдоподобия на каждой итерации
Вариационный байесовский вывод: mean-field приближение q(z) = ∏q_i(z_i) - m-проекция истинного апостериорного на многообразие факторизованных распределений
LDA тематические модели: вариационный EM для скрытого распределения Дирихле использует структуру e/m проекций для гарантированной сходимости
Онлайн-обучение: натуральный градиент интерпретируется как дискретизация геодезического потока на статистическом многообразии

Предварительные знания

Экспоненциальные семейства
KL-дивергенс
Аффинные связности

α-Геодезические и теорема Пифагора KL

Статистическое многообразие несёт семейство связностей, параметризованных α ∈ ℝ. При α = +1 - экспоненциальная связность: геодезические прямолинейны в координатах натуральных параметров η. При α = −1 - смешанная связность: геодезические прямолинейны в координатах параметров среднего μ. При α = 0 - связность Леви-Чивита, согласованная с метрикой Фишера. Дуальность α = ±1 порождает теорему Пифагора для KL-дивергенса.

Амари (1985) доказал теорему дуальности: для любой пары дуальных связностей (∇, ∇*) относительно метрики g кривизна ∇ исчезает тогда и только тогда, когда исчезает кривизна ∇*. Для экспоненциальных семейств обе связности α = ±1 плоские - именно это делает теорему Пифагора точной, а не приближённой.

Что означает теорема Пифагора KL в информационной геометрии?

Теорема Пифагора KL: D_KL(p||r) = D_KL(p||q) + D_KL(q||r), если q - m-проекция p на e-плоское подмногообразие, содержащее r. Это геометрическое основание монотонной сходимости EM-алгоритма.

Геометрия вариационного вывода: проекции и ELBO

Вариационный вывод ищет приближение q(z) ≈ p(z|x) из простого семейства Q. Геометрически это задача нахождения ближайшей точки на подмногообразии Q ⊂ P(Z) к истинному апостериорному. Выбор расстояния определяет, какая проекция вычисляется: KL(q||p) - e-проекция, KL(p||q) - m-проекция. Они дают качественно разные аппроксимации.

Рениевская α-дивергенция D_α(p||q) интерполирует между KL(p||q) при α → 1 и KL(q||p) при α → 0. Renyi VI использует α < 1 для получения «среднего» между режимами e- и m-проекций, что полезно при мультимодальных апостериорных.

Как называется поведение аппроксимации q при минимизации KL(q||p) по сравнению с KL(p||q)?

При минимизации KL(q||p) распределение q стремится к нулю везде, где p мало - mode-seeking/zero-forcing. При минимизации KL(p||q) распределение q не может быть нулём там, где p > 0 - mass-covering/zero-avoiding. ELBO использует KL(q||p), поэтому стандартный вариационный вывод даёт mode-seeking поведение.

Расстояния Брегмана и плоскость экспоненциальных семейств

Статистическое многообразие называется e-плоским, если кривизна экспоненциальной связности обращается в нуль, и m-плоским, если обнуляется смешанная кривизна. Экспоненциальные семейства e-плоские и одновременно m-плоские - именно поэтому для них теорема Пифагора точная. Плоскость в дуальной геометрии - это отсутствие «скручивания» пространства, что позволяет однозначно определить геодезические проекции.

Алгоритмы кластеризации на основе расстояний Брегмана обобщают k-means (F = ||·||²/2) и k-means для распределений (F = -H). Центроид в алгоритме Брегман-k-means - это m-проекция кластера, что гарантирует сходимость через обобщённую теорему Пифагора.

Каким геометрическим объектом является оценка MLE в информационной геометрии?

MLE минимизирует KL(p_data||p_θ) по θ, что геометрически есть e-проекция эмпирического распределения на параметрическое семейство. Это прямое следствие плоскости экспоненциальных семейств в экспоненциальной геометрии.

Связи с другими темами

Двойственная структура α-связностей пронизывает всю статистику и машинное обучение.

EM-алгоритм — Связанная тема
Вариационный вывод — Связанная тема
Расстояния Брегмана — Связанная тема

Итоги

α-связности: однопараметрическое семейство аффинных структур; α = ±1 - дуальная пара, α = 0 - Леви-Чивита
e-геодезические (α = +1): нормированные геометрические смеси, прямые в η-пространстве
m-геодезические (α = −1): обычные выпуклые смеси, прямые в μ-пространстве
Теорема Пифагора KL: D_KL(p||r) = D_KL(p||q) + D_KL(q||r) при ортогональном пересечении геодезических
EM: E-шаг = m-проекция, M-шаг = e-проекция; монотонность - следствие теоремы Пифагора

α-Геодезические и теорема Пифагора KL

Что означает теорема Пифагора KL в информационной геометрии?

Геометрия вариационного вывода: проекции и ELBO

Как называется поведение аппроксимации q при минимизации KL(q||p) по сравнению с KL(p||q)?

Расстояния Брегмана и плоскость экспоненциальных семейств

Каким геометрическим объектом является оценка MLE в информационной геометрии?

Итоги

α-связности: однопараметрическое семейство аффинных структур; α = ±1 - дуальная пара, α = 0 - Леви-Чивита

e-геодезические (α = +1): нормированные геометрические смеси, прямые в η-пространстве

m-геодезические (α = −1): обычные выпуклые смеси, прямые в μ-пространстве

Теорема Пифагора KL: D_KL(p||r) = D_KL(p||q) + D_KL(q||r) при ортогональном пересечении геодезических

EM: E-шаг = m-проекция, M-шаг = e-проекция; монотонность - следствие теоремы Пифагора