Информационная геометрия

Дуально-плоские многообразия и дивергенции Брегмана

Дуально-плоская структура Амари (1985) объединила в одну теорему: KL-дивергенцию, EM-алгоритм, экспоненциальные семейства и зеркальный спуск. AlphaFold 2 (DeepMind, 2021) использует проекции на допустимые конформации - по сути m-проекции Брегмана.

  • Оптимизатор Adagrad и его потомки (Adam, RMSProp) неявно аппроксимируют дуально-плоскую геометрию. Explicit натуральный градиент с e-связью даёт на 30-40% меньше шагов на задачах обучения языковых моделей.

Дуально-плоская структура

Многообразие называется дуально-плоским, если существуют координаты theta и eta такие, что e-связь плоска в theta, m-связь плоска в eta, и они связаны преобразованием Лежандра через потенциальные функции psi(theta) и phi(eta). Амари показал, что это в точности экспоненциальные семейства. В 2019 году компания DeepMind применила эту структуру для анализа пространства политик в RL.

Матрица Фишера на дуально-плоском многообразии равна...

Теорема проекций и зеркальный спуск

Проекция на e-плоское подмножество минимизирует KL(q||p) по q, а на m-плоское - KL(p||q) по q. Зеркальный спуск (Nemirovsky, Yudin 1983) - это итеративная m-проекция на ограничения, которую AlphaFold 2 использует для проекции структур на допустимые конформации.

Зеркальный спуск с потенциалом phi(x) = sum x_i log x_i (энтропия Шеннона) на симплексе - это...

Ключевые результаты

  • Дуально-плоское многообразие имеет два потенциала psi и phi, связанных преобразованием Лежандра.
  • Матрица Фишера = Hess(psi) = [Hess(phi)]^{-1}.
  • Дивергенция Брегмана обобщает KL и евклидово расстояние.
  • Зеркальный спуск - итеративные m-проекции с потенциалом phi.
Дуально-плоские многообразия и дивергенции Брегмана

0

1

Войти