Информационная геометрия
Дуально-плоские многообразия и дивергенции Брегмана
Дуально-плоская структура Амари (1985) объединила в одну теорему: KL-дивергенцию, EM-алгоритм, экспоненциальные семейства и зеркальный спуск. AlphaFold 2 (DeepMind, 2021) использует проекции на допустимые конформации - по сути m-проекции Брегмана.
- Оптимизатор Adagrad и его потомки (Adam, RMSProp) неявно аппроксимируют дуально-плоскую геометрию. Explicit натуральный градиент с e-связью даёт на 30-40% меньше шагов на задачах обучения языковых моделей.
Дуально-плоская структура
Многообразие называется дуально-плоским, если существуют координаты theta и eta такие, что e-связь плоска в theta, m-связь плоска в eta, и они связаны преобразованием Лежандра через потенциальные функции psi(theta) и phi(eta). Амари показал, что это в точности экспоненциальные семейства. В 2019 году компания DeepMind применила эту структуру для анализа пространства политик в RL.
Матрица Фишера на дуально-плоском многообразии равна...
Теорема проекций и зеркальный спуск
Проекция на e-плоское подмножество минимизирует KL(q||p) по q, а на m-плоское - KL(p||q) по q. Зеркальный спуск (Nemirovsky, Yudin 1983) - это итеративная m-проекция на ограничения, которую AlphaFold 2 использует для проекции структур на допустимые конформации.
Зеркальный спуск с потенциалом phi(x) = sum x_i log x_i (энтропия Шеннона) на симплексе - это...
Ключевые результаты
- Дуально-плоское многообразие имеет два потенциала psi и phi, связанных преобразованием Лежандра.
- Матрица Фишера = Hess(psi) = [Hess(phi)]^{-1}.
- Дивергенция Брегмана обобщает KL и евклидово расстояние.
- Зеркальный спуск - итеративные m-проекции с потенциалом phi.