Информационная геометрия
e-связи и m-связи: геометрия семейства распределений
В 1982 году Амари доказал, что на пространстве гауссовских распределений можно ввести две несовместимые прямолинейные геометрии - e и m. EM-алгоритм, которым обучают 90% смешанных моделей в промышленности, оказался чередованием двух проекций в этих геометриях.
- Google DeepMind использует натуральный градиент (K-FAC) с e-кривизной для обучения больших языковых моделей - это прямое приложение теории e/m-связей к реальным нейросетям.
Экспоненциальная (e) связь
В 1982 году Шун-Ичи Амари доказал, что на статистическом многообразии существуют два канонических аффинных связи - экспоненциальная (+1) и смешанная (−1). Вместе они образуют дуально-плоскую структуру, которая объясняет, почему EM-алгоритм сходится без выхода за пределы многообразия. В нейронных сетях 2024 года оптимизаторы K-FAC используют именно e-кривизну для предобуславливания градиента.
Для экспоненциального семейства e-геодезическая между двумя распределениями p и q - это...
Геометрия EM-алгоритма
EM-алгоритм (Dempster, Laird, Rubin, 1977) делает два поочерёдных шага. Амари показал в 1995 году: E-шаг - это m-проекция на подмножество распределений с фиксированными латентными достаточными статистиками; M-шаг - e-проекция на параметрическое семейство. Сходимость гарантирована теоремой Пифагора для KL.
E-шаг EM-алгоритма геометрически соответствует...
Ключевые результаты
- e-связь (+1) имеет прямые геодезические в экспоненциальных координатах eta.
- m-связь (−1) имеет прямые геодезические в моментных координатах mu.
- Пифагорова теорема KL гарантирует монотонный рост правдоподобия в EM.
- E-шаг = m-проекция, M-шаг = e-проекция.