Информационная геометрия

e-связи и m-связи: геометрия семейства распределений

В 1982 году Амари доказал, что на пространстве гауссовских распределений можно ввести две несовместимые прямолинейные геометрии - e и m. EM-алгоритм, которым обучают 90% смешанных моделей в промышленности, оказался чередованием двух проекций в этих геометриях.

Google DeepMind использует натуральный градиент (K-FAC) с e-кривизной для обучения больших языковых моделей - это прямое приложение теории e/m-связей к реальным нейросетям.

Экспоненциальная (e) связь

В 1982 году Шун-Ичи Амари доказал, что на статистическом многообразии существуют два канонических аффинных связи - экспоненциальная (+1) и смешанная (−1). Вместе они образуют дуально-плоскую структуру, которая объясняет, почему EM-алгоритм сходится без выхода за пределы многообразия. В нейронных сетях 2024 года оптимизаторы K-FAC используют именно e-кривизну для предобуславливания градиента.

Для экспоненциального семейства e-геодезическая между двумя распределениями p и q - это...

Геометрия EM-алгоритма

EM-алгоритм (Dempster, Laird, Rubin, 1977) делает два поочерёдных шага. Амари показал в 1995 году: E-шаг - это m-проекция на подмножество распределений с фиксированными латентными достаточными статистиками; M-шаг - e-проекция на параметрическое семейство. Сходимость гарантирована теоремой Пифагора для KL.

E-шаг EM-алгоритма геометрически соответствует...

Ключевые результаты

e-связь (+1) имеет прямые геодезические в экспоненциальных координатах eta.
m-связь (−1) имеет прямые геодезические в моментных координатах mu.
Пифагорова теорема KL гарантирует монотонный рост правдоподобия в EM.
E-шаг = m-проекция, M-шаг = e-проекция.

Экспоненциальная (e) связь

Для экспоненциального семейства e-геодезическая между двумя распределениями p и q - это...

Геометрия EM-алгоритма

E-шаг EM-алгоритма геометрически соответствует...

Ключевые результаты

e-связь (+1) имеет прямые геодезические в экспоненциальных координатах eta.

m-связь (−1) имеет прямые геодезические в моментных координатах mu.

Пифагорова теорема KL гарантирует монотонный рост правдоподобия в EM.

E-шаг = m-проекция, M-шаг = e-проекция.