Дифференциальная геометрия

Информационная геометрия

Натуральный градиент Амари обучает нейронные сети в 10-100 раз быстрее обычного в задачах с комплексной геометрией параметров. Алгоритм EM - геодезическая проекция в статистическом многообразии. Кривизна Фишера объясняет, почему Adam лучше SGD: он адаптируется к локальной геометрии функции потерь.

Натуральный градиент: обучение нейросетей с учётом геометрии Fisher-метрики
EM-алгоритм: перемежающиеся проекции на m- и e-многообразия
Байесовская статистика: апостериорное распределение как точка на статистическом многообразии
Квантовая механика: геометрия пространства состояний, метрика Фубини-Штюди
Теория информации: геодезические = пути минимального KL-дивергенция

Цели урока

Понимать статистическое многообразие как пространство распределений с метрикой Фишера
Вычислять натуральный градиент $G^{-1}\nabla L$ и объяснять его преимущества перед обычным
Интерпретировать EM-алгоритм как чередующиеся геодезические проекции (e- и m-проекции)

Предварительные знания

Информация Фишера и теорема Крамера-Рао
Римановы многообразия: метрический тензор, геодезические
KL-дивергенция и её свойства

Статистические многообразия и метрика Фишера

Семейство параметрических распределений $\{p(x;\theta)\}$ образует статистическое многообразие. Метрика Фишера: $g_{ij}(\theta) = E_{p(x;\theta)}\left[\frac{\partial \log p}{\partial \theta_i}\frac{\partial \log p}{\partial \theta_j}\right]$. Это единственная (с точностью до масштаба) инвариантная под перепараметризацией метрика на многообразии распределений (теорема Чэнцова).

Натуральный градиент

Обычный градиент $\nabla L$ зависит от параметризации. Натуральный градиент $\tilde{\nabla} L = G(\theta)^{-1} \nabla L$ инвариантен под перепараметризацией: он перемещается вдоль кратчайшего (геодезического) пути в пространстве распределений. Обновление: $\theta \leftarrow \theta - \alpha G^{-1} \nabla L$. Для диагональной аппроксимации $G$ это $\approx$ Adam.

EM как геодезические проекции

Информационная геометрия различает два типа связностей: e-связность (экспоненциальная) и m-связность (смешанная). EM-алгоритм: E-шаг - e-проекция текущей оценки на многообразие $\{q: q(z) = p(z|x,\theta)\}$; M-шаг - m-проекция (максимизация ожидаемого логарифма правдоподобия) назад на параметрическое семейство. Сходимость - следствие монотонного убывания KL.

Статистическое многообразие: распределения как точки

Natural gradient в K-FAC (Google Brain, 2015) и Adam-W ускоряет обучение трансформеров в 2-5 раз по сравнению с SGD. Идея: градиентный спуск на правильной метрике сходится быстрее. Правильная метрика для пространства распределений - метрика Фишера. Это геометрия, которая стоит за каждым шагом обновления параметров нейросети.

Softmax в нейросети - это параметрическое семейство категориальных распределений. Пространство логитов - статистическое многообразие. Именно поэтому label smoothing, температура, KL-дивергенция как loss - всё это геометрия этого многообразия.

Что является точкой статистического многообразия?

В информационной геометрии статистическое многообразие - пространство параметрических распределений. Каждой точке (theta) соответствует одно конкретное распределение p(x;theta). Кривые и расстояния на этом многообразии описывают отношения между распределениями.

Метрика Фишера: расстояние между распределениями

Матрица Фишера - единственная (с точностью до скаляра) риманова метрика на семействе распределений, инвариантная относительно перепараметризации (теорема Чэнцова, 1972). Для гауссовых распределений метрика Фишера - это метрика Пуанкаре на верхней полуплоскости, с постоянной кривизной -1/2.

Граница Крамера-Рао: дисперсия несмещённой оценки Var(theta_hat) >= G^{-1}(theta). Обратная матрица Фишера - нижняя граница дисперсии. MLE (maximum likelihood) достигает этой границы при n -> inf - это оптимальный оценщик.

Что измеряет матрица Фишера g_ij(theta)?

Матрица Фишера g_ij(theta) = E[d_i log p * d_j log p] задаёт метрику Фишера-Рао. Квадрат расстояния между p_theta и p_{theta+dtheta} по этой метрике совпадает с 2*KL в инфинитезимальном приближении.

Натуральный градиент: спуск в правильной метрике

Amari (1998): обычный градиент зависит от параметризации. Перепараметризуйте theta -> phi = 2*theta - и «направление» спуска изменится, хотя оптимизируемая задача та же. Натуральный градиент G^{-1} * grad_L инвариантен: движение идёт по кратчайшей геодезической в пространстве распределений.

Метод	Аппроксимация G^{-1}	Сложность/шаг	Применение
Натуральный SGD	Точный G^{-1}	O(p^3)	Маленькие модели, RL (TRPO)
K-FAC	Кронекеровская факторизация	O(p*sqrt(p))	Большие DNN, Google Brain
Adam	Диагональ H^{-1} (не Фишера)	O(p)	BERT, GPT, стандарт
Shampoo	Полная блок-структура	O(p^{4/3})	Google LLM training (2023)

Почему натуральный градиент инвариантен к перепараметризации, а обычный - нет?

Обычный градиент определяется в евклидовой метрике R^n, меняющейся при нелинейной замене параметров. Метрика Фишера - единственная (теорема Чэнцова) инвариантная к достаточным статистикам. Натуральный градиент G^{-1}*grad L наследует эту инвариантность.

α-связности и EM-алгоритм как геодезики

Amari ввёл семейство связностей nabla^(alpha) на статистическом многообразии. EM-алгоритм геометрически - чередование двух проекций: E-шаг = m-проекция (alpha=-1), M-шаг = e-проекция (alpha=+1). Пифагорова теорема для KL-дивергенции объясняет, почему EM сходится монотонно.

Variational Inference (ELBO-оптимизация в VAE): ELBO = E_q[log p(x,z)] - E_q[log q(z)]. Максимизация ELBO = минимизация KL(q||p). В информационной геометрии: это e-проекция p на вариационное семейство q. IWAE, NVAE, Flow-based VAE - улучшения этой геометрической процедуры.

Что такое E-шаг EM-алгоритма с точки зрения информационной геометрии?

E-шаг вычисляет апостериорное p(z|x,theta) - это m-проекция текущей оценки theta на подмногообразие полных данных. m-проекция минимизирует KL(p||q) и геометрически соответствует ближайшей точке на m-плоской поверхности.

Натуральный градиент для гауссовой модели

Для $p(x;\mu,\sigma^2) = \mathcal{N}(\mu,\sigma^2)$: $G = \begin{pmatrix} 1/\sigma^2 & 0 \\ 0 & 2/\sigma^4 \end{pmatrix}$. Натуральный градиент: $G^{-1}\nabla L = \begin{pmatrix} \sigma^2 & 0 \\ 0 & \sigma^4/2 \end{pmatrix}\nabla L$. Адаптация шага: масштабирование отдельно для $\mu$ и $\sigma$.

Итоги

Метрика Фишера $g_{ij} = E[\partial_i \log p \cdot \partial_j \log p]$ - единственная инвариантная под перепараметризацией метрика на распределениях
Натуральный градиент $G^{-1}\nabla L$: инвариантен, перемещается геодезически, Adam - его диагональная аппроксимация
EM = чередование e- и m-проекций в статистическом многообразии; сходимость через монотонность KL

Связь с другими темами

Информационная геометрия объединяет дифференциальную геометрию, теорию информации и статистику. Альфа-связности Амари ($\alpha = \pm 1$: e- и m-связность, $\alpha = 0$: риманова) порождают семейство дивергенций. В квантовой теории информации: метрика Фубини-Штюди на проективном гильбертовом пространстве.

Связанные темы — развивает

Вопросы для размышления

Почему обычный градиент зависит от параметризации, а натуральный нет? Приведите пример, где они дают разные направления обновления.
Adam использует диагональную аппроксимацию матрицы Фишера. Какую информацию теряет диагональное приближение?
В EM E-шаг вычисляет $q(z) = p(z|x,\theta)$. Почему это называется e-проекцией, а не m-проекцией?

Связанные уроки