Дифференциальная геометрия
Информационная геометрия
Натуральный градиент Амари обучает нейронные сети в 10-100 раз быстрее обычного в задачах с комплексной геометрией параметров. Алгоритм EM - геодезическая проекция в статистическом многообразии. Кривизна Фишера объясняет, почему Adam лучше SGD: он адаптируется к локальной геометрии функции потерь.
- Натуральный градиент: обучение нейросетей с учётом геометрии Fisher-метрики
- EM-алгоритм: перемежающиеся проекции на m- и e-многообразия
- Байесовская статистика: апостериорное распределение как точка на статистическом многообразии
- Квантовая механика: геометрия пространства состояний, метрика Фубини-Штюди
- Теория информации: геодезические = пути минимального KL-дивергенция
Цели урока
- Понимать статистическое многообразие как пространство распределений с метрикой Фишера
- Вычислять натуральный градиент $G^{-1}\nabla L$ и объяснять его преимущества перед обычным
- Интерпретировать EM-алгоритм как чередующиеся геодезические проекции (e- и m-проекции)
Предварительные знания
- Информация Фишера и теорема Крамера-Рао
- Римановы многообразия: метрический тензор, геодезические
- KL-дивергенция и её свойства
Статистические многообразия и метрика Фишера
Семейство параметрических распределений $\{p(x;\theta)\}$ образует статистическое многообразие. Метрика Фишера: $g_{ij}(\theta) = E_{p(x;\theta)}\left[\frac{\partial \log p}{\partial \theta_i}\frac{\partial \log p}{\partial \theta_j}\right]$. Это единственная (с точностью до масштаба) инвариантная под перепараметризацией метрика на многообразии распределений (теорема Чэнцова).
Натуральный градиент
Обычный градиент $\nabla L$ зависит от параметризации. Натуральный градиент $\tilde{\nabla} L = G(\theta)^{-1} \nabla L$ инвариантен под перепараметризацией: он перемещается вдоль кратчайшего (геодезического) пути в пространстве распределений. Обновление: $\theta \leftarrow \theta - \alpha G^{-1} \nabla L$. Для диагональной аппроксимации $G$ это $\approx$ Adam.
EM как геодезические проекции
Информационная геометрия различает два типа связностей: e-связность (экспоненциальная) и m-связность (смешанная). EM-алгоритм: E-шаг - e-проекция текущей оценки на многообразие $\{q: q(z) = p(z|x,\theta)\}$; M-шаг - m-проекция (максимизация ожидаемого логарифма правдоподобия) назад на параметрическое семейство. Сходимость - следствие монотонного убывания KL.
Статистическое многообразие: распределения как точки
Natural gradient в K-FAC (Google Brain, 2015) и Adam-W ускоряет обучение трансформеров в 2-5 раз по сравнению с SGD. Идея: градиентный спуск на правильной метрике сходится быстрее. Правильная метрика для пространства распределений - метрика Фишера. Это геометрия, которая стоит за каждым шагом обновления параметров нейросети.
Softmax в нейросети - это параметрическое семейство категориальных распределений. Пространство логитов - статистическое многообразие. Именно поэтому label smoothing, температура, KL-дивергенция как loss - всё это геометрия этого многообразия.
Что является точкой статистического многообразия?
В информационной геометрии статистическое многообразие - пространство параметрических распределений. Каждой точке (theta) соответствует одно конкретное распределение p(x;theta). Кривые и расстояния на этом многообразии описывают отношения между распределениями.
Метрика Фишера: расстояние между распределениями
Матрица Фишера - единственная (с точностью до скаляра) риманова метрика на семействе распределений, инвариантная относительно перепараметризации (теорема Чэнцова, 1972). Для гауссовых распределений метрика Фишера - это метрика Пуанкаре на верхней полуплоскости, с постоянной кривизной -1/2.
Граница Крамера-Рао: дисперсия несмещённой оценки Var(theta_hat) >= G^{-1}(theta). Обратная матрица Фишера - нижняя граница дисперсии. MLE (maximum likelihood) достигает этой границы при n -> inf - это оптимальный оценщик.
Что измеряет матрица Фишера g_ij(theta)?
Матрица Фишера g_ij(theta) = E[d_i log p * d_j log p] задаёт метрику Фишера-Рао. Квадрат расстояния между p_theta и p_{theta+dtheta} по этой метрике совпадает с 2*KL в инфинитезимальном приближении.
Натуральный градиент: спуск в правильной метрике
Amari (1998): обычный градиент зависит от параметризации. Перепараметризуйте theta -> phi = 2*theta - и «направление» спуска изменится, хотя оптимизируемая задача та же. Натуральный градиент G^{-1} * grad_L инвариантен: движение идёт по кратчайшей геодезической в пространстве распределений.
| Метод | Аппроксимация G^{-1} | Сложность/шаг | Применение |
|---|---|---|---|
| Натуральный SGD | Точный G^{-1} | O(p^3) | Маленькие модели, RL (TRPO) |
| K-FAC | Кронекеровская факторизация | O(p*sqrt(p)) | Большие DNN, Google Brain |
| Adam | Диагональ H^{-1} (не Фишера) | O(p) | BERT, GPT, стандарт |
| Shampoo | Полная блок-структура | O(p^{4/3}) | Google LLM training (2023) |
Почему натуральный градиент инвариантен к перепараметризации, а обычный - нет?
Обычный градиент определяется в евклидовой метрике R^n, меняющейся при нелинейной замене параметров. Метрика Фишера - единственная (теорема Чэнцова) инвариантная к достаточным статистикам. Натуральный градиент G^{-1}*grad L наследует эту инвариантность.
α-связности и EM-алгоритм как геодезики
Amari ввёл семейство связностей nabla^(alpha) на статистическом многообразии. EM-алгоритм геометрически - чередование двух проекций: E-шаг = m-проекция (alpha=-1), M-шаг = e-проекция (alpha=+1). Пифагорова теорема для KL-дивергенции объясняет, почему EM сходится монотонно.
Variational Inference (ELBO-оптимизация в VAE): ELBO = E_q[log p(x,z)] - E_q[log q(z)]. Максимизация ELBO = минимизация KL(q||p). В информационной геометрии: это e-проекция p на вариационное семейство q. IWAE, NVAE, Flow-based VAE - улучшения этой геометрической процедуры.
Что такое E-шаг EM-алгоритма с точки зрения информационной геометрии?
E-шаг вычисляет апостериорное p(z|x,theta) - это m-проекция текущей оценки theta на подмногообразие полных данных. m-проекция минимизирует KL(p||q) и геометрически соответствует ближайшей точке на m-плоской поверхности.
Натуральный градиент для гауссовой модели
Для $p(x;\mu,\sigma^2) = \mathcal{N}(\mu,\sigma^2)$: $G = \begin{pmatrix} 1/\sigma^2 & 0 \\ 0 & 2/\sigma^4 \end{pmatrix}$. Натуральный градиент: $G^{-1}\nabla L = \begin{pmatrix} \sigma^2 & 0 \\ 0 & \sigma^4/2 \end{pmatrix}\nabla L$. Адаптация шага: масштабирование отдельно для $\mu$ и $\sigma$.
Итоги
- Метрика Фишера $g_{ij} = E[\partial_i \log p \cdot \partial_j \log p]$ - единственная инвариантная под перепараметризацией метрика на распределениях
- Натуральный градиент $G^{-1}\nabla L$: инвариантен, перемещается геодезически, Adam - его диагональная аппроксимация
- EM = чередование e- и m-проекций в статистическом многообразии; сходимость через монотонность KL
Связь с другими темами
Информационная геометрия объединяет дифференциальную геометрию, теорию информации и статистику. Альфа-связности Амари ($\alpha = \pm 1$: e- и m-связность, $\alpha = 0$: риманова) порождают семейство дивергенций. В квантовой теории информации: метрика Фубини-Штюди на проективном гильбертовом пространстве.
- Связанные темы — развивает
Вопросы для размышления
- Почему обычный градиент зависит от параметризации, а натуральный нет? Приведите пример, где они дают разные направления обновления.
- Adam использует диагональную аппроксимацию матрицы Фишера. Какую информацию теряет диагональное приближение?
- В EM E-шаг вычисляет $q(z) = p(z|x,\theta)$. Почему это называется e-проекцией, а не m-проекцией?