Информационная геометрия

Статистические многообразия и матрица Фишера

Google Brain использует информационную геометрию для натурального градиента (K-FAC): ускорение обучения ResNet-50 в 4× по сравнению с SGD. Ключ - рассматривать пространство распределений как риманново многообразие, где матрица Фишера задаёт метрику.

K-FAC (Martens & Grosse, 2015): 4× ускорение ResNet-50 через натуральный градиент
Amari (1998): натуральный градиент сходится за O(1) шагов вблизи седловых точек против O(κ) для SGD
Geodesics на статистическом многообразии = оптимальные пути обновления параметров

Статистическое многообразие

Google Brain ускорил ResNet-50 в 4× - не новой архитектурой, а правильной геометрией. Пространство всех нормальных распределений N(μ,σ²) - не плоская плоскость, а двумерное риманново многообразие. Кратчайший путь между N(0,1) и N(5,4) - не прямая в (μ,σ)-координатах, а геодезическая на этом искривлённом пространстве.

Матрица Фишера всегда положительно полуопределена - это гарантирует корректность риманновой метрики. Для строгой положительной определённости нужна идентифицируемость модели.

Что измеряет матрица Фишера I(θ) в контексте статистического многообразия?

Натуральный градиент: градиент в метрике Фишера

Обычный градиент ∇L зависит от параметризации: перейди от θ к φ=2θ - и градиент изменится вдвое, хотя геометрия задачи та же. Натуральный градиент I(θ)⁻¹∇L инвариантен к репараметризации - он живёт в правильной геометрии пространства распределений.

TRPO и PPO в reinforcement learning - прямые следствия натурального градиента: trust region ограничивает KL-шаг, что эквивалентно натуральному градиенту с ограничением на ε.

Почему натуральный градиент инвариантен к репараметризации, а обычный - нет?

Экспоненциальные семейства на многообразиях

Экспоненциальные семейства - самый богатый класс статистических многообразий. Гауссово, Бернулли, Пуассон, Дирихле - все exponential families. Их геометрия особенная: они одновременно e-плоские (в θ-параметрах) и m-плоские (в η=E[T(x)] параметрах), что создаёт двойственную структуру Амари.

Преобразование Лежандра между θ и η - геометрическая дуальность Амари (e/m). Это основа алгоритма EM: E-шаг - m-проекция, M-шаг - e-проекция.

В exponential family p(x;θ)=h(x)exp(θ·T(x)−A(θ)): чему равна матрица Фишера I(θ)?

Итоги

Статистическое многообразие: M = {p(x;θ) | θ ∈ Θ} с метрикой g_{ij}(θ) = I_{ij}(θ)
Score function: s(θ) = ∂log p/∂θ; E[s] = 0; I(θ) = E[ss^T] = -E[∂²log p/∂θ²]
Натуральный градиент: θ ← θ − α·I(θ)⁻¹∇L - инвариантен к репараметризации
Exponential family: p(x;θ) = h(x)exp(θ·T(x)−A(θ)); I(θ) = ∇²A(θ)

Вопросы для размышления

Почему матрица Фишера задаёт корректную риманнову метрику на пространстве распределений?
В каком смысле натуральный градиент инвариантен к репараметризации, а обычный - нет?
Как геодезические на статистическом многообразии связаны с оптимальным обновлением параметров?

Связанные уроки

ig-07-natural-gradient — ig-18 - геометрическое обоснование натурального градиента
ig-03-exp-family — Экспоненциальные семейства - главный пример статистического многообразия

Статистическое многообразие

Что измеряет матрица Фишера I(θ) в контексте статистического многообразия?

Натуральный градиент: градиент в метрике Фишера

Почему натуральный градиент инвариантен к репараметризации, а обычный - нет?

Экспоненциальные семейства на многообразиях

В exponential family p(x;θ)=h(x)exp(θ·T(x)−A(θ)): чему равна матрица Фишера I(θ)?

Итоги

Статистическое многообразие: M = {p(x;θ) | θ ∈ Θ} с метрикой g_{ij}(θ) = I_{ij}(θ)

Score function: s(θ) = ∂log p/∂θ; E[s] = 0; I(θ) = E[ss^T] = -E[∂²log p/∂θ²]

Натуральный градиент: θ ← θ − α·I(θ)⁻¹∇L - инвариантен к репараметризации

Exponential family: p(x;θ) = h(x)exp(θ·T(x)−A(θ)); I(θ) = ∇²A(θ)