Информационная геометрия

Геометрия функций потерь в глубоком обучении

Поверхность потерь нейронной сети - не плоское евклидово пространство, а риманово многообразие с метрикой Фишера. Натуральный градиент движется по этой геометрии и сходится принципиально быстрее SGD - но требует обращения матрицы O(d×d) при миллиардах параметров.

AlphaFold 2 и K-FAC: Google использует K-FAC для обучения AlphaFold 2; послойная кронекеровская аппроксимация снижает стоимость с O((d_in·d_out)^3) до O(d_in^3 + d_out^3)
ResNet-50 на ImageNet: Martens и Grosse (2015) показали, что K-FAC обучает ResNet-50 в 3.5 раза быстрее SGD с импульсом при равной точности top-5
TRPO и PPO в RL: ограничение на KL-дивергенс между политиками = ограниченный шаг в метрике Фишера; PPO аппроксимирует это клиппированием отношения вероятностей
Adam: деление на sqrt(v_t) аппроксимирует диагональ матрицы Фишера - объясняет устойчивость Adam к плохому масштабированию параметров

Предварительные знания

Натуральный градиент Амари
Обратное распространение ошибки
Кронекерово произведение

Натуральный градиент и матрица Фишера нейросетей

Нейронная сеть задаёт семейство распределений {p_θ(y|x)} параметрическое по весам θ. Матрица Фишера F(θ) = E[∇_θ log p_θ · ∇_θ log p_θ^T] - риманова метрика на этом многообразии. При d = 10^8 параметрах F - матрица 10^8 × 10^8; прямое обращение невозможно. Практические алгоритмы используют структурные аппроксимации, из которых K-FAC наиболее обоснован геометрически.

Практически важна дэмпинг-регуляризация K-FAC: инвертируется (A_l + λI)^{−1} ⊗ (G_l + λI)^{−1} вместо (A_l ⊗ G_l)^{−1}. Параметр λ управляет доверием к аппроксимации Фишера и аналогичен регуляризации в методах второго порядка.

Почему натуральный градиент инвариантен к репараметризации сети?

F(θ) - метрический тензор статистического многообразия. При репараметризации θ = g(φ) тензор преобразуется как F_φ = J^T F_θ J, где J = ∂g/∂φ. Тогда F_φ^{−1}∇_φ L = J^{−T} F_θ^{−1} ∇_θ L - то же направление в пространстве распределений.

Топология поверхности потерь и связь с обобщением

Поверхность потерь нейросети в пространстве параметров имеет сложную топологию: седловые точки, плоские минимумы, острые минимумы. Геометрические свойства окрестности оптимума влияют на обобщающую способность модели - плоские минимумы обобщают лучше острых. Кривизна поверхности потерь описывается гессианом функции потерь, который тесно связан с матрицей Фишера в окрестности оптимума.

Режим большого шага в SGD (large-batch обучение) страдает от «острых минимумов» - эффект, известный как Generalization Gap. K-FAC с правильно выбранной регуляризацией обходит эту проблему, так как явно аппроксимирует кривизну и адаптирует шаг к геометрии. Google показал, что K-FAC в сочетании с большими батчами сохраняет обобщаемость там, где SGD деградирует.

Почему в окрестности оптимума MLE гессиан функции потерь ≈ матрица Фишера?

Тождество Бартлетта: −E[∇² log p(x|θ)] = E[∇log p · ∇log p^T] = F(θ). Это точное тождество при любом θ. В окрестности MLE градиент правдоподобия мал, и гессиан функции потерь сходится к F(θ) по степенному закону. Именно поэтому K-FAC - одновременно аппроксимация и натурального градиента, и кривизны потерь.

Риманова геометрия пространства нейросетевых распределений

Параметрическое семейство распределений нейросети {p_θ(y|x)} образует риманово подмногообразие в пространстве всех распределений P(Y|X). Метрика Фишера-Рао придаёт этому многообразию структуру, где расстояния измеряются в «информационных» единицах - отличие двух распределений определяется точностью различения, а не евклидовым расстоянием параметров.

Плохая обусловленность матрицы Фишера (κ >> 1) объясняет «zig-zag» поведение SGD в узких оврагах функции потерь. Натуральный градиент устраняет проблему, нормируя шаг по всем направлениям одновременно. Именно поэтому K-FAC особенно эффективен для глубоких сетей с плохо обусловленными слоями (например, начало обучения или recurrent-архитектуры).

Что означает плохое число обусловленности κ матрицы Фишера для обучения нейросети?

При κ = λ_max/λ_min >> 1 матрица Фишера имеет сильно различающиеся масштабы по разным направлениям. SGD движется зигзагом: шаг в одном направлении слишком большой, в другом - слишком малый. Натуральный градиент F^{-1}∇L нормирует все направления, превращая «овраг» в сферу. Число итераций сходимости: O(κ) для GD, O(1) для натурального градиента.

Связи с другими темами

Информационная геометрия пространства параметров нейросети объединяет оптимизацию, информационную теорию и дифференциальную геометрию.

Метод Ньютона — Связанная тема
TRPO/PPO — Связанная тема
Квантовый натуральный градиент — Связанная тема

Итоги

F(θ) = E[∇log p · ∇log p^T]: риманова метрика d×d на многообразии распределений нейросети
Натуральный градиент θ_{t+1} = θ_t − η F^{−1}∇L: инвариантен к репараметризации, сходится быстрее SGD
K-FAC: F_l ≈ A_l ⊗ G_l; обращение за O(d_in^3 + d_out^3) вместо O((d_in·d_out)^3)
Adam ≈ диагональный F^{−1}: делит на sqrt(EMA квадратов градиентов)
TRPO: ограничение на KL = ограниченный шаг в метрике Фишера - монотонное улучшение политики

Натуральный градиент и матрица Фишера нейросетей

Почему натуральный градиент инвариантен к репараметризации сети?

Топология поверхности потерь и связь с обобщением

Почему в окрестности оптимума MLE гессиан функции потерь ≈ матрица Фишера?

Риманова геометрия пространства нейросетевых распределений

Что означает плохое число обусловленности κ матрицы Фишера для обучения нейросети?

Итоги

F(θ) = E[∇log p · ∇log p^T]: риманова метрика d×d на многообразии распределений нейросети

Натуральный градиент θ_{t+1} = θ_t − η F^{−1}∇L: инвариантен к репараметризации, сходится быстрее SGD

K-FAC: F_l ≈ A_l ⊗ G_l; обращение за O(d_in^3 + d_out^3) вместо O((d_in·d_out)^3)

Adam ≈ диагональный F^{−1}: делит на sqrt(EMA квадратов градиентов)

TRPO: ограничение на KL = ограниченный шаг в метрике Фишера - монотонное улучшение политики