Информационная геометрия
Геометрия функций потерь в глубоком обучении
Поверхность потерь нейронной сети - не плоское евклидово пространство, а риманово многообразие с метрикой Фишера. Натуральный градиент движется по этой геометрии и сходится принципиально быстрее SGD - но требует обращения матрицы O(d×d) при миллиардах параметров.
- AlphaFold 2 и K-FAC: Google использует K-FAC для обучения AlphaFold 2; послойная кронекеровская аппроксимация снижает стоимость с O((d_in·d_out)^3) до O(d_in^3 + d_out^3)
- ResNet-50 на ImageNet: Martens и Grosse (2015) показали, что K-FAC обучает ResNet-50 в 3.5 раза быстрее SGD с импульсом при равной точности top-5
- TRPO и PPO в RL: ограничение на KL-дивергенс между политиками = ограниченный шаг в метрике Фишера; PPO аппроксимирует это клиппированием отношения вероятностей
- Adam: деление на sqrt(v_t) аппроксимирует диагональ матрицы Фишера - объясняет устойчивость Adam к плохому масштабированию параметров
Предварительные знания
- Натуральный градиент Амари
- Обратное распространение ошибки
- Кронекерово произведение
Натуральный градиент и матрица Фишера нейросетей
Нейронная сеть задаёт семейство распределений {p_θ(y|x)} параметрическое по весам θ. Матрица Фишера F(θ) = E[∇_θ log p_θ · ∇_θ log p_θ^T] - риманова метрика на этом многообразии. При d = 10^8 параметрах F - матрица 10^8 × 10^8; прямое обращение невозможно. Практические алгоритмы используют структурные аппроксимации, из которых K-FAC наиболее обоснован геометрически.
Практически важна дэмпинг-регуляризация K-FAC: инвертируется (A_l + λI)^{−1} ⊗ (G_l + λI)^{−1} вместо (A_l ⊗ G_l)^{−1}. Параметр λ управляет доверием к аппроксимации Фишера и аналогичен регуляризации в методах второго порядка.
Почему натуральный градиент инвариантен к репараметризации сети?
F(θ) - метрический тензор статистического многообразия. При репараметризации θ = g(φ) тензор преобразуется как F_φ = J^T F_θ J, где J = ∂g/∂φ. Тогда F_φ^{−1}∇_φ L = J^{−T} F_θ^{−1} ∇_θ L - то же направление в пространстве распределений.
Топология поверхности потерь и связь с обобщением
Поверхность потерь нейросети в пространстве параметров имеет сложную топологию: седловые точки, плоские минимумы, острые минимумы. Геометрические свойства окрестности оптимума влияют на обобщающую способность модели - плоские минимумы обобщают лучше острых. Кривизна поверхности потерь описывается гессианом функции потерь, который тесно связан с матрицей Фишера в окрестности оптимума.
Режим большого шага в SGD (large-batch обучение) страдает от «острых минимумов» - эффект, известный как Generalization Gap. K-FAC с правильно выбранной регуляризацией обходит эту проблему, так как явно аппроксимирует кривизну и адаптирует шаг к геометрии. Google показал, что K-FAC в сочетании с большими батчами сохраняет обобщаемость там, где SGD деградирует.
Почему в окрестности оптимума MLE гессиан функции потерь ≈ матрица Фишера?
Тождество Бартлетта: −E[∇² log p(x|θ)] = E[∇log p · ∇log p^T] = F(θ). Это точное тождество при любом θ. В окрестности MLE градиент правдоподобия мал, и гессиан функции потерь сходится к F(θ) по степенному закону. Именно поэтому K-FAC - одновременно аппроксимация и натурального градиента, и кривизны потерь.
Риманова геометрия пространства нейросетевых распределений
Параметрическое семейство распределений нейросети {p_θ(y|x)} образует риманово подмногообразие в пространстве всех распределений P(Y|X). Метрика Фишера-Рао придаёт этому многообразию структуру, где расстояния измеряются в «информационных» единицах - отличие двух распределений определяется точностью различения, а не евклидовым расстоянием параметров.
Плохая обусловленность матрицы Фишера (κ >> 1) объясняет «zig-zag» поведение SGD в узких оврагах функции потерь. Натуральный градиент устраняет проблему, нормируя шаг по всем направлениям одновременно. Именно поэтому K-FAC особенно эффективен для глубоких сетей с плохо обусловленными слоями (например, начало обучения или recurrent-архитектуры).
Что означает плохое число обусловленности κ матрицы Фишера для обучения нейросети?
При κ = λ_max/λ_min >> 1 матрица Фишера имеет сильно различающиеся масштабы по разным направлениям. SGD движется зигзагом: шаг в одном направлении слишком большой, в другом - слишком малый. Натуральный градиент F^{-1}∇L нормирует все направления, превращая «овраг» в сферу. Число итераций сходимости: O(κ) для GD, O(1) для натурального градиента.
Связи с другими темами
Информационная геометрия пространства параметров нейросети объединяет оптимизацию, информационную теорию и дифференциальную геометрию.
- Метод Ньютона — Связанная тема
- TRPO/PPO — Связанная тема
- Квантовый натуральный градиент — Связанная тема
Итоги
- F(θ) = E[∇log p · ∇log p^T]: риманова метрика d×d на многообразии распределений нейросети
- Натуральный градиент θ_{t+1} = θ_t − η F^{−1}∇L: инвариантен к репараметризации, сходится быстрее SGD
- K-FAC: F_l ≈ A_l ⊗ G_l; обращение за O(d_in^3 + d_out^3) вместо O((d_in·d_out)^3)
- Adam ≈ диагональный F^{−1}: делит на sqrt(EMA квадратов градиентов)
- TRPO: ограничение на KL = ограниченный шаг в метрике Фишера - монотонное улучшение политики