Теория информации
Информационная геометрия и матрица Фишера
Adam optimizer использует неявную аппроксимацию натурального градиента - геометрию пространства вероятностных моделей. TRPO делает это явно и обучает стабильные RL политики. K-FAC экономит миллионы долларов при обучении больших моделей. За этим стоит матрица Фишера - правильная метрика на пространстве распределений.
- TRPO/PPO: натуральный градиент с KL-ограничением - стандарт обучения RL (OpenAI, DeepMind, Anthropic RLHF)
- K-FAC: Kronecker-аппроксимация F(theta)^{-1}; ускоряет обучение ResNet-50 в 2.5x по сравнению с Adam
- Adam как diagonal natgrad: F(theta)^{-1} grad ≈ grad/sqrt(E[g^2]) - именно это вычисляет Adam
Предварительные знания
Пространство распределений - не плоское
Adam optimizer использует неявную аппроксимацию натурального градиента - геометрию пространства вероятностных моделей. TRPO в reinforcement learning явно использует метрику Фишера для безопасного обновления политики. За этими алгоритмами стоит одна идея: параметры нейросети не живут в плоском евклидовом пространстве - они задают распределения, и пространство распределений искривлено.
Все нормальные распределения N(mu, sigma^2) образуют 2D пространство параметров. Евклидово расстояние |(mu1, sigma1) - (mu2, sigma2)| плохо отражает «похожесть» распределений: N(0, 0.01) и N(1, 0.01) разделены KL ≈ 5000 бит, а N(0, 100) и N(1, 100) - KL ≈ 0.005 бит, хотя евклидово расстояние по mu одинаково = 1.
Статистическое многообразие: пространство параметрических распределений {p(x; theta)} с риманновой метрикой, заданной матрицей Фишера. Амари разработал эту теорию в 1980-х; с 2010-х она активно используется в ML через натуральный градиент.
Почему евклидово расстояние в пространстве параметров (mu, sigma) плохо отражает близость двух нормальных распределений?
Матрица Фишера: правильная метрика на распределениях
Матрица Фишера - это вторая производная KL-дивергенции по параметрам. Это делает её канонической риманновой метрикой на пространстве распределений: инвариантной к перепараметризации. Малое изменение theta на dt вызывает информационное расстояние dt^T F(theta) dt.
Fisher информация Bernoulli(p) максимальна при p -> 0 и p -> 1, минимальна при p = 0.5 - противоположно Shannon энтропии! Это не случайность: большая Fisher = распределение чувствительно к параметру, легко оценить theta. Большая Shannon = много неопределённости.
Fisher информация Bernoulli(p) = 1/(p*(1-p)). Вычислите при p=0.1 и p=0.5. Что означает разница?
Неравенство Крамера-Рао: нижняя граница точности
Матрица Фишера задаёт фундаментальный предел: дисперсия любой несмещённой оценки theta не может быть меньше 1/F(theta). MLE при n -> inf достигает этой границы (эффективная оценка). Это один из важнейших результатов математической статистики.
Граница Крамера-Рао используется в: 1) Проектировании радаров и GPS (точность определения позиции). 2) Квантовой метрологии (квантовая граница Фишера). 3) Нейронных оценщиках (как оценить, «исчерпаны ли» данные).
Для N(mu, 1) с n=100 наблюдениями граница Крамера-Рао = 1/(n*F(mu)) = 1/100 = 0.01. MLE = выборочное среднее. Проверьте: Var(x_bar) = sigma^2/n = 1/100 = 0.01. Что это доказывает?
Натуральный градиент: оптимизация в пространстве распределений
Обычный градиентный спуск: theta = theta - lr * grad L(theta). Шаги равные в евклидовой метрике. Натуральный градиент: theta = theta - lr * F(theta)^{-1} * grad L(theta). Шаги равные в метрике Фишера - по информационному расстоянию между распределениями.
TRPO (Trust Region Policy Optimization): ограничение KL(pi_old || pi_new) <= delta - это ограничение шага в метрике Фишера. Нейросеть политики задаёт распределение действий p(a|s; theta). Натуральный градиент по theta в метрике Фишера гарантирует, что политика меняется на контролируемое количество в пространстве распределений - ключ к стабильному обучению RL.
K-FAC (Kronecker-Factored Approximate Curvature) - production-аппроксимация F(theta)^{-1} для нейросетей. Используется при обучении AlphaFold, частично при Gemini. Adam - диагональная аппроксимация F^{-1}: делит на sqrt(E[g^2]) ≈ diagonal Fisher.
Натуральный градиент инвариантен к перепараметризации. Что это означает: если заменить theta на phi = 2*theta, что изменится в обновлении натурального градиента?
Ключевые идеи
- Статистическое многообразие: {p(x;theta)} с риманновой метрикой Фишера
- Fisher matrix: F(theta)_ij = E[(d log p/d theta_i)(d log p/d theta_j)] = -E[d^2 log p / d theta_i d theta_j]
- Граница Крамера-Рао: Var(theta_hat) >= 1/(n*F); MLE достигает при n -> inf
- Натуральный градиент: theta = theta - lr * F^{-1} * grad L - инвариантен к перепараметризации
- TRPO: ограничение KL(pi_old || pi_new) <= delta = ограничение шага в метрике Фишера
- Adam = diagonal natural gradient: grad / sqrt(E[g^2]) ≈ F^{-1} grad
Связанные темы
Информационная геометрия связывает теорию информации с ML:
- KL-дивергенция — F(theta) = вторая производная KL; геометрическая основа
- IG в deep learning — K-FAC, NTK, loss landscape через F(theta)
- Natural gradient — Теоретическая основа K-FAC, TRPO, Shampoo
Вопросы для размышления
- Adam делит градиент на sqrt(v_t) ≈ sqrt(E[g^2]). Это diagonal F^{-1/2} или F^{-1}? Что теряется по сравнению с точным натуральным градиентом?
- Граница Крамера-Рао достигается MLE при n -> inf. При малых n MLE неэффективна. Какие оценки могут иметь меньшую дисперсию при малых n (допуская смещённость)?
- TRPO ограничивает KL(pi_old || pi_new) <= delta. Почему KL, а не евклидово расстояние между параметрами? Что принципиально меняется?