Информационная геометрия

Метрика Фишера: единственная разумная метрика на пространстве распределений

В 1972 году советский математик Ченцов доказал: на многообразии вероятностных распределений существует ровно одна метрика, инвариантная к достаточным статистикам. Не 10 возможных, не 3 - ровно одна. Это метрика Фишера. Через 15 лет её заново откроют на Западе. Через 40 - Google Brain введёт её в оптимизаторы для крупных нейросетей. А ещё через 5 - PPO и TRPO в RLHF будут использовать её неявно в каждом шаге обучения. Природа поставила забор для оценщиков ещё в 1945-м. Нейросети учатся в рамках этого забора каждый день.

**Adam и AdamW**: деление градиента на $\sqrt{\hat{v}}$ - диагональная аппроксимация матрицы Фишера. Без Fisher information нет объяснения, почему это работает лучше SGD
**K-FAC (Google Brain, 2015)**: Kronecker-factored аппроксимация Fisher matrix. Даёт 2-5x ускорение конвергенции на крупных моделях по сравнению с Adam. Используется в Google для обучения production-систем
**PPO в RLHF**: KL-дивергенция как constraint в trust region - это шаг в Fisher-Rao метрике. ChatGPT, Claude - оба используют PPO, оба неявно оптимизируют в Fisher-геометрии
**Фильтр Калмана (Tesla Autopilot, GPS навигация)**: ковариационная матрица $P_k$ - это $(\mathcal{I}_k)^{-1}$, нижняя граница Cramér-Rao для оценки состояния. Оптимальный фильтр достигает этой границы

Предварительные знания

Статистические многообразия: распределения как точки геометрии

Fisher information matrix: три эквивалентных лица

**1945 год. Два человека в двух странах публикуют одну и ту же нижнюю границу.** Гаральд Крамер в Швеции, Калиямпуди Рао в Индии - оба получают результат: дисперсия любой несмещённой оценки параметра ограничена снизу. Забором. Природа поставила забор. И ключ к этому забору - матрица Фишера $\mathcal{I}(\theta)$.

Определение: $\mathcal{I}(\theta)_{ij} = \mathbb{E}_{p(x;\theta)}\left[\frac{\partial \log p(x;\theta)}{\partial \theta_i} \cdot \frac{\partial \log p(x;\theta)}{\partial \theta_j}\right]$. Это матрица ковариаций score-функции $\nabla_\theta \log p$. Три эквивалентных способа записать одно и то же:

**Почему три формулы - одно и то же**: из условия $\int p(x;\theta)\, dx = 1$ дифференцированием по $\theta$ получается $\mathbb{E}[\nabla_\theta \log p] = 0$. Тогда дисперсия score = ожидание квадрата = $\mathcal{I}(\theta)$. Второй шаг: дифференцировать ещё раз - и получается минус гессиан. Все три формулы - следствия одного факта о нормировке вероятности.

Fisher information для Гаусса N(μ, σ²)

Аналитический расчёт матрицы 2x2

p(x; μ, σ) = (1/σ√(2π)) exp(-(x-μ)²/(2σ²)) log p = -½log(2π) - log σ - (x-μ)²/(2σ²) Score: ∂log p/∂μ = (x-μ)/σ² ∂log p/∂σ = -1/σ + (x-μ)²/σ³ Fisher matrix I(μ,σ): I₁₁ = E[(x-μ)²/σ⁴] = 1/σ² I₂₂ = E[(-1/σ + (x-μ)²/σ³)²] = 2/σ² I₁₂ = E[(x-μ)/σ² · (-1/σ + (x-μ)²/σ³)] = 0 ← ортогональны! I(μ,σ) = diag(1/σ², 2/σ²) Интерпретация: - При σ=0.1: I₁₁=100, информация о μ огромна (острый пик) - При σ=10: I₁₁=0.01, информация о μ мала (широкий пик) - Метрика плотнее там, где данные информативнее

Adam в PyTorch вычисляет $\hat{v}_t = v_{t-1}\beta_2 + (1-\beta_2)g_t^2$. Это диагональная аппроксимация эмпирической матрицы Фишера. Деление $g_t / \sqrt{\hat{v}_t}$ - нормировка в метрике Фишера по диагонали. Без математики это выглядит как трюк. С математикой - как естественная операция в правильной геометрии.

Fisher information $\mathcal{I}(\theta)$ для Бернулли $p(x;\theta) = \theta^x(1-\theta)^{1-x}$ равна:

Теорема Ченцова: единственность

**1972 год. Новосибирск.** Николай Ченцов публикует книгу «Статистические решающие правила и оптимальные выводы». Внутри - теорема, которую западные математики не заметят ещё 15 лет, пока не появится английский перевод. Теорема говорит: на многообразии вероятностных распределений существует ровно одна риманова метрика, инвариантная к достаточным статистикам.

**Формулировка**: пусть $f: \mathcal{X} \to \mathcal{Y}$ - markov kernel (стохастическое отображение). Метрика $g$ называется монотонной, если для любого markov kernel $f$: $g_{f_*(p)}(f_* u, f_* v) \leq g_p(u, v)$. То есть «проталкивание через канал не увеличивает информацию». Ченцов доказал: единственная такая метрика (с точностью до константы) - матрица Фишера $g_{ij}(\theta) = \mathcal{I}(\theta)_{ij}$.

Это радикальное утверждение. Когда инженер использует Adam, KL-дивергенцию или PPO с KL-constraint - он неявно работает в единственной разумной геометрии на пространстве распределений. Не в одной из многих возможных - в единственной. K-FAC от Google Brain (Martens, 2015) строит блочное приближение именно этой матрицы. Shampoo (Anil, Gupta, 2018) - тензорную факторизацию.

Оптимизатор	Связь с Fisher	Где используется
SGD	Нет - евклидов градиент, игнорирует кривизну	Baseline во всём
Adam / AdamW	Диагональная аппроксимация empirical Fisher	GPT-4, Llama, Stable Diffusion
K-FAC	Kronecker-factored блочная аппроксимация Fisher	Google Brain крупные модели
Shampoo	Тензорная факторизация, обобщение K-FAC	Google TPU пайплайны
TRPO / PPO	KL-constraint = шаг в Fisher-Rao метрике	ChatGPT RLHF, Claude RLHF
Natural Gradient	Точный $\mathcal{I}^{-1}g$ - медленно, но оптимально	Академические прогоны, GP

Теорема Ченцова утверждает, что метрика Фишера единственна в смысле:

Граница Cramér-Rao: природный забор для оценщиков

Матрица Фишера задаёт метрику. Но у неё есть и прямое статистическое значение: она ограничивает точность оценок. **Любая несмещённая оценка параметра $\theta$ имеет дисперсию не менее $\mathcal{I}(\theta)^{-1}$.** Природа поставила фундаментальный предел - и этот предел выражается через Fisher information.

**Cramér-Rao bound (1945)**: для любой несмещённой оценки $\hat\theta$ параметра $\theta$: $\mathrm{Cov}(\hat\theta) \succeq \mathcal{I}(\theta)^{-1}$. В скалярном случае: $\mathrm{Var}(\hat\theta) \geq \frac{1}{\mathcal{I}(\theta)}$. Неравенство $\succeq$ - матричное: разность $\mathrm{Cov}(\hat\theta) - \mathcal{I}^{-1}$ положительно полуопределена.

В инженерии это живёт в фильтре Калмана. Ковариационная матрица ошибки $P_k$ в фильтре Калмана - это оценка $\mathcal{I}^{-1}$ для текущего состояния. Tesla Autopilot, системы навигации GPS, robotics state estimation - везде под капотом Cramér-Rao bound, записанная в виде ковариационной матрицы фильтра.

Система	Cramér-Rao в действии	Эффект
Kalman filter	Ковариация $P_k$ = $(\mathcal{I}_k)^{-1}$ для наблюдений	Оптимальная оценка состояния (MVUE)
MLE в нейросетях	Cross-entropy loss как $-\log p$ - MLE цель	Асимптотически достигает CR bound
CRLB в сенсорах	SNR определяет информацию Фишера	Физический предел точности любого измерения
Variational Inference	ELBO = $-\mathrm{KL}(q\\|p)$ оптимизируется в Fisher-метрике	Natural gradient VI быстрее стандартного Adam
Квантизация моделей	FP8/INT8 снижают Fisher information о весах	Граница точности квантизированной модели

Есть красивая симметрия: Fisher information matrix $\mathcal{I}(\theta)$ - это риманова метрика на многообразии моделей. Cramér-Rao bound $\mathcal{I}^{-1}$ - это нижняя граница дисперсии оценки. Натуральный градиент $\mathcal{I}^{-1} \nabla L$ - правильное направление оптимизации. Один объект - три смысла. В этом и есть красота информационной геометрии.

Fisher information - просто техническая формула, нужная для доказательства Cramér-Rao

Fisher information - это риманова метрика на пространстве распределений. Cramér-Rao bound - одно из её следствий. Натуральный градиент, K-FAC, PPO - другие следствия той же метрики

Понимание Fisher information только через Cramér-Rao - это всё равно что знать матрицу только как способ хранить числа, не зная, что она задаёт линейное преобразование

Fisher information для нормального распределения $N(\mu, \sigma^2)$ по параметру $\mu$ равна $1/\sigma^2$. Что из этого следует по Cramér-Rao?

Что унести из урока

**Fisher matrix $\mathcal{I}(\theta)_{ij} = \mathbb{E}[\partial_i \log p \cdot \partial_j \log p]$**: ковариация score-функции. Три эквивалентных формулы: outer product, минус гессиан, ковариация градиента
**Теорема Ченцова (1972)**: Fisher - единственная монотонная риманова метрика на пространстве распределений. Не один из вариантов - единственный разумный выбор
**Cramér-Rao bound**: $\mathrm{Var}(\hat\theta) \geq \mathcal{I}(\theta)^{-1}$. Природный предел точности любой несмещённой оценки. MLE достигает этой границы асимптотически
**Adam = диагональный Fisher**: $g/\sqrt{v}$ - нормировка в Fisher-метрике по диагонали. K-FAC и Shampoo - блочные приближения. PPO - KL-constraint как шаг в Fisher-Rao метрике
**Kalman filter = Cramér-Rao в реальном времени**: ковариационная матрица ошибки $P_k$ - это обратная Fisher matrix для накопленных наблюдений

Куда дальше

Метрика задана и единственна. Следующий шаг - структуры на многообразии, которые она порождает.

Экспоненциальные семейства — Канонический класс распределений, где Fisher metric имеет особую простоту - dually flat structure
KL и брегмановские дивергенции — KL как инфинитезимальный аналог Fisher metric: $\mathrm{KL}(p_\theta \| p_{\theta+d\theta}) \approx \frac{1}{2} d\theta^T \mathcal{I} d\theta$
Натуральный градиент — Практическое применение Fisher matrix: $\theta \leftarrow \theta - \alpha \mathcal{I}^{-1} \nabla L$. K-FAC, Shampoo, Adam как приближения
Граница Cramér-Rao в статистике — MVUE, достаточные статистики, эффективность оценщиков - полная теория оптимальных оценок

Вопросы для размышления

Если Adam - диагональная аппроксимация Fisher matrix, то что теряется при этом приближении? В каких задачах K-FAC или Shampoo выгоднее?
Cramér-Rao bound даёт нижнюю границу дисперсии. При квантизации нейросетей (FP16 → INT8) как это влияет на Fisher information и что это означает для точности модели?
PPO использует KL-дивергенцию как proxy для Fisher-Rao расстояния между политиками. Когда это приближение хорошее, а когда оно ломается?

Связанные уроки

stat-03-mle — MLE асимптотически достигает границы Cramér-Rao
stat-02-estimation — Bias-variance и Cramér-Rao как нижняя граница
ig-07-natural-gradient — Натуральный градиент - градиент в метрике Фишера
ig-03-exp-family — Экспоненциальные семейства - канонический объект Fisher IG
stat-11-bayesian — Fisher prior (Jeffreys) - инвариантный байесовский prior
stat-01-sampling