Информационная геометрия
Метрика Фишера: единственная разумная метрика на пространстве распределений
В 1972 году советский математик Ченцов доказал: на многообразии вероятностных распределений существует ровно одна метрика, инвариантная к достаточным статистикам. Не 10 возможных, не 3 - ровно одна. Это метрика Фишера. Через 15 лет её заново откроют на Западе. Через 40 - Google Brain введёт её в оптимизаторы для крупных нейросетей. А ещё через 5 - PPO и TRPO в RLHF будут использовать её неявно в каждом шаге обучения. Природа поставила забор для оценщиков ещё в 1945-м. Нейросети учатся в рамках этого забора каждый день.
- **Adam и AdamW**: деление градиента на $\sqrt{\hat{v}}$ - диагональная аппроксимация матрицы Фишера. Без Fisher information нет объяснения, почему это работает лучше SGD
- **K-FAC (Google Brain, 2015)**: Kronecker-factored аппроксимация Fisher matrix. Даёт 2-5x ускорение конвергенции на крупных моделях по сравнению с Adam. Используется в Google для обучения production-систем
- **PPO в RLHF**: KL-дивергенция как constraint в trust region - это шаг в Fisher-Rao метрике. ChatGPT, Claude - оба используют PPO, оба неявно оптимизируют в Fisher-геометрии
- **Фильтр Калмана (Tesla Autopilot, GPS навигация)**: ковариационная матрица $P_k$ - это $(\mathcal{I}_k)^{-1}$, нижняя граница Cramér-Rao для оценки состояния. Оптимальный фильтр достигает этой границы
Предварительные знания
Fisher information matrix: три эквивалентных лица
**1945 год. Два человека в двух странах публикуют одну и ту же нижнюю границу.** Гаральд Крамер в Швеции, Калиямпуди Рао в Индии - оба получают результат: дисперсия любой несмещённой оценки параметра ограничена снизу. Забором. Природа поставила забор. И ключ к этому забору - матрица Фишера $\mathcal{I}(\theta)$.
Определение: $\mathcal{I}(\theta)_{ij} = \mathbb{E}_{p(x;\theta)}\left[\frac{\partial \log p(x;\theta)}{\partial \theta_i} \cdot \frac{\partial \log p(x;\theta)}{\partial \theta_j}\right]$. Это матрица ковариаций score-функции $\nabla_\theta \log p$. Три эквивалентных способа записать одно и то же:
**Почему три формулы - одно и то же**: из условия $\int p(x;\theta)\, dx = 1$ дифференцированием по $\theta$ получается $\mathbb{E}[\nabla_\theta \log p] = 0$. Тогда дисперсия score = ожидание квадрата = $\mathcal{I}(\theta)$. Второй шаг: дифференцировать ещё раз - и получается минус гессиан. Все три формулы - следствия одного факта о нормировке вероятности.
Fisher information для Гаусса N(μ, σ²)
Аналитический расчёт матрицы 2x2
p(x; μ, σ) = (1/σ√(2π)) exp(-(x-μ)²/(2σ²)) log p = -½log(2π) - log σ - (x-μ)²/(2σ²) Score: ∂log p/∂μ = (x-μ)/σ² ∂log p/∂σ = -1/σ + (x-μ)²/σ³ Fisher matrix I(μ,σ): I₁₁ = E[(x-μ)²/σ⁴] = 1/σ² I₂₂ = E[(-1/σ + (x-μ)²/σ³)²] = 2/σ² I₁₂ = E[(x-μ)/σ² · (-1/σ + (x-μ)²/σ³)] = 0 ← ортогональны! I(μ,σ) = diag(1/σ², 2/σ²) Интерпретация: - При σ=0.1: I₁₁=100, информация о μ огромна (острый пик) - При σ=10: I₁₁=0.01, информация о μ мала (широкий пик) - Метрика плотнее там, где данные информативнее
Adam в PyTorch вычисляет $\hat{v}_t = v_{t-1}\beta_2 + (1-\beta_2)g_t^2$. Это диагональная аппроксимация эмпирической матрицы Фишера. Деление $g_t / \sqrt{\hat{v}_t}$ - нормировка в метрике Фишера по диагонали. Без математики это выглядит как трюк. С математикой - как естественная операция в правильной геометрии.
Fisher information $\mathcal{I}(\theta)$ для Бернулли $p(x;\theta) = \theta^x(1-\theta)^{1-x}$ равна:
Теорема Ченцова: единственность
**1972 год. Новосибирск.** Николай Ченцов публикует книгу «Статистические решающие правила и оптимальные выводы». Внутри - теорема, которую западные математики не заметят ещё 15 лет, пока не появится английский перевод. Теорема говорит: на многообразии вероятностных распределений существует ровно одна риманова метрика, инвариантная к достаточным статистикам.
**Формулировка**: пусть $f: \mathcal{X} \to \mathcal{Y}$ - markov kernel (стохастическое отображение). Метрика $g$ называется монотонной, если для любого markov kernel $f$: $g_{f_*(p)}(f_* u, f_* v) \leq g_p(u, v)$. То есть «проталкивание через канал не увеличивает информацию». Ченцов доказал: единственная такая метрика (с точностью до константы) - матрица Фишера $g_{ij}(\theta) = \mathcal{I}(\theta)_{ij}$.
Это радикальное утверждение. Когда инженер использует Adam, KL-дивергенцию или PPO с KL-constraint - он неявно работает в единственной разумной геометрии на пространстве распределений. Не в одной из многих возможных - в единственной. K-FAC от Google Brain (Martens, 2015) строит блочное приближение именно этой матрицы. Shampoo (Anil, Gupta, 2018) - тензорную факторизацию.
| Оптимизатор | Связь с Fisher | Где используется |
|---|---|---|
| SGD | Нет - евклидов градиент, игнорирует кривизну | Baseline во всём |
| Adam / AdamW | Диагональная аппроксимация empirical Fisher | GPT-4, Llama, Stable Diffusion |
| K-FAC | Kronecker-factored блочная аппроксимация Fisher | Google Brain крупные модели |
| Shampoo | Тензорная факторизация, обобщение K-FAC | Google TPU пайплайны |
| TRPO / PPO | KL-constraint = шаг в Fisher-Rao метрике | ChatGPT RLHF, Claude RLHF |
| Natural Gradient | Точный $\mathcal{I}^{-1}g$ - медленно, но оптимально | Академические прогоны, GP |
Теорема Ченцова утверждает, что метрика Фишера единственна в смысле:
Граница Cramér-Rao: природный забор для оценщиков
Матрица Фишера задаёт метрику. Но у неё есть и прямое статистическое значение: она ограничивает точность оценок. **Любая несмещённая оценка параметра $\theta$ имеет дисперсию не менее $\mathcal{I}(\theta)^{-1}$.** Природа поставила фундаментальный предел - и этот предел выражается через Fisher information.
**Cramér-Rao bound (1945)**: для любой несмещённой оценки $\hat\theta$ параметра $\theta$: $\mathrm{Cov}(\hat\theta) \succeq \mathcal{I}(\theta)^{-1}$. В скалярном случае: $\mathrm{Var}(\hat\theta) \geq \frac{1}{\mathcal{I}(\theta)}$. Неравенство $\succeq$ - матричное: разность $\mathrm{Cov}(\hat\theta) - \mathcal{I}^{-1}$ положительно полуопределена.
В инженерии это живёт в фильтре Калмана. Ковариационная матрица ошибки $P_k$ в фильтре Калмана - это оценка $\mathcal{I}^{-1}$ для текущего состояния. Tesla Autopilot, системы навигации GPS, robotics state estimation - везде под капотом Cramér-Rao bound, записанная в виде ковариационной матрицы фильтра.
| Система | Cramér-Rao в действии | Эффект |
|---|---|---|
| Kalman filter | Ковариация $P_k$ = $(\mathcal{I}_k)^{-1}$ для наблюдений | Оптимальная оценка состояния (MVUE) |
| MLE в нейросетях | Cross-entropy loss как $-\log p$ - MLE цель | Асимптотически достигает CR bound |
| CRLB в сенсорах | SNR определяет информацию Фишера | Физический предел точности любого измерения |
| Variational Inference | ELBO = $-\mathrm{KL}(q\|p)$ оптимизируется в Fisher-метрике | Natural gradient VI быстрее стандартного Adam |
| Квантизация моделей | FP8/INT8 снижают Fisher information о весах | Граница точности квантизированной модели |
Есть красивая симметрия: Fisher information matrix $\mathcal{I}(\theta)$ - это риманова метрика на многообразии моделей. Cramér-Rao bound $\mathcal{I}^{-1}$ - это нижняя граница дисперсии оценки. Натуральный градиент $\mathcal{I}^{-1} \nabla L$ - правильное направление оптимизации. Один объект - три смысла. В этом и есть красота информационной геометрии.
Fisher information - просто техническая формула, нужная для доказательства Cramér-Rao
Fisher information - это риманова метрика на пространстве распределений. Cramér-Rao bound - одно из её следствий. Натуральный градиент, K-FAC, PPO - другие следствия той же метрики
Понимание Fisher information только через Cramér-Rao - это всё равно что знать матрицу только как способ хранить числа, не зная, что она задаёт линейное преобразование
Fisher information для нормального распределения $N(\mu, \sigma^2)$ по параметру $\mu$ равна $1/\sigma^2$. Что из этого следует по Cramér-Rao?
Что унести из урока
- **Fisher matrix $\mathcal{I}(\theta)_{ij} = \mathbb{E}[\partial_i \log p \cdot \partial_j \log p]$**: ковариация score-функции. Три эквивалентных формулы: outer product, минус гессиан, ковариация градиента
- **Теорема Ченцова (1972)**: Fisher - единственная монотонная риманова метрика на пространстве распределений. Не один из вариантов - единственный разумный выбор
- **Cramér-Rao bound**: $\mathrm{Var}(\hat\theta) \geq \mathcal{I}(\theta)^{-1}$. Природный предел точности любой несмещённой оценки. MLE достигает этой границы асимптотически
- **Adam = диагональный Fisher**: $g/\sqrt{v}$ - нормировка в Fisher-метрике по диагонали. K-FAC и Shampoo - блочные приближения. PPO - KL-constraint как шаг в Fisher-Rao метрике
- **Kalman filter = Cramér-Rao в реальном времени**: ковариационная матрица ошибки $P_k$ - это обратная Fisher matrix для накопленных наблюдений
Куда дальше
Метрика задана и единственна. Следующий шаг - структуры на многообразии, которые она порождает.
- Экспоненциальные семейства — Канонический класс распределений, где Fisher metric имеет особую простоту - dually flat structure
- KL и брегмановские дивергенции — KL как инфинитезимальный аналог Fisher metric: $\mathrm{KL}(p_\theta \| p_{\theta+d\theta}) \approx \frac{1}{2} d\theta^T \mathcal{I} d\theta$
- Натуральный градиент — Практическое применение Fisher matrix: $\theta \leftarrow \theta - \alpha \mathcal{I}^{-1} \nabla L$. K-FAC, Shampoo, Adam как приближения
- Граница Cramér-Rao в статистике — MVUE, достаточные статистики, эффективность оценщиков - полная теория оптимальных оценок
Вопросы для размышления
- Если Adam - диагональная аппроксимация Fisher matrix, то что теряется при этом приближении? В каких задачах K-FAC или Shampoo выгоднее?
- Cramér-Rao bound даёт нижнюю границу дисперсии. При квантизации нейросетей (FP16 → INT8) как это влияет на Fisher information и что это означает для точности модели?
- PPO использует KL-дивергенцию как proxy для Fisher-Rao расстояния между политиками. Когда это приближение хорошее, а когда оно ломается?
Связанные уроки
- stat-03-mle — MLE асимптотически достигает границы Cramér-Rao
- stat-02-estimation — Bias-variance и Cramér-Rao как нижняя граница
- ig-07-natural-gradient — Натуральный градиент - градиент в метрике Фишера
- ig-03-exp-family — Экспоненциальные семейства - канонический объект Fisher IG
- stat-11-bayesian — Fisher prior (Jeffreys) - инвариантный байесовский prior
- stat-01-sampling