Информационная геометрия

Применения: нейросети и оптимальный дизайн экспериментов

Laplace approximation в Bayesian Neural Networks (2021, нейросеть на 60M параметрах) использует геометрию Фишера для uncertainty quantification. Матрица Фишера - это одновременно гессиан log-правдоподобия и метрика риманнова пространства параметров: две роли, одна матрица.

Laplace Redux (Daxberger et al., NeurIPS 2021): масштабируемый Bayesian DL через K-FAC Fisher
D-оптимальный дизайн в клинических испытаниях (Phase III): минимизирует объём выборки для заданной точности
KFAC оптимизатор в JAX (Google, 2022): натуральный градиент для трансформеров до 1B параметров

Аппроксимация Лапласа в байесовских нейросетях

Байесовский вывод для нейросети на 60M параметров требует интеграла по 60M-мерному пространству - невозможно аналитически. Laplace approximation: находим MAP-точку, аппроксимируем posterior гауссианой с ковариацией = обратный гессиан log posterior. Гессиан log-правдоподобия = матрица Фишера. Одна матрица - два смысла.

Laplace Redux (NeurIPS 2021) применяет это к ResNet-50: K-FAC аппроксимирует гессиан 25M×25M через произведение блоков 512×512. Результат: calibrated uncertainty без байесовского обучения с нуля.

Почему в Laplace approximation матрицу Фишера используют вместо полного гессиана log posterior?

Оптимальный дизайн экспериментов через Fisher information

В клинических испытаниях Phase III выбор доз препарата (дизайн эксперимента ξ) определяет точность оценки эффективности. D-оптимальный дизайн максимизирует det(I(θ,ξ)) - объём «эллипсоида информации». На практике это сокращает размер выборки на 20 - 40% при той же точности.

D-оптимальный дизайн эквивалентен максимизации дифференциальной энтропии гауссовской оценки: h(θ̂) = (d/2)(1+log 2π) + (1/2)log det(I⁻¹). Это связывает оптимальный дизайн с информационной теорией.

D-оптимальный дизайн максимизирует det(I(θ,ξ)). Что это означает геометрически?

K-FAC: практическое приближение матрицы Фишера

Для нейросети с миллионом параметров полная матрица Фишера занимает 10¹² байт. K-FAC (Kronecker-Factored Approximate Curvature) аппроксимирует её как блочно-диагональную матрицу с Кронекеровской структурой в каждом блоке: F ≈ ⊕_l (G_l ⊗ A_l). Это позволяет хранить O(n+m) вместо O(nm) для каждого слоя.

Laplace Redux (NeurIPS 2021) использует K-FAC Fisher именно как аппроксимацию гессиана в Laplace approximation. Это замыкает круг: статистические многообразия → натуральный градиент → K-FAC → байесовская неопределённость в нейросетях.

K-FAC аппроксимирует блок Фишера для слоя l как G_l ⊗ A_l. При каком условии эта аппроксимация точна?

Итоги

Laplace approx: p(θ|D) ≈ N(θ_MAP, I(θ_MAP)⁻¹) - матрица Фишера как гессиан log posterior
D-оптимальность: max_ξ log det I(θ,ξ) - максимизирует информацию об эксперименте
A-оптимальность: min_ξ tr(I(θ,ξ)⁻¹) - минимизирует среднюю дисперсию оценок
K-FAC: F ≈ ⊕_l (G_l ⊗ A_l) - блочно-кронекерова аппроксимация матрицы Фишера

Вопросы для размышления

Почему матрица Фишера одновременно является метрикой Фишера-Рао и гессианом log-правдоподобия?
Как D-оптимальный дизайн эксперимента связан с геодезиками на статистическом многообразии?
При каких условиях K-FAC аппроксимация матрицы Фишера достаточно точна для Laplace approximation?

Связанные уроки

ig-17-natural-gradient-deep — ig-20 - production-применения K-FAC и геометрии Фишера
ig-18 — Аппроксимация Лапласа использует матрицу Фишера как гессиан

Аппроксимация Лапласа в байесовских нейросетях

Почему в Laplace approximation матрицу Фишера используют вместо полного гессиана log posterior?

Оптимальный дизайн экспериментов через Fisher information

D-оптимальный дизайн максимизирует det(I(θ,ξ)). Что это означает геометрически?

K-FAC: практическое приближение матрицы Фишера

K-FAC аппроксимирует блок Фишера для слоя l как G_l ⊗ A_l. При каком условии эта аппроксимация точна?

Итоги

Laplace approx: p(θ|D) ≈ N(θ_MAP, I(θ_MAP)⁻¹) - матрица Фишера как гессиан log posterior

D-оптимальность: max_ξ log det I(θ,ξ) - максимизирует информацию об эксперименте

A-оптимальность: min_ξ tr(I(θ,ξ)⁻¹) - минимизирует среднюю дисперсию оценок

K-FAC: F ≈ ⊕_l (G_l ⊗ A_l) - блочно-кронекерова аппроксимация матрицы Фишера