Информационная геометрия
Применения: нейросети и оптимальный дизайн экспериментов
Laplace approximation в Bayesian Neural Networks (2021, нейросеть на 60M параметрах) использует геометрию Фишера для uncertainty quantification. Матрица Фишера - это одновременно гессиан log-правдоподобия и метрика риманнова пространства параметров: две роли, одна матрица.
- Laplace Redux (Daxberger et al., NeurIPS 2021): масштабируемый Bayesian DL через K-FAC Fisher
- D-оптимальный дизайн в клинических испытаниях (Phase III): минимизирует объём выборки для заданной точности
- KFAC оптимизатор в JAX (Google, 2022): натуральный градиент для трансформеров до 1B параметров
Аппроксимация Лапласа в байесовских нейросетях
Байесовский вывод для нейросети на 60M параметров требует интеграла по 60M-мерному пространству - невозможно аналитически. Laplace approximation: находим MAP-точку, аппроксимируем posterior гауссианой с ковариацией = обратный гессиан log posterior. Гессиан log-правдоподобия = матрица Фишера. Одна матрица - два смысла.
Laplace Redux (NeurIPS 2021) применяет это к ResNet-50: K-FAC аппроксимирует гессиан 25M×25M через произведение блоков 512×512. Результат: calibrated uncertainty без байесовского обучения с нуля.
Почему в Laplace approximation матрицу Фишера используют вместо полного гессиана log posterior?
Оптимальный дизайн экспериментов через Fisher information
В клинических испытаниях Phase III выбор доз препарата (дизайн эксперимента ξ) определяет точность оценки эффективности. D-оптимальный дизайн максимизирует det(I(θ,ξ)) - объём «эллипсоида информации». На практике это сокращает размер выборки на 20 - 40% при той же точности.
D-оптимальный дизайн эквивалентен максимизации дифференциальной энтропии гауссовской оценки: h(θ̂) = (d/2)(1+log 2π) + (1/2)log det(I⁻¹). Это связывает оптимальный дизайн с информационной теорией.
D-оптимальный дизайн максимизирует det(I(θ,ξ)). Что это означает геометрически?
K-FAC: практическое приближение матрицы Фишера
Для нейросети с миллионом параметров полная матрица Фишера занимает 10¹² байт. K-FAC (Kronecker-Factored Approximate Curvature) аппроксимирует её как блочно-диагональную матрицу с Кронекеровской структурой в каждом блоке: F ≈ ⊕_l (G_l ⊗ A_l). Это позволяет хранить O(n+m) вместо O(nm) для каждого слоя.
Laplace Redux (NeurIPS 2021) использует K-FAC Fisher именно как аппроксимацию гессиана в Laplace approximation. Это замыкает круг: статистические многообразия → натуральный градиент → K-FAC → байесовская неопределённость в нейросетях.
K-FAC аппроксимирует блок Фишера для слоя l как G_l ⊗ A_l. При каком условии эта аппроксимация точна?
Итоги
- Laplace approx: p(θ|D) ≈ N(θ_MAP, I(θ_MAP)⁻¹) - матрица Фишера как гессиан log posterior
- D-оптимальность: max_ξ log det I(θ,ξ) - максимизирует информацию об эксперименте
- A-оптимальность: min_ξ tr(I(θ,ξ)⁻¹) - минимизирует среднюю дисперсию оценок
- K-FAC: F ≈ ⊕_l (G_l ⊗ A_l) - блочно-кронекерова аппроксимация матрицы Фишера
Вопросы для размышления
- Почему матрица Фишера одновременно является метрикой Фишера-Рао и гессианом log-правдоподобия?
- Как D-оптимальный дизайн эксперимента связан с геодезиками на статистическом многообразии?
- При каких условиях K-FAC аппроксимация матрицы Фишера достаточно точна для Laplace approximation?
Связанные уроки
- ig-17-natural-gradient-deep — ig-20 - production-применения K-FAC и геометрии Фишера
- ig-18 — Аппроксимация Лапласа использует матрицу Фишера как гессиан