Информационная геометрия
Wasserstein vs Fisher-Rao
Два математика смотрят на одно пространство распределений и видят разную геометрию. Амари видит кривизну Фишера. Виллани видит транспортную стоимость. Оба правы - но их метрики измеряют разные расстояния. Fisher-Rao спрашивает: «Насколько легко по данным различить эти два распределения?» Wasserstein спрашивает: «Сколько стоит переместить одно распределение в другое?»
- Натуральный градиент (Fisher-Rao): ускорение обучения нейросетей и EM алгоритма
- Wasserstein GAN: стабильное обучение генеративных моделей без mode collapse
- Color transfer в computer vision: оптимальный транспорт гистограмм цветов
- Уравнение Фоккера-Планка как градиентный поток в W₂: теория диффузии и MCMC
Предварительные знания
- Fisher information matrix и натуральный градиент
- Оптимальный транспорт: базовая постановка
- Риманова геометрия: метрический тензор, геодезики
Два взгляда на пространство распределений
Два математика смотрят на одно пространство распределений и видят разную геометрию. Амари видит кривизну Фишера. Виллани видит транспортную стоимость. Оба правы - но их метрики измеряют разные расстояния.
**Fisher-Rao метрика** живёт в параметрическом пространстве. Если распределение задано параметрами θ, то метрика - это тензор Фишеровской информации: g_ij(θ) = E[∂_i log p · ∂_j log p]. Расстояние зависит от того, насколько легко различить два распределения по данным.
**Wasserstein метрика (W₂)** живёт в пространстве мер на метрическом пространстве X. Она измеряет минимальную стоимость транспортировки одной меры в другую: W₂²(μ,ν) = inf_{γ∈Γ(μ,ν)} ∫|x-y|² dγ(x,y).
**Ключевое различие:** Fisher-Rao измеряет различимость распределений по данным (статистическое расстояние). Wasserstein измеряет стоимость трансформации одного распределения в другое через пространство (транспортное расстояние). При сдвиге точечной массы от 0 до ε: Fisher-Rao бесконечна (разные носители), W₂ = ε (маленький сдвиг).
Какая метрика лучше подходит для сравнения двух гистограмм изображений с разными цветовыми распределениями, если важна "визуальная близость" цветов?
Otto calculus: W₂ геодезики и displacement interpolation
Феликс Отто в 2001 году показал, что пространство вероятностных мер с метрикой W₂ имеет структуру бесконечномерного римановского многообразия. Касательное пространство в точке μ - это пространство квадратично интегрируемых векторных полей (скоростей). Это открыло путь к "исчислению" на пространстве распределений.
**W₂ геодезики = displacement interpolation:** кратчайший путь между μ₀ и μ₁ в метрике W₂ - это ((1-t)·id + t·T)_# μ₀, где T - оптимальный транспортный план μ₀→μ₁. Каждая частица двигается по прямой от своей начальной позиции к конечной.
Связь с диффурами: уравнение диффузии ∂_t ρ = Δρ - это градиентный поток функционала Больцмана H[ρ] = ∫ρ log ρ dx в метрике W₂. Уравнение Фоккера-Планка - градиентный поток свободной энергии. Otto calculus превратил мир диффузий в геометрию.
Геодезика в W₂ пространстве между N(0,1) и N(4,1) в момент t=0.5 даёт распределение:
Когда Fisher-Rao, когда Wasserstein
Выбор метрики определяет, что считается «близким». Fisher-Rao и Wasserstein дают принципиально разные ответы - и в разных задачах один правильный, другой нет.
**Таблица выбора:** - Обучение параметрических моделей (MLE, variational inference) → **Fisher-Rao / натуральный градиент** - Сравнение непараметрических распределений, учитывающее геометрию пространства → **Wasserstein** - Генеративные модели с режимом коллапса → **Wasserstein GAN (W₁)** - Анализ диффузионных процессов, уравнение Фоккера-Планка → **Otto calculus (W₂)** - Тест нормальности, доверительные интервалы → **Fisher-Rao / chi-squared**
Сценарий: обучение нейросети методом натурального градиента. Какое утверждение верно?
Итог
- **Fisher-Rao:** живёт в параметрическом пространстве, измеряет статистическую различимость через g_ij = E[∂_i log p · ∂_j log p]
- **Wasserstein W₂:** живёт в пространстве мер, измеряет транспортную стоимость с учётом геометрии X
- **Otto calculus:** W₂ даёт риманову структуру на мерах; геодезики = displacement interpolation
- **Диффузионные уравнения** = градиентные потоки в W₂: уравнение непрерывности + скоростное поле
- **Выбор:** параметрическое обучение → Fisher-Rao; сравнение/morphing распределений → Wasserstein
Связанные темы
Обе геометрии появляются в современном ML и теоретической статистике.
- Fisher information metric — Предыдущий урок: основа Fisher-Rao геометрии
- Натуральный градиент и NGVI — Применение Fisher-Rao к вариационному выводу
- Оптимальный транспорт — Теория Kantorovich, двойственная задача, Sinkhorn алгоритм
Вопросы для размышления
- Fisher-Rao расстояние между N(0,1) и N(0,2) конечно, а KL-дивергенция тоже конечна. Но Fisher-Rao между N(0,1) и Laplace(0,1) не определена в рамках одной параметрической модели. Почему?
- WGAN заменяет JS-дивергенцию на W₁. Почему JS-дивергенция давала нулевой градиент при непересекающихся носителях, а W₁ нет?
- Displacement interpolation между двумя модами бимодального распределения даёт унимодальный промежуточный результат. Это преимущество или недостаток по сравнению со смесью?