Информационная геометрия

Wasserstein vs Fisher-Rao

Два математика смотрят на одно пространство распределений и видят разную геометрию. Амари видит кривизну Фишера. Виллани видит транспортную стоимость. Оба правы - но их метрики измеряют разные расстояния. Fisher-Rao спрашивает: «Насколько легко по данным различить эти два распределения?» Wasserstein спрашивает: «Сколько стоит переместить одно распределение в другое?»

Натуральный градиент (Fisher-Rao): ускорение обучения нейросетей и EM алгоритма
Wasserstein GAN: стабильное обучение генеративных моделей без mode collapse
Color transfer в computer vision: оптимальный транспорт гистограмм цветов
Уравнение Фоккера-Планка как градиентный поток в W₂: теория диффузии и MCMC

Предварительные знания

Fisher information matrix и натуральный градиент
Оптимальный транспорт: базовая постановка
Риманова геометрия: метрический тензор, геодезики

Fisher information metric

Два взгляда на пространство распределений

**Fisher-Rao метрика** живёт в параметрическом пространстве. Если распределение задано параметрами θ, то метрика - это тензор Фишеровской информации: g_ij(θ) = E[∂_i log p · ∂_j log p]. Расстояние зависит от того, насколько легко различить два распределения по данным.

**Wasserstein метрика (W₂)** живёт в пространстве мер на метрическом пространстве X. Она измеряет минимальную стоимость транспортировки одной меры в другую: W₂²(μ,ν) = inf_{γ∈Γ(μ,ν)} ∫|x-y|² dγ(x,y).

**Ключевое различие:** Fisher-Rao измеряет различимость распределений по данным (статистическое расстояние). Wasserstein измеряет стоимость трансформации одного распределения в другое через пространство (транспортное расстояние). При сдвиге точечной массы от 0 до ε: Fisher-Rao бесконечна (разные носители), W₂ = ε (маленький сдвиг).

Какая метрика лучше подходит для сравнения двух гистограмм изображений с разными цветовыми распределениями, если важна "визуальная близость" цветов?

Otto calculus: W₂ геодезики и displacement interpolation

Феликс Отто в 2001 году показал, что пространство вероятностных мер с метрикой W₂ имеет структуру бесконечномерного римановского многообразия. Касательное пространство в точке μ - это пространство квадратично интегрируемых векторных полей (скоростей). Это открыло путь к "исчислению" на пространстве распределений.

**W₂ геодезики = displacement interpolation:** кратчайший путь между μ₀ и μ₁ в метрике W₂ - это ((1-t)·id + t·T)_# μ₀, где T - оптимальный транспортный план μ₀→μ₁. Каждая частица двигается по прямой от своей начальной позиции к конечной.

Связь с диффурами: уравнение диффузии ∂_t ρ = Δρ - это градиентный поток функционала Больцмана H[ρ] = ∫ρ log ρ dx в метрике W₂. Уравнение Фоккера-Планка - градиентный поток свободной энергии. Otto calculus превратил мир диффузий в геометрию.

Геодезика в W₂ пространстве между N(0,1) и N(4,1) в момент t=0.5 даёт распределение:

Когда Fisher-Rao, когда Wasserstein

Выбор метрики определяет, что считается «близким». Fisher-Rao и Wasserstein дают принципиально разные ответы - и в разных задачах один правильный, другой нет.

**Таблица выбора:** - Обучение параметрических моделей (MLE, variational inference) → **Fisher-Rao / натуральный градиент** - Сравнение непараметрических распределений, учитывающее геометрию пространства → **Wasserstein** - Генеративные модели с режимом коллапса → **Wasserstein GAN (W₁)** - Анализ диффузионных процессов, уравнение Фоккера-Планка → **Otto calculus (W₂)** - Тест нормальности, доверительные интервалы → **Fisher-Rao / chi-squared**

Сценарий: обучение нейросети методом натурального градиента. Какое утверждение верно?

Итог

**Fisher-Rao:** живёт в параметрическом пространстве, измеряет статистическую различимость через g_ij = E[∂_i log p · ∂_j log p]
**Wasserstein W₂:** живёт в пространстве мер, измеряет транспортную стоимость с учётом геометрии X
**Otto calculus:** W₂ даёт риманову структуру на мерах; геодезики = displacement interpolation
**Диффузионные уравнения** = градиентные потоки в W₂: уравнение непрерывности + скоростное поле
**Выбор:** параметрическое обучение → Fisher-Rao; сравнение/morphing распределений → Wasserstein

Связанные темы

Обе геометрии появляются в современном ML и теоретической статистике.

Fisher information metric — Предыдущий урок: основа Fisher-Rao геометрии
Натуральный градиент и NGVI — Применение Fisher-Rao к вариационному выводу
Оптимальный транспорт — Теория Kantorovich, двойственная задача, Sinkhorn алгоритм

Вопросы для размышления

Fisher-Rao расстояние между N(0,1) и N(0,2) конечно, а KL-дивергенция тоже конечна. Но Fisher-Rao между N(0,1) и Laplace(0,1) не определена в рамках одной параметрической модели. Почему?
WGAN заменяет JS-дивергенцию на W₁. Почему JS-дивергенция давала нулевой градиент при непересекающихся носителях, а W₁ нет?
Displacement interpolation между двумя модами бимодального распределения даёт унимодальный промежуточный результат. Это преимущество или недостаток по сравнению со смесью?

Связанные уроки

ot-03-wasserstein

Два взгляда на пространство распределений

Otto calculus: W₂ геодезики и displacement interpolation

Геодезика в W₂ пространстве между N(0,1) и N(4,1) в момент t=0.5 даёт распределение:

Когда Fisher-Rao, когда Wasserstein

Сценарий: обучение нейросети методом натурального градиента. Какое утверждение верно?

Итог

**Fisher-Rao:** живёт в параметрическом пространстве, измеряет статистическую различимость через g_ij = E[∂_i log p · ∂_j log p]

**Wasserstein W₂:** живёт в пространстве мер, измеряет транспортную стоимость с учётом геометрии X

**Otto calculus:** W₂ даёт риманову структуру на мерах; геодезики = displacement interpolation

**Диффузионные уравнения** = градиентные потоки в W₂: уравнение непрерывности + скоростное поле

**Выбор:** параметрическое обучение → Fisher-Rao; сравнение/morphing распределений → Wasserstein