Информационная геометрия

Wasserstein vs Fisher-Rao

Два математика смотрят на одно пространство распределений и видят разную геометрию. Амари видит кривизну Фишера. Виллани видит транспортную стоимость. Оба правы - но их метрики измеряют разные расстояния. Fisher-Rao спрашивает: «Насколько легко по данным различить эти два распределения?» Wasserstein спрашивает: «Сколько стоит переместить одно распределение в другое?»

  • Натуральный градиент (Fisher-Rao): ускорение обучения нейросетей и EM алгоритма
  • Wasserstein GAN: стабильное обучение генеративных моделей без mode collapse
  • Color transfer в computer vision: оптимальный транспорт гистограмм цветов
  • Уравнение Фоккера-Планка как градиентный поток в W₂: теория диффузии и MCMC

Предварительные знания

  • Fisher information matrix и натуральный градиент
  • Оптимальный транспорт: базовая постановка
  • Риманова геометрия: метрический тензор, геодезики
  • Fisher information metric

Два взгляда на пространство распределений

Два математика смотрят на одно пространство распределений и видят разную геометрию. Амари видит кривизну Фишера. Виллани видит транспортную стоимость. Оба правы - но их метрики измеряют разные расстояния.

**Fisher-Rao метрика** живёт в параметрическом пространстве. Если распределение задано параметрами θ, то метрика - это тензор Фишеровской информации: g_ij(θ) = E[∂_i log p · ∂_j log p]. Расстояние зависит от того, насколько легко различить два распределения по данным.

**Wasserstein метрика (W₂)** живёт в пространстве мер на метрическом пространстве X. Она измеряет минимальную стоимость транспортировки одной меры в другую: W₂²(μ,ν) = inf_{γ∈Γ(μ,ν)} ∫|x-y|² dγ(x,y).

**Ключевое различие:** Fisher-Rao измеряет различимость распределений по данным (статистическое расстояние). Wasserstein измеряет стоимость трансформации одного распределения в другое через пространство (транспортное расстояние). При сдвиге точечной массы от 0 до ε: Fisher-Rao бесконечна (разные носители), W₂ = ε (маленький сдвиг).

Какая метрика лучше подходит для сравнения двух гистограмм изображений с разными цветовыми распределениями, если важна "визуальная близость" цветов?

Otto calculus: W₂ геодезики и displacement interpolation

Феликс Отто в 2001 году показал, что пространство вероятностных мер с метрикой W₂ имеет структуру бесконечномерного римановского многообразия. Касательное пространство в точке μ - это пространство квадратично интегрируемых векторных полей (скоростей). Это открыло путь к "исчислению" на пространстве распределений.

**W₂ геодезики = displacement interpolation:** кратчайший путь между μ₀ и μ₁ в метрике W₂ - это ((1-t)·id + t·T)_# μ₀, где T - оптимальный транспортный план μ₀→μ₁. Каждая частица двигается по прямой от своей начальной позиции к конечной.

Связь с диффурами: уравнение диффузии ∂_t ρ = Δρ - это градиентный поток функционала Больцмана H[ρ] = ∫ρ log ρ dx в метрике W₂. Уравнение Фоккера-Планка - градиентный поток свободной энергии. Otto calculus превратил мир диффузий в геометрию.

Геодезика в W₂ пространстве между N(0,1) и N(4,1) в момент t=0.5 даёт распределение:

Когда Fisher-Rao, когда Wasserstein

Выбор метрики определяет, что считается «близким». Fisher-Rao и Wasserstein дают принципиально разные ответы - и в разных задачах один правильный, другой нет.

**Таблица выбора:** - Обучение параметрических моделей (MLE, variational inference) → **Fisher-Rao / натуральный градиент** - Сравнение непараметрических распределений, учитывающее геометрию пространства → **Wasserstein** - Генеративные модели с режимом коллапса → **Wasserstein GAN (W₁)** - Анализ диффузионных процессов, уравнение Фоккера-Планка → **Otto calculus (W₂)** - Тест нормальности, доверительные интервалы → **Fisher-Rao / chi-squared**

Сценарий: обучение нейросети методом натурального градиента. Какое утверждение верно?

Итог

  • **Fisher-Rao:** живёт в параметрическом пространстве, измеряет статистическую различимость через g_ij = E[∂_i log p · ∂_j log p]
  • **Wasserstein W₂:** живёт в пространстве мер, измеряет транспортную стоимость с учётом геометрии X
  • **Otto calculus:** W₂ даёт риманову структуру на мерах; геодезики = displacement interpolation
  • **Диффузионные уравнения** = градиентные потоки в W₂: уравнение непрерывности + скоростное поле
  • **Выбор:** параметрическое обучение → Fisher-Rao; сравнение/morphing распределений → Wasserstein

Связанные темы

Обе геометрии появляются в современном ML и теоретической статистике.

  • Fisher information metric — Предыдущий урок: основа Fisher-Rao геометрии
  • Натуральный градиент и NGVI — Применение Fisher-Rao к вариационному выводу
  • Оптимальный транспорт — Теория Kantorovich, двойственная задача, Sinkhorn алгоритм

Вопросы для размышления

  • Fisher-Rao расстояние между N(0,1) и N(0,2) конечно, а KL-дивергенция тоже конечна. Но Fisher-Rao между N(0,1) и Laplace(0,1) не определена в рамках одной параметрической модели. Почему?
  • WGAN заменяет JS-дивергенцию на W₁. Почему JS-дивергенция давала нулевой градиент при непересекающихся носителях, а W₁ нет?
  • Displacement interpolation между двумя модами бимодального распределения даёт унимодальный промежуточный результат. Это преимущество или недостаток по сравнению со смесью?

Связанные уроки

  • ot-03-wasserstein
Wasserstein vs Fisher-Rao

0

1

Войти