Теория меры

Оптимальный транспорт: взгляд теории меры

Как сравнить две вероятностные меры как распределения масс - и при чём здесь нейронные сети?

**Wasserstein GAN (WGAN):** замена KL на W1 устранила исчезающие градиенты, стабилизировала обучение и породила 10 000+ дочерних работ
**Биомедицина:** оптимальный транспорт сравнивает гистограммы экспрессии генов в single-cell RNA-seq, находя клеточные переходы в дифференцировке
**Экономика:** исходная задача Монжа (1781) - оптимальное распределение земляных работ; теорема Брене (1987) решила её через выпуклые потенциалы
**Вычислительная физика:** геодезические в пространстве Вассерштейна описывают плавные деформации распределений, используемые в моделировании течений

Предварительные знания

Дезинтеграция мер
Слабая сходимость мер
Выпуклый анализ и двойственность

Дезинтеграция мер

Задача Монжа и расслабление Канторовича

В 1781 году Гаспар Монж пытался минимизировать земляные работы при строительстве укреплений. 161 год спустя Леонид Канторович (1942) спас задачу от тупика: вместо жёсткого отображения он ввёл случайные транспортные планы. Та же идея сегодня лежит в Wasserstein GAN: вместо детерминированной функции - вероятностный коуплинг между распределениями.

Канторович в 1975 году получил Нобелевскую премию по экономике за линейное программирование. Двойственность OT и LP - не случайное совпадение: задача транспорта на конечных носителях есть классическая транспортная LP.

Почему задача Монжа может не иметь решения, тогда как задача Канторовича всегда решаема?

Расстояние Вассерштейна и двойственность

В 2017 году Facebook Research опубликовал Wasserstein GAN: замена дивергенции KL на W1 устранила исчезающие градиенты и стабилизировала обучение в 5 раз. К 2024 году эта работа породила более 10 000 дочерних публикаций. Ключевой механизм - двойственность Канторовича-Рубинштейна, превращающая W1 в задачу обучения 1-липшицевой нейросети.

Для одномерных мер оптимальное транспортное отображение - квантильное: T*(x) = F_nu^{-1}(F_mu(x)). Sorting сортирует обе выборки, и оптимальный план - монотонный coupling по позициям.

Двойственность Канторовича-Рубинштейна: W1(mu,nu) = sup_{||f||_L<=1} integral f d(mu-nu). Что означает ||f||_L <= 1?

Теорема Брение и геометрия Вассерштейна

В 1987 году Ив Брение совершил неожиданный поворот: оптимальное транспортное отображение для квадратичной стоимости на R^d всегда единственно и является градиентом выпуклой функции. Этот результат связал OT с теорией Монжа-Ампера и породил пространство Вассерштейна как риманово многообразие мер - основу displacement interpolation МакКанна и градиентных потоков для уравнения непрерывности.

Связи с другими областями

Оптимальный транспорт объединяет выпуклый анализ, теорию меры и дифференциальную геометрию.

Генеративные модели — WGAN и WGAN-GP используют W1 как функцию потерь - устойчивость к вырожденным распределениям устраняет mode collapse
Дифференциальная геометрия — Пространство P_2(R^d) - метрическое пространство с геодезическими, описываемыми displacement interpolation МакКанна
Уравнения в частных производных — Уравнение Монжа-Ампера для оптимального потенциала; уравнение непрерывности как градиентный поток в P_2 (формализм JKO)
Вычислительная биология — Sinkhorn-алгоритм энтропийной регуляризации за O(n^2) вычисляет приближенный W_p; применяется к single-cell RNA-seq и клеточным атласам

Итоги

Задача Монжа ищет детерминированное отображение T: может не иметь решения для атомарных мер
Расслабление Канторовича допускает случайные планы gamma на X x Y; линейная задача всегда решаема
W_p(mu,nu) - метрика на пространстве вероятностных мер, чувствительная к геометрии носителей
Двойственность Канторовича-Рубинштейна: W1 = sup_{Lip_1} (E_mu[f] - E_nu[f]); основа WGAN
Теорема Брене: для W2 на R^d оптимальное T* = nabla psi единственно через выпуклый потенциал
Displacement interpolation - геодезические в P_2: основа градиентных потоков для PDE

Что утверждает теорема Брене для оптимального транспорта с квадратичной стоимостью на R^d?