Теория меры

Оптимальный транспорт: взгляд теории меры

Как сравнить две вероятностные меры как распределения масс - и при чём здесь нейронные сети?

  • **Wasserstein GAN (WGAN):** замена KL на W1 устранила исчезающие градиенты, стабилизировала обучение и породила 10 000+ дочерних работ
  • **Биомедицина:** оптимальный транспорт сравнивает гистограммы экспрессии генов в single-cell RNA-seq, находя клеточные переходы в дифференцировке
  • **Экономика:** исходная задача Монжа (1781) - оптимальное распределение земляных работ; теорема Брене (1987) решила её через выпуклые потенциалы
  • **Вычислительная физика:** геодезические в пространстве Вассерштейна описывают плавные деформации распределений, используемые в моделировании течений

Предварительные знания

  • Дезинтеграция мер
  • Слабая сходимость мер
  • Выпуклый анализ и двойственность
  • Дезинтеграция мер

Задача Монжа и расслабление Канторовича

В 1781 году Гаспар Монж пытался минимизировать земляные работы при строительстве укреплений. 161 год спустя Леонид Канторович (1942) спас задачу от тупика: вместо жёсткого отображения он ввёл случайные транспортные планы. Та же идея сегодня лежит в Wasserstein GAN: вместо детерминированной функции - вероятностный коуплинг между распределениями.

Канторович в 1975 году получил Нобелевскую премию по экономике за линейное программирование. Двойственность OT и LP - не случайное совпадение: задача транспорта на конечных носителях есть классическая транспортная LP.

Почему задача Монжа может не иметь решения, тогда как задача Канторовича всегда решаема?

Расстояние Вассерштейна и двойственность

В 2017 году Facebook Research опубликовал Wasserstein GAN: замена дивергенции KL на W1 устранила исчезающие градиенты и стабилизировала обучение в 5 раз. К 2024 году эта работа породила более 10 000 дочерних публикаций. Ключевой механизм - двойственность Канторовича-Рубинштейна, превращающая W1 в задачу обучения 1-липшицевой нейросети.

Для одномерных мер оптимальное транспортное отображение - квантильное: T*(x) = F_nu^{-1}(F_mu(x)). Sorting сортирует обе выборки, и оптимальный план - монотонный coupling по позициям.

Двойственность Канторовича-Рубинштейна: W1(mu,nu) = sup_{||f||_L<=1} integral f d(mu-nu). Что означает ||f||_L <= 1?

Теорема Брение и геометрия Вассерштейна

В 1987 году Ив Брение совершил неожиданный поворот: оптимальное транспортное отображение для квадратичной стоимости на R^d всегда единственно и является градиентом выпуклой функции. Этот результат связал OT с теорией Монжа-Ампера и породил пространство Вассерштейна как риманово многообразие мер - основу displacement interpolation МакКанна и градиентных потоков для уравнения непрерывности.

Связи с другими областями

Оптимальный транспорт объединяет выпуклый анализ, теорию меры и дифференциальную геометрию.

  • Генеративные модели — WGAN и WGAN-GP используют W1 как функцию потерь - устойчивость к вырожденным распределениям устраняет mode collapse
  • Дифференциальная геометрия — Пространство P_2(R^d) - метрическое пространство с геодезическими, описываемыми displacement interpolation МакКанна
  • Уравнения в частных производных — Уравнение Монжа-Ампера для оптимального потенциала; уравнение непрерывности как градиентный поток в P_2 (формализм JKO)
  • Вычислительная биология — Sinkhorn-алгоритм энтропийной регуляризации за O(n^2) вычисляет приближенный W_p; применяется к single-cell RNA-seq и клеточным атласам

Итоги

  • Задача Монжа ищет детерминированное отображение T: может не иметь решения для атомарных мер
  • Расслабление Канторовича допускает случайные планы gamma на X x Y; линейная задача всегда решаема
  • W_p(mu,nu) - метрика на пространстве вероятностных мер, чувствительная к геометрии носителей
  • Двойственность Канторовича-Рубинштейна: W1 = sup_{Lip_1} (E_mu[f] - E_nu[f]); основа WGAN
  • Теорема Брене: для W2 на R^d оптимальное T* = nabla psi единственно через выпуклый потенциал
  • Displacement interpolation - геодезические в P_2: основа градиентных потоков для PDE

Что утверждает теорема Брене для оптимального транспорта с квадратичной стоимостью на R^d?

Оптимальный транспорт: взгляд теории меры

0

1

Войти