Теория меры
Оптимальный транспорт: взгляд теории меры
Как сравнить две вероятностные меры как распределения масс - и при чём здесь нейронные сети?
- **Wasserstein GAN (WGAN):** замена KL на W1 устранила исчезающие градиенты, стабилизировала обучение и породила 10 000+ дочерних работ
- **Биомедицина:** оптимальный транспорт сравнивает гистограммы экспрессии генов в single-cell RNA-seq, находя клеточные переходы в дифференцировке
- **Экономика:** исходная задача Монжа (1781) - оптимальное распределение земляных работ; теорема Брене (1987) решила её через выпуклые потенциалы
- **Вычислительная физика:** геодезические в пространстве Вассерштейна описывают плавные деформации распределений, используемые в моделировании течений
Предварительные знания
- Дезинтеграция мер
- Слабая сходимость мер
- Выпуклый анализ и двойственность
Задача Монжа и расслабление Канторовича
В 1781 году Гаспар Монж пытался минимизировать земляные работы при строительстве укреплений. 161 год спустя Леонид Канторович (1942) спас задачу от тупика: вместо жёсткого отображения он ввёл случайные транспортные планы. Та же идея сегодня лежит в Wasserstein GAN: вместо детерминированной функции - вероятностный коуплинг между распределениями.
Канторович в 1975 году получил Нобелевскую премию по экономике за линейное программирование. Двойственность OT и LP - не случайное совпадение: задача транспорта на конечных носителях есть классическая транспортная LP.
Почему задача Монжа может не иметь решения, тогда как задача Канторовича всегда решаема?
Расстояние Вассерштейна и двойственность
В 2017 году Facebook Research опубликовал Wasserstein GAN: замена дивергенции KL на W1 устранила исчезающие градиенты и стабилизировала обучение в 5 раз. К 2024 году эта работа породила более 10 000 дочерних публикаций. Ключевой механизм - двойственность Канторовича-Рубинштейна, превращающая W1 в задачу обучения 1-липшицевой нейросети.
Для одномерных мер оптимальное транспортное отображение - квантильное: T*(x) = F_nu^{-1}(F_mu(x)). Sorting сортирует обе выборки, и оптимальный план - монотонный coupling по позициям.
Двойственность Канторовича-Рубинштейна: W1(mu,nu) = sup_{||f||_L<=1} integral f d(mu-nu). Что означает ||f||_L <= 1?
Теорема Брение и геометрия Вассерштейна
В 1987 году Ив Брение совершил неожиданный поворот: оптимальное транспортное отображение для квадратичной стоимости на R^d всегда единственно и является градиентом выпуклой функции. Этот результат связал OT с теорией Монжа-Ампера и породил пространство Вассерштейна как риманово многообразие мер - основу displacement interpolation МакКанна и градиентных потоков для уравнения непрерывности.
Связи с другими областями
Оптимальный транспорт объединяет выпуклый анализ, теорию меры и дифференциальную геометрию.
- Генеративные модели — WGAN и WGAN-GP используют W1 как функцию потерь - устойчивость к вырожденным распределениям устраняет mode collapse
- Дифференциальная геометрия — Пространство P_2(R^d) - метрическое пространство с геодезическими, описываемыми displacement interpolation МакКанна
- Уравнения в частных производных — Уравнение Монжа-Ампера для оптимального потенциала; уравнение непрерывности как градиентный поток в P_2 (формализм JKO)
- Вычислительная биология — Sinkhorn-алгоритм энтропийной регуляризации за O(n^2) вычисляет приближенный W_p; применяется к single-cell RNA-seq и клеточным атласам
Итоги
- Задача Монжа ищет детерминированное отображение T: может не иметь решения для атомарных мер
- Расслабление Канторовича допускает случайные планы gamma на X x Y; линейная задача всегда решаема
- W_p(mu,nu) - метрика на пространстве вероятностных мер, чувствительная к геометрии носителей
- Двойственность Канторовича-Рубинштейна: W1 = sup_{Lip_1} (E_mu[f] - E_nu[f]); основа WGAN
- Теорема Брене: для W2 на R^d оптимальное T* = nabla psi единственно через выпуклый потенциал
- Displacement interpolation - геодезические в P_2: основа градиентных потоков для PDE
Что утверждает теорема Брене для оптимального транспорта с квадратичной стоимостью на R^d?