Выпуклая оптимизация

Оптимальный транспорт

Stable Diffusion и FLUX используют flow matching - прямое применение оптимального транспорта для переноса шума в изображения. WGAN 2017 года снизил mode collapse в генеративных сетях с 60% до менее 10%, заменив KL-дивергенцию на расстояние Вассерштейна.

  • Генеративные модели: Stable Diffusion 3, FLUX - flow matching на основе OT
  • WGAN (2017): стабильное обучение GAN через Wasserstein-1 дистанцию
  • NLP: Word Mover's Distance - семантическое сходство текстов через OT
  • Биоинформатика: сравнение клеточных профилей single-cell RNA-seq через Wasserstein
  • Computer vision: style transfer через optimal transport планы
  • Логистика: задача Монжа 1781 года - оптимальная транспортировка ресурсов

Расстояние Вассерштейна: земля не может перемещаться бесплатно

Stable Diffusion и WGAN (2017) используют Wasserstein distance вместо KL-дивергенции. WGAN снизил mode collapse с 60% до менее 10% на стандартных бенчмарках. Задача Монжа 1781 года: найти отображение T, минимизирующее суммарный транспортный путь - это и есть Wasserstein-1 расстояние.

Расстояние Вассерштейна W_p(mu, nu) - минимальная работа по перемещению 'земли' из конфигурации mu в nu. Математически: инфимум ожидаемой стоимости транспортировки по всем совместным распределениям (транспортным планам) с заданными маргиналями.

Почему W_1(delta_x, delta_y) = ||x-y||, но KL(delta_x || delta_y) = infinity? Что это означает для обучения генеративных моделей?

Двойственность Канторовича и WGAN

**Двойственная задача Канторовича**: W_1(mu, nu) = sup по 1-Липшицевым функциям f от integral f d(mu - nu). Это утверждение трансформирует задачу транспортировки в задачу нахождения максимального разрыва между распределениями по классу гладких функций. Именно на этой формулировке работает Wasserstein GAN.

WGAN (Arjovsky et al., 2017) и WGAN-GP (Gulrajani et al., 2017) - поворотные статьи в generative modeling. После них обучение GAN стало значительно стабильнее. Современные flow matching модели (используются в Stable Diffusion 3, FLUX) построены на ещё более прямом использовании optimal transport.

Зачем в WGAN-GP добавляют gradient penalty ||grad_x D(x_hat)||_2 = 1? Что произойдёт без него?

Алгоритм Синкхорна: O(n^2) вместо O(n^3)

Дискретный оптимальный транспорт - задача LP с O(n^2) переменными. Симплекс-метод: O(n^3). Энтропийная регуляризация + алгоритм Синкхорна: O(n^2) итераций, GPU-параллелен, дифференцируем. Именно это делает OT практичным для ML: 1000 x 1000 транспортных планов за секунды.

Библиотека POT (Python Optimal Transport): pip install POT. Sinkhorn, Earth Mover's Distance, Wasserstein barycenters - всё готово. Используется в нейроинформатике (сравнение клеточных профилей), NLP (WMD - Word Mover's Distance для сходства текстов), computer vision (style transfer через OT).

Почему регуляризованный транспорт W_eps(mu, mu) != 0? Что такое Sinkhorn divergence и как она исправляет этот недостаток?

Ключевые идеи

  • W_p(mu, nu): минимальная стоимость транспортировки массы; задача Канторовича = линейная программа
  • Vs KL: W конечна при непересекающихся носителях, дает информативный градиент для GAN
  • Двойственность Канторовича: W_1 = max по 1-Lip функциям E[f(real)] - E[f(fake)] - основа WGAN
  • Энтропийная регуляризация -> алгоритм Синкхорна: O(n^2) вместо O(n^3), GPU-параллелен
  • Sinkhorn divergence: исправляет S_eps(mu,mu) != 0, симметрична и положительно определена

Связанные темы

Оптимальный транспорт соединяет выпуклую оптимизацию и теорию вероятностей.

  • Двойственность — Двойственность Канторовича - пример сильной двойственности LP
  • Стохастическая оптимизация — Mini-batch оценки Вассерштейна в WGAN через SGD

Связанные уроки

  • prob-10-continuous
Оптимальный транспорт

0

1

Войти