Выпуклая оптимизация
Оптимальный транспорт
Stable Diffusion и FLUX используют flow matching - прямое применение оптимального транспорта для переноса шума в изображения. WGAN 2017 года снизил mode collapse в генеративных сетях с 60% до менее 10%, заменив KL-дивергенцию на расстояние Вассерштейна.
- Генеративные модели: Stable Diffusion 3, FLUX - flow matching на основе OT
- WGAN (2017): стабильное обучение GAN через Wasserstein-1 дистанцию
- NLP: Word Mover's Distance - семантическое сходство текстов через OT
- Биоинформатика: сравнение клеточных профилей single-cell RNA-seq через Wasserstein
- Computer vision: style transfer через optimal transport планы
- Логистика: задача Монжа 1781 года - оптимальная транспортировка ресурсов
Расстояние Вассерштейна: земля не может перемещаться бесплатно
Stable Diffusion и WGAN (2017) используют Wasserstein distance вместо KL-дивергенции. WGAN снизил mode collapse с 60% до менее 10% на стандартных бенчмарках. Задача Монжа 1781 года: найти отображение T, минимизирующее суммарный транспортный путь - это и есть Wasserstein-1 расстояние.
Расстояние Вассерштейна W_p(mu, nu) - минимальная работа по перемещению 'земли' из конфигурации mu в nu. Математически: инфимум ожидаемой стоимости транспортировки по всем совместным распределениям (транспортным планам) с заданными маргиналями.
Почему W_1(delta_x, delta_y) = ||x-y||, но KL(delta_x || delta_y) = infinity? Что это означает для обучения генеративных моделей?
Двойственность Канторовича и WGAN
**Двойственная задача Канторовича**: W_1(mu, nu) = sup по 1-Липшицевым функциям f от integral f d(mu - nu). Это утверждение трансформирует задачу транспортировки в задачу нахождения максимального разрыва между распределениями по классу гладких функций. Именно на этой формулировке работает Wasserstein GAN.
WGAN (Arjovsky et al., 2017) и WGAN-GP (Gulrajani et al., 2017) - поворотные статьи в generative modeling. После них обучение GAN стало значительно стабильнее. Современные flow matching модели (используются в Stable Diffusion 3, FLUX) построены на ещё более прямом использовании optimal transport.
Зачем в WGAN-GP добавляют gradient penalty ||grad_x D(x_hat)||_2 = 1? Что произойдёт без него?
Алгоритм Синкхорна: O(n^2) вместо O(n^3)
Дискретный оптимальный транспорт - задача LP с O(n^2) переменными. Симплекс-метод: O(n^3). Энтропийная регуляризация + алгоритм Синкхорна: O(n^2) итераций, GPU-параллелен, дифференцируем. Именно это делает OT практичным для ML: 1000 x 1000 транспортных планов за секунды.
Библиотека POT (Python Optimal Transport): pip install POT. Sinkhorn, Earth Mover's Distance, Wasserstein barycenters - всё готово. Используется в нейроинформатике (сравнение клеточных профилей), NLP (WMD - Word Mover's Distance для сходства текстов), computer vision (style transfer через OT).
Почему регуляризованный транспорт W_eps(mu, mu) != 0? Что такое Sinkhorn divergence и как она исправляет этот недостаток?
Ключевые идеи
- W_p(mu, nu): минимальная стоимость транспортировки массы; задача Канторовича = линейная программа
- Vs KL: W конечна при непересекающихся носителях, дает информативный градиент для GAN
- Двойственность Канторовича: W_1 = max по 1-Lip функциям E[f(real)] - E[f(fake)] - основа WGAN
- Энтропийная регуляризация -> алгоритм Синкхорна: O(n^2) вместо O(n^3), GPU-параллелен
- Sinkhorn divergence: исправляет S_eps(mu,mu) != 0, симметрична и положительно определена
Связанные темы
Оптимальный транспорт соединяет выпуклую оптимизацию и теорию вероятностей.
- Двойственность — Двойственность Канторовича - пример сильной двойственности LP
- Стохастическая оптимизация — Mini-batch оценки Вассерштейна в WGAN через SGD