Выпуклая оптимизация

Оптимальный транспорт

Stable Diffusion и FLUX используют flow matching - прямое применение оптимального транспорта для переноса шума в изображения. WGAN 2017 года снизил mode collapse в генеративных сетях с 60% до менее 10%, заменив KL-дивергенцию на расстояние Вассерштейна.

Генеративные модели: Stable Diffusion 3, FLUX - flow matching на основе OT
WGAN (2017): стабильное обучение GAN через Wasserstein-1 дистанцию
NLP: Word Mover's Distance - семантическое сходство текстов через OT
Биоинформатика: сравнение клеточных профилей single-cell RNA-seq через Wasserstein
Computer vision: style transfer через optimal transport планы
Логистика: задача Монжа 1781 года - оптимальная транспортировка ресурсов

Расстояние Вассерштейна: земля не может перемещаться бесплатно

Stable Diffusion и WGAN (2017) используют Wasserstein distance вместо KL-дивергенции. WGAN снизил mode collapse с 60% до менее 10% на стандартных бенчмарках. Задача Монжа 1781 года: найти отображение T, минимизирующее суммарный транспортный путь - это и есть Wasserstein-1 расстояние.

Расстояние Вассерштейна W_p(mu, nu) - минимальная работа по перемещению 'земли' из конфигурации mu в nu. Математически: инфимум ожидаемой стоимости транспортировки по всем совместным распределениям (транспортным планам) с заданными маргиналями.

Почему W_1(delta_x, delta_y) = ||x-y||, но KL(delta_x || delta_y) = infinity? Что это означает для обучения генеративных моделей?

Двойственность Канторовича и WGAN

**Двойственная задача Канторовича**: W_1(mu, nu) = sup по 1-Липшицевым функциям f от integral f d(mu - nu). Это утверждение трансформирует задачу транспортировки в задачу нахождения максимального разрыва между распределениями по классу гладких функций. Именно на этой формулировке работает Wasserstein GAN.

WGAN (Arjovsky et al., 2017) и WGAN-GP (Gulrajani et al., 2017) - поворотные статьи в generative modeling. После них обучение GAN стало значительно стабильнее. Современные flow matching модели (используются в Stable Diffusion 3, FLUX) построены на ещё более прямом использовании optimal transport.

Зачем в WGAN-GP добавляют gradient penalty ||grad_x D(x_hat)||_2 = 1? Что произойдёт без него?

Алгоритм Синкхорна: O(n^2) вместо O(n^3)

Дискретный оптимальный транспорт - задача LP с O(n^2) переменными. Симплекс-метод: O(n^3). Энтропийная регуляризация + алгоритм Синкхорна: O(n^2) итераций, GPU-параллелен, дифференцируем. Именно это делает OT практичным для ML: 1000 x 1000 транспортных планов за секунды.

Библиотека POT (Python Optimal Transport): pip install POT. Sinkhorn, Earth Mover's Distance, Wasserstein barycenters - всё готово. Используется в нейроинформатике (сравнение клеточных профилей), NLP (WMD - Word Mover's Distance для сходства текстов), computer vision (style transfer через OT).

Почему регуляризованный транспорт W_eps(mu, mu) != 0? Что такое Sinkhorn divergence и как она исправляет этот недостаток?

Ключевые идеи

W_p(mu, nu): минимальная стоимость транспортировки массы; задача Канторовича = линейная программа
Vs KL: W конечна при непересекающихся носителях, дает информативный градиент для GAN
Двойственность Канторовича: W_1 = max по 1-Lip функциям E[f(real)] - E[f(fake)] - основа WGAN
Энтропийная регуляризация -> алгоритм Синкхорна: O(n^2) вместо O(n^3), GPU-параллелен
Sinkhorn divergence: исправляет S_eps(mu,mu) != 0, симметрична и положительно определена

Связанные темы

Оптимальный транспорт соединяет выпуклую оптимизацию и теорию вероятностей.

Двойственность — Двойственность Канторовича - пример сильной двойственности LP
Стохастическая оптимизация — Mini-batch оценки Вассерштейна в WGAN через SGD

Связанные уроки

prob-10-continuous

Расстояние Вассерштейна: земля не может перемещаться бесплатно

Почему W_1(delta_x, delta_y) = ||x-y||, но KL(delta_x || delta_y) = infinity? Что это означает для обучения генеративных моделей?

Двойственность Канторовича и WGAN

Зачем в WGAN-GP добавляют gradient penalty ||grad_x D(x_hat)||_2 = 1? Что произойдёт без него?

Алгоритм Синкхорна: O(n^2) вместо O(n^3)

Почему регуляризованный транспорт W_eps(mu, mu) != 0? Что такое Sinkhorn divergence и как она исправляет этот недостаток?

Ключевые идеи

W_p(mu, nu): минимальная стоимость транспортировки массы; задача Канторовича = линейная программа

Vs KL: W конечна при непересекающихся носителях, дает информативный градиент для GAN

Двойственность Канторовича: W_1 = max по 1-Lip функциям E[f(real)] - E[f(fake)] - основа WGAN

Энтропийная регуляризация -> алгоритм Синкхорна: O(n^2) вместо O(n^3), GPU-параллелен

Sinkhorn divergence: исправляет S_eps(mu,mu) != 0, симметрична и положительно определена