Оптимальный транспорт
Двойственная формулировка: цены Канторовича
Задача транспорта: найти план gamma(x,y) с минимальной стоимостью. Звучит как линейное программирование - и это оно и есть. Двойственная LP даёт функции phi(x) и psi(y) - цены в точках источника и назначения. А потом оказывается: эти цены - это и есть critic в Wasserstein GAN. Один и тот же объект: оптимальный план перевозки и 1-Lipschitz функция различения. Канторович не знал о нейросетях. Он просто решал задачу снабжения советских заводов сырьём - и открыл принцип, на котором 75 лет спустя строятся generative models.
- **WGAN critic**: KR-теорема $W_1 = \sup_{\|f\|_L \leq 1} [\mathbb{E}_{\mu}[f] - \mathbb{E}_{\nu}[f]]$ - это буквально loss функция критика Wasserstein GAN. Gradient penalty и spectral normalization - способы обеспечить Lipschitz-ограничение
- **Input Convex Neural Networks**: теорема Брение дает: при квадратичной стоимости dual potential - выпуклая функция, карта T = grad phi. ICNN параметризуют phi напрямую, давая scalable OT-maps для domain adaptation
- **Sinkhorn как dual-итерации**: scaling vectors u, v в алгоритме Синхорна - это exp(phi/eps) и exp(psi/eps). Логарифм Sinkhorn-потенциалов - это regularized dual OT variables
Предварительные знания
- Задача Канторовича (primal формулировка)
- Sinkhorn алгоритм
- Преобразование Лежандра (желательно)
Двойственность Канторовича
1942 год. Советский математик Леонид Канторович, будущий нобелевский лауреат по экономике, решает задачу транспорта. Он замечает, что задача - линейная программа. А у любой LP есть двойственная. Через 75 лет эта двойственность окажется в сердце Wasserstein GAN.
**Primal задача**: найти транспортный план $\gamma \in \Pi(\mu, \nu)$ с минимальной стоимостью: $$W_c(\mu, \nu) = \min_{\gamma \in \Pi(\mu, \nu)} \int c(x, y) \, d\gamma(x, y)$$
**Двойственная задача** (Канторович): найти функции $\varphi(x)$ и $\psi(y)$ - цены источника и цены назначения - максимизирующие суммарную выплату: $$W_c(\mu, \nu) = \sup_{\varphi \oplus \psi \leq c} \left[ \int \varphi \, d\mu + \int \psi \, d\nu \right]$$ при ограничении $\varphi(x) + \psi(y) \leq c(x, y)$ для всех $x, y$.
**Сильная двойственность**: при слабых условиях регулярности primal = dual (нет зазора двойственности). Экономически: цена транспортировки равна максимуму рыночных цен, согласованных с ограничением стоимости. Математически: теорема LP-двойственности в бесконечномерном случае.
Двойственная задача Канторовича ищет функции phi(x) и psi(y). Что они экономически интерпретируют?
Kantorovich-Rubinstein и W_1
При $c(x, y) = \|x - y\|$ (расстояние $W_1$) двойственная задача упрощается радикально. Ограничение $\varphi(x) + \psi(y) \leq \|x - y\|$ при $\psi = -\varphi$ превращается в Липшицево условие.
**Теорема Канторовича-Рубинштейна**: $$W_1(\mu, \nu) = \sup_{\|f\|_L \leq 1} \left[ \mathbb{E}_{x \sim \mu}[f(x)] - \mathbb{E}_{y \sim \nu}[f(y)] \right]$$ Максимум берётся по всем 1-Липшицевым функциям $f$. Это и есть critic loss в Wasserstein GAN.
Именно это уравнение написано в статье Arjovsky et al. 2017 как обоснование WGAN. Ограничение на Липшицевость критика (weight clipping, gradient penalty) - практическая реализация $\|f\|_L \leq 1$. Critic обучается максимизировать разность ожиданий - буквально решает двойственную задачу Канторовича.
Почему в WGAN у критика нет sigmoid на выходе, в отличие от обычного GAN дискриминатора?
c-вогнутые функции и теорема Брение
Для общей стоимости $c(x,y)$ оптимальные dual-потенциалы удовлетворяют условию c-сопряжённости. Функция $\varphi$ называется c-вогнутой, если: $$\varphi(x) = \inf_y [c(x,y) - \psi(y)]$$
Это обобщение выпуклого сопряжения Лежандра. При $c(x,y) = \langle x, y \rangle$ - буквально преобразование Лежандра. При $c(x,y) = \|x-y\|^2/2$ связь с выпуклостью ещё теснее.
**Теорема Брение** (1991): при $c(x,y) = \|x-y\|^2$ оптимальный dual potential $\varphi$ является выпуклой функцией, и оптимальная карта транспорта: $T = \nabla \varphi$. Градиент выпуклой функции - и есть карта Монжа. Это соединяет выпуклый анализ, OT и теорию полярных разложений.
Двойственная задача OT сложнее primal - она менее практична для вычислений
Dual часто эффективнее: Sinkhorn работает с dual-потенциалами, WGAN обучает dual critic, ICNN параметризует dual potential напрямую
Primal задача оперирует матрицей gamma размера n*m - в непрерывном случае это меры на произведении. Dual работает с двумя функциями phi, psi - намного более компактное представление. Поэтому на практике большинство масштабируемых OT-методов решают dual задачу.
Теорема Брение утверждает: при c(x,y) = ||x-y||^2 оптимальная транспортная карта T = nabla phi, где phi выпукла. Что это означает для практических приложений?
Ключевые идеи
- **Двойственность Канторовича**: primal (min coupling) = dual (max over potentials phi, psi). Нет зазора при слабых условиях регулярности
- **KR-теорема**: $W_1(\mu, \nu) = \sup_{\|f\|_L \leq 1}[\mathbb{E}_{\mu}[f] - \mathbb{E}_{\nu}[f]]$. WGAN critic - это 1-Lipschitz dual potential
- **c-вогнутые функции**: обобщение Лежандра для произвольной стоимости $c$. Оптимальные потенциалы всегда c-вогнуты
- **Теорема Брение**: при $c = \|\cdot\|^2$ dual potential выпукла, оптимальная карта $T = \nabla\varphi$. Мост между OT, выпуклым анализом и ICNN
Куда дальше
Двойственность открывает практические инструменты OT:
- Wasserstein GAN — Обучение KR dual potential как critic нейросети
- Теорема Брение — Оптимальная карта через градиент выпуклого потенциала
- Двойственная структура в IG — Primal-dual как e/m-двойственность Амари
- Вычислительный OT — Sinkhorn потенциалы как regularized dual variables
Вопросы для размышления
- Critic в WGAN решает задачу максимизации KR dual. Что происходит с этой задачей, если распределения real и fake не имеют перекрывающегося носителя - и как это связано с проблемами обычного GAN?
- Теорема Брение работает при c = ||x-y||^2. Что меняется при c = ||x-y|| (задача W_1)? Почему оптимальная карта в этом случае не обязана быть градиентом выпуклой функции?
- Sinkhorn потенциалы u, v сходятся к exp(phi/eps), exp(psi/eps). При eps -> 0 что происходит с этими потенциалами? Как это связано с точной двойственностью Канторовича?
Связанные уроки
- ot-07-wgan — WGAN critic - это в точности dual potential Канторовича
- ot-06-brenier — Теорема Брение - следствие двойственности при квадратичной стоимости
- ot-04-sinkhorn — Sinkhorn = двойственные переменные u, v в log-domain
- ot-02-kantorovich — Primal задача Канторовича - отправная точка для двойственности
- ig-05-dual-flat — Primal-dual структура - та же идея двойственности в информационной геометрии
- calc-01-sequences