Оптимальный транспорт

Теорема Бренье: транспорт = градиент выпуклой функции

1991 год. Yann Brenier берёт два распределения в $\mathbb{R}^d$ и закрывает 210-летнюю задачу Монжа одной формулой: оптимальная карта - это градиент выпуклой функции. $T(x) = \nabla\varphi(x)$. Не приближение, не численный алгоритм - точное описание решения. Тридцать лет спустя эта формула становится фундаментом FID-метрики (которой меряют каждый GAN и diffusion), архитектуры ICNN, Flow Matching в Stable Diffusion 3 и Meta MovieGen. Оптимальный транспорт квадратичной стоимости и выпуклый анализ оказались двумя именами одного объекта.

  • **FID-метрика** (Heusel et al. 2017): Frechet Inception Distance - формула Бренье для гауссиан в Inception-feature space. $W_2^2 = \|m_r - m_f\|^2 + \mathrm{tr}(\Sigma_r + \Sigma_f - 2(\Sigma_r^{1/2}\Sigma_f\Sigma_r^{1/2})^{1/2})$. Стандарт оценки качества GAN, diffusion, flow-моделей
  • **Input Convex Neural Networks** (Amos et al. 2017): архитектура с гарантированной выпуклостью входа, $\nabla \text{ICNN}$ - valid OT-карта по Бренье. Применяется в domain adaptation, 3D shape morphing, неравновесной термодинамике
  • **Flow Matching и Rectified Flow** (Lipman 2022, Liu 2022): обучение $v_t = \nabla\varphi_t$ как нейросети. Stable Diffusion 3, Meta MovieGen, Pika - тренируются в 5-10 раз быстрее classical DDPM
  • **OT-Flow** (Onken et al. 2021): CNF с регуляризацией Бенаму-Бренье functional. Density estimation на порядки быстрее стандартного normalizing flow

Предварительные знания

  • Двойственность Канторовича и c-вогнутые функции
  • Алгоритм Sinkhorn (для контекста дискретной аппроксимации)
  • Преобразование Лежандра (рекомендуется)
  • Двойственная формулировка Канторовича
  • Алгоритм Sinkhorn
  • Двойственность Лагранжа

Теорема Бренье: транспорт = градиент выпуклой функции

Задача Монжа: найти $T: \mathbb{R}^d \to \mathbb{R}^d$, переводящее $\mu$ в $\nu$ с минимальной квадратичной стоимостью $\int \|x - T(x)\|^2 \, d\mu(x)$. Гладкие плотности, конечный второй момент - больше ничего не требуется. Бренье 1991: решение существует, единственно, и **выглядит как градиент выпуклой функции**.

**Почему выпуклость даёт уникальность**. Если $T_1, T_2$ - две оптимальные карты с $T_i = \nabla\varphi_i$, выпуклых, то по строгой выпуклости квадратичной функции и условию циклической монотонности $\varphi_1 = \varphi_2 + \text{const}$. Градиенты совпадают всюду - значит $T_1 = T_2$ почти везде по $\mu$. Без выпуклости (например, при $c = \|x-y\|$) единственность ломается: для $W_1$ оптимальная карта может быть не градиентом и не единственна.

Уравнение Monge-Ampere

Сохранение массы $T_\# \mu = \nu$ + $T = \nabla\varphi$ дают конкретное PDE на $\varphi$. Через формулу замены переменных Якобиан $T = \nabla\varphi$ равен $D^2\varphi$ (Гессиан), и условие на плотности превращается в:

**Полностью нелинейный эллиптический PDE**. Линейные эллиптические уравнения (Лаплас, Пуассон) - суммы вторых производных. Monge-Ampere - произведение собственных значений Гессиана. Эллиптичность держится только при $D^2\varphi \succ 0$, то есть на множестве строго выпуклых $\varphi$ - ровно условие Бренье. Регулярность доказал Caffarelli (1990s); за это и за смежные теоремы получил Wolf Prize 2012 и Abel Prize 2023.

От Бренье к WGAN и Flow Matching

Wasserstein-2 расстояние через потенциал Бренье: $W_2^2(\mu,\nu) = \int \|x - \nabla\varphi(x)\|^2 d\mu$. Это примал. WGAN (Arjovsky 2017) обучает дуальную форму Канторович-Рубинштейна для $W_1$ через 1-Липшицев критик - это другая дорога. Бренье даёт прямой путь: параметризовать саму $\varphi$ выпуклой нейросетью и взять градиент. Так работают ICNN (Amos 2017) и большинство современных OT-генеративных моделей.

Continuous Normalizing Flows и Flow Matching идут на шаг дальше. Динамическая формулировка Бенаму-Бренье 2000 года: $W_2^2(\mu,\nu) = \inf \int_0^1 \int \|v_t\|^2 \rho_t \, dx \, dt$ при continuity equation $\partial_t \rho_t + \nabla\cdot(\rho_t v_t) = 0$. Минимум достигается на $v_t = \nabla\varphi_t$ - velocity field есть градиент потенциала во времени. Flow Matching (Lipman 2022) обучает нейросеть $v_\theta(t,x)$ предсказывать это поле. Stable Diffusion 3, Meta MovieGen, Pika - все собраны на этой идее.

**Diffusion и OT - две стороны одной монеты**. DDPM (Ho 2020) добавляет шум по цепи Маркова и учит обратную цепь. В пределе мелкого шага это SDE; убрав стохастику, получим ODE - и она есть transport flow в духе Бренье. Albergo-Vanden-Eijnden 2023 и Liu et al. 2022 (Rectified Flow) формализовали эквивалентность: deterministic diffusion = time-discretized OT. Любой современный image generator неявно решает Monge-Ampere.

Формулировка Бренье

1991 год. Yann Brenier берёт пару распределений в $\mathbb{R}^d$ (источник - абсолютно непрерывный) и одной формулой - градиент выпуклой функции - закрывает 210-летнюю задачу Монжа. Не приближённо. Точно. В любой размерности.

**Теорема Бренье** (1991, *Comm. Pure Appl. Math.*). Пусть $\mu, \nu$ - вероятностные меры на $\mathbb{R}^d$ с конечным вторым моментом, $\mu$ абсолютно непрерывна по Лебегу. Тогда задача Монжа со стоимостью $c(x,y) = \tfrac{1}{2}\|x-y\|^2$ имеет единственное решение $T$, и существует выпуклая функция $\varphi: \mathbb{R}^d \to \mathbb{R}$ такая, что:

Эта $\varphi$ называется **потенциалом Бренье** и она выпуклая. Связь с двойственностью Канторовича: дуальный c-вогнутый потенциал $\psi$ возникает через Лежандр-подобную замену $\psi(x) = \tfrac{1}{2}\|x\|^2 - \varphi(x)$ - и c-вогнутость $\psi$ при квадратичной стоимости в точности эквивалентна выпуклости $\varphi$. Карта - градиент. Точка.

**Почему именно выпуклая функция**. Условие циклической монотонности оптимального плана: $\sum_i \langle x_i - x_{i+1}, T(x_i) \rangle \geq 0$ для любого цикла. По теореме Рокафеллара это ровно означает: $T$ - подградиент некоторой выпуклой функции. Для гладкого $\mu$ подградиент совпадает с градиентом почти везде. Геометрия выпуклого анализа выводится из самой формы $\|x-y\|^2 = \|x\|^2 - 2\langle x,y \rangle + \|y\|^2$ - линейное по $y$ слагаемое и есть скалярное произведение Лежандра.

Что это значит интуитивно. Оптимальный транспорт квадратичной стоимости никогда не пересекает траектории: если $T(x_1)=y_1, T(x_2)=y_2$, то отрезки $[x_1,y_1]$ и $[x_2,y_2]$ либо не пересекаются, либо совпадают. Градиент выпуклой функции - монотонное отображение в многомерном смысле: $\langle \nabla\varphi(x_1) - \nabla\varphi(x_2), x_1 - x_2 \rangle \geq 0$. Эта монотонность исключает любые скрещивания.

**Связь с полярным разложением**. Аналог Brenier для матриц: любую матрицу $A$ можно записать как $A = OS$, где $O$ ортогональна, $S$ симметрично-положительна. Бренье - бесконечномерное обобщение: любое отображение $S: \mathbb{R}^d \to \mathbb{R}^d$ раскладывается в композицию сохраняющего меру и градиента выпуклой функции. Полярная факторизация - частный случай.

Теорема Бренье утверждает существование $\varphi$ выпуклой такой, что $T = \nabla \varphi$ - оптимальная карта при $c = \|x-y\|^2$. Какое требование на $\mu$ принципиально для единственности?

Уравнение Monge-Ampere

Бренье говорит: $T = \nabla\varphi$. Условие сохранения массы $T_\# \mu = \nu$ переводится в дифференциальное уравнение на сам потенциал. Через формулу замены переменных: если $\mu$ имеет плотность $\rho_0$, $\nu$ имеет плотность $\rho_1$, то якобиан $T = \nabla\varphi$ должен поглощать отношение плотностей.

Это **уравнение Monge-Ampere** - полностью нелинейное PDE второго порядка. Его существование исследовалось со времён Монжа; регулярные решения для гладких данных доказали Caffarelli (1990s), за что он получил Wolf Prize 2012 и Abel Prize 2023.

**Почему уравнение тяжёлое**. Линейные эллиптические PDE (Лаплас, Пуассон) дают симметричные операторы и спектральные методы. Monge-Ampere содержит $\det(D^2\varphi)$ - произведение собственных значений Гессиана. Это фундаментально нелинейный объект: возмущение в одной точке меняет геометрию глобально через произведение. Эллиптичность держится только при условии $\varphi$ выпуклой - гарант от теоремы Бренье. Caffarelli доказал: если плотности гладкие и ограничены снизу, то $\varphi \in C^{2,\alpha}$ - и значит карта $T$ непрерывно дифференцируема.

Гауссовский случай - единственный с замкнутой формулой. Для $\mu = \mathcal{N}(m_0, \Sigma_0)$, $\nu = \mathcal{N}(m_1, \Sigma_1)$ потенциал Бренье аффинно-квадратичен:

Из этой формулы получается closed-form для $W_2^2$ между гауссианами - используется в FID-метрике (Frechet Inception Distance) для оценки качества GAN и diffusion моделей.

**FID-метрика держится на Бренье**. Inception-эмбеддинги real и fake аппроксимируются гауссианами, и FID = $\|m_r - m_f\|^2 + \text{tr}(\Sigma_r + \Sigma_f - 2(\Sigma_r^{1/2}\Sigma_f\Sigma_r^{1/2})^{1/2})$ - это в точности $W_2^2$ между гауссианами по формуле Бренье. Каждый paper по diffusion и GAN с FID-числом - неявный пользователь теоремы 1991 года.

Уравнение Monge-Ampere $\det(D^2\varphi) = \rho_0 / \rho_1 \circ \nabla\varphi$ - PDE второго порядка. Что делает его принципиально сложнее уравнения Лапласа?

От Бренье к WGAN и Flow Matching

Wasserstein-2 расстояние выражается через потенциал Бренье буквально: $W_2^2(\mu, \nu) = \int \|x - \nabla\varphi(x)\|^2 \, d\mu(x)$. Это примал-формулировка - в терминах самой карты. WGAN (Arjovsky 2017) обучает дуальную форму Канторович-Рубинштейна для $W_1$ через 1-Lipschitz критика. Бренье даёт другой путь: параметризовать $\varphi$ напрямую как выпуклую нейросеть.

**Input Convex Neural Networks** (Amos et al. 2017) - архитектура, конструктивно гарантирующая выпуклость по входу. Веса non-negative, активации монотонно неубывающие выпуклые (ReLU, Softplus). Градиент такой сети - оптимальная карта по теореме Бренье. Применения: domain adaptation в компьютерном зрении, неравновесная термодинамика, морфинг 3D-форм.

**Continuous Normalizing Flows** (CNF, Chen et al. 2018) и **Flow Matching** (Lipman et al. 2022) идут дальше. Вместо одной карты $T$ - целое семейство $T_t$, $t \in [0,1]$, интерполирующее $\mu$ и $\nu$. По динамической формулировке Бенаму-Бренье (2000):

при условии $\partial_t \rho_t + \nabla \cdot (\rho_t v_t) = 0$. Минимум достигается на $v_t = \nabla \varphi_t$ - и $\nabla \varphi_t$ есть прямой геодезик в пространстве Вассерштейна. Flow Matching обучает нейросеть $v_\theta(t,x)$ предсказывать оптимальное velocity field. Stable Diffusion 3, Meta MovieGen, Pika - все на этой идее, тренируются в 5-10 раз быстрее classical DDPM.

**Diffusion как time-discretized OT**. DDPM (Ho et al. 2020) делает шаги $x_t \to x_{t+1}$ через стохастическое возмущение. В пределе мелкого шага это SDE; убрав шумовую часть, получим ODE - и эта ODE есть transport flow в духе Бренье. Связь формализовали Albergo и Vanden-Eijnden 2023, Liu et al. 2022 (Rectified Flow). Современные диффузии и flow matching - две стороны одного OT.

**OT-Flow** (Onken et al. 2021) объединяет CNF и Бренье явно. Velocity field параметризован как $v_t(x) = \nabla \Phi(t, x)$ для скаляра $\Phi$, обучается с регуляризацией кинетической энергии $\|\nabla\Phi\|^2$ - буквально Бенаму-Бренье functional. Результат: тренировка density estimation в десятки раз быстрее, чем у standard CNF, и flow стремится к straight-line OT-геодезикам.

Теорема Бренье - чистая математика 90-х, к нейросетям отношения не имеет

Бренье - технический фундамент Wasserstein-2 геометрии в ML: FID-метрика, ICNN, Flow Matching, OT-Flow, Rectified Flow - все опираются на $T = \nabla\varphi$

FID-метрика для оценки GAN/diffusion - формула Бренье для гауссианов. Flow Matching и Stable Diffusion 3 обучают $v_t = \nabla\varphi_t$ как нейросеть - параметризация Бенаму-Бренье functional. ICNN от Amos дают примал-OT через выпуклую сеть. Без теоремы 1991 года не было бы ни одного из этих инструментов в современном виде.

Input Convex Neural Networks (ICNN) параметризуют выпуклую функцию $\varphi: \mathbb{R}^d \to \mathbb{R}$. Зачем это нужно для оптимального транспорта?

Ключевые идеи

  • **Теорема Бренье 1991**: при $c = \|x-y\|^2$ оптимальная карта Монжа существует, единственна и есть $T = \nabla\varphi$, $\varphi$ выпуклая. Условие на $\mu$ - абсолютная непрерывность
  • **Уравнение Monge-Ampere**: $\det(D^2\varphi) = \rho_0 / \rho_1\circ\nabla\varphi$ - полностью нелинейный эллиптический PDE. Регулярность - теорема Caffarelli (1990s)
  • **Гауссовский случай**: closed-form $T(x) = m_1 + A(x-m_0)$, $A = \Sigma_0^{-1/2}(\Sigma_0^{1/2}\Sigma_1\Sigma_0^{1/2})^{1/2}\Sigma_0^{-1/2}$. Базис FID-метрики
  • **ICNN** (Amos 2017): выпуклая нейросеть $\varphi$, $\nabla\varphi$ - valid Brenier-карта по построению
  • **Бенаму-Бренье 2000**: динамическая формулировка $W_2$ через velocity field $v_t = \nabla\varphi_t$. Фундамент Flow Matching и SD3
  • **Diffusion = time-discretized OT**: классическое DDPM, Rectified Flow и Flow Matching - три способа описать одно: transport flow в духе Бренье

Куда дальше

Теорема Бренье - технический мост между OT и современным ML:

  • Wasserstein GAN — WGAN решает дуальную $W_1$, Бренье - примал $W_2$ через градиент потенциала
  • Flow Matching — Динамический Бренье: $v_t = \nabla\varphi_t$ как нейросеть
  • Двойственность Лагранжа — Та же примал-дуальная пара через выпуклое сопряжение
  • Дуально-плоская структура Амари — Информационная геометрия: e/m-двойственность как обобщение Лежандра

Вопросы для размышления

  • Бренье требует $\mu$ абсолютно непрерывной. Что происходит с теоремой при дискретных $\mu$ (батч из $n$ дельта-функций)? Как Sinkhorn обходит это ограничение?
  • Уравнение Monge-Ampere $\det(D^2\varphi) = \rho_0/\rho_1\circ\nabla\varphi$ - нелинейное PDE. Почему классические спектральные методы (преобразование Фурье, finite element) плохо работают для него, и какие численные подходы используются на практике?
  • ICNN параметризует выпуклую $\varphi$, $\nabla\text{ICNN}$ даёт OT-карту. Какая цена этого ограничения - что теряется по сравнению с произвольной нейросетью, и почему всё равно стоит платить?
  • Flow Matching обучает $v_\theta(t,x)$, аппроксимирующее $\nabla\varphi_t$. Какие условия на $v_\theta$ нужны, чтобы flow получился именно OT-геодезикой, а не произвольной интерполяцией между $\mu$ и $\nu$?

Связанные уроки

  • ot-05-dual — Бренье - частный случай Канторович-двойственности при квадратичной стоимости
  • ot-04-sinkhorn — Sinkhorn-потенциалы аппроксимируют Brenier-потенциал при $\varepsilon \to 0$
  • ot-07-wgan — WGAN решает дуальную задачу; Бренье даёт прямое примал-описание карты
  • ot-11-flow-matching — Flow Matching обучает $\nabla \varphi_t$ как нейросеть на OT-карты
  • cvx-04 — Та же примал-дуальная конструкция через выпуклое сопряжение Лежандра
  • ig-05-dual-flat — Дуально-плоская структура Амари: e/m-двойственность через выпуклое сопряжение
  • calc-01-sequences
Теорема Бренье: транспорт = градиент выпуклой функции

0

1

Войти