Оптимальный транспорт

Геодезики и Displacement Interpolation

Displacement interpolation - математический фундамент, объединяющий диффузионные модели, flow matching и optimal transport. Stable Diffusion буквально идёт по геодезику в пространстве мер.

  • **Rectified Flow (Liu 2022):** оптимальный поток = прямые пути = displacement interpolation. Stable Diffusion 3 и Flux используют это для 10-кратного ускорения.
  • **Color transfer (Reinhard 2001):** displacement interpolation для переноса цветовой палитры между изображениями. Используется в кино-постпродакшн.
  • **Shape morphing:** геодезик между двумя 3D формами = плавная деформация. Применяется в медицинской визуализации (MRI brain atlases).

Интерполяция МакКэнна: геодезики в пространстве Вассерштейна

**Диффузионные модели (Stable Diffusion, 2022) реализуют displacement interpolation в пространстве вероятностных мер - 14-шаговый путь от шума до изображения 512×512.** Геодезик в пространстве (𝒫₂, W₂) - это не смесь распределений, а перемещение каждой точки по прямой.

Displacement interpolation отличается от линейной смеси (1−t)μ₀ + tμ₁: смесь создаёт бимодальное распределение, геодезик - плавно перемещает массу. Diffusion models используют геодезик от N(0,I) к p_data.

Чем displacement interpolation отличается от линейной смеси (1−t)μ₀ + tμ₁?

Линейная смесь создаёт промежуточную меру с двумя модами. Displacement interpolation сдвигает каждую частицу по прямой - мода остаётся одна, плавно переходя от μ₀ к μ₁.

Теорема Бренье: существование оптимальной карты

Монж искал детерминированную карту T: X→Y, переносящую μ в ν с минимальной стоимостью. **Теорема Бренье (1991)** даёт существование и единственность такой карты для квадратичной стоимости: T = ∇φ для выпуклой функции φ.

Теорема Бренье требует абсолютной непрерывности μ (нет атомов). В дискретном случае оптимальная карта может быть неоднозначной - используют план Канторовича.

Как выглядит оптимальная OT-карта T: μ→ν для одномерных распределений?

В 1D оптимальная карта - монотонное возрастающее отображение T = F_ν⁻¹(F_μ(x)): каждый квантиль μ отправляется в соответствующий квантиль ν.

Формула Бенаму-Бренье: динамическая формулировка W₂

Статическая формулировка W₂ ищет план γ. **Формула Бенаму-Бренье (2000)** переформулирует её как задачу гидродинамики: найти поле скоростей v(x,t), которое транспортирует ρ₀ в ρ₁ с минимальной кинетической энергией.

Формула Бенаму-Бренье - основа для численного решения W₂ через fluid dynamics: задача сводится к выпуклой оптимизации (saddle-point). Flow matching в диффузионных моделях - прямая параметризация оптимального поля v*.

Что минимизирует формула Бенаму-Бренье при вычислении W₂²?

Benamou-Brenier: W₂² есть минимальная кинетическая энергия поля скоростей, транспортирующего μ в ν при соблюдении уравнения непрерывности.

Ключевые идеи

  • **Displacement interpolation:** μ_t = ((1−t)id + tT*)#μ₀. Каждая точка движется по прямой к образу под оптимальной картой.
  • **Теорема Бренье:** оптимальная карта T* = ∇φ (градиент выпуклой функции). В 1D: T = F_ν⁻¹ ∘ F_μ.
  • **W₂² и квантили (1D):** W₂²(μ,ν) = ∫₀¹ |F_μ⁻¹(q) − F_ν⁻¹(q)|² dq.
  • **Benamou-Brenier:** W₂² = min кинетическая энергия потока. Оптимальная скорость v* = T(x)−x (постоянна вдоль геодезика).

Связанные уроки

  • ot-18 — Использует W₂ метрику из предыдущего урока
  • ot-14-gradient-flows — Геодезики лежат в основе gradient flows
Геодезики и Displacement Interpolation

0

1

Войти