Оптимальный транспорт
Мосты Шрёдингера
Монж 1781 года переносил землю детерминированно - каждая лопата летит ровно в одну точку. Мост Шрёдингера 1931 года спрашивает другое: как переносить частицы броуновским движением, тратя минимум энергии? Ответ открыл дверь в диффузионные модели, single-cell genomics и молекулярный дизайн.
- I2SB: super-resolution и inpainting без белого шума - стартует из деградированного изображения
- Single-cell genomics: Genentech и Broad Institute используют OT/SB для траекторий клеточной дифференцировки
- Soft Actor-Critic (SAC) - MaxEnt RL - это стохастический контроль, математически эквивалентный SB
Предварительные знания
- Sinkhorn алгоритм и энтропийная регуляризация (ot-04-sinkhorn)
- Flow Matching и OT-пути (ot-11-flow-matching)
- Wasserstein дистанция: постановка и свойства (ot-03-wasserstein)
- Основы броуновского движения (sp-01)
Броуновский мост как базовый случай
**Броуновский мост** - стандартный Schrödinger Bridge: процесс, соединяющий $x_0 = 0$ с $x_T = 0$ за время $T$, при условии что все пути - реализации стандартного броуновского движения. В физике: частица Броуна, закреплённая в обоих концах траектории.
Математически: $p^*(X_{0:T} \mid X_0=a, X_T=b)$ - условное распределение броуновского движения. Это уже не просто точечное отображение, а **мера на пространстве путей**.
Обобщение Шрёдингера: вместо детерминированного $\min \int c(x,y)\, d\pi$ - минимизация KL от распределения на путях. Задача: $\min_{P:\, P_0=\mu,\, P_T=\nu} D_{KL}(P \| R)$, где $R$ - reference process (броуновское движение). Это **энтропийная регуляризация на уровне путей**.
Связь с I2I translation: Image-to-Image Schrödinger Bridge (I2SB) работает лучше DDPM для image editing, потому что стартует не из белого шума, а из одного изображения и движется к другому. Путь оптимален в смысле KL.
Детерминированный OT Монжа находит map $T: x \mapsto T(x)$ - каждый атом переносится в строго одну точку. SB порождает **стохастический процесс**: атом стартует в $a$ и с ненулевой вероятностью попадает в разные точки, но в среднем - оптимально.
В чём принципиальное отличие Schrödinger Bridge от детерминированного OT Монжа?
IPF: Iterative Proportional Fitting
**IPF (Iterative Proportional Fitting)** - алгоритм Форте-Шрёдингера 1931 года: итеративный метод нахождения SB через чередующиеся проекции. На шаге $2k+1$: $P^{2k+1} = \mathrm{proj}_{P_0=\mu}(P^{2k})$ - e-проекция на маргинал в начале. На шаге $2k+2$: $P^{2k+2} = \mathrm{proj}_{P_T=\nu}(P^{2k+1})$ - e-проекция на маргинал в конце. Предел - Schrödinger bridge.
**Ключевая связь**: IPF в дискретном случае = Sinkhorn. Scaling vectors $u_i^{k+1} = a_i / (K v^k)_i$ и $v_j^{k+1} = b_j / (K^T u^{k+1})_j$ - это точные итерации Sinkhorn с ядром $K_{ij} = e^{-c_{ij}/\varepsilon}$. Мост Шрёдингера - непрерывный аналог energy-regularized OT.
**Practical IPF для нейросетей** (De Bortoli et al. 2021, DSBM): аналитически проецировать нельзя - обучаем нейросеть аппроксимировать каждую проекцию. На практике сходится за 5-15 итераций.
Bridge Matching (Shi et al. 2023) и I2SB (Liu et al. 2023) - практические реализации нейросетевого IPF. Превосходят DDPM для image-to-image задач: inpainting, super-resolution, artifact removal.
Почему алгоритм Sinkhorn является специальным случаем IPF?
SB в диффузионных моделях
**DDPM vs SB**: DDPM добавляет шум до $\mathcal{N}(0, I)$ и учится обратному процессу. SB обучает оптимальный путь от $\mu$ до $\nu$ напрямую - без опоры на белый шум как промежуточную точку.
**I2SB** (Image-to-Image Schrödinger Bridge, Liu et al. NeurIPS 2023): SB между двумя реальными распределениями. Применение: super-resolution (низкое разрешение к высокому), inpainting, удаление JPEG-артефактов. Начинает из деградированного изображения - нужно меньше диффузионных шагов при лучшем качестве.
Стохастический поток SB: $dX_t = [u(X_t, t) + \sigma^2 \nabla \log \psi_t(X_t)]\, dt + \sigma\, dW_t$, где $\psi_t$ - SB potential. При $\sigma \to 0$ получаем ODE flow matching - SB строго обобщает flow matching.
**Score matching для SB**: halfBridge training обучает score отношения $\nabla \log \psi$ через denoising score matching с адаптированным шумовым распределением. Не требует знания partition function.
Обучение нейросетевого SB нестабильно без правильной инициализации: первая итерация IPF должна стартовать из разумного reference (например, flow matching решения), иначе сходимость замедляется многократно.
Какое ключевое преимущество I2SB перед DDPM для image editing?
SB в молекулярном дизайне и планировании
**Молекулярная динамика**: SB моделирует переходы между конформациями белков. DiffSB (2024): path measure $P^*$ на конфигурациях атомов - минимально-KL путь между двумя равновесными состояниями. Применение: drug binding, protein folding transitions.
**Single-cell genomics** (Tong et al. 2020): клетки в начале (день 0) и в конце (день $T$) наблюдаются по одному разу. OT/SB coupling $\pi$ восстанавливает траекторию дифференцировки без отслеживания отдельных клеток. Используется в Genentech и Broad Institute.
**Stochastic control**: SB - это оптимальный стохастический контроль с soft constraint. Политика агента в RL, минимизирующая KL от reference policy, математически эквивалентна SB. Soft Actor-Critic (SAC) и MaxEnt RL - частные случаи этой структуры.
**Robustness**: SB устойчивее детерминированного OT к выбросам - стохастические пути усредняют шум. Детерминированная map коллапсирует на выброс целиком; SB распределяет массу по нескольким возможным путям.
DSBM (Peluchetti 2023) превосходит flow matching на ряде benchmark задач. Meta AI и FAIR используют SB-based модели для молекулярного дизайна и предсказания путей protein structure.
Как SB применяется в single-cell genomics?
Ключевые идеи
- Schrödinger Bridge минимизирует $D_{KL}(P \| R)$ в пространстве мер на путях - обобщение OT на стохастические процессы
- IPF (Iterative Proportional Fitting) = чередующиеся e-проекции на маргиналы; в дискретном случае совпадает с Sinkhorn
- I2SB и DSBM применяют SB к диффузионным моделям: стартуют из реального источника, не из белого шума
- SB находит применение в single-cell genomics, молекулярной динамике и как математическая основа MaxEnt RL
Связанные темы
Мост Шрёдингера объединяет идеи из OT, диффузионных моделей и стохастических процессов в одну когерентную теорию.
- Sinkhorn алгоритм — Дискретный IPF = Sinkhorn; SB - непрерывное обобщение
- Flow Matching — Flow matching - детерминированный частный случай SB при sigma -> 0
- Wasserstein дистанция — Wasserstein - детерминированный OT; SB - стохастическое обобщение через KL на путях
Вопросы для размышления
- Почему Schrödinger Bridge порождает стохастический процесс, а не детерминированную map, как у Монжа?
- В чём математическая связь между IPF и алгоритмом Sinkhorn в дискретном случае?
- Как структура Schrödinger Bridge проявляется в Soft Actor-Critic и MaxEnt RL?
Связанные уроки
- ot-04-sinkhorn — Sinkhorn - дискретный аналог IPF
- ot-11-flow-matching — SB обобщает flow matching добавлением стохастичности
- ot-03-wasserstein — Wasserstein - детерминированный случай, SB - стохастическое обобщение
- ig-11-wasserstein-vs-fisher — Оба изучают метрики на пространстве распределений
- sp-01 — SB строится поверх броуновского движения - базовый стохастический процесс