Оптимальный транспорт

Мульти-маргинальный OT

Цели урока

Понять задачу MOT и почему вычислительная сложность растёт как n^k
Связать SCI-предел DFT с N-маргинальным OT и кулоновской стоимостью
Увидеть барицентр Вассерштейна как частный случай MOT

Предварительные знания

Классический двух-маргинальный OT
Алгоритм Синкхорна и его чередующиеся нормировки
Основы квантовой химии: DFT, электронная плотность

AlphaFold 3 (2024) предсказывает структуры белков с точностью 0.8 ангстрем. Часть секрета - MOT: взаимодействие N атомов нельзя описать парными потенциалами, нужен N-маргинальный транспорт. Задача оптимального транспорта нашла применение в квантовой химии.

AlphaFold 3: DFT-ограничения через MOT для предсказания 3D структур белков и малых молекул с атомарной точностью
Model merging: Wasserstein barycenter для слияния LoRA адаптеров без потери специализации
Waddington OT (Science 2019): MOT для траекторий клеточной дифференциации по k временным точкам
Crowd simulation: MOT для координации движения толпы с k участниками без столкновений

От квантовой механики к DFT и обратно

DFT (теория функционала плотности) существует с 1964 года (Kohn-Sham). Обменно-корреляционный функционал E_xc - ключевая и нерешённая часть. В 2013 году Cotaр, Friesecke и Klueppelberg показали: SCI-предел E_xc = N-маргинальный OT. Это открыло новое направление: применение вычислительных методов OT к квантовой химии. Параллельно: Gangbo и Swiech (1998) исследовали MOT с кулоновской стоимостью теоретически. К 2024 году нейросетевые функционалы с MOT-ограничениями превзошли классические DFT приближения.

Мульти-маргинальный OT: постановка и сложность

Классический OT: два облака точек, найти оптимальное соответствие. MOT: k облаков одновременно. Кажется, небольшое обобщение. Но k маргиналей означают k-мерный тензор - вычислительная сложность растёт экспоненциально. Зачем нужна такая монструозность? DFT для N-электронных систем, барицентры Вассерштейна, временные ряды - задачи, где два маргинала принципиально недостаточны.

Почему MOT с k>2 маргиналями экспоненциально сложнее двух-маргинального OT?

Двух-маргинальный план - матрица n×n (n² элементов). k-маргинальный план - тензор n^k элементов. Для k=3 и n=100: 10^6 vs 10^4. Для k=20 и n=100: 10^40. Декомпозиция стоимости обходит это.

DFT как N-маргинальный OT: квантовая химия

Теория функционала плотности (DFT) - основа квантово-химических расчётов. Проблема: обменно-корреляционный функционал E_xc[ρ] неизвестен точно. Cotaр и Friesecke в 2013 году показали: E_xc в пределе сильной связи = N-маргинальный OT с кулоновской стоимостью. AlphaFold 3 использовал это в 2024 году.

AlphaFold 3 (DeepMind, 2024) использует нейросетевую аппроксимацию DFT функционалов, включая SCI-предел через MOT. Точность предсказания 3D структур: 0.8 ангстрем для белков, 0.4 для нуклеиновых кислот.

Neural network DFT с MOT

DeepMind MNDO (2023): нейросеть аппроксимирует E_xc[ρ] через лёгкое включение MOT-ограничений в loss function. Молекулы до 100 атомов: точность сравнима с DFT B3LYP, скорость - в 1000x быстрее. Ключ: SCI-предел как регуляризатор для нейросетевого функционала.

Почему N-маргинальный MOT используется для E_xc[ρ], если кулоновское взаимодействие попарное?

Хотя стоимость суммируется по парам, N-электронная волновая функция - функция на R^{3N}. Редукция к парным маргиналям теряет многочастичные корреляции. Именно их и описывает MOT с полным тензором γ.

Барицентры Вассерштейна как MOT

Как усреднить два распределения? Не покомпонентно (получится что-то непохожее на оба). Барицентр Вассерштейна - усреднение через оптимальный транспорт. И это частный случай MOT: k источников, один общий 'центр'. Применения: стиль-трансфер изображений, усреднение языковых моделей.

Усреднение языковых моделей через OT

Model merging (слияние нейросетей): FusionBench и аналоги усредняют параметры нейросетей. Проблема: наивное усреднение весов LoRA адаптеров теряет специализацию. OT-баricenter: выравниваем нейроны перед усреднением через Wasserstein barycenter. Эффект: merged model сохраняет 85% performance обоих источников против 70% при наивном усреднении.

Почему барицентр Вассерштейна лучше покомпонентного усреднения мер?

Пример: два кластера на R. (µ_1 + µ_2)/2 - усредняет плотности, размывая разрывы. W-барицентр интерполирует позиции атомов через транспорт - кластеры остаются кластерами, только сдвигаются.

Куда ведёт тема

MOT - обобщение OT на k маргиналей. Специальные случаи: мартингальный OT (ot-27) с финансовыми ограничениями, причинный OT (ot-28) с каузальными ограничениями, несбалансированный OT (ot-29) с разными полными массами.

Optimal Transport — Связанная тема

Итоги

MOT: минимизируем k-частичную стоимость по тензорам γ на X^k с k маргиналями
Сложность O(n^k): при декомпозиции стоимости по парам снижается до O(k²n²)
DFT в SCI-пределе = N-маргинальный OT с кулоновской стоимостью sum_{i<j} 1/|x_i - x_j|
Барицентр Вассерштейна = MOT с k+1 маргиналями и свободным носителем центра

Вопросы для размышления

Почему N-частичные корреляции электронов нельзя восстановить из парных маргинальных планов?
Как epsilon-scaling ускоряет Sinkhorn для MOT - и есть ли дополнительные сложности по сравнению с двух-маргинальным случаем?
В чём практическое преимущество Wasserstein barycenter перед наивным усреднением для задачи merging языковых моделей?

Связанные уроки

ot-09-barycenters — барицентры Вассерштейна - частный случай MOT
ot-27 — мартингальный OT - MOT с финансовыми ограничениями
ot-02-kantorovich — классический двух-маргинальный OT - базовый случай MOT