Оптимальный транспорт

Gromov-Wasserstein и приложения

Gromov-Wasserstein, Sliced Wasserstein и OT domain adaptation - это три разных ответа на вопрос «как масштабировать OT до реальных задач». Novartis использует GW для drug discovery, а OT domain adaptation входит в стандартный ML пайплайн.

**Drug discovery (Novartis, 2023):** GW для выравнивания молекулярных графов без известного atom correspondence. Ускоряет поиск аналогов лекарств.
**Point cloud generation (PointFlow):** SW₂ как differentiable loss для обучения генеративных моделей 3D форм. Используется в autonomous driving.
**Domain adaptation:** POT SinkhornTransport - стандартный baseline для unsupervised DA на Office-31, VisDA benchmarks.

Расстояние Громова-Вассерштейна: сравнение метрических пространств

**Gromov-Wasserstein расстояние сравнивает молекулярные графы в drug discovery (Novartis, 2023) - aligning 3D структуры белков без известного соответствия атомов.** Классический OT требует общего метрического пространства. GW сравнивает внутренние геометрии двух пространств - без вложения в общее пространство.

Fused Gromov-Wasserstein (Vayer 2019) комбинирует GW с классическим OT для пространств с признаками: (1−α)·OT_cost + α·GW_cost. Используется для выравнивания графов с атрибутами узлов.

Какое ключевое преимущество Gromov-Wasserstein перед классическим Wasserstein расстоянием?

Классический W требует μ и ν в одном метрическом пространстве. GW сравнивает внутренние геометрии двух произвольных пространств - граф, молекула, облако точек - без вложения в общее пространство.

Sliced Wasserstein: масштабируемые OT через 1D проекции

Классический W₂ в d-мерном пространстве требует O(n³) - неприемлемо для генеративных моделей с миллионами точек. **Sliced Wasserstein (SW)** проектирует обе меры на случайные 1D прямые, где W₂ вычисляется за O(n log n), и усредняет.

SW₂ используется в point cloud generation (PointFlow, ShapeGF), domain adaptation, и как loss в генеративных моделях вместо GAN objective. Differentiable через torch.sort().

Почему Sliced Wasserstein вычислительно эффективнее точного W₂?

В 1D W₂ вычисляется за O(n log n) через сортировку (квантильная формула). SW усредняет L таких вычислений: суммарная сложность O(L·n log n) вместо O(n³).

Применения: domain adaptation и shape matching

OT решает фундаментальную задачу machine learning: **перенести знания из одного распределения данных в другое**. Domain adaptation через OT - это буквально поиск оптимального транспортного плана между source и target распределениями.

POT (Python Optimal Transport) реализует OT-based domain adaptation: ot.da.SinkhornTransport, ot.da.EMDTransport, label propagation. Используется в компьютерном зрении (MNIST→USPS, Office-31 benchmark).

Что такое barycentric projection в контексте OT domain adaptation?

Barycentric projection: T̂(x_s) = Σ_j γ*_{sj}/μ_s · x_{t,j}. Каждая source точка отображается в взвешенное среднее target точек по соответствующей строке γ*.

Ключевые идеи

**Gromov-Wasserstein:** GW²(μ,ν) = min_γ ∫∫∫∫(d_X(x,x')−d_Y(y,y'))² dγdγ. Сравнивает пространства без общего embedding.
**Sliced Wasserstein:** усреднение W₂ по случайным 1D проекциям. O(L·n log n) vs O(n³). Differentiable через сортировку.
**OT domain adaptation:** найти γ* между source и target, применить barycentric projection T̂(x_s) = Σ_j γ*_{sj} x_{t,j}.
**Fused GW:** (1−α)·W + α·GW для пространств с признаками. Выравнивание атрибутированных графов.

Связанные уроки

ot-19 — Использует концепции оптимального транспорта
ot-18 — GW обобщает Wasserstein на несравнимые пространства

Расстояние Громова-Вассерштейна: сравнение метрических пространств

Какое ключевое преимущество Gromov-Wasserstein перед классическим Wasserstein расстоянием?

Sliced Wasserstein: масштабируемые OT через 1D проекции

Почему Sliced Wasserstein вычислительно эффективнее точного W₂?

Применения: domain adaptation и shape matching

Что такое barycentric projection в контексте OT domain adaptation?

Ключевые идеи

**Gromov-Wasserstein:** GW²(μ,ν) = min_γ ∫∫∫∫(d_X(x,x')−d_Y(y,y'))² dγdγ. Сравнивает пространства без общего embedding.

**Sliced Wasserstein:** усреднение W₂ по случайным 1D проекциям. O(L·n log n) vs O(n³). Differentiable через сортировку.

**OT domain adaptation:** найти γ* между source и target, применить barycentric projection T̂(x_s) = Σ_j γ*_{sj} x_{t,j}.

**Fused GW:** (1−α)·W + α·GW для пространств с признаками. Выравнивание атрибутированных графов.