Оптимальный транспорт
Gromov-Wasserstein и приложения
Gromov-Wasserstein, Sliced Wasserstein и OT domain adaptation - это три разных ответа на вопрос «как масштабировать OT до реальных задач». Novartis использует GW для drug discovery, а OT domain adaptation входит в стандартный ML пайплайн.
- **Drug discovery (Novartis, 2023):** GW для выравнивания молекулярных графов без известного atom correspondence. Ускоряет поиск аналогов лекарств.
- **Point cloud generation (PointFlow):** SW₂ как differentiable loss для обучения генеративных моделей 3D форм. Используется в autonomous driving.
- **Domain adaptation:** POT SinkhornTransport - стандартный baseline для unsupervised DA на Office-31, VisDA benchmarks.
Расстояние Громова-Вассерштейна: сравнение метрических пространств
**Gromov-Wasserstein расстояние сравнивает молекулярные графы в drug discovery (Novartis, 2023) - aligning 3D структуры белков без известного соответствия атомов.** Классический OT требует общего метрического пространства. GW сравнивает внутренние геометрии двух пространств - без вложения в общее пространство.
Fused Gromov-Wasserstein (Vayer 2019) комбинирует GW с классическим OT для пространств с признаками: (1−α)·OT_cost + α·GW_cost. Используется для выравнивания графов с атрибутами узлов.
Какое ключевое преимущество Gromov-Wasserstein перед классическим Wasserstein расстоянием?
Классический W требует μ и ν в одном метрическом пространстве. GW сравнивает внутренние геометрии двух произвольных пространств - граф, молекула, облако точек - без вложения в общее пространство.
Sliced Wasserstein: масштабируемые OT через 1D проекции
Классический W₂ в d-мерном пространстве требует O(n³) - неприемлемо для генеративных моделей с миллионами точек. **Sliced Wasserstein (SW)** проектирует обе меры на случайные 1D прямые, где W₂ вычисляется за O(n log n), и усредняет.
SW₂ используется в point cloud generation (PointFlow, ShapeGF), domain adaptation, и как loss в генеративных моделях вместо GAN objective. Differentiable через torch.sort().
Почему Sliced Wasserstein вычислительно эффективнее точного W₂?
В 1D W₂ вычисляется за O(n log n) через сортировку (квантильная формула). SW усредняет L таких вычислений: суммарная сложность O(L·n log n) вместо O(n³).
Применения: domain adaptation и shape matching
OT решает фундаментальную задачу machine learning: **перенести знания из одного распределения данных в другое**. Domain adaptation через OT - это буквально поиск оптимального транспортного плана между source и target распределениями.
POT (Python Optimal Transport) реализует OT-based domain adaptation: ot.da.SinkhornTransport, ot.da.EMDTransport, label propagation. Используется в компьютерном зрении (MNIST→USPS, Office-31 benchmark).
Что такое barycentric projection в контексте OT domain adaptation?
Barycentric projection: T̂(x_s) = Σ_j γ*_{sj}/μ_s · x_{t,j}. Каждая source точка отображается в взвешенное среднее target точек по соответствующей строке γ*.
Ключевые идеи
- **Gromov-Wasserstein:** GW²(μ,ν) = min_γ ∫∫∫∫(d_X(x,x')−d_Y(y,y'))² dγdγ. Сравнивает пространства без общего embedding.
- **Sliced Wasserstein:** усреднение W₂ по случайным 1D проекциям. O(L·n log n) vs O(n³). Differentiable через сортировку.
- **OT domain adaptation:** найти γ* между source и target, применить barycentric projection T̂(x_s) = Σ_j γ*_{sj} x_{t,j}.
- **Fused GW:** (1−α)·W + α·GW для пространств с признаками. Выравнивание атрибутированных графов.