Оптимальный транспорт
Причинный оптимальный транспорт
Цели урока
- Понять, почему классический OT нарушает причинную структуру и как AW это исправляет
- Связать причинный OT с задачей оптимального стохастического управления и уравнением HJB
- Применять AW для сравнения стохастических процессов в финансах и RL
Предварительные знания
- Мартингальный OT и безарбитражность
- Стохастические дифференциальные уравнения (базовые понятия)
- Условное ожидание и фильтрации
Трейдер с access к будущим ценам может транспортировать риск с нулевыми потерями. Классический OT это допускает. Причинный OT запрещает: ни один план не может использовать будущую информацию. AW - метрика для мира, где время течёт в одну сторону.
- Финансовый стресс-тест: AW между историческим и стрессовым распределением траекторий портфеля без предположений о модели
- RL policy evaluation: AW между политиками - нейросети одинаково 'близки' если реагируют похоже в одинаковых состояниях
- Waddington OT для T > 2 временных точек: причинные траектории клеточной дифференциации
- Stanford IRIS: причинный OT для планирования движения робота - адаптация к сенсорной информации
От управления к транспорту: единая теория
Связь транспорта и стохастического управления подозревалась давно: Bismut (1981) и Follmer (1985) намекали на неё в контексте задачи Шрёдингера. Формальная теория адаптированных расстояний Вассерштейна построена Backhoff-Veraguas и соавторами в 2017-2020 годах. Ключевой результат 2020 (Finance and Stochastics): AW₂ для диффузий = L₂-расстояние дрейфов. Унификация с теорией управления: Mikami и Thieullen (2006) показали что OT = задача управления без ограничений на состояние.
Каузальный OT: почему обычный OT нарушает причинность
Два трейдера: один использует прошлые цены для решений, другой - будущие. Второй - ясновидящий, с нулевым риском. Классический OT между траекториями не отличает их: оба могут получить одинаковый транспортный план. Адаптированное расстояние Вассерштейна (AW) исправляет это: только причинные планы - использующие лишь прошлое.
AW ≥ W: причинные планы - строгое подмножество Π(µ,ν). AW = W только когда оптимальный OT-план случайно является причинным. Для гладких распределений на R это редкость.
Почему AW (адаптированное расстояние) >= W (классический Вассерштейн)?
Π_caus ⊆ Π(µ,ν). inf по меньшему множеству ≥ inf по большему. AW = W только если классический OT-план случайно адаптирован.
Связь с оптимальным стохастическим управлением
Оптимальное стохастическое управление: найти управление u_t, минимизирующее ожидаемые затраты при динамике X. Это и есть причинный OT: управление u_t может использовать только прошлое X_{1:t}. Уравнение Гамильтона-Якоби-Беллмана (HJB) - PDE для функции ценности - вытекает из условий оптимальности.
Причинный OT для robot motion planning
Стэнфорд IRIS lab (2023): причинный OT для планирования движения робота-манипулятора. Задача: распределение начальных конфигураций → распределение целевых. Ограничение: решения адаптированы к сенсорным данным в реальном времени. AW-метрика калибрует quality of planning policy без симуляции на всех сценариях. Улучшение по сравнению с W₂: 23% в sample efficiency.
В чём связь между причинным OT и задачей оптимального стохастического управления?
Оптимальное управление = оптимальный адаптированный транспорт. HJB - двойственная задача к причинному OT. Это унифицирует теорию управления и теорию транспорта.
Применения AW: финансы, обучение с подкреплением, биология
AW-метрика чувствительна к причинно-следственным структурам процессов - в отличие от W, которое слепо к причинности. Это критично для финансов (стресс-тестирование), RL (сравнение политик) и биологии (сравнение клеточных судеб).
Библиотека adapted_optimal_transport (Python) реализует дискретный AW. Для n=100 точек и T=10 временных шагов: несколько секунд на CPU. Для непрерывных процессов используют нейросетевую аппроксимацию (Neural AW).
AW не симметрично: AW(µ,ν) ≠ AW(ν,µ) в общем случае. Bicausal AW симметричен и является метрикой. Выбор зависит от задачи: причинность от X к Y (AW_caus) или симметричная (AW_bic).
Почему AW-метрика нужна для финансового стресс-тестирования, а не W₂?
Два стрессовых сценария могут иметь одинаковое W₂ по финальным ценам, но разную причинную структуру (разные пути к тому же концу). AW различает их - более точная мера риска.
Куда ведёт тема
Причинный OT завершает серию 'ограниченных' OT: мартингальный (E[Y|X]=X), каузальный (адаптированность), multi-marginal (k маргиналей). Следующий шаг: несбалансированный OT (ot-29) - другое обобщение, где сами маргинальные ограничения смягчаются.
- Optimal Transport — Связанная тема
Итоги
- Причинные планы: транспорт в момент t использует только x_{1:t}; AW = инфимум по ним ≥ W
- Для диффузий dX=αdt+dW и dY=βdt+dW: AW₂² = ∫(α_t - β_t)² dt
- HJB уравнение = двойственная задача к причинному OT
- AW применяется для сравнения стохастических процессов с учётом причинной структуры
Вопросы для размышления
- Как AW-метрика обнаруживает разницу между 'телепортацией' и причинным движением в пространстве траекторий?
- Почему HJB уравнение считается двойственным к причинному OT - какие переменные что-чему соответствуют?
- В каких задачах RL bicausal AW (симметричный) предпочтительнее одностороннего AW_caus?
Связанные уроки
- ot-27 — мартингальный OT - частный случай причинного
- ot-29 — несбалансированный OT - следующее обобщение
- ot-26-multi-marginal — каузальный OT = MOT с адаптированными планами