Оптимальный транспорт

Причинный оптимальный транспорт

Цели урока

Понять, почему классический OT нарушает причинную структуру и как AW это исправляет
Связать причинный OT с задачей оптимального стохастического управления и уравнением HJB
Применять AW для сравнения стохастических процессов в финансах и RL

Предварительные знания

Мартингальный OT и безарбитражность
Стохастические дифференциальные уравнения (базовые понятия)
Условное ожидание и фильтрации

Трейдер с access к будущим ценам может транспортировать риск с нулевыми потерями. Классический OT это допускает. Причинный OT запрещает: ни один план не может использовать будущую информацию. AW - метрика для мира, где время течёт в одну сторону.

Финансовый стресс-тест: AW между историческим и стрессовым распределением траекторий портфеля без предположений о модели
RL policy evaluation: AW между политиками - нейросети одинаково 'близки' если реагируют похоже в одинаковых состояниях
Waddington OT для T > 2 временных точек: причинные траектории клеточной дифференциации
Stanford IRIS: причинный OT для планирования движения робота - адаптация к сенсорной информации

От управления к транспорту: единая теория

Связь транспорта и стохастического управления подозревалась давно: Bismut (1981) и Follmer (1985) намекали на неё в контексте задачи Шрёдингера. Формальная теория адаптированных расстояний Вассерштейна построена Backhoff-Veraguas и соавторами в 2017-2020 годах. Ключевой результат 2020 (Finance and Stochastics): AW₂ для диффузий = L₂-расстояние дрейфов. Унификация с теорией управления: Mikami и Thieullen (2006) показали что OT = задача управления без ограничений на состояние.

Каузальный OT: почему обычный OT нарушает причинность

Два трейдера: один использует прошлые цены для решений, другой - будущие. Второй - ясновидящий, с нулевым риском. Классический OT между траекториями не отличает их: оба могут получить одинаковый транспортный план. Адаптированное расстояние Вассерштейна (AW) исправляет это: только причинные планы - использующие лишь прошлое.

AW ≥ W: причинные планы - строгое подмножество Π(µ,ν). AW = W только когда оптимальный OT-план случайно является причинным. Для гладких распределений на R это редкость.

Почему AW (адаптированное расстояние) >= W (классический Вассерштейн)?

Π_caus ⊆ Π(µ,ν). inf по меньшему множеству ≥ inf по большему. AW = W только если классический OT-план случайно адаптирован.

Связь с оптимальным стохастическим управлением

Оптимальное стохастическое управление: найти управление u_t, минимизирующее ожидаемые затраты при динамике X. Это и есть причинный OT: управление u_t может использовать только прошлое X_{1:t}. Уравнение Гамильтона-Якоби-Беллмана (HJB) - PDE для функции ценности - вытекает из условий оптимальности.

Причинный OT для robot motion planning

Стэнфорд IRIS lab (2023): причинный OT для планирования движения робота-манипулятора. Задача: распределение начальных конфигураций → распределение целевых. Ограничение: решения адаптированы к сенсорным данным в реальном времени. AW-метрика калибрует quality of planning policy без симуляции на всех сценариях. Улучшение по сравнению с W₂: 23% в sample efficiency.

В чём связь между причинным OT и задачей оптимального стохастического управления?

Оптимальное управление = оптимальный адаптированный транспорт. HJB - двойственная задача к причинному OT. Это унифицирует теорию управления и теорию транспорта.

Применения AW: финансы, обучение с подкреплением, биология

AW-метрика чувствительна к причинно-следственным структурам процессов - в отличие от W, которое слепо к причинности. Это критично для финансов (стресс-тестирование), RL (сравнение политик) и биологии (сравнение клеточных судеб).

Библиотека adapted_optimal_transport (Python) реализует дискретный AW. Для n=100 точек и T=10 временных шагов: несколько секунд на CPU. Для непрерывных процессов используют нейросетевую аппроксимацию (Neural AW).

AW не симметрично: AW(µ,ν) ≠ AW(ν,µ) в общем случае. Bicausal AW симметричен и является метрикой. Выбор зависит от задачи: причинность от X к Y (AW_caus) или симметричная (AW_bic).

Почему AW-метрика нужна для финансового стресс-тестирования, а не W₂?

Два стрессовых сценария могут иметь одинаковое W₂ по финальным ценам, но разную причинную структуру (разные пути к тому же концу). AW различает их - более точная мера риска.

Куда ведёт тема

Причинный OT завершает серию 'ограниченных' OT: мартингальный (E[Y|X]=X), каузальный (адаптированность), multi-marginal (k маргиналей). Следующий шаг: несбалансированный OT (ot-29) - другое обобщение, где сами маргинальные ограничения смягчаются.

Optimal Transport — Связанная тема

Итоги

Причинные планы: транспорт в момент t использует только x_{1:t}; AW = инфимум по ним ≥ W
Для диффузий dX=αdt+dW и dY=βdt+dW: AW₂² = ∫(α_t - β_t)² dt
HJB уравнение = двойственная задача к причинному OT
AW применяется для сравнения стохастических процессов с учётом причинной структуры

Вопросы для размышления

Как AW-метрика обнаруживает разницу между 'телепортацией' и причинным движением в пространстве траекторий?
Почему HJB уравнение считается двойственным к причинному OT - какие переменные что-чему соответствуют?
В каких задачах RL bicausal AW (симметричный) предпочтительнее одностороннего AW_caus?

Связанные уроки

ot-27 — мартингальный OT - частный случай причинного
ot-29 — несбалансированный OT - следующее обобщение
ot-26-multi-marginal — каузальный OT = MOT с адаптированными планами

Цели урока

Понять, почему классический OT нарушает причинную структуру и как AW это исправляет

Связать причинный OT с задачей оптимального стохастического управления и уравнением HJB

Применять AW для сравнения стохастических процессов в финансах и RL

Предварительные знания

Мартингальный OT и безарбитражность

Стохастические дифференциальные уравнения (базовые понятия)

Условное ожидание и фильтрации

Каузальный OT: почему обычный OT нарушает причинность

Почему AW (адаптированное расстояние) >= W (классический Вассерштейн)?

Связь с оптимальным стохастическим управлением

Причинный OT для robot motion planning

В чём связь между причинным OT и задачей оптимального стохастического управления?

Применения AW: финансы, обучение с подкреплением, биология

Почему AW-метрика нужна для финансового стресс-тестирования, а не W₂?

Итоги

Причинные планы: транспорт в момент t использует только x_{1:t}; AW = инфимум по ним ≥ W

Для диффузий dX=αdt+dW и dY=βdt+dW: AW₂² = ∫(α_t - β_t)² dt

HJB уравнение = двойственная задача к причинному OT

AW применяется для сравнения стохастических процессов с учётом причинной структуры