Случайные процессы
Стохастическое управление
Как SpaceX приземляет ракеты в шторм? Как Tesla держит автопилот на шоссе? За этим стоит стохастическое управление: математика, превращающая случайность в управляемость. LQG-регулятор - это то, что летит в каждом самолёте мира.
- **Авиация:** автопилот и система стабилизации - LQG-регулятор при частичных наблюдениях через фильтр Калмана
- **Финансы:** управление портфелем по Мертону - стохастическое управление с логарифмической полезностью (уравнение HJB с явным решением)
- **Robotics / RL:** PPO, SAC и Actor-Critic алгоритмы - численное решение уравнения Беллмана без модели системы
Предварительные знания
Постановка задачи стохастического управления
SpaceX Falcon 9 использует стохастическое оптимальное управление: минимизировать расход топлива E[∫(u² + x²)dt] при посадке с точностью до 10 м. **Стохастическое оптимальное управление** - выбор стратегии управления u(t), минимизирующей функционал стоимости, когда динамика системы содержит случайные возмущения.
Управление с обратной связью (Markov): u(t) = π(t, X(t)) - зависит только от текущего состояния. Оптимально по принципу Беллмана. Управление без обратной связи (open-loop): u(t) = u(t) - детерминированная функция времени. Менее гибко, но проще вычислять.
Почему в стохастическом управлении предпочтительны стратегии с обратной связью u(t) = π(t, X(t))?
Уравнение Гамильтона - Якоби - Беллмана
**Уравнение HJB** - нелинейное ПДУ для функции ценности V(t, x). Его решение даёт оптимальное управление через градиент V.
Альтернативный подход: принцип максимума Понтрягина формулирует необходимые условия оптимальности через гамильтониан H(x, p, u) = L(x,u) + p·f(x,u), где p(t) - сопряжённая (costate) переменная, dp = -∂H/∂x dt. Связь с HJB: p(t) = ∂V/∂x(t, X(t)).
Какой математический объект является «ценой» состояния x в уравнении HJB?
LQG-регулятор: явное решение
**Линейно-квадратно-гауссовская (LQG) задача** - единственный класс, где HJB решается аналитически. Фундамент классической теории управления.
При частичном наблюдении: Y(t) = CX(t) + noise, оптимальное управление разделяется (separation theorem): 1) фильтр Калмана восстанавливает X̂(t) = E[X(t)|Y]; 2) LQ-регулятор применяет u* = -K·X̂(t). Это «принцип разделения» - фильтр и регулятор проектируются независимо.
В LQG-задаче уравнение Риккати используется для нахождения:
Связь с обучением с подкреплением
Обучение с подкреплением (RL) - это стохастическое управление без знания модели. HJB-уравнение и уравнение Беллмана лежат в основе Q-learning, Actor-Critic и PPO.
В LQG-задаче с неизвестной динамикой (A, B неизвестны) применяется Linear Quadratic Regulator с итерацией политики (model-free LQR). На каждом шаге оценивается P(t) из данных (LSTD), затем обновляется K. Сходится к оптимальному K* без знания A и B.
Уравнение HJB является непрерывным аналогом какого уравнения из теории RL?
Ключевые идеи
- **Функция ценности V(t,x)** - оптимальная стоимость от момента t; удовлетворяет уравнению HJB
- **HJB-уравнение** - нелинейное ПДУ: -∂V/∂t = min_u{L + f·∂V/∂x + ½σ²·∂²V/∂x²}
- **LQG** - явное решение через уравнение Риккати: u* = -K(t)X, K = R⁻¹B^T P
- **RL = HJB без модели** - Q-learning и Actor-Critic численно аппроксимируют уравнение Беллмана
Связанные темы
Стохастическое управление объединяет СДУ, мартингалы и ML:
- Стохастические дифференциальные уравнения — Динамика системы задаётся СДУ; лемма Ито используется для вывода HJB
- Мартингалы — Оптимальный процесс V(t, X(t)) является мартингалом относительно оптимальной стратегии
- Финансовая математика — Управление портфелем Мертона - стохастическое управление с HJB
Вопросы для размышления
- Как уравнение HJB вырождается в детерминированный случай (σ = 0)? Что такое уравнение Гамильтона - Якоби?
- Почему принцип разделения (separation theorem) важен практически - что было бы без него?
- Как бы сформулировали задачу управления инсулиновой помпой для диабетика в терминах HJB?