Случайные процессы

Стохастическое управление

Как SpaceX приземляет ракеты в шторм? Как Tesla держит автопилот на шоссе? За этим стоит стохастическое управление: математика, превращающая случайность в управляемость. LQG-регулятор - это то, что летит в каждом самолёте мира.

**Авиация:** автопилот и система стабилизации - LQG-регулятор при частичных наблюдениях через фильтр Калмана
**Финансы:** управление портфелем по Мертону - стохастическое управление с логарифмической полезностью (уравнение HJB с явным решением)
**Robotics / RL:** PPO, SAC и Actor-Critic алгоритмы - численное решение уравнения Беллмана без модели системы

Предварительные знания

Stochastic Differential Equations

Постановка задачи стохастического управления

SpaceX Falcon 9 использует стохастическое оптимальное управление: минимизировать расход топлива E[∫(u² + x²)dt] при посадке с точностью до 10 м. **Стохастическое оптимальное управление** - выбор стратегии управления u(t), минимизирующей функционал стоимости, когда динамика системы содержит случайные возмущения.

Управление с обратной связью (Markov): u(t) = π(t, X(t)) - зависит только от текущего состояния. Оптимально по принципу Беллмана. Управление без обратной связи (open-loop): u(t) = u(t) - детерминированная функция времени. Менее гибко, но проще вычислять.

Почему в стохастическом управлении предпочтительны стратегии с обратной связью u(t) = π(t, X(t))?

Уравнение Гамильтона - Якоби - Беллмана

**Уравнение HJB** - нелинейное ПДУ для функции ценности V(t, x). Его решение даёт оптимальное управление через градиент V.

Альтернативный подход: принцип максимума Понтрягина формулирует необходимые условия оптимальности через гамильтониан H(x, p, u) = L(x,u) + p·f(x,u), где p(t) - сопряжённая (costate) переменная, dp = -∂H/∂x dt. Связь с HJB: p(t) = ∂V/∂x(t, X(t)).

Какой математический объект является «ценой» состояния x в уравнении HJB?

LQG-регулятор: явное решение

**Линейно-квадратно-гауссовская (LQG) задача** - единственный класс, где HJB решается аналитически. Фундамент классической теории управления.

При частичном наблюдении: Y(t) = CX(t) + noise, оптимальное управление разделяется (separation theorem): 1) фильтр Калмана восстанавливает X̂(t) = E[X(t)|Y]; 2) LQ-регулятор применяет u* = -K·X̂(t). Это «принцип разделения» - фильтр и регулятор проектируются независимо.

В LQG-задаче уравнение Риккати используется для нахождения:

Связь с обучением с подкреплением

Обучение с подкреплением (RL) - это стохастическое управление без знания модели. HJB-уравнение и уравнение Беллмана лежат в основе Q-learning, Actor-Critic и PPO.

В LQG-задаче с неизвестной динамикой (A, B неизвестны) применяется Linear Quadratic Regulator с итерацией политики (model-free LQR). На каждом шаге оценивается P(t) из данных (LSTD), затем обновляется K. Сходится к оптимальному K* без знания A и B.

Уравнение HJB является непрерывным аналогом какого уравнения из теории RL?

Ключевые идеи

**Функция ценности V(t,x)** - оптимальная стоимость от момента t; удовлетворяет уравнению HJB
**HJB-уравнение** - нелинейное ПДУ: -∂V/∂t = min_u{L + f·∂V/∂x + ½σ²·∂²V/∂x²}
**LQG** - явное решение через уравнение Риккати: u* = -K(t)X, K = R⁻¹B^T P
**RL = HJB без модели** - Q-learning и Actor-Critic численно аппроксимируют уравнение Беллмана

Связанные темы

Стохастическое управление объединяет СДУ, мартингалы и ML:

Стохастические дифференциальные уравнения — Динамика системы задаётся СДУ; лемма Ито используется для вывода HJB
Мартингалы — Оптимальный процесс V(t, X(t)) является мартингалом относительно оптимальной стратегии
Финансовая математика — Управление портфелем Мертона - стохастическое управление с HJB

Вопросы для размышления

Как уравнение HJB вырождается в детерминированный случай (σ = 0)? Что такое уравнение Гамильтона - Якоби?
Почему принцип разделения (separation theorem) важен практически - что было бы без него?
Как бы сформулировали задачу управления инсулиновой помпой для диабетика в терминах HJB?

Связанные уроки

calc-19-gradient

Постановка задачи стохастического управления

Почему в стохастическом управлении предпочтительны стратегии с обратной связью u(t) = π(t, X(t))?

Уравнение Гамильтона - Якоби - Беллмана

Какой математический объект является «ценой» состояния x в уравнении HJB?

LQG-регулятор: явное решение

В LQG-задаче уравнение Риккати используется для нахождения:

Связь с обучением с подкреплением

Уравнение HJB является непрерывным аналогом какого уравнения из теории RL?

Ключевые идеи

**Функция ценности V(t,x)** - оптимальная стоимость от момента t; удовлетворяет уравнению HJB

**HJB-уравнение** - нелинейное ПДУ: -∂V/∂t = min_u{L + f·∂V/∂x + ½σ²·∂²V/∂x²}

**LQG** - явное решение через уравнение Риккати: u* = -K(t)X, K = R⁻¹B^T P

**RL = HJB без модели** - Q-learning и Actor-Critic численно аппроксимируют уравнение Беллмана