Случайные процессы
Импульсное управление и MDP с непрерывным состоянием
Цели урока
- Вывести уравнение HJB из принципа оптимальности Беллмана
- Решить задачу LQR через алгебраическое уравнение Риккати
- Применить принцип максимума Понтрягина и BSDE для нелинейных задач
- Связать стохастическое управление с алгоритмами Deep RL
Предварительные знания
- Стохастические дифференциальные уравнения
- Процессы Леви
- Формула Ито
SpaceX посадила ракету вертикально. Управление - не нейросеть. Это LQR + уравнение Риккати, вычисленное заранее. Матрица 6x6 умноженная на вектор состояния - вот и весь бортовой контроллер.
- SpaceX Falcon 9: LQR управление посадкой первой ступени
- DeepMind: HJB как математическая основа Deep Q-Network
- RLHF: уравнение Беллмана для fine-tuning языковых моделей
- Tesla FSD: iLQR планировщик для нелинейной динамики автомобиля
Понтрягин, Беллман и Space Race
Ричард Беллман сформулировал принцип динамического программирования в 1957 году, работая в RAND Corporation. Лев Понтрягин и его группа (Болтянский, Гамкрелидзе, Мищенко) в том же 1956-57 годах получили принцип максимума в Москве. Два подхода - HJB и принцип Понтрягина - были разработаны параллельно в разгар Холодной войны. Р. Калман в 1960 году решил LQR задачу и ввёл уравнение Риккати. Связь с Deep RL установил E. Weinan в 2017 году.
Уравнение Гамильтона-Якоби-Беллмана
Эта лекция расширяет классическое стохастическое управление: импульсные управления с разрывными воздействиями, оптимальная остановка через квазивариационные неравенства и MDP с непрерывным состоянием. DeepMind, 2015. DQN играет в Atari лучше человека в 49 из 57 игр. Математика за этим - уравнение Беллмана. Не эвристика, не трюк - строгая теорема: оптимальная стратегия находится через PDE для функции ценности. Стохастическое управление - это RL с доказательством.
HJB в RLHF
Reinforcement Learning from Human Feedback как стохастическое управление
RLHF (Ouyang et al., 2022): обучение языковой модели с помощью human feedback. Состояние - контекст разговора, управление - следующий токен, шум - случайность sampling. Функция ценности V(context) - ожидаемый reward. Уравнение Беллмана для дискретного времени - прямой аналог HJB. PPO-оптимизация минимизирует Bellman residual.
HJB - это уравнение в частных производных размерности d + 1 (состояние + время). При d > 5 это проклятие размерности. Численное решение: deep Ritz method или deep BSDE - нейросети как аппроксиматоры V*.
Почему V(t,x) удовлетворяет PDE, а не просто ODE?
V зависит от двух аргументов: времени t и d-мерного состояния x. Принцип оптимальности Беллмана даёт уравнение с производными по обоим - отсюда PDE. Стохастичность добавляет оператор Лапласа.
Линейно-квадратичный регулятор и уравнение Риккати
SpaceX посадила первую ступень Falcon 9 в 2015 году. Управление - LQR с обратной связью. Состояние - позиция и скорость ракеты, управление - тяга двигателей. Уравнение Риккати вычисляется заранее. Во время посадки - чистая матричная алгебра.
Уравнение Риккати решается один раз - потом управление вычисляется умножением матрицы на вектор состояния. Это принципиально быстрее Deep RL, где нейросеть выполняет forward pass на каждом шаге. Для safety-critical систем (ракета, автопилот) - LQR.
| Метод | Оптимальность | Вычисления | Применения |
|---|---|---|---|
| LQR | Точная (линейная система) | ARE решается один раз | SpaceX Falcon 9, Tesla autopilot |
| MPC | Приближённая (горизонт N) | QP на каждом шаге | Промышленные роботы, HVAC |
| Deep RL (PPO) | Эмпирическая | Forward pass нейросети | Atari, роботика, LLM (RLHF) |
| iLQR | Локально-оптимальная | Итеративная линеаризация | Нелинейная роботика |
iLQR (iterative LQR) - итеративная линеаризация нелинейной системы + LQR на каждом шаге. Используется в MuJoCo-based планировщиках Google DeepMind для locomotion задач.
В LQR оптимальная стратегия u* = -K*X линейна по состоянию. Откуда берётся эта линейность?
V*(x) = x^T P x при линейной динамике и квадратичном критерии. Подстановка в HJB даёт уравнение Риккати для P. Оптимальное управление: u* = arg min_u [u^T R u + (2Px)^T Bu] = -R^{-1} B^T P x.
Принцип максимума Понтрягина
HJB требует гладкости V - функция ценности должна быть дифференцируемой. В нелинейных системах это не гарантировано. Принцип максимума Понтрягина - альтернатива: оптимальность описывается через сопряжённые переменные (импульсы), без PDE.
BSDE для сопряжённого процесса - это не абстракция. Алгоритм backpropagation through time (BPTT) для RNN является дискретным аналогом принципа максимума Понтрягина. Градиент по параметрам - это дискретный сопряжённый процесс. E. Weinan (2017) построил мост явно.
В детерминированном случае (sigma = 0) стохастический принцип максимума сводится к классическому условию Понтрягина 1956 года. BSDE вырождается в обычное сопряжённое ODE.
Что такое BSDE в принципе максимума Понтрягина и почему оно решается назад во времени?
BSDE: dp_t = -H_x dt + q_t dW_t с условием p_T = g_x(X_T). Терминальное условие означает, что решение ищется назад: от T к 0. Это стохастический аналог обратного распространения градиента.
Связи с другими разделами
Стохастическое управление связывает теорию вероятностей, оптимизацию и машинное обучение
- Deep RL (PPO, DQN) — Связанная тема
- BSDE и SPDE — Связанная тема
- LQR и Riccati — Связанная тема
- RLHF — Связанная тема
Итоги
- HJB уравнение: -dV/dt = min_u [L + f^T grad V + sigma sigma^T : nabla^2 V / 2]
- LQR: квадратичная V*(x) = x^T P x, матрица P из алгебраического уравнения Риккати
- Принцип Понтрягина: сопряжённый процесс (p, q) удовлетворяет BSDE с терминальным условием
- BPTT = дискретный принцип Понтрягина - обратное распространение как сопряжённые уравнения
Вопросы для размышления
- Почему HJB - PDE размерности d+1, и как это связано с проклятием размерности в RL?
- В чём принципиальное отличие LQR от модели предсказывающего управления (MPC)?
- Как BPTT для RNN является частным случаем принципа максимума Понтрягина?
Связанные уроки
- sp-24-levy-processes — Управляемые СДУ с Леви-шумом
- sp-20 — Формула Ито для вывода уравнения HJB
- sp-26-spde — Уравнение Захаи как SPDE для фильтрации
- sp-26-spde — SPDE для распределённого управления