Случайные процессы

Импульсное управление и MDP с непрерывным состоянием

Цели урока

Вывести уравнение HJB из принципа оптимальности Беллмана
Решить задачу LQR через алгебраическое уравнение Риккати
Применить принцип максимума Понтрягина и BSDE для нелинейных задач
Связать стохастическое управление с алгоритмами Deep RL

Предварительные знания

Стохастические дифференциальные уравнения
Процессы Леви
Формула Ито

SpaceX посадила ракету вертикально. Управление - не нейросеть. Это LQR + уравнение Риккати, вычисленное заранее. Матрица 6x6 умноженная на вектор состояния - вот и весь бортовой контроллер.

SpaceX Falcon 9: LQR управление посадкой первой ступени
DeepMind: HJB как математическая основа Deep Q-Network
RLHF: уравнение Беллмана для fine-tuning языковых моделей
Tesla FSD: iLQR планировщик для нелинейной динамики автомобиля

Понтрягин, Беллман и Space Race

Ричард Беллман сформулировал принцип динамического программирования в 1957 году, работая в RAND Corporation. Лев Понтрягин и его группа (Болтянский, Гамкрелидзе, Мищенко) в том же 1956-57 годах получили принцип максимума в Москве. Два подхода - HJB и принцип Понтрягина - были разработаны параллельно в разгар Холодной войны. Р. Калман в 1960 году решил LQR задачу и ввёл уравнение Риккати. Связь с Deep RL установил E. Weinan в 2017 году.

Уравнение Гамильтона-Якоби-Беллмана

Эта лекция расширяет классическое стохастическое управление: импульсные управления с разрывными воздействиями, оптимальная остановка через квазивариационные неравенства и MDP с непрерывным состоянием. DeepMind, 2015. DQN играет в Atari лучше человека в 49 из 57 игр. Математика за этим - уравнение Беллмана. Не эвристика, не трюк - строгая теорема: оптимальная стратегия находится через PDE для функции ценности. Стохастическое управление - это RL с доказательством.

HJB в RLHF

Reinforcement Learning from Human Feedback как стохастическое управление

RLHF (Ouyang et al., 2022): обучение языковой модели с помощью human feedback. Состояние - контекст разговора, управление - следующий токен, шум - случайность sampling. Функция ценности V(context) - ожидаемый reward. Уравнение Беллмана для дискретного времени - прямой аналог HJB. PPO-оптимизация минимизирует Bellman residual.

HJB - это уравнение в частных производных размерности d + 1 (состояние + время). При d > 5 это проклятие размерности. Численное решение: deep Ritz method или deep BSDE - нейросети как аппроксиматоры V*.

Почему V(t,x) удовлетворяет PDE, а не просто ODE?

V зависит от двух аргументов: времени t и d-мерного состояния x. Принцип оптимальности Беллмана даёт уравнение с производными по обоим - отсюда PDE. Стохастичность добавляет оператор Лапласа.

Линейно-квадратичный регулятор и уравнение Риккати

SpaceX посадила первую ступень Falcon 9 в 2015 году. Управление - LQR с обратной связью. Состояние - позиция и скорость ракеты, управление - тяга двигателей. Уравнение Риккати вычисляется заранее. Во время посадки - чистая матричная алгебра.

Уравнение Риккати решается один раз - потом управление вычисляется умножением матрицы на вектор состояния. Это принципиально быстрее Deep RL, где нейросеть выполняет forward pass на каждом шаге. Для safety-critical систем (ракета, автопилот) - LQR.

Метод	Оптимальность	Вычисления	Применения
LQR	Точная (линейная система)	ARE решается один раз	SpaceX Falcon 9, Tesla autopilot
MPC	Приближённая (горизонт N)	QP на каждом шаге	Промышленные роботы, HVAC
Deep RL (PPO)	Эмпирическая	Forward pass нейросети	Atari, роботика, LLM (RLHF)
iLQR	Локально-оптимальная	Итеративная линеаризация	Нелинейная роботика

iLQR (iterative LQR) - итеративная линеаризация нелинейной системы + LQR на каждом шаге. Используется в MuJoCo-based планировщиках Google DeepMind для locomotion задач.

В LQR оптимальная стратегия u* = -K*X линейна по состоянию. Откуда берётся эта линейность?

V*(x) = x^T P x при линейной динамике и квадратичном критерии. Подстановка в HJB даёт уравнение Риккати для P. Оптимальное управление: u* = arg min_u [u^T R u + (2Px)^T Bu] = -R^{-1} B^T P x.

Принцип максимума Понтрягина

HJB требует гладкости V - функция ценности должна быть дифференцируемой. В нелинейных системах это не гарантировано. Принцип максимума Понтрягина - альтернатива: оптимальность описывается через сопряжённые переменные (импульсы), без PDE.

BSDE для сопряжённого процесса - это не абстракция. Алгоритм backpropagation through time (BPTT) для RNN является дискретным аналогом принципа максимума Понтрягина. Градиент по параметрам - это дискретный сопряжённый процесс. E. Weinan (2017) построил мост явно.

В детерминированном случае (sigma = 0) стохастический принцип максимума сводится к классическому условию Понтрягина 1956 года. BSDE вырождается в обычное сопряжённое ODE.

Что такое BSDE в принципе максимума Понтрягина и почему оно решается назад во времени?

BSDE: dp_t = -H_x dt + q_t dW_t с условием p_T = g_x(X_T). Терминальное условие означает, что решение ищется назад: от T к 0. Это стохастический аналог обратного распространения градиента.

Связи с другими разделами

Стохастическое управление связывает теорию вероятностей, оптимизацию и машинное обучение

Deep RL (PPO, DQN) — Связанная тема
BSDE и SPDE — Связанная тема
LQR и Riccati — Связанная тема
RLHF — Связанная тема

Итоги

HJB уравнение: -dV/dt = min_u [L + f^T grad V + sigma sigma^T : nabla^2 V / 2]
LQR: квадратичная V*(x) = x^T P x, матрица P из алгебраического уравнения Риккати
Принцип Понтрягина: сопряжённый процесс (p, q) удовлетворяет BSDE с терминальным условием
BPTT = дискретный принцип Понтрягина - обратное распространение как сопряжённые уравнения

Вопросы для размышления

Почему HJB - PDE размерности d+1, и как это связано с проклятием размерности в RL?
В чём принципиальное отличие LQR от модели предсказывающего управления (MPC)?
Как BPTT для RNN является частным случаем принципа максимума Понтрягина?

Связанные уроки

sp-24-levy-processes — Управляемые СДУ с Леви-шумом
sp-20 — Формула Ито для вывода уравнения HJB
sp-26-spde — Уравнение Захаи как SPDE для фильтрации
sp-26-spde — SPDE для распределённого управления