Случайные процессы

Импульсное управление и MDP с непрерывным состоянием

Цели урока

  • Вывести уравнение HJB из принципа оптимальности Беллмана
  • Решить задачу LQR через алгебраическое уравнение Риккати
  • Применить принцип максимума Понтрягина и BSDE для нелинейных задач
  • Связать стохастическое управление с алгоритмами Deep RL

Предварительные знания

  • Стохастические дифференциальные уравнения
  • Процессы Леви
  • Формула Ито
  • Процессы Леви
  • Броуновское движение и формула Ито

SpaceX посадила ракету вертикально. Управление - не нейросеть. Это LQR + уравнение Риккати, вычисленное заранее. Матрица 6x6 умноженная на вектор состояния - вот и весь бортовой контроллер.

  • SpaceX Falcon 9: LQR управление посадкой первой ступени
  • DeepMind: HJB как математическая основа Deep Q-Network
  • RLHF: уравнение Беллмана для fine-tuning языковых моделей
  • Tesla FSD: iLQR планировщик для нелинейной динамики автомобиля

Понтрягин, Беллман и Space Race

Ричард Беллман сформулировал принцип динамического программирования в 1957 году, работая в RAND Corporation. Лев Понтрягин и его группа (Болтянский, Гамкрелидзе, Мищенко) в том же 1956-57 годах получили принцип максимума в Москве. Два подхода - HJB и принцип Понтрягина - были разработаны параллельно в разгар Холодной войны. Р. Калман в 1960 году решил LQR задачу и ввёл уравнение Риккати. Связь с Deep RL установил E. Weinan в 2017 году.

Уравнение Гамильтона-Якоби-Беллмана

Эта лекция расширяет классическое стохастическое управление: импульсные управления с разрывными воздействиями, оптимальная остановка через квазивариационные неравенства и MDP с непрерывным состоянием. DeepMind, 2015. DQN играет в Atari лучше человека в 49 из 57 игр. Математика за этим - уравнение Беллмана. Не эвристика, не трюк - строгая теорема: оптимальная стратегия находится через PDE для функции ценности. Стохастическое управление - это RL с доказательством.

HJB в RLHF

Reinforcement Learning from Human Feedback как стохастическое управление

RLHF (Ouyang et al., 2022): обучение языковой модели с помощью human feedback. Состояние - контекст разговора, управление - следующий токен, шум - случайность sampling. Функция ценности V(context) - ожидаемый reward. Уравнение Беллмана для дискретного времени - прямой аналог HJB. PPO-оптимизация минимизирует Bellman residual.

HJB - это уравнение в частных производных размерности d + 1 (состояние + время). При d > 5 это проклятие размерности. Численное решение: deep Ritz method или deep BSDE - нейросети как аппроксиматоры V*.

Почему V(t,x) удовлетворяет PDE, а не просто ODE?

V зависит от двух аргументов: времени t и d-мерного состояния x. Принцип оптимальности Беллмана даёт уравнение с производными по обоим - отсюда PDE. Стохастичность добавляет оператор Лапласа.

Линейно-квадратичный регулятор и уравнение Риккати

SpaceX посадила первую ступень Falcon 9 в 2015 году. Управление - LQR с обратной связью. Состояние - позиция и скорость ракеты, управление - тяга двигателей. Уравнение Риккати вычисляется заранее. Во время посадки - чистая матричная алгебра.

Уравнение Риккати решается один раз - потом управление вычисляется умножением матрицы на вектор состояния. Это принципиально быстрее Deep RL, где нейросеть выполняет forward pass на каждом шаге. Для safety-critical систем (ракета, автопилот) - LQR.

МетодОптимальностьВычисленияПрименения
LQRТочная (линейная система)ARE решается один разSpaceX Falcon 9, Tesla autopilot
MPCПриближённая (горизонт N)QP на каждом шагеПромышленные роботы, HVAC
Deep RL (PPO)ЭмпирическаяForward pass нейросетиAtari, роботика, LLM (RLHF)
iLQRЛокально-оптимальнаяИтеративная линеаризацияНелинейная роботика

iLQR (iterative LQR) - итеративная линеаризация нелинейной системы + LQR на каждом шаге. Используется в MuJoCo-based планировщиках Google DeepMind для locomotion задач.

В LQR оптимальная стратегия u* = -K*X линейна по состоянию. Откуда берётся эта линейность?

V*(x) = x^T P x при линейной динамике и квадратичном критерии. Подстановка в HJB даёт уравнение Риккати для P. Оптимальное управление: u* = arg min_u [u^T R u + (2Px)^T Bu] = -R^{-1} B^T P x.

Принцип максимума Понтрягина

HJB требует гладкости V - функция ценности должна быть дифференцируемой. В нелинейных системах это не гарантировано. Принцип максимума Понтрягина - альтернатива: оптимальность описывается через сопряжённые переменные (импульсы), без PDE.

BSDE для сопряжённого процесса - это не абстракция. Алгоритм backpropagation through time (BPTT) для RNN является дискретным аналогом принципа максимума Понтрягина. Градиент по параметрам - это дискретный сопряжённый процесс. E. Weinan (2017) построил мост явно.

В детерминированном случае (sigma = 0) стохастический принцип максимума сводится к классическому условию Понтрягина 1956 года. BSDE вырождается в обычное сопряжённое ODE.

Что такое BSDE в принципе максимума Понтрягина и почему оно решается назад во времени?

BSDE: dp_t = -H_x dt + q_t dW_t с условием p_T = g_x(X_T). Терминальное условие означает, что решение ищется назад: от T к 0. Это стохастический аналог обратного распространения градиента.

Связи с другими разделами

Стохастическое управление связывает теорию вероятностей, оптимизацию и машинное обучение

  • Deep RL (PPO, DQN) — Связанная тема
  • BSDE и SPDE — Связанная тема
  • LQR и Riccati — Связанная тема
  • RLHF — Связанная тема

Итоги

  • HJB уравнение: -dV/dt = min_u [L + f^T grad V + sigma sigma^T : nabla^2 V / 2]
  • LQR: квадратичная V*(x) = x^T P x, матрица P из алгебраического уравнения Риккати
  • Принцип Понтрягина: сопряжённый процесс (p, q) удовлетворяет BSDE с терминальным условием
  • BPTT = дискретный принцип Понтрягина - обратное распространение как сопряжённые уравнения

Вопросы для размышления

  • Почему HJB - PDE размерности d+1, и как это связано с проклятием размерности в RL?
  • В чём принципиальное отличие LQR от модели предсказывающего управления (MPC)?
  • Как BPTT для RNN является частным случаем принципа максимума Понтрягина?

Связанные уроки

  • sp-24-levy-processes — Управляемые СДУ с Леви-шумом
  • sp-20 — Формула Ито для вывода уравнения HJB
  • sp-26-spde — Уравнение Захаи как SPDE для фильтрации
  • sp-26-spde — SPDE для распределённого управления
Импульсное управление и MDP с непрерывным состоянием

0

1

Войти