Дифференциальные уравнения

Оптимальное управление

Цели урока

Сформулировать задачу оптимального управления и построить гамильтониан
Применить принцип максимума Понтрягина и вывести условие bang-bang управления
Решить линейно-квадратичную задачу через уравнение Риккати (LQR)
Понять связь HJB-уравнения с функцией ценности в reinforcement learning

Предварительные знания

ОДУ (системы)
Вариационное исчисление
Линейная алгебра

Метод конечных элементов

Как SpaceX за 60 секунд находит управление двигателем с минимальным расходом топлива для посадки ракеты?

SpaceX Falcon 9: принцип Понтрягина для посадки первой ступени, 232/234 успеха в 2023
Tesla Autopilot и промышленные роботы ABB используют MPC в реальном времени
DeepMind управляет плазмой в токамаке через RL - прямой аналог принципа оптимальности Беллмана
ChatGPT обучен RLHF - reinforcement learning with human feedback, математически та же задача

Понтрягин, Беллман и гонка вооружений

Лев Понтрягин ослеп в 14 лет после взрыва примуса. К 1956 году, работая в СССР, он доказал принцип максимума - фундаментальный результат теории управления. Независимо и одновременно Ричард Беллман в США разрабатывал динамическое программирование и HJB-уравнение. Оба работали под давлением гонки вооружений: управление ракетами и подводными лодками требовало математической теории. Сегодня их результаты лежат в основе RL - главного инструмента современного AI.

Принцип максимума Понтрягина

SpaceX использует принцип Понтрягина для посадки Falcon 9: за 60 секунд алгоритм находит управление двигателем с минимальным расходом топлива. В 2023 году успешно посажено 232 ступени из 234 попыток. Принцип максимума - это необходимое условие оптимальности в терминах вспомогательной переменной (сопряжённого состояния), аналог условия первого порядка в многомерной оптимизации.

Принцип Понтрягина (1956) - обобщение вариационного исчисления на задачи с ограничениями на управление. Лемма Мандельштама-Нобеля о минимальном времени - частный случай при L = 1 и U - компактное множество.

Что такое сопряжённое состояние p(t) в принципе Понтрягина?

Уравнение Гамильтона-Якоби-Беллмана

Принцип оптимальности Беллмана (1957) даёт другую перспективу: функция ценности V(x,t) - минимальный будущий cost из состояния x в момент t - удовлетворяет нелинейному PDE. Это HJB-уравнение. Для линейно-квадратичной задачи оно сводится к уравнению Риккати - ключевому в теории управления.

Проклятие размерности: HJB-уравнение в R^n - это PDE в n+1 измерениях. При n > 6 сетки нереальны. Решение: глубокое обучение для аппроксимации V (DeepBSDE от Han, Jentzen, E, 2018) или вариационные методы.

Почему HJB-уравнение страдает от проклятия размерности?

Связь с reinforcement learning и алгоритмы

Reinforcement learning - это численное решение задачи оптимального управления. Q-функция в RL - дискретный аналог функции ценности V из HJB. Policy gradient - численная аппроксимация градиента по параметрам управления. AlphaGo, ChatGPT (RLHF) и системы автономного вождения Tesla используют этот формализм.

Оптимальное управление	Reinforcement Learning	Смысл
Состояние x(t)	State s_t	Текущее положение системы
Управление u(t)	Action a_t	Выбор алгоритма
Функция потерь L(x,u)	Reward r_t = -L	Оценка шага
Функция ценности V(x,t)	Value function V(s)	Оптимальный будущий reward
HJB-уравнение	Bellman equation	Рекурсивная оптимальность
Принцип Понтрягина	Policy gradient	Необходимое условие оптимальности

Model-Predictive Control (MPC) - онлайн вариант: в каждый момент времени решается задача оптимального управления на горизонте T, применяется первый шаг, горизонт сдвигается вперёд. Tesla Autopilot, промышленные роботы ABB, авиационные автопилоты работают на MPC.

OpenAI и управление плазмой в токамаке

Deepmind + Swiss Plasma Center (2022)

DeepMind и Swiss Plasma Center обучили RL-агента управлять формой плазмы в токамаке TCV. Задача управления: 19 электромагнитов, 92 управляющих параметра, плазма при 100 млн градусов. Традиционный MPC занимает 600+ часов разработки на каждый новый режим; RL-агент адаптируется за часы. Статья в Nature, 2022.

Как MPC (Model-Predictive Control) решает задачу оптимального управления в реальном времени?

Связи с другими областями

Оптимальное управление - мост между дифференциальными уравнениями, вариационным исчислением и современным machine learning.

Reinforcement Learning — Связанная тема
Model-Predictive Control — Связанная тема
Уравнение Риккати — Связанная тема
Вариационное исчисление — Связанная тема

Итоги

Принцип максимума: оптимальное управление максимизирует гамильтониан H(x,p,u) в каждый момент времени
Сопряжённое состояние p(t) удовлетворяет обратному во времени ОДУ - это градиент функции ценности
HJB-уравнение - нелинейное PDE для функции ценности V; для LQR сводится к уравнению Риккати
RL, MPC и policy gradient - численные реализации тех же принципов оптимальности

Вопросы для размышления

Почему bang-bang управление оптимально для задач с линейным гамильтонианом по u?
Как проклятие размерности ограничивает прямое решение HJB и что с этим делает глубокое обучение?
В чём математическое отличие принципа Понтрягина (необходимое условие) от HJB-уравнения (необходимое и достаточное)?

Связанные уроки

de-25-fem — МКЭ решает HJB-уравнение в задачах управления с распределёнными параметрами
de-29-einstein-equations — Геодезические в ОТО - задача оптимального управления с минимальным действием
de-23-pde-bvp — HJB - нелинейное PDE, требующее краевых условий