Дифференциальные уравнения
Оптимальное управление
Цели урока
- Сформулировать задачу оптимального управления и построить гамильтониан
- Применить принцип максимума Понтрягина и вывести условие bang-bang управления
- Решить линейно-квадратичную задачу через уравнение Риккати (LQR)
- Понять связь HJB-уравнения с функцией ценности в reinforcement learning
Предварительные знания
- ОДУ (системы)
- Вариационное исчисление
- Линейная алгебра
Как SpaceX за 60 секунд находит управление двигателем с минимальным расходом топлива для посадки ракеты?
- SpaceX Falcon 9: принцип Понтрягина для посадки первой ступени, 232/234 успеха в 2023
- Tesla Autopilot и промышленные роботы ABB используют MPC в реальном времени
- DeepMind управляет плазмой в токамаке через RL - прямой аналог принципа оптимальности Беллмана
- ChatGPT обучен RLHF - reinforcement learning with human feedback, математически та же задача
Понтрягин, Беллман и гонка вооружений
Лев Понтрягин ослеп в 14 лет после взрыва примуса. К 1956 году, работая в СССР, он доказал принцип максимума - фундаментальный результат теории управления. Независимо и одновременно Ричард Беллман в США разрабатывал динамическое программирование и HJB-уравнение. Оба работали под давлением гонки вооружений: управление ракетами и подводными лодками требовало математической теории. Сегодня их результаты лежат в основе RL - главного инструмента современного AI.
Принцип максимума Понтрягина
SpaceX использует принцип Понтрягина для посадки Falcon 9: за 60 секунд алгоритм находит управление двигателем с минимальным расходом топлива. В 2023 году успешно посажено 232 ступени из 234 попыток. Принцип максимума - это необходимое условие оптимальности в терминах вспомогательной переменной (сопряжённого состояния), аналог условия первого порядка в многомерной оптимизации.
Принцип Понтрягина (1956) - обобщение вариационного исчисления на задачи с ограничениями на управление. Лемма Мандельштама-Нобеля о минимальном времени - частный случай при L = 1 и U - компактное множество.
Что такое сопряжённое состояние p(t) в принципе Понтрягина?
Уравнение Гамильтона-Якоби-Беллмана
Принцип оптимальности Беллмана (1957) даёт другую перспективу: функция ценности V(x,t) - минимальный будущий cost из состояния x в момент t - удовлетворяет нелинейному PDE. Это HJB-уравнение. Для линейно-квадратичной задачи оно сводится к уравнению Риккати - ключевому в теории управления.
Проклятие размерности: HJB-уравнение в R^n - это PDE в n+1 измерениях. При n > 6 сетки нереальны. Решение: глубокое обучение для аппроксимации V (DeepBSDE от Han, Jentzen, E, 2018) или вариационные методы.
Почему HJB-уравнение страдает от проклятия размерности?
Связь с reinforcement learning и алгоритмы
Reinforcement learning - это численное решение задачи оптимального управления. Q-функция в RL - дискретный аналог функции ценности V из HJB. Policy gradient - численная аппроксимация градиента по параметрам управления. AlphaGo, ChatGPT (RLHF) и системы автономного вождения Tesla используют этот формализм.
| Оптимальное управление | Reinforcement Learning | Смысл |
|---|---|---|
| Состояние x(t) | State s_t | Текущее положение системы |
| Управление u(t) | Action a_t | Выбор алгоритма |
| Функция потерь L(x,u) | Reward r_t = -L | Оценка шага |
| Функция ценности V(x,t) | Value function V(s) | Оптимальный будущий reward |
| HJB-уравнение | Bellman equation | Рекурсивная оптимальность |
| Принцип Понтрягина | Policy gradient | Необходимое условие оптимальности |
Model-Predictive Control (MPC) - онлайн вариант: в каждый момент времени решается задача оптимального управления на горизонте T, применяется первый шаг, горизонт сдвигается вперёд. Tesla Autopilot, промышленные роботы ABB, авиационные автопилоты работают на MPC.
OpenAI и управление плазмой в токамаке
Deepmind + Swiss Plasma Center (2022)
DeepMind и Swiss Plasma Center обучили RL-агента управлять формой плазмы в токамаке TCV. Задача управления: 19 электромагнитов, 92 управляющих параметра, плазма при 100 млн градусов. Традиционный MPC занимает 600+ часов разработки на каждый новый режим; RL-агент адаптируется за часы. Статья в Nature, 2022.
Как MPC (Model-Predictive Control) решает задачу оптимального управления в реальном времени?
Связи с другими областями
Оптимальное управление - мост между дифференциальными уравнениями, вариационным исчислением и современным machine learning.
- Reinforcement Learning — Связанная тема
- Model-Predictive Control — Связанная тема
- Уравнение Риккати — Связанная тема
- Вариационное исчисление — Связанная тема
Итоги
- Принцип максимума: оптимальное управление максимизирует гамильтониан H(x,p,u) в каждый момент времени
- Сопряжённое состояние p(t) удовлетворяет обратному во времени ОДУ - это градиент функции ценности
- HJB-уравнение - нелинейное PDE для функции ценности V; для LQR сводится к уравнению Риккати
- RL, MPC и policy gradient - численные реализации тех же принципов оптимальности
Вопросы для размышления
- Почему bang-bang управление оптимально для задач с линейным гамильтонианом по u?
- Как проклятие размерности ограничивает прямое решение HJB и что с этим делает глубокое обучение?
- В чём математическое отличие принципа Понтрягина (необходимое условие) от HJB-уравнения (необходимое и достаточное)?
Связанные уроки
- de-25-fem — МКЭ решает HJB-уравнение в задачах управления с распределёнными параметрами
- de-29-einstein-equations — Геодезические в ОТО - задача оптимального управления с минимальным действием
- de-23-pde-bvp — HJB - нелинейное PDE, требующее краевых условий