Дифференциальные уравнения

Оптимальное управление

Цели урока

  • Сформулировать задачу оптимального управления и построить гамильтониан
  • Применить принцип максимума Понтрягина и вывести условие bang-bang управления
  • Решить линейно-квадратичную задачу через уравнение Риккати (LQR)
  • Понять связь HJB-уравнения с функцией ценности в reinforcement learning

Предварительные знания

  • ОДУ (системы)
  • Вариационное исчисление
  • Линейная алгебра
  • Метод конечных элементов

Как SpaceX за 60 секунд находит управление двигателем с минимальным расходом топлива для посадки ракеты?

  • SpaceX Falcon 9: принцип Понтрягина для посадки первой ступени, 232/234 успеха в 2023
  • Tesla Autopilot и промышленные роботы ABB используют MPC в реальном времени
  • DeepMind управляет плазмой в токамаке через RL - прямой аналог принципа оптимальности Беллмана
  • ChatGPT обучен RLHF - reinforcement learning with human feedback, математически та же задача

Понтрягин, Беллман и гонка вооружений

Лев Понтрягин ослеп в 14 лет после взрыва примуса. К 1956 году, работая в СССР, он доказал принцип максимума - фундаментальный результат теории управления. Независимо и одновременно Ричард Беллман в США разрабатывал динамическое программирование и HJB-уравнение. Оба работали под давлением гонки вооружений: управление ракетами и подводными лодками требовало математической теории. Сегодня их результаты лежат в основе RL - главного инструмента современного AI.

Принцип максимума Понтрягина

SpaceX использует принцип Понтрягина для посадки Falcon 9: за 60 секунд алгоритм находит управление двигателем с минимальным расходом топлива. В 2023 году успешно посажено 232 ступени из 234 попыток. Принцип максимума - это необходимое условие оптимальности в терминах вспомогательной переменной (сопряжённого состояния), аналог условия первого порядка в многомерной оптимизации.

Принцип Понтрягина (1956) - обобщение вариационного исчисления на задачи с ограничениями на управление. Лемма Мандельштама-Нобеля о минимальном времени - частный случай при L = 1 и U - компактное множество.

Что такое сопряжённое состояние p(t) в принципе Понтрягина?

Уравнение Гамильтона-Якоби-Беллмана

Принцип оптимальности Беллмана (1957) даёт другую перспективу: функция ценности V(x,t) - минимальный будущий cost из состояния x в момент t - удовлетворяет нелинейному PDE. Это HJB-уравнение. Для линейно-квадратичной задачи оно сводится к уравнению Риккати - ключевому в теории управления.

Проклятие размерности: HJB-уравнение в R^n - это PDE в n+1 измерениях. При n > 6 сетки нереальны. Решение: глубокое обучение для аппроксимации V (DeepBSDE от Han, Jentzen, E, 2018) или вариационные методы.

Почему HJB-уравнение страдает от проклятия размерности?

Связь с reinforcement learning и алгоритмы

Reinforcement learning - это численное решение задачи оптимального управления. Q-функция в RL - дискретный аналог функции ценности V из HJB. Policy gradient - численная аппроксимация градиента по параметрам управления. AlphaGo, ChatGPT (RLHF) и системы автономного вождения Tesla используют этот формализм.

Оптимальное управлениеReinforcement LearningСмысл
Состояние x(t)State s_tТекущее положение системы
Управление u(t)Action a_tВыбор алгоритма
Функция потерь L(x,u)Reward r_t = -LОценка шага
Функция ценности V(x,t)Value function V(s)Оптимальный будущий reward
HJB-уравнениеBellman equationРекурсивная оптимальность
Принцип ПонтрягинаPolicy gradientНеобходимое условие оптимальности

Model-Predictive Control (MPC) - онлайн вариант: в каждый момент времени решается задача оптимального управления на горизонте T, применяется первый шаг, горизонт сдвигается вперёд. Tesla Autopilot, промышленные роботы ABB, авиационные автопилоты работают на MPC.

OpenAI и управление плазмой в токамаке

Deepmind + Swiss Plasma Center (2022)

DeepMind и Swiss Plasma Center обучили RL-агента управлять формой плазмы в токамаке TCV. Задача управления: 19 электромагнитов, 92 управляющих параметра, плазма при 100 млн градусов. Традиционный MPC занимает 600+ часов разработки на каждый новый режим; RL-агент адаптируется за часы. Статья в Nature, 2022.

Как MPC (Model-Predictive Control) решает задачу оптимального управления в реальном времени?

Связи с другими областями

Оптимальное управление - мост между дифференциальными уравнениями, вариационным исчислением и современным machine learning.

  • Reinforcement Learning — Связанная тема
  • Model-Predictive Control — Связанная тема
  • Уравнение Риккати — Связанная тема
  • Вариационное исчисление — Связанная тема

Итоги

  • Принцип максимума: оптимальное управление максимизирует гамильтониан H(x,p,u) в каждый момент времени
  • Сопряжённое состояние p(t) удовлетворяет обратному во времени ОДУ - это градиент функции ценности
  • HJB-уравнение - нелинейное PDE для функции ценности V; для LQR сводится к уравнению Риккати
  • RL, MPC и policy gradient - численные реализации тех же принципов оптимальности

Вопросы для размышления

  • Почему bang-bang управление оптимально для задач с линейным гамильтонианом по u?
  • Как проклятие размерности ограничивает прямое решение HJB и что с этим делает глубокое обучение?
  • В чём математическое отличие принципа Понтрягина (необходимое условие) от HJB-уравнения (необходимое и достаточное)?

Связанные уроки

  • de-25-fem — МКЭ решает HJB-уравнение в задачах управления с распределёнными параметрами
  • de-29-einstein-equations — Геодезические в ОТО - задача оптимального управления с минимальным действием
  • de-23-pde-bvp — HJB - нелинейное PDE, требующее краевых условий
Оптимальное управление

0

1

Войти