Динамические системы
Теория управления: PID, LQR и оптимальное управление
SpaceX Falcon 9 впервые сел обратно в 2015 году - это PID + LQR. Инсулиновая помпа с замкнутым контуром (artificial pancreas) - это MPC. Tesla Autopilot удерживает полосу на шоссе - это иерархический LQR + PID + MPC. За каждым из этих продуктов - 70 лет теории управления, начавшейся с регулятора Уатта для паровой машины в 1788.
- **SpaceX Falcon 9:** посадка ракеты - LQR для траектории + PID для двигателей. Первая посадка 21 декабря 2015.
- **Artificial pancreas:** CGM (сенсор) + MPC (алгоритм) + инсулиновая помпа = замкнутый контур управления сахаром. FDA одобрила в 2016.
- **Google DeepMind data center cooling:** MPC снизил потребление энергии на охлаждение на 40% в дата-центрах Google.
Предварительные знания
Обратная связь: почему Falcon 9 не упал
SpaceX Falcon 9 впервые вернулся на посадочную площадку в декабре 2015. Ракета весом 25 тонн посадила себя с точностью до метра. Это не чудо - это PID + LQR: два инструмента теории управления, придуманных за 60 лет до этого.
Идея обратной связи (feedback): измеряем выход системы, вычисляем ошибку e(t) = r(t) - y(t), корректируем управляющее воздействие u(t) на основе e(t). Без обратной связи - открытый контур (open-loop): нет коррекции возмущений. С обратной связью - замкнутый контур (closed-loop): система сама себя исправляет.
**Boeing 737 MAX** имеет ~100 одновременных PID-контуров: рули высоты, элероны, закрылки, двигатели. Сбой системы MCAS (один датчик угла атаки) - трагедия двух авиакатастроф 2018-2019. Теория управления работает только если модель правильная.
Система ẋ = Ax + Bu стабилизируется обратной связью u = -Kx. Назовите два условия, необходимых для существования подходящего K.
Управляемость гарантирует существование K, переводящего систему в любое состояние. Затем K выбирается так, чтобы все собственные значения замкнутой системы A-BK имели отрицательную вещественную часть, обеспечивая асимптотическую устойчивость.
PID: три компоненты, 90% промышленности
Более 90% промышленных контуров управления используют PID или его варианты. Термостаты, инсулиновые помпы, автопилоты самолётов, ЧПУ-станки. Одна формула, три параметра - и большинство реальных задач управления решены.
**Integral Windup**: если система насыщена (нагреватель на 100%), интегратор продолжает накапливать ошибку. При снятии ограничения - мощный перелёт цели. Решение: anti-windup - останавливать интегратор при насыщении. Это причина многих промышленных аварий.
Термостат с P-контроллером стабилизируется на 18°C вместо 20°C. Какой компонент PID нужно добавить и почему?
P-контроллер имеет врождённую статическую ошибку (steady-state error): при конечном Kp система балансирует при ненулевом e. Интегратор I накапливает ошибку и усиливает управление до тех пор, пока e не станет равным нулю - устраняет статическую ошибку.
LQR: оптимальное управление через уравнение Риккати
PID требует ручной настройки трёх параметров. LQR делает это оптимально: минимизирует квадратичный функционал стоимости, находя матрицу K аналитически. Tesla Autopilot использует LQR для удержания полосы - PID уже не справляется с многомерной задачей.
**ML-связь:** LQR - это задача оптимального управления с известной моделью. Reinforcement Learning - то же самое без известной модели. Value function в RL - аналог решения Риккати P. Policy gradient ≡ gradient descent по матрице K.
В задаче LQR увеличиваем матрицу Q в 100 раз при неизменной R. Опишите качественно: что произойдёт с матрицей K, скоростью отработки и уровнем управляющего воздействия?
В LQR большое Q штрафует за отклонение состояния от нуля сильнее, чем R штрафует за управляющее воздействие. Решение уравнения Риккати даёт большее P, а значит больший K, что приводит к агрессивному быстрому управлению за счёт больших u.
MPC и мост к Reinforcement Learning
LQR - линейные системы без ограничений. Реальный мир нелинейный, и управление ограничено: ракета не может создать отрицательную тягу, инсулиновая помпа не может забрать инсулин. Для этого - MPC.
MPC (Model Predictive Control) - скользящий горизонт: в каждый момент решается задача оптимизации на N шагов вперёд с ограничениями, применяется первый шаг, горизонт сдвигается. Tesla Autopilot, химические реакторы Dow Chemical, HVAC в дата-центрах Google используют MPC.
**Связь с RL:** MPC = RL с известной моделью и явным оптимизатором. При неизвестной модели: Model-Based RL (MBRL) - сначала учим динамику f(x,u), потом запускаем MPC. AlphaZero - MCTS (дерево) как MPC для шахмат и го.
Назовите главное преимущество MPC перед LQR и главный недостаток. В каком случае стоит оставаться с LQR?
MPC решает задачу оптимизации на скользящем горизонте - это позволяет явно задавать ограничения, но требует значительных вычислений на каждом шаге. LQR - аналитическое решение для линейных систем без ограничений, работающее на высоких частотах.
Ключевые идеи
- **Feedback закрывает петлю**: u = f(e), e = r - y устраняет неопределённость модели и внешние возмущения
- **Управляемость**: rank([B|AB|...|A^n-1·B]) = n - необходимо для существования стабилизирующего K
- **PID**: P (текущая ошибка) + I (накопленная, устраняет стат. отклонение) + D (тренд, предсказывает). >90% промышленности.
- **LQR**: минимизирует ∫(x^T Q x + u^T R u)dt. Решение: уравнение Риккати P → K = R^{-1}B^T P. Гарантированно стабилен.
- **MPC**: горизонт N, оптимизация с ограничениями на каждом шаге. Нелинейные системы + ограничения.
- **RL = MPC без модели**: value function ≡ P Риккати, политика ≡ K, reward ≡ -cost
Связанные темы
Control Theory - применённая динамика: использует устойчивость Ляпунова и численные методы:
- Теория устойчивости Ляпунова — Решение Риккати P в LQR является функцией Ляпунова замкнутой системы; V(x) = x^T P x убывает вдоль траекторий
- Сетевая динамика — Распределённое управление: каждый узел сети - свой PID/LQR, задача согласования - теория консенсуса
- Синхронизация — DBS при Паркинсоне - управление параметром K модели Курамото; выбор оптимальной частоты стимуляции
Вопросы для размышления
- Почему PID остаётся стандартом в промышленности 80 лет после появления LQR? Когда LQR действительно необходим?
- DeepMind снизил потребление энергии в дата-центрах на 40% через MPC. Какие данные нужны для обучения модели и каковы риски неправильной модели в такой системе?
- Falcon 9 садится автономно - без связи с Землёй в последние секунды. Как система управления обрабатывает неопределённость: ветер, изменение массы при расходе топлива?