Динамические системы

Теория управления: PID, LQR и оптимальное управление

SpaceX Falcon 9 впервые сел обратно в 2015 году - это PID + LQR. Инсулиновая помпа с замкнутым контуром (artificial pancreas) - это MPC. Tesla Autopilot удерживает полосу на шоссе - это иерархический LQR + PID + MPC. За каждым из этих продуктов - 70 лет теории управления, начавшейся с регулятора Уатта для паровой машины в 1788.

**SpaceX Falcon 9:** посадка ракеты - LQR для траектории + PID для двигателей. Первая посадка 21 декабря 2015.
**Artificial pancreas:** CGM (сенсор) + MPC (алгоритм) + инсулиновая помпа = замкнутый контур управления сахаром. FDA одобрила в 2016.
**Google DeepMind data center cooling:** MPC снизил потребление энергии на охлаждение на 40% в дата-центрах Google.

Предварительные знания

Обратная связь: почему Falcon 9 не упал

SpaceX Falcon 9 впервые вернулся на посадочную площадку в декабре 2015. Ракета весом 25 тонн посадила себя с точностью до метра. Это не чудо - это PID + LQR: два инструмента теории управления, придуманных за 60 лет до этого.

Идея обратной связи (feedback): измеряем выход системы, вычисляем ошибку e(t) = r(t) - y(t), корректируем управляющее воздействие u(t) на основе e(t). Без обратной связи - открытый контур (open-loop): нет коррекции возмущений. С обратной связью - замкнутый контур (closed-loop): система сама себя исправляет.

**Boeing 737 MAX** имеет ~100 одновременных PID-контуров: рули высоты, элероны, закрылки, двигатели. Сбой системы MCAS (один датчик угла атаки) - трагедия двух авиакатастроф 2018-2019. Теория управления работает только если модель правильная.

Система ẋ = Ax + Bu стабилизируется обратной связью u = -Kx. Назовите два условия, необходимых для существования подходящего K.

Управляемость гарантирует существование K, переводящего систему в любое состояние. Затем K выбирается так, чтобы все собственные значения замкнутой системы A-BK имели отрицательную вещественную часть, обеспечивая асимптотическую устойчивость.

PID: три компоненты, 90% промышленности

Более 90% промышленных контуров управления используют PID или его варианты. Термостаты, инсулиновые помпы, автопилоты самолётов, ЧПУ-станки. Одна формула, три параметра - и большинство реальных задач управления решены.

**Integral Windup**: если система насыщена (нагреватель на 100%), интегратор продолжает накапливать ошибку. При снятии ограничения - мощный перелёт цели. Решение: anti-windup - останавливать интегратор при насыщении. Это причина многих промышленных аварий.

Термостат с P-контроллером стабилизируется на 18°C вместо 20°C. Какой компонент PID нужно добавить и почему?

P-контроллер имеет врождённую статическую ошибку (steady-state error): при конечном Kp система балансирует при ненулевом e. Интегратор I накапливает ошибку и усиливает управление до тех пор, пока e не станет равным нулю - устраняет статическую ошибку.

LQR: оптимальное управление через уравнение Риккати

PID требует ручной настройки трёх параметров. LQR делает это оптимально: минимизирует квадратичный функционал стоимости, находя матрицу K аналитически. Tesla Autopilot использует LQR для удержания полосы - PID уже не справляется с многомерной задачей.

**ML-связь:** LQR - это задача оптимального управления с известной моделью. Reinforcement Learning - то же самое без известной модели. Value function в RL - аналог решения Риккати P. Policy gradient ≡ gradient descent по матрице K.

В задаче LQR увеличиваем матрицу Q в 100 раз при неизменной R. Опишите качественно: что произойдёт с матрицей K, скоростью отработки и уровнем управляющего воздействия?

В LQR большое Q штрафует за отклонение состояния от нуля сильнее, чем R штрафует за управляющее воздействие. Решение уравнения Риккати даёт большее P, а значит больший K, что приводит к агрессивному быстрому управлению за счёт больших u.

MPC и мост к Reinforcement Learning

LQR - линейные системы без ограничений. Реальный мир нелинейный, и управление ограничено: ракета не может создать отрицательную тягу, инсулиновая помпа не может забрать инсулин. Для этого - MPC.

MPC (Model Predictive Control) - скользящий горизонт: в каждый момент решается задача оптимизации на N шагов вперёд с ограничениями, применяется первый шаг, горизонт сдвигается. Tesla Autopilot, химические реакторы Dow Chemical, HVAC в дата-центрах Google используют MPC.

**Связь с RL:** MPC = RL с известной моделью и явным оптимизатором. При неизвестной модели: Model-Based RL (MBRL) - сначала учим динамику f(x,u), потом запускаем MPC. AlphaZero - MCTS (дерево) как MPC для шахмат и го.

Назовите главное преимущество MPC перед LQR и главный недостаток. В каком случае стоит оставаться с LQR?

MPC решает задачу оптимизации на скользящем горизонте - это позволяет явно задавать ограничения, но требует значительных вычислений на каждом шаге. LQR - аналитическое решение для линейных систем без ограничений, работающее на высоких частотах.

Ключевые идеи

**Feedback закрывает петлю**: u = f(e), e = r - y устраняет неопределённость модели и внешние возмущения
**Управляемость**: rank([B|AB|...|A^n-1·B]) = n - необходимо для существования стабилизирующего K
**PID**: P (текущая ошибка) + I (накопленная, устраняет стат. отклонение) + D (тренд, предсказывает). >90% промышленности.
**LQR**: минимизирует ∫(x^T Q x + u^T R u)dt. Решение: уравнение Риккати P → K = R^{-1}B^T P. Гарантированно стабилен.
**MPC**: горизонт N, оптимизация с ограничениями на каждом шаге. Нелинейные системы + ограничения.
**RL = MPC без модели**: value function ≡ P Риккати, политика ≡ K, reward ≡ -cost

Связанные темы

Control Theory - применённая динамика: использует устойчивость Ляпунова и численные методы:

Теория устойчивости Ляпунова — Решение Риккати P в LQR является функцией Ляпунова замкнутой системы; V(x) = x^T P x убывает вдоль траекторий
Сетевая динамика — Распределённое управление: каждый узел сети - свой PID/LQR, задача согласования - теория консенсуса
Синхронизация — DBS при Паркинсоне - управление параметром K модели Курамото; выбор оптимальной частоты стимуляции

Вопросы для размышления

Почему PID остаётся стандартом в промышленности 80 лет после появления LQR? Когда LQR действительно необходим?
DeepMind снизил потребление энергии в дата-центрах на 40% через MPC. Какие данные нужны для обучения модели и каковы риски неправильной модели в такой системе?
Falcon 9 садится автономно - без связи с Землёй в последние секунды. Как система управления обрабатывает неопределённость: ветер, изменение массы при расходе топлива?

Связанные уроки

la-13-eigenvectors