Обучение с подкреплением

Model-Based RL

Человек учится ездить на велосипеде за несколько часов. DQN нужно 50 миллионов кадров Atari - это 38 дней непрерывной игры. Разница в одном: человек строит модель физики в голове и *мысленно* репетирует движения. Model-Based RL даёт агентам ту же способность - планировать в воображении, не рискуя реальным телом.

**MuZero (DeepMind)** победил чемпионов мира в шахматах, го и shogi без знания правил игры - только обучив модель динамики из опыта.
**DreamerV3** без изменения гиперпараметров освоил 150 задач подряд: от пиксельного Atari до управления роботом-гуманоидом в MuJoCo.
**Tesla FSD** использует нейронную симуляцию поведения других участников трафика - по сути world model для планирования манёвров на горизонте нескольких секунд.

От Dyna к MuZero

У model-based RL длинная история. Около 1990-1991 годов Ричард Саттон предложил Dyna - архитектуру, которая чередует реальный опыт с планированием по обученной модели, стирая границу между обучением и планированием. Эпоха deep learning возродила идею: в 2018 году Дэвид Ха и Юрген Шмидхубер опубликовали «World Models», обучая агента во многом внутри «сна» обученной модели латентной динамики. Данияр Хафнер с коллегами развили подход в Dreamer (2019-2020), оптимизируя политику через backpropagation по воображаемым латентным траекториям. В 2020 году Джулиан Шриттвизер с коллегами из DeepMind опубликовали MuZero - модель, предсказывающую только reward, value и policy (всего, что нужно Monte Carlo Tree Search), которая освоила го, шахматы, сёги и Atari, не зная правил игры.

Предварительные знания

World Models

Model-free RL слеп: агент действует, получает сигнал, корректирует политику - и ничего не знает о том, как устроен мир. Это работает, но цена колоссальная: миллионы эпизодов только для того, чтобы научиться ходить. World Model меняет архитектуру мышления - агент строит внутреннюю модель среды и может *мечтать* о последствиях действий, не совершая их в реальности. David Ha и Jurgen Schmidhuber показали в 2018 году, что достаточно трёх компонентов: визуальный энкодер V, рекуррентная модель динамики M и контроллер C. Вместе они позволяют агенту сначала «мечтать» тысячи эпизодов, а затем применить выученную политику в реальной среде.

World Model = энкодер (сжатие наблюдения в z) + модель перехода (z_t, a_t -> z_{t+1}) + декодер (z -> реконструкция). Агент оптимизирует политику в воображаемом пространстве, а не в реальной среде. Это сокращает требования к реальным взаимодействиям в 10-100 раз.

Зачем World Model использует латентное пространство z вместо исходных пикселей для планирования?

Dreamer

DreamerV1 (Hafner et al., 2019) поднял идею World Models на новый уровень: агент полностью обучается внутри воображения, ни разу не обращаясь к среде для обновления политики. Ключевая архитектура - RSSM (Recurrent State Space Model), которая разделяет скрытое состояние на детерминированную рекуррентную часть h и стохастическую часть z. Это позволяет модели одновременно сохранять историю (через h) и моделировать неопределённость (через z). DreamerV3 (2023) без изменения гиперпараметров прошёл 150 задач подряд - от Atari до управления роботом, от майнкрафта до лунохода.

RSSM = h_t = f(h_{t-1}, z_{t-1}, a_{t-1}) (детерминировано) + z_t ~ p(z_t | h_t, x_t) (стохастично). Политика обучается градиентным спуском через воображаемые траектории методом backpropagation through time. Reward model и continue model тоже обучаются - они предсказывают награду и вероятность продолжения эпизода в воображении.

Что такое RSSM и зачем в нём два типа скрытого состояния - h (детерминированное) и z (стохастическое)?

MuZero

AlphaZero знал правила игры. MuZero (DeepMind, 2019) не знает - и всё равно побеждает. Секрет в том, что MuZero учит модель только тому, что нужно для планирования: предсказывать значения, политику и награду в абстрактном пространстве, не восстанавливая исходные наблюдения. Это принципиально: вместо «правильной» модели физики или игровых правил - минимальная модель, достаточная для MCTS. MuZero выиграл у людей в шахматах, го, shogi и Atari, используя единую архитектуру. В 2021 году Efficient MuZero сократил требования к данным в 4 раза, применив World Model для генерации воображаемых данных.

MuZero = три функции: h(obs) -> s (репрезентация), g(s, a) -> (r, s') (динамика), f(s) -> (p, v) (предсказание ценности и политики). MCTS запускается в пространстве s, не в пространстве исходных наблюдений. Модель динамики g учится предсказывать не пиксели следующего кадра, а лишь скалярную награду - это и есть ключевое упрощение.

Чем принципиально отличается модель динамики MuZero от модели динамики в DreamerV1?

Планирование в латентном пространстве

Планирование - это выбор действия путём симуляции будущего. В model-based RL эта симуляция происходит в латентном пространстве обученной модели. MCTS разворачивает дерево возможных исходов, оценивая каждый узел через value-функцию. CEM (Cross-Entropy Method) сэмплирует тысячи случайных траекторий действий и отбирает лучшие. MPPI (Model Predictive Path Integral) взвешивает траектории их экспоненциальной наградой. Ключевой инсайт: чем точнее модель мира, тем глубже можно планировать; чем глубже планирование, тем меньше нужно реальных взаимодействий. Tesla FSD использует похожую схему - нейронная сеть симулирует поведение других участников трафика на горизонте 5-8 секунд.

MCTS в MuZero: выбор узла (UCB), расширение (predict), резервное копирование (backprop). CEM: сэмплировать N траекторий, оценить суммарную награду, взять топ-K, обновить распределение. MPPI: J(tau) = sum(exp(lambda * R(tau)) * tau) - взвешенная сумма траекторий, более sample-efficient чем CEM.

Model-based RL всегда лучше model-free, потому что использует дополнительную информацию в виде модели

Ошибка в модели накапливается при планировании на длинном горизонте - compound model error. Model-based RL выигрывает по sample efficiency, но может уступать model-free в асимптотической производительности на сложных задачах с богатой наблюдаемой динамикой

Модель мира никогда не идеальна. На коротком горизонте ошибки малы, на длинном - накапливаются экспоненциально. В задачах с высокой стохастичностью или сложной динамикой (например, контакты в робототехнике) модель ошибается сильнее, и план деградирует.

В чём основное преимущество MPPI перед CEM при планировании в model-based RL?

Ключевые идеи

**World Model** сжимает наблюдения в латентное пространство z и предсказывает переходы внутри него - агент планирует в воображении, а не в реальной среде.
**RSSM в Dreamer** разделяет скрытое состояние на детерминированное h (история) и стохастическое z (неопределённость), что позволяет дифференцировать политику через воображаемые траектории.
**MuZero** - крайний случай: модель предсказывает только то, что нужно для MCTS (reward + value), не восстанавливая пиксели - минимальная достаточная модель планировщика.
**Compound model error** ограничивает горизонт планирования: ошибки модели накапливаются, поэтому model-based RL чаще всего сочетают с model-free корректировкой на реальном опыте.

Связанные темы

Model-Based RL объединяет идеи из нескольких областей:

Policy Gradient — Dreamer оптимизирует политику градиентным спуском через воображаемые траектории - это расширение идей Policy Gradient на модельное планирование
Робототехника и RL — Sim2real transfer использует world models для переноса политик из симулятора в реальный мир

Вопросы для размышления

Почему MuZero отказался от декодера (восстановления наблюдений) и как это влияет на качество планирования?
Как compound model error ограничивает глубину планирования и какие существуют способы его снизить?
Если Dreamer обучается полностью в воображении, что происходит, когда реальная среда нестационарна и меняется во времени?

Связанные уроки

rl-04 — Планирование с известной моделью - это динамическое программирование
rl-02 — World models учат динамику переходов MDP
rl-15 — MuZero планирует в латентном пространстве и осваивает игры
ml-32-autoencoders — Латентные world models кодируют состояния как автоэнкодеры
ds-17-graph-algorithms — Планирование MCTS - это поиск по дереву воображаемых будущих
st-01-feedback-loops