Обучение с подкреплением

Offline RL: обучение по логам

Предварительные знания

Online RL: как агент учится через взаимодействие со средой (режим, от которого offline RL осознанно отказывается)
Q-функции и обновление Беллмана через TD-bootstrapping
Distribution shift и обобщение на out-of-distribution данные
Подготовка данных: почему качество логов ограничивает потолок обучения

От batch RL к Decision Transformer

Идея обучать политику исключительно на фиксированном датасете восходит к batch RL, но стала практичной лишь тогда, когда исследователи диагностировали настоящую причину сбоя. В 2019 году Scott Fujimoto, David Meger и Doina Precup предложили BCQ (Batch-Constrained Q-Learning) и назвали виновника: extrapolation error от out-of-distribution действий. В 2020 году Aviral Kumar с коллегами опубликовали CQL (Conservative Q-Learning), который добавляет штраф, опускающий Q-значения на невиданных действиях, и доказывает нижнюю границу истинной Q-функции. В 2021 году Lili Chen с соавторами переформулировали всю задачу через Decision Transformer, рассматривая offline RL как авторегрессионное моделирование последовательностей с условием на целевой return, вообще без Bellman backup. Эти три шага определяют современный инструментарий offline RL.

В медицине, autonomous driving и рекомендательных системах применить классический online RL невозможно по тривиальным причинам: на пациентах нельзя экспериментировать, на дорогах нельзя устраивать reward-hacking, в feed'е нельзя 50% юзеров показывать случайный контент. Зато логи прошлых решений у этих систем накоплены терабайтами. Возникает вопрос: можно ли обучить агента ТОЛЬКО по этим логам, без права взаимодействия со средой? Ответ обнаружился непростой - наивный Q-Learning расходится из-за distribution shift, и потребовалось несколько лет фундаментальных работ, чтобы получить рабочую парадигму offline RL: Conservative Q-Learning, IQL, Decision Transformer. Это не просто 'RL без exploration' - это другой класс задач со своими алгоритмами, теоремами и инженерным workflow.

**QT-Opt от Google**: 600k часов teleoperated данных манипуляции роборукой; обучили захват объектов без online RL на физическом роботе
**Spotify**: offline RL для ранжирования плейлистов и Discover Weekly на исторических кликах - online-эксперименты слишком дороги
**Insilico Medicine**: CQL для optimization treatment policies в клинических данных, где online эксперимент этически невозможен
**AlphaStar Offline**: batch-RL на репликах профессиональных игроков StarCraft II, дополнено online self-play

Batch RL: учиться без взаимодействия со средой

**Offline RL** (или **batch RL**) - парадигма, в которой агент учится исключительно по фиксированному датасету (state, action, reward, next_state)-переходов, собранному ранее любой политикой, и не имеет права взаимодействовать со средой во время обучения. Это критично для домена медицины, рекомендаций, робототехники, автономного вождения - областей, где online exploration либо опасен, либо дорог, либо запрещён регуляторами. Главная сложность - **distribution shift**: если новая политика выбирает действия, отсутствующие в датасете, Q-функция экстраполирует на них непредсказуемые значения, и target в Bellman update ловит фантомные награды.

Базовая мысль за провалами наивных алгоритмов в offline-режиме: Q-Learning через TD-update предполагает доступ к среде для коррекции ошибок. Если Q-функция переоценила некоторое действие, online-агент попробует его в среде, получит реальный (низкий) reward и скорректирует. В offline-режиме такой механизм отсутствует - ошибка накапливается через Bellman update, и Q-значения могут exploded'нуть на десятки порядков. Это явление называется **extrapolation error**, и решение всех современных offline-методов крутится вокруг его подавления.

Что именно ломается в стандартном Q-Learning при переходе из online в offline-режим?

Conservative Q-Learning: пенализировать OOD-действия

**Conservative Q-Learning** (CQL, Kumar et al. 2020) подавляет extrapolation error самым прямым способом: добавляет к стандартной Bellman-loss слагаемое, штрафующее Q-значения на действиях, не виденных в датасете, и одновременно поощряющее Q-значения на действиях из датасета. Геометрически это сжимает поверхность Q-функции снизу для OOD-точек, что эквивалентно нижней границе истинной Q*. Алгоритм даёт лучшие результаты на D4RL benchmark и не требует моделирования поведенческой политики (в отличие от BCQ или BEAR). Главный гиперпараметр - вес penalty альфа, обычно 1.0-5.0.

Theory paper Kumar et al. доказывает, что при правильном альфа CQL даёт **conservative bound**: Q^CQL(s,a) <= Q*(s,a) с высокой вероятностью для любого s,a. Это значит, что argmax по Q^CQL не может выбирать OOD-действие, на котором истинная Q-функция малa - extrapolation error подавлен конструктивно. На практике CQL часто превосходит даже behavior cloning (то есть простое подражание данным) на 20-50% по normalized return, что демонстрирует ценность Q-функции даже в чисто offline-сетапе.

Какую гарантию даёт CQL по сравнению с наивным offline-Q-Learning?

Decision Transformer: RL как sequence modeling

**Decision Transformer** (Chen et al. 2021) переформулирует offline RL как задачу **sequence modeling**: вместо TD-обучения Q-функции, агент тренируется как авторегрессивный трансформер на токенах (return-to-go, state, action). При inference на вход подаётся желаемый return-to-go (R_target = 'хочу собрать 100 reward'), и трансформер генерирует действия, которые исторически приводили к такому return. Это полностью обходит проблему extrapolation error - нет Bellman backup, нет Q-функции, есть только supervised cross-entropy на действиях. Подход даёт нетривиальный результат: на D4RL он сопоставим с CQL без специальной adaptation.

Decision Transformer открыл волну работ 'RL as sequence modeling': **Trajectory Transformer** (Janner et al. 2021), **Multi-Game DT** (Lee et al. 2022), **Online DT**. Их объединяющая идея - модель училась подражать поведению, *обусловленному* на целевой return. Это позволяет одной моделью контролировать тridoff exploration/exploitation через выбор R_target. Для робототехники GATO от DeepMind использует похожую формулировку: один трансформер контролирует роборуку, играет в Atari и описывает изображения - все задачи представлены как sequence prediction.

В чём принципиальное отличие Decision Transformer от классических offline-методов вроде CQL?

Data-driven RL: парадигма и пределы

Offline RL формирует парадигму **data-driven RL**: вместо trial-and-error в среде, мы строим политику из исторических данных, аналогично supervised learning. Это меняет инженерный цикл - вместо симулятора нужен датасет, вместо exploration policy нужна data collection strategy, вместо online evaluation нужна offline policy evaluation (OPE). Пределы парадигмы тоже понятны: качество результата ограничено support'ом датасета. Если оптимальные траектории не присутствуют в данных - никакой алгоритм их не сгенерирует (теорема о coverage). Поэтому в реальных проектах offline RL часто комбинируется с online fine-tuning: pre-train на логах, deploy, собирать новые данные, retrain.

Случаи успешного применения: **Google data-driven robotics** (QT-Opt: ~600k часов teleoperated данных, обучили роборуку без online RL); **DeepMind AlphaStar offline** (батч RL на репликах профессиональных игроков); **рекомендательные системы Spotify** (offline RL для ранжирования плейлистов на исторических кликах); **fintech и медицина** (CQL для optimization treatment policies, где online exploration этически невозможен). В каждом случае ключевой ингредиент - не алгоритм, а собранный датасет с достаточным coverage. Это смещает рабочий фокус: на 80% data engineering и 20% ML.

Offline RL - это просто 'обучение на логах' с тем же успехом, что и online

Offline RL имеет конструктивные ограничения, отсутствующие в online: distribution shift, extrapolation error через Bellman backup, невозможность активной exploration. Эти ограничения требуют принципиально других алгоритмов (CQL, IQL, DT) и принципиально другой инженерной практики (OPE, coverage analysis, shadow deployment).

Online агент компенсирует ошибки моделирования через взаимодействие со средой. Offline такого предохранителя нет: ошибка через bootstrapping экспоненциально амплифицируется. Поэтому offline алгоритмы сначала борются с extrapolation, и только потом - оптимизируют. Это разные классы задач, не вариации одной.

Что является главным фактором, ограничивающим качество offline RL?

Ключевые идеи

**Offline RL** учится только по фиксированному датасету без взаимодействия со средой; критичен для medicine/recsys/robotics/fintech
**Distribution shift + extrapolation error** через Bellman backup - корень провалов наивного offline Q-Learning; Q-значения расходятся экспоненциально
**Conservative Q-Learning** даёт lower bound на Q*: argmax не выберет OOD-действие, extrapolation подавлен конструктивно
**Decision Transformer** обходит проблему: переформулирует RL как авторегрессивное sequence modeling, обусловленное на target return; нет Bellman backup - нет extrapolation
**Главный фактор качества - coverage датасета, а не алгоритм**; разница в data engineering часто составляет 200-300% normalized return

Связанные темы

Offline RL пересекается с несколькими ML- и инженерными направлениями:

Imitation learning — Behavior cloning - крайний случай offline RL без use of rewards; offline RL обобщает BC, добавляя оптимизацию по награде
Causal inference — IPS и Doubly Robust estimators из causal inference применяются в offline policy evaluation для оценки эффекта политики без deployment
Sequence modeling — Decision Transformer и GATO показывают, что transformer-based supervised learning может заменить classical RL в широком классе задач

Вопросы для размышления

Если CQL даёт lower bound на Q*, политика может оказаться underexploring в reality - выбирать суб-оптимальные in-distribution действия вместо лучших OOD. Как это балансировать с потребностью в performance?
Decision Transformer полностью обходит Bellman backup. Какие классы задач остаются принципиально 'true RL', где DT не сможет заменить CQL/IQL?
Если 70-80% работы в offline RL - data engineering, какие критерии coverage датасета можно сформулировать ДО начала обучения, чтобы предсказать потолок качества?

Связанные уроки

rl-12 — Online RL - предшественник Offline RL парадигмы
rl-14 — Offline RL открывает путь к RLHF и alignment
ml-04-data-preprocessing — Качество логов - критический фактор offline RL
prob-17 — Цепи Маркова - математическая основа RL из логов
aie-12-rag-fundamentals — RAG и offline RL оба учатся на статических наборах данных
ml-44-cross-validation