Обучение с подкреплением

Inverse RL и Imitation Learning

Предварительные знания

Фреймворк агент-среда: состояния, действия, траектории
MDP и уравнение Беллмана, чтобы 'оптимизировать reward' имело смысл
Методы policy gradient (PPO/TRPO), базовый слой под GAIL и AIRL
GAN и minimax-игра между генератором и дискриминатором
Байесовский вывод: апостериор над гипотезами по данным

От ALVINN к GAIL

Imitation learning старше, чем deep RL. В 1989 году Dean Pomerleau в Carnegie Mellon обучил ALVINN, нейросеть, которая вела фургон через behavioral cloning, отображая изображения с камеры прямо в управление рулём после наблюдения за человеком за рулём. Обратный вопрос пришёл в 2000 году, когда Andrew Ng и Stuart Russell формализовали Inverse Reinforcement Learning: по поведению эксперта восстановить функцию награды, которая его объясняет. Современный синтез появился в 2016 году, когда Jonathan Ho и Stefano Ermon представили GAIL (Generative Adversarial Imitation Learning), который заимствует состязательную игру из GAN, чтобы напрямую сопоставлять поведение эксперта без явного восстановления награды. Эти три вехи прокладывают путь от копирования действий к восстановлению намерения и далее к состязательной имитации политики.

Tesla Autopilot не учится по reward'у 'не убей пассажира'. Он учится по миллиардам миль человеческого вождения - и восстанавливает, *чего хочет водитель*, когда тот тормозит перед перекрёстком за полсекунды до знака. Это imitation learning в продакшне. RLHF в ChatGPT - тот же подход, только в текстовом пространстве.

**Tesla FSD:** миллиарды миль вождения водителей - dataset для imitation, не явный reward
**RLHF в ChatGPT/Claude:** PPO поверх learned reward model - наследник GAIL
**Хирургические роботы:** Intuitive Surgical обучает роботов на демонстрациях хирургов через DAgger-like схемы
**AlphaStar:** в StarCraft II первая стадия - imitation на 1M игр гроссмейстеров, потом RL дотягивает

Inverse RL: восстановить награду из поведения

Классический RL даёт reward, требует найти политику. Inverse Reinforcement Learning переворачивает задачу: дана политика эксперта (трэйджектории), нужно восстановить *reward function*, которая её объясняет. 2000 год, Andrew Ng и Stuart Russell формулируют это в IJCAI. Звучит академично, но за этим - вождение Tesla, RLHF, обучение хирургических роботов.

Зачем восстанавливать reward, если есть готовая политика? Потому что reward переносим, политика - нет. Зная reward, можно: обучить более масштабную policy на нём же, понять, *почему* эксперт делает то, что делает, оптимизировать reward в новой среде, где политика-копия эксперта работать не будет. Та же логика, что в knowledge distillation: переносим *что-то более фундаментальное*, чем веса студенту.

Проблема: IRL ill-posed. Бесконечно много reward'ов объясняют одно поведение. Тривиальный reward $r \equiv 0$ объясняет любую политику. Поэтому нужна регуляризация. Максимально энтропийный IRL (Ziebart 2008) выбирает reward, для которого политика эксперта - не просто оптимальная, но и *стохастическая*. Это совпадает с MaxEnt RL в SAC, и совпадение не случайно.

**Реальное применение - Tesla Autopilot:** миллиарды миль человеческого вождения - данные эксперта. Tesla не может задать explicit reward для 'хорошее вождение' (слишком сложно: безопасность, плавность, скорость, удобство пассажира одновременно). IRL/imitation восстанавливает policy, которая копирует распределение действий человека на встреченных состояниях.

Какая фундаментальная проблема Inverse RL?

GAIL: GAN, переодевшийся в RL

2016. Ho и Ermon смотрят на IRL и думают: зачем восстанавливать reward, если можно сразу обучать политику, которая порождает трэйджектории, неотличимые от эксперта? Так рождается GAIL - Generative Adversarial Imitation Learning. Идея украдена напрямую из GAN, опубликованного двумя годами раньше Гудфеллоу.

Архитектура зеркалит GAN. Policy (агент) - аналог Generator: производит трэйджектории. Discriminator смотрит на пары (state, action) и пытается определить - это от эксперта или от агента? Policy обновляется policy gradient'ом, где reward - $-\log(1 - D(s, a))$, то есть 'насколько хорошо обманул дискриминатор'. Discriminator обновляется по обычному BCE на real vs fake.

Под капотом GAIL решает MaxEnt IRL без явного восстановления reward'а. Discriminator неявно играет роль reward функции - он награждает агента за то, что его поведение похоже на экспертное. Та же логика, что в RLHF: reward model оценивает 'насколько ответ LLM похож на то, что предпочёл бы человек', и PPO катит policy в эту сторону.

**Sample efficiency проблема:** GAIL требует тысяч эпизодов в среде, поскольку policy gradient медленный. AIRL и DAC (Discriminator-Actor-Critic) добавляют off-policy learning через replay buffer - те же приёмы, что в SAC и TD3. На manipulation tasks (роботы с захватом) GAIL вырос в DAC в 10x более эффективный по сэмплам.

В чём связь GAIL с GAN?

Behavioral Cloning: supervised learning притворяется RL

Самый старый и самый простой imitation: трактовать (state, action) пары эксперта как supervised dataset. Обучить нейросеть $\pi(a | s)$ предсказывать action эксперта на каждом state. Cross-entropy loss, никакого RL вообще. Pomerleau 1989 учил ALVINN - первый автономный автомобиль - именно так, на 30 минутах вождения с камерой и руля.

Проблема, которая убивает BC: covariate shift. Агент идёт по trajectory, делает крошечную ошибку, попадает в state, которого не было в датасете. Не знает, что делать. Ошибается сильнее. Через 100 шагов агент в state'е, который эксперт никогда не посещал. Compounding error - 'снежный ком'. На длинных trajectory BC деградирует катастрофически.

DAgger (Ross 2011) решает covariate shift через интерактивный сбор данных. Шаг 1: обучить policy на данных эксперта. Шаг 2: запустить policy в среде, собрать состояния, *запросить эксперта*, что он бы делал в этих состояниях. Шаг 3: дообучить policy. Цикл. Это превращает BC в online imitation. Та же логика, что в RLHF: модель катится в нежелательные регионы, человек размечает, модель учится не уходить туда.

**LLM-параллель:** SFT (Supervised Fine-Tuning) у LLM - это поведенческое клонирование в чистом виде. Модель учится предсказывать следующий токен на парах (контекст, токен) от высококачественных авторов. RLHF и DPO - попытка пойти дальше BC, выровнять модель на предпочтениях. То же отношение между BC и GAIL, что между SFT и RLHF.

Почему Behavioral Cloning плохо работает на длинных трэйджекториях?

Reward Shaping: подсказки для нетерпеливого агента

Sparse reward - типичная боль RL. Агент в лабиринте получает +1 только в финале, 0 везде иначе. На 1000 шагах вероятность случайно дойти до цели - нулевая. Без помощи агент учится годами. Reward shaping - дополнительная награда $F(s, s')$ за прогресс в правильную сторону. Andrew Ng 1999: 'shaping должен быть potential-based, иначе ломает оптимальность'.

Potential-based shaping: $F(s, s') = \gamma \Phi(s') - \Phi(s)$, где $\Phi$ - потенциальная функция (например, минус расстояние до цели). Это даёт ключевую гарантию: оптимальная политика на shaped reward совпадает с оптимальной на оригинальном. Никакого bias. Имитирует то же, что в lighting estimation у NeRF: regularize не за то, что хочется получить, а за гладкость относительно ground truth.

В современном AI - RLHF. Reward model заменяет хардкоженный sparse reward на dense сигнал от обучаемого классификатора предпочтений. PPO в RLHF делает шаги по этому dense reward, плюс KL-штраф против reference модели - чтобы не уйти из распределения SFT. Это формально не potential-based, но философия та же: dense signal с гарантиями ограниченного отклонения.

**Reward hacking - оборотная сторона:** агент находит способ собирать награду, не делая того, что мы имели в виду. Классический пример - boat racing в OpenAI 2016: агент ездил по кругу и собирал bonus points, не финишируя. RLHF это знает: 'reward model выучила корреляты, не саму желаемую цель'. Поэтому KL-штраф - не косметика, а защита.

Imitation learning - это просто supervised learning на трэйджекториях эксперта

BC - да, supervised. Но GAIL, AIRL и RLHF - это RL поверх learned reward, и сходимость, обобщение, robustness здесь подчиняются совсем другим законам

Если бы было достаточно supervised, не появились бы DAgger, GAIL, RLHF. Каждый из них решает проблему, которую чистое supervised не может: covariate shift, длинные горизонты, отсутствие dense signal. Imitation - это семейство методов, varying from supervised (BC) до полноценного RL (GAIL, RLHF) - в зависимости от того, насколько сильно distribution shift, насколько длинны горизонты, и есть ли возможность интерактивного запроса эксперта

Чем potential-based reward shaping отличается от обычного добавления бонусов?

Связанные темы

Куда imitation learning ведёт дальше:

GAN — GAIL заимствует minimax-игру прямо из GAN - идея в state-action пространстве
Policy Gradient методы — Под капотом GAIL и AIRL - PPO/TRPO, обновляющие policy через градиент advantage
Автономные агенты — RLHF в LLM-агентах - imitation learning, гибридизированное с обучением на предпочтениях
Bayesian inference — MaxEnt IRL формально - posterior над reward функциями при заданных трэйджекториях

Ключевые идеи

IRL восстанавливает reward из поведения эксперта - переносим в новые среды, в отличие от копии политики
GAIL - это GAN в пространстве (state, action), policy против discriminator, без явного reward
BC - простейшая форма imitation, supervised на парах эксперта, страдает от covariate shift
Reward shaping ускоряет обучение через dense signal - potential-based вариант сохраняет оптимальность
RLHF в современных LLM - наследник imitation learning, gibrid SFT (= BC) и RL поверх learned reward

Вопросы для размышления

В каких случаях GAIL лучше BC, и наоборот - когда BC достаточно?
Как реально измерить, что обученная reward function 'правильная' - какие метрики?
Что общего между covariate shift в BC и галлюцинациями LLM - и как imitation methods это решают?

Связанные уроки

rl-01 — Базовый агент-среда фреймворк - без него imitation не имеет контекста
rl-04 — MDP и Bellman нужны для понимания, что значит 'оптимизировать reward'
rl-07 — Policy gradient методы - база для GAIL и AIRL
dl-14 — GAIL заимствует minimax-игру прямо из GAN: agent vs discriminator
prob-04-bayes — MaxEnt IRL восстанавливает reward как posterior над политиками эксперта
aie-47-autonomous-agents — RLHF и DPO в современных LLM - прямые потомки imitation learning
prob-01-intro