Обучение с подкреплением

RLHF: RL для выравнивания AI

Предварительные знания

PPO: clipped policy-gradient objective и value-baseline, используемые в RLHF
Reward shaping и выравнивание: reward hacking, закон Гудхарта, specification gaming
Большие языковые модели и авторегрессивная генерация токенов как последовательность действий
KL-дивергенция как мера отклонения одного распределения от другого

От обучения на человеческих предпочтениях к ChatGPT

RLHF начинался как идея безопасности, а не как рецепт чат-бота. В 2017 году Paul Christiano с соавторами в OpenAI и DeepMind опубликовали Deep Reinforcement Learning from Human Preferences, показав, что агент может выучить сложное поведение, например сальто назад в симуляторе, из человеческих сравнений коротких клипов, а не из заданной вручную награды. В 2022 году Long Ouyang с коллегами применили тот же рецепт к языку в InstructGPT: собрать данные человеческих предпочтений, обучить reward model, а затем дообучить модель через PPO под KL-штрафом. Этот пайплайн вышел к публике 30 ноября 2022 года под именем ChatGPT, превратив сырой предсказатель текста в полезного ассистента и сделав RLHF стандартной техникой alignment за современными чат-моделями.

GPT-3 знал всё - историю, науку, код - но мог написать инструкцию по созданию оружия с той же готовностью, что и рецепт пирога. RLHF - это техника, которая превратила мощный, но непредсказуемый языковой двигатель в ChatGPT: полезный, относительно безопасный и согласованный с человеческими ценностями. Именно RLHF стал ключевым прорывом 2022 года.

**ChatGPT / InstructGPT (OpenAI, 2022)**: обучен на ~50K human preference парах. Сделал GPT-3.5 предпочтительнее GPT-3 175B для пользователей при меньшем числе параметров.
**Claude (Anthropic)**: использует Constitutional AI - hybrid RLHF/RLAIF с конституцией из принципов. Специально разработан для harmlessness и honesty.
**Gemini / PaLM 2 (Google DeepMind)**: используют RLHF с reward model, обученной на предпочтениях тысяч специально нанятых оценщиков с разными языковыми и культурными фонами.

Reward Model из человеческих предпочтений

Задача выравнивания LLM: модель умеет предсказывать следующий токен, но это не значит, что она даёт полезные ответы. Нужен сигнал «насколько хорош ответ». Прямое написание reward функции невозможно - нельзя формализовать «быть полезным и безопасным».

**Reward Model (RM)** обучается на человеческих сравнениях: разметчики видят два ответа модели на один вопрос и указывают лучший. RM учится скалярной оценке качества через Bradley-Terry модель попарных предпочтений: `P(y1 > y2) = σ(RM(y1) - RM(y2))`.

OpenAI в InstructGPT (2022) показал, что RM из 50K human comparisons + PPO даёт модель, которую люди предпочитают исходному GPT-3 (175B параметров) несмотря на то, что обученная модель меньше. Alignment важнее размера.

На каких данных обучается Reward Model в RLHF?

PPO в контексте RLHF

После обучения RM следует фаза RL: языковая модель (Policy) генерирует ответы, RM оценивает их, PPO обновляет политику. Но без ограничений политика быстро деградирует - она начинает «обманывать» RM: находить ответы, получающие высокий скор, но бессмысленные для людей (reward hacking).

Решение: KL-дивергенция между обучаемой политикой π и исходной SFT-политикой π₀ добавляется в reward как штраф: `r_total = RM(y) - β * KL(π || π₀)`. Коэффициент β=0.02...0.1 контролирует насколько далеко разрешено отходить от SFT.

Вычислительная стоимость RLHF: во время PPO в GPU памяти должны помещаться 4 модели одновременно - Policy, Reference Policy, Reward Model, Value Model (critic). Для 70B модели это ~280GB GPU памяти.

Зачем в RLHF добавляют KL-штраф `β * KL(π || π₀)` к reward?

Direct Preference Optimization (DPO)

RLHF с PPO сложен: нужно обучить RM, запускать 4 модели одновременно, тюнить KL-коэффициент. В 2023 году Stanford предложил **DPO** - математически эквивалентный подход без явного RL-цикла.

Ключевое наблюдение: оптимальная политика RLHF выражается аналитически через ref-политику и reward. Подставив это в функцию потерь preference model, получаем прямую loss функцию на парах (chosen, rejected) без RM: `L_DPO = -log σ(β * log(π(y_w)/π₀(y_w)) - β * log(π(y_l)/π₀(y_l)))`.

DPO на практике 2-3x дешевле RLHF: нет RM инференса, нет PPO rollouts. Большинство open-source моделей 2024 года (Mistral, Llama-3 instruct) используют DPO или его вариации (IPO, SimPO) вместо PPO.

Что DPO делает иначе по сравнению с классическим RLHF?

Constitutional AI и RLAIF

Anthropic предложила **Constitutional AI (CAI)**: вместо человеческих оценщиков используется сам AI. Модель генерирует ответ, затем критикует его по списку принципов (конституция: «не нарушай приватность», «не давай опасных советов»), затем улучшает. Это итерируется.

Второй этап CAI - **RLAIF**: AI (обычно Claude) оценивает пары ответов, как человек в RLHF. Обученная на AI-предпочтениях RM используется для PPO или DPO. Масштаб: Anthropic сгенерировал сотни тысяч AI-предпочтений вместо дорогой human разметки.

Исследование Anthropic (2022) показало: CAI модели более harmless чем RLHF модели при сопоставимом уровне helpfulness. При этом Constitutional AI масштабируется линейно с вычислениями без увеличения стоимости разметки.

RLHF сделал ChatGPT умнее GPT-3 - обучение с подкреплением добавило новые знания

RLHF не добавляет знания - они формируются на pre-training этапе. RLHF только выравнивает поведение модели с предпочтениями людей: делает модель более полезной, безопасной и честной

InstructGPT (175B, RLHF) предпочтительнее GPT-3 (175B, без RLHF) для людей, несмотря на одинаковый размер. Alignment сигнал меняет как отвечать, а не что знать.

Чем RLAIF (AI Feedback) отличается от RLHF (Human Feedback)?

Ключевые идеи

**Reward Model** обучается на попарных человеческих предпочтениях и превращает субъективное «лучше/хуже» в скалярный сигнал для RL.
**PPO + KL-penalty**: PPO обновляет LLM-политику, KL-штраф удерживает её близко к SFT-базе и предотвращает reward hacking.
**DPO** математически эквивалентен RLHF, но обучает напрямую на парах предпочтений без RM и RL-цикла - 2-3x дешевле и проще.
**Constitutional AI / RLAIF**: AI-модель заменяет людей-оценщиков, масштабируя производство preference data без линейного роста стоимости разметки.

Связанные темы

RLHF стоит на стыке deep learning и классического RL:

PPO (Proximal Policy Optimization) — PPO - основной алгоритм оптимизации в классическом RLHF pipeline; clip ratio и KL-penalty обеспечивают стабильность обновлений
Policy Gradient: REINFORCE — RLHF использует Policy Gradient для обновления LLM-политики; DPO - это аналитическое решение задачи Policy Gradient с KL-ограничением

Вопросы для размышления

Reward hacking - политика обманывает reward model. Какие конкретные примеры reward hacking наблюдались при обучении LLM через RLHF?
DPO не требует явного RL, но делает ли это его математически эквивалентным RLHF или между ними есть тонкие различия в оптимизируемом объекте?
Constitutional AI задаёт принципы явно. Как выбрать «конституцию»? Кто решает, какие принципы правильные - и не является ли это проблемой alignment само по себе?

Связанные уроки

rl-10 — PPO - оптимизатор в pipeline RLHF
rl-14 — Reward modeling развивает идеи inverse RL
rl-20-safety — Переоптимизация RLHF и ловушки reward hacking
ml-37-bert-gpt — LLM - это политика, которую дообучают
stat-38-logistic-regression — Reward model Брэдли-Терри похож на логистическую подгонку предпочтений
ml-01-intro