Обучение с подкреплением
RLHF: RL для выравнивания AI
Предварительные знания
- PPO: clipped policy-gradient objective и value-baseline, используемые в RLHF
- Reward shaping и выравнивание: reward hacking, закон Гудхарта, specification gaming
- Большие языковые модели и авторегрессивная генерация токенов как последовательность действий
- KL-дивергенция как мера отклонения одного распределения от другого
От обучения на человеческих предпочтениях к ChatGPT
RLHF начинался как идея безопасности, а не как рецепт чат-бота. В 2017 году Paul Christiano с соавторами в OpenAI и DeepMind опубликовали Deep Reinforcement Learning from Human Preferences, показав, что агент может выучить сложное поведение, например сальто назад в симуляторе, из человеческих сравнений коротких клипов, а не из заданной вручную награды. В 2022 году Long Ouyang с коллегами применили тот же рецепт к языку в InstructGPT: собрать данные человеческих предпочтений, обучить reward model, а затем дообучить модель через PPO под KL-штрафом. Этот пайплайн вышел к публике 30 ноября 2022 года под именем ChatGPT, превратив сырой предсказатель текста в полезного ассистента и сделав RLHF стандартной техникой alignment за современными чат-моделями.
GPT-3 знал всё - историю, науку, код - но мог написать инструкцию по созданию оружия с той же готовностью, что и рецепт пирога. RLHF - это техника, которая превратила мощный, но непредсказуемый языковой двигатель в ChatGPT: полезный, относительно безопасный и согласованный с человеческими ценностями. Именно RLHF стал ключевым прорывом 2022 года.
- **ChatGPT / InstructGPT (OpenAI, 2022)**: обучен на ~50K human preference парах. Сделал GPT-3.5 предпочтительнее GPT-3 175B для пользователей при меньшем числе параметров.
- **Claude (Anthropic)**: использует Constitutional AI - hybrid RLHF/RLAIF с конституцией из принципов. Специально разработан для harmlessness и honesty.
- **Gemini / PaLM 2 (Google DeepMind)**: используют RLHF с reward model, обученной на предпочтениях тысяч специально нанятых оценщиков с разными языковыми и культурными фонами.
Reward Model из человеческих предпочтений
Задача выравнивания LLM: модель умеет предсказывать следующий токен, но это не значит, что она даёт полезные ответы. Нужен сигнал «насколько хорош ответ». Прямое написание reward функции невозможно - нельзя формализовать «быть полезным и безопасным».
**Reward Model (RM)** обучается на человеческих сравнениях: разметчики видят два ответа модели на один вопрос и указывают лучший. RM учится скалярной оценке качества через Bradley-Terry модель попарных предпочтений: `P(y1 > y2) = σ(RM(y1) - RM(y2))`.
OpenAI в InstructGPT (2022) показал, что RM из 50K human comparisons + PPO даёт модель, которую люди предпочитают исходному GPT-3 (175B параметров) несмотря на то, что обученная модель меньше. Alignment важнее размера.
На каких данных обучается Reward Model в RLHF?
PPO в контексте RLHF
После обучения RM следует фаза RL: языковая модель (Policy) генерирует ответы, RM оценивает их, PPO обновляет политику. Но без ограничений политика быстро деградирует - она начинает «обманывать» RM: находить ответы, получающие высокий скор, но бессмысленные для людей (reward hacking).
Решение: KL-дивергенция между обучаемой политикой π и исходной SFT-политикой π₀ добавляется в reward как штраф: `r_total = RM(y) - β * KL(π || π₀)`. Коэффициент β=0.02...0.1 контролирует насколько далеко разрешено отходить от SFT.
Вычислительная стоимость RLHF: во время PPO в GPU памяти должны помещаться 4 модели одновременно - Policy, Reference Policy, Reward Model, Value Model (critic). Для 70B модели это ~280GB GPU памяти.
Зачем в RLHF добавляют KL-штраф `β * KL(π || π₀)` к reward?
Direct Preference Optimization (DPO)
RLHF с PPO сложен: нужно обучить RM, запускать 4 модели одновременно, тюнить KL-коэффициент. В 2023 году Stanford предложил **DPO** - математически эквивалентный подход без явного RL-цикла.
Ключевое наблюдение: оптимальная политика RLHF выражается аналитически через ref-политику и reward. Подставив это в функцию потерь preference model, получаем прямую loss функцию на парах (chosen, rejected) без RM: `L_DPO = -log σ(β * log(π(y_w)/π₀(y_w)) - β * log(π(y_l)/π₀(y_l)))`.
DPO на практике 2-3x дешевле RLHF: нет RM инференса, нет PPO rollouts. Большинство open-source моделей 2024 года (Mistral, Llama-3 instruct) используют DPO или его вариации (IPO, SimPO) вместо PPO.
Что DPO делает иначе по сравнению с классическим RLHF?
Constitutional AI и RLAIF
Anthropic предложила **Constitutional AI (CAI)**: вместо человеческих оценщиков используется сам AI. Модель генерирует ответ, затем критикует его по списку принципов (конституция: «не нарушай приватность», «не давай опасных советов»), затем улучшает. Это итерируется.
Второй этап CAI - **RLAIF**: AI (обычно Claude) оценивает пары ответов, как человек в RLHF. Обученная на AI-предпочтениях RM используется для PPO или DPO. Масштаб: Anthropic сгенерировал сотни тысяч AI-предпочтений вместо дорогой human разметки.
Исследование Anthropic (2022) показало: CAI модели более harmless чем RLHF модели при сопоставимом уровне helpfulness. При этом Constitutional AI масштабируется линейно с вычислениями без увеличения стоимости разметки.
RLHF сделал ChatGPT умнее GPT-3 - обучение с подкреплением добавило новые знания
RLHF не добавляет знания - они формируются на pre-training этапе. RLHF только выравнивает поведение модели с предпочтениями людей: делает модель более полезной, безопасной и честной
InstructGPT (175B, RLHF) предпочтительнее GPT-3 (175B, без RLHF) для людей, несмотря на одинаковый размер. Alignment сигнал меняет как отвечать, а не что знать.
Чем RLAIF (AI Feedback) отличается от RLHF (Human Feedback)?
Ключевые идеи
- **Reward Model** обучается на попарных человеческих предпочтениях и превращает субъективное «лучше/хуже» в скалярный сигнал для RL.
- **PPO + KL-penalty**: PPO обновляет LLM-политику, KL-штраф удерживает её близко к SFT-базе и предотвращает reward hacking.
- **DPO** математически эквивалентен RLHF, но обучает напрямую на парах предпочтений без RM и RL-цикла - 2-3x дешевле и проще.
- **Constitutional AI / RLAIF**: AI-модель заменяет людей-оценщиков, масштабируя производство preference data без линейного роста стоимости разметки.
Связанные темы
RLHF стоит на стыке deep learning и классического RL:
- PPO (Proximal Policy Optimization) — PPO - основной алгоритм оптимизации в классическом RLHF pipeline; clip ratio и KL-penalty обеспечивают стабильность обновлений
- Policy Gradient: REINFORCE — RLHF использует Policy Gradient для обновления LLM-политики; DPO - это аналитическое решение задачи Policy Gradient с KL-ограничением
Вопросы для размышления
- Reward hacking - политика обманывает reward model. Какие конкретные примеры reward hacking наблюдались при обучении LLM через RLHF?
- DPO не требует явного RL, но делает ли это его математически эквивалентным RLHF или между ними есть тонкие различия в оптимизируемом объекте?
- Constitutional AI задаёт принципы явно. Как выбрать «конституцию»? Кто решает, какие принципы правильные - и не является ли это проблемой alignment само по себе?
Связанные уроки
- rl-10 — PPO - оптимизатор в pipeline RLHF
- rl-14 — Reward modeling развивает идеи inverse RL
- rl-20-safety — Переоптимизация RLHF и ловушки reward hacking
- ml-37-bert-gpt — LLM - это политика, которую дообучают
- stat-38-logistic-regression — Reward model Брэдли-Терри похож на логистическую подгонку предпочтений
- ml-01-intro