Обучение с подкреплением

RLHF: RL для выравнивания AI

Предварительные знания

  • PPO: clipped policy-gradient objective и value-baseline, используемые в RLHF
  • Reward shaping и выравнивание: reward hacking, закон Гудхарта, specification gaming
  • Большие языковые модели и авторегрессивная генерация токенов как последовательность действий
  • KL-дивергенция как мера отклонения одного распределения от другого
  • Proximal Policy Optimization
  • Reward shaping и выравнивание
  • Inverse RL и imitation learning

От обучения на человеческих предпочтениях к ChatGPT

RLHF начинался как идея безопасности, а не как рецепт чат-бота. В 2017 году Paul Christiano с соавторами в OpenAI и DeepMind опубликовали Deep Reinforcement Learning from Human Preferences, показав, что агент может выучить сложное поведение, например сальто назад в симуляторе, из человеческих сравнений коротких клипов, а не из заданной вручную награды. В 2022 году Long Ouyang с коллегами применили тот же рецепт к языку в InstructGPT: собрать данные человеческих предпочтений, обучить reward model, а затем дообучить модель через PPO под KL-штрафом. Этот пайплайн вышел к публике 30 ноября 2022 года под именем ChatGPT, превратив сырой предсказатель текста в полезного ассистента и сделав RLHF стандартной техникой alignment за современными чат-моделями.

GPT-3 знал всё - историю, науку, код - но мог написать инструкцию по созданию оружия с той же готовностью, что и рецепт пирога. RLHF - это техника, которая превратила мощный, но непредсказуемый языковой двигатель в ChatGPT: полезный, относительно безопасный и согласованный с человеческими ценностями. Именно RLHF стал ключевым прорывом 2022 года.

  • **ChatGPT / InstructGPT (OpenAI, 2022)**: обучен на ~50K human preference парах. Сделал GPT-3.5 предпочтительнее GPT-3 175B для пользователей при меньшем числе параметров.
  • **Claude (Anthropic)**: использует Constitutional AI - hybrid RLHF/RLAIF с конституцией из принципов. Специально разработан для harmlessness и honesty.
  • **Gemini / PaLM 2 (Google DeepMind)**: используют RLHF с reward model, обученной на предпочтениях тысяч специально нанятых оценщиков с разными языковыми и культурными фонами.

Reward Model из человеческих предпочтений

Задача выравнивания LLM: модель умеет предсказывать следующий токен, но это не значит, что она даёт полезные ответы. Нужен сигнал «насколько хорош ответ». Прямое написание reward функции невозможно - нельзя формализовать «быть полезным и безопасным».

**Reward Model (RM)** обучается на человеческих сравнениях: разметчики видят два ответа модели на один вопрос и указывают лучший. RM учится скалярной оценке качества через Bradley-Terry модель попарных предпочтений: `P(y1 > y2) = σ(RM(y1) - RM(y2))`.

OpenAI в InstructGPT (2022) показал, что RM из 50K human comparisons + PPO даёт модель, которую люди предпочитают исходному GPT-3 (175B параметров) несмотря на то, что обученная модель меньше. Alignment важнее размера.

На каких данных обучается Reward Model в RLHF?

PPO в контексте RLHF

После обучения RM следует фаза RL: языковая модель (Policy) генерирует ответы, RM оценивает их, PPO обновляет политику. Но без ограничений политика быстро деградирует - она начинает «обманывать» RM: находить ответы, получающие высокий скор, но бессмысленные для людей (reward hacking).

Решение: KL-дивергенция между обучаемой политикой π и исходной SFT-политикой π₀ добавляется в reward как штраф: `r_total = RM(y) - β * KL(π || π₀)`. Коэффициент β=0.02...0.1 контролирует насколько далеко разрешено отходить от SFT.

Вычислительная стоимость RLHF: во время PPO в GPU памяти должны помещаться 4 модели одновременно - Policy, Reference Policy, Reward Model, Value Model (critic). Для 70B модели это ~280GB GPU памяти.

Зачем в RLHF добавляют KL-штраф `β * KL(π || π₀)` к reward?

Direct Preference Optimization (DPO)

RLHF с PPO сложен: нужно обучить RM, запускать 4 модели одновременно, тюнить KL-коэффициент. В 2023 году Stanford предложил **DPO** - математически эквивалентный подход без явного RL-цикла.

Ключевое наблюдение: оптимальная политика RLHF выражается аналитически через ref-политику и reward. Подставив это в функцию потерь preference model, получаем прямую loss функцию на парах (chosen, rejected) без RM: `L_DPO = -log σ(β * log(π(y_w)/π₀(y_w)) - β * log(π(y_l)/π₀(y_l)))`.

DPO на практике 2-3x дешевле RLHF: нет RM инференса, нет PPO rollouts. Большинство open-source моделей 2024 года (Mistral, Llama-3 instruct) используют DPO или его вариации (IPO, SimPO) вместо PPO.

Что DPO делает иначе по сравнению с классическим RLHF?

Constitutional AI и RLAIF

Anthropic предложила **Constitutional AI (CAI)**: вместо человеческих оценщиков используется сам AI. Модель генерирует ответ, затем критикует его по списку принципов (конституция: «не нарушай приватность», «не давай опасных советов»), затем улучшает. Это итерируется.

Второй этап CAI - **RLAIF**: AI (обычно Claude) оценивает пары ответов, как человек в RLHF. Обученная на AI-предпочтениях RM используется для PPO или DPO. Масштаб: Anthropic сгенерировал сотни тысяч AI-предпочтений вместо дорогой human разметки.

Исследование Anthropic (2022) показало: CAI модели более harmless чем RLHF модели при сопоставимом уровне helpfulness. При этом Constitutional AI масштабируется линейно с вычислениями без увеличения стоимости разметки.

RLHF сделал ChatGPT умнее GPT-3 - обучение с подкреплением добавило новые знания

RLHF не добавляет знания - они формируются на pre-training этапе. RLHF только выравнивает поведение модели с предпочтениями людей: делает модель более полезной, безопасной и честной

InstructGPT (175B, RLHF) предпочтительнее GPT-3 (175B, без RLHF) для людей, несмотря на одинаковый размер. Alignment сигнал меняет как отвечать, а не что знать.

Чем RLAIF (AI Feedback) отличается от RLHF (Human Feedback)?

Ключевые идеи

  • **Reward Model** обучается на попарных человеческих предпочтениях и превращает субъективное «лучше/хуже» в скалярный сигнал для RL.
  • **PPO + KL-penalty**: PPO обновляет LLM-политику, KL-штраф удерживает её близко к SFT-базе и предотвращает reward hacking.
  • **DPO** математически эквивалентен RLHF, но обучает напрямую на парах предпочтений без RM и RL-цикла - 2-3x дешевле и проще.
  • **Constitutional AI / RLAIF**: AI-модель заменяет людей-оценщиков, масштабируя производство preference data без линейного роста стоимости разметки.

Связанные темы

RLHF стоит на стыке deep learning и классического RL:

  • PPO (Proximal Policy Optimization) — PPO - основной алгоритм оптимизации в классическом RLHF pipeline; clip ratio и KL-penalty обеспечивают стабильность обновлений
  • Policy Gradient: REINFORCE — RLHF использует Policy Gradient для обновления LLM-политики; DPO - это аналитическое решение задачи Policy Gradient с KL-ограничением

Вопросы для размышления

  • Reward hacking - политика обманывает reward model. Какие конкретные примеры reward hacking наблюдались при обучении LLM через RLHF?
  • DPO не требует явного RL, но делает ли это его математически эквивалентным RLHF или между ними есть тонкие различия в оптимизируемом объекте?
  • Constitutional AI задаёт принципы явно. Как выбрать «конституцию»? Кто решает, какие принципы правильные - и не является ли это проблемой alignment само по себе?

Связанные уроки

  • rl-10 — PPO - оптимизатор в pipeline RLHF
  • rl-14 — Reward modeling развивает идеи inverse RL
  • rl-20-safety — Переоптимизация RLHF и ловушки reward hacking
  • ml-37-bert-gpt — LLM - это политика, которую дообучают
  • stat-38-logistic-regression — Reward model Брэдли-Терри похож на логистическую подгонку предпочтений
  • ml-01-intro
RLHF: RL для выравнивания AI

0

1

Войти