Обработка естественного языка

RLHF и Alignment

GPT-3 без RLHF мог генерировать дезинформацию с уверенным тоном, помогать с опасными запросами и просто продолжать нежелательные паттерны из обучающих данных. Между сырым GPT-3 и ChatGPT - тысячи часов человеческой разметки, reward model и месяцы PPO. Это и есть alignment.

**ChatGPT** - первый продукт OpenAI, где RLHF стал очевиден пользователям: модель отвечает полезно и отказывает при вредных запросах
**Claude** (Anthropic) - trained with Constitutional AI: меньше человеческой разметки, больше самокритики модели по набору принципов
**Llama-3-Instruct** - open-source пример DPO: Meta публикует как preference данные, так и веса - изучать прозрачно

Предварительные знания

Что такое pretrained LLM и зачем нужен instruction tuning
Базовая идея reinforcement learning: policy, reward, оптимизация
Почему next-token prediction не оптимизирует полезность и безвредность

Large Language Models

От обучения на предпочтениях к InstructGPT

2017 год. Paul Christiano с соавторами из OpenAI и DeepMind публикуют "Deep Reinforcement Learning from Human Preferences". Идея: вместо ручного задания reward-функции показывать человеку пары поведений агента и спрашивать, какое лучше; на этих сравнениях обучается reward model. Метод сработал на симуляциях и играх Atari. Пять лет спустя, в 2022, Long Ouyang и команда OpenAI применили ту же схему к языковым моделям в работе InstructGPT - и модель на 1.3B параметров с RLHF понравилась людям больше, чем сырой GPT-3 на 175B. В том же 2022 Anthropic предложила Constitutional AI, заменяя часть человеческой разметки самокритикой модели по набору принципов. В 2023 Rafailov с соавторами вывели DPO, показав, что reward model и PPO можно свернуть в один supervised loss.

Reward Model: научить модель оценивать качество

Нельзя напрямую сказать LLM "будь полезным". Нет дифференцируемой функции, которая измеряет полезность. Reward model - это обходной путь: отдельная нейросеть, обученная предсказывать, какой из двух ответов человек предпочтёт.

Сбор данных для reward model: тысячи пар (ответ A, ответ B), где люди-оценщики выбирают лучший. Затем Bradley-Terry модель обучается предсказывать эти предпочтения. Итог - скалярная функция reward(prompt, response), где высокое значение = хороший ответ по мнению людей.

Качество reward model - узкое место всего RLHF. Если аннотаторы ненадёжны или имеют bias, reward model усиливает этот bias. InstructGPT использовал ~40 аннотаторов с тщательным отбором. Anthropic экспериментировал с Constitutional AI, чтобы снизить зависимость от человеческой разметки.

Зачем нужна отдельная reward model, а не прямая оптимизация LLM под предпочтения людей?

PPO в RLHF: оптимизация политики с ограничениями

LLM как policy в RL: состояние = prompt + сгенерированный контекст, действие = следующий токен, reward = оценка reward model после завершения ответа. PPO (Proximal Policy Optimization) обновляет веса LLM, максимизируя ожидаемый reward.

Главная проблема наивного RL здесь: без ограничений модель быстро находит reward hacking - генерирует ответы с высоким reward от reward model, но бессмысленные для людей. Классический пример: повторение одного слова, которое почему-то нравится reward model.

PPO в RLHF требует одновременно держать 4 модели в памяти: actor (текущий LLM), reference (замороженный исходный LLM для KL), reward model, critic (value function). Для 70B модели это >1TB VRAM. Именно поэтому DPO набирает популярность как более эффективная альтернатива.

Зачем в RLHF добавляется KL-дивергенция как штраф?

DPO: alignment без reward model

Direct Preference Optimization (Rafailov et al., 2023) - алгебраический трюк, который убирает reward model и PPO из pipeline целиком. Наблюдение: оптимальная политика под RLHF objective имеет замкнутую форму. Можно обучать LLM напрямую под preference data.

DPO переформулирует задачу в supervised loss. На входе: пары (chosen, rejected) для каждого prompt. Loss увеличивает вероятность chosen и уменьшает вероятность rejected относительно исходной модели. Никакого RL, никаких value functions, никакого сэмплинга во время обучения.

DPO на практике: Llama-3-Instruct, Mistral-Instruct, Phi-3 - большинство современных open-source моделей используют DPO вместо PPO. Требует в 2 раза меньше памяти (2 модели вместо 4), обучается стабильнее. Но есть нюанс: DPO чувствительнее к качеству preference данных.

В чём ключевое преимущество DPO перед RLHF с PPO?

Constitutional AI: alignment через принципы

Constitutional AI (Anthropic, 2022) - альтернативный подход: вместо пар предпочтений от людей модель обучается следовать набору принципов ("конституции"). LLM сама генерирует critique своих ответов и revision на основе конституции.

Цикл CAI: модель генерирует ответ → критикует его согласно принципам → переписывает → цикл повторяется. Конституция Anthropic содержит принципы вроде "не помогай с вредоносными действиями" и "будь честным". Финальные пары revision/original используются как preference данные для RLHF.

CAI снижает зависимость от человеческих оценщиков: большую часть разметки делает сама сильная LLM. Это масштабируется лучше, чем RLHF. Claude (Anthropic) обучен с использованием CAI. Недостаток: 'конституция' сама требует тщательной разработки людьми - проблема сдвигается, а не исчезает.

RLHF и DPO решают проблему alignment полностью

RLHF/DPO уменьшают harmful outputs, но не устраняют проблему alignment - модели по-прежнему могут давать уверенно неверные ответы

Alignment - многомерная проблема: harmlessness, honesty, helpfulness могут конфликтовать. Текущие методы оптимизируют прокси-метрики (human approval), а не истинные цели. Goodhart's Law неизбежен

Что является 'конституцией' в Constitutional AI?

Связанные темы

RLHF/DPO соединяют NLP и reinforcement learning через общие алгоритмы:

Large Language Models — LLM - объект alignment, здесь разбираются техники
PPO: Proximal Policy Optimization — Алгоритм оптимизации в RLHF
RLHF: RL для выравнивания AI — Детальный разбор RLHF в контексте RL

Ключевые идеи

**Reward model** обучается предсказывать предпочтения людей между ответами; это преобразует subjective feedback в дифференцируемый сигнал
**PPO** обновляет LLM для максимизации reward с KL-штрафом против исходной модели - без штрафа reward hacking неизбежен
**DPO** убирает reward model и RL, напрямую обучая LLM под preference пары - проще, стабильнее, требует меньше памяти
**Constitutional AI** делегирует critique самой модели через набор принципов, снижая зависимость от людей-аннотаторов

Вопросы для размышления

Может ли reward model стать лучшим оценщиком качества текста, чем люди? Когда это полезно, когда опасно?
Почему DPO чувствительнее к качеству preference данных, чем PPO с reward model?
Если модель обучена быть helpful и harmless одновременно, что происходит когда эти цели конфликтуют?

Связанные уроки

nlp-15 — LLM и scaling laws - фундамент для понимания зачем нужен alignment
rl-05 — PPO из RL используется напрямую в RLHF pipeline
rl-10 — PPO детально - алгоритм оптимизации в RLHF
nlp-17 — RAG строится на aligned моделях, не на raw pretrained
rl-17 — RLHF для выравнивания AI - отдельный урок с деталями
stat-05-hypothesis