AI-инжиниринг
Alignment: как модели становятся полезными - RLHF, DPO, Constitutional AI
Цели урока
- Понять фундаментальный разрыв между pretrained и aligned моделью
- Разобрать RLHF (InstructGPT 2022): SFT, Reward Model, PPO - зачем каждый шаг
- Понять DPO: почему он заменил RLHF в большинстве open-source моделей
- Узнать Constitutional AI и RLAIF - как Anthropic решила масштабирование alignment
Ноябрь 2022 - запуск ChatGPT. GPT-3.5 под капотом - но не raw GPT-3.5. InstructGPT: 1.3B параметров против 175B у GPT-3, при этом в 85% случаев людям нравился больше. Не потому что умнее - потому что aligned. За 18 месяцев между GPT-3 и ChatGPT произошло то же самое, что между молотком и хирургическим инструментом: не размер важен, а точность применения. Alignment - это и есть эта точность.
- InstructGPT (Ouyang et al., 2022) - первая публичная демонстрация RLHF в масштабе: 1.3B модель превзошла 175B GPT-3 по полезности
- DPO (Rafailov et al., 2023) - сейчас стандарт в open-source: Llama 3, Mistral, большинство моделей Hugging Face используют DPO или его вариации
- Constitutional AI (Anthropic, 2022) - лежит в основе Claude: поведение модели задаётся явными принципами, а не только human feedback
- RLAIF масштабирует alignment: вместо 1000 human annotators - AI-судья. Снижение стоимости в 100x при сопоставимом качестве
Предварительные знания
- Как работает LLM: pretraining, предсказание следующего токена, autoregressive генерация
- Базовое понимание fine-tuning: дообучение модели на дополнительных данных
- Знакомство с concept'ом loss function и градиентного спуска
От RL по человеческим предпочтениям до DPO: как сделали личность LLM
Корни alignment уходят в 2017 год: Christiano et al. (OpenAI и DeepMind) в работе Deep Reinforcement Learning from Human Preferences показали, что агента можно обучать на парных сравнениях человека вместо явной reward function, и обучили reward model на этих сравнениях. Эта идея пять лет спустя стала основой ChatGPT. В 2022 году Ouyang et al. (OpenAI) опубликовали InstructGPT: трёхшаговый RLHF (SFT, reward model, PPO), где модель на 1.3B параметров после alignment людям нравилась больше, чем 175B GPT-3. В том же 2022 году Anthropic представила Constitutional AI и RLAIF: вместо тысяч человеческих оценок модель критикует и переписывает свои ответы по набору принципов (конституции), а AI-модель выступает судьёй. В мае 2023 Rafailov et al. (Stanford) выпустили DPO (Direct Preference Optimization, arXiv 2305.18290, позже NeurIPS 2023): математически показали, что reward model в RLHF можно выразить в замкнутой форме и убрать PPO, заменив весь pipeline обычным classification loss. DPO оказался проще и стабильнее PPO и к 2024-2025 стал стандартом для open-source моделей (Llama 3, Mistral).
Pretraining vs Alignment: два разных процесса
GPT-3 в 2020 году умел одно: предсказывать следующий токен. Попросить его написать письмо - и он продолжал в стиле вопроса, вместо письма. Попросить решить задачу - он цитировал похожие задачи из интернета. Это не тупость модели: это точное выполнение задачи обучения. **Pretraining оптимизирует не полезность - а статистическую близость к корпусу.**
Alignment - отдельный процесс поверх pretraining. Его задача: переориентировать модель с «предсказывать текст» на «быть полезным ассистентом». Это фундаментальный сдвиг целевой функции, а не просто дополнительное обучение.
Разрыв между GPT-3 и InstructGPT - при том что InstructGPT **меньше** GPT-3 по параметрам - стал главным доказательством: в 2026 году alignment важнее размера. 1.3B-параметрная InstructGPT превосходила 175B GPT-3 в 85% human evaluations на следование инструкциям (Ouyang et al., 2022).
**Терминология:** «alignment» буквально означает выравнивание целей модели с целями людей. Misaligned модель - гибкий инструмент без направления. Aligned - тот же инструмент, обученный быть полезным конкретным образом.
Почему GPT-3 без alignment не следовал инструкциям, хотя и был мощной моделью?
RLHF: InstructGPT и как научить модель слушаться
Ouyang et al. (OpenAI, 2022) описали трёхшаговый процесс, превративший GPT в ChatGPT. Называется **RLHF** - Reinforcement Learning from Human Feedback. Каждый шаг решает конкретную проблему предыдущего.
Ключевой инсайт RLHF: **reward model - это компрессия human preferences**. Labeler не может оценить 100 000 ответов, но может ранжировать 50 000 пар. RM обобщает эти предпочтения в дифференцируемую функцию, которую PPO может оптимизировать. Поэтому 13K демонстраций хватило для выравнивания 175B-модели.
| Шаг | Данные | Цель | Результат |
|---|---|---|---|
| SFT | ~13K демонстраций | Формат ответа ассистента | SFT-модель |
| RM Training | ~33K comparisons | Предсказание human preference | Reward Model |
| PPO/RL | RM feedback | Максимизировать reward | InstructGPT |
**Проблема RLHF:** дорого и нестабильно. Нужны тысячи human comparisons. PPO - сложный алгоритм с нестабильным обучением. KL-дивергенция требует тонкой настройки. Именно это мотивировало поиск альтернатив, которые привели к DPO.
Зачем в RLHF нужна отдельная Reward Model, а не прямой human feedback?
DPO: RLHF без reward model - в 10 раз проще
Rafailov et al. (Stanford, 2023) показали: reward model в RLHF - промежуточный артефакт, от которого можно избавиться. **DPO (Direct Preference Optimization)** решает ту же задачу через обычный cross-entropy loss, напрямую на парах (выбранный/отвергнутый ответ). Никакого RL. Никакого PPO. Никакой отдельной модели.
Математическая интуиция: RLHF формулирует задачу как RL с reward model. DPO показывает, что оптимальная политика при reward model выражается в замкнутой форме через логарифм отношения вероятностей. Это позволяет подставить аналитическое решение напрямую в loss - и убрать reward model из цикла.
| Характеристика | RLHF | DPO |
|---|---|---|
| Reward model | Нужна (отдельная модель) | Не нужна |
| RL алгоритм | PPO (сложный) | Нет (cross-entropy) |
| Стабильность обучения | Нестабильный | Стабильный |
| Данные | Comparisons → RM → PPO | Пары (chosen, rejected) напрямую |
| Сложность реализации | Высокая | Низкая |
| Качество (практика) | Сопоставимо | Сопоставимо |
К 2024-2025 годам DPO стал стандартом. Mistral, Llama 3, большинство open-source моделей используют DPO или его вариации (IPO, KTO, ORPO). RLHF с PPO остался у лабораторий с ресурсами для нестабильного обучения - OpenAI, Anthropic в ранних версиях.
**Практически:** DPO требует датасет предпочтений - пар (prompt, chosen_response, rejected_response). Такие датасеты есть публично: Anthropic HH-RLHF, OpenAssistant, UltraFeedback. Для fine-tuning с alignment через Hugging Face TRL библиотека реализует DPOTrainer из коробки.
Главное преимущество DPO над RLHF для инженера, который хочет добавить alignment к своей модели:
Constitutional AI и RLAIF: модель сама себя выравнивает
Anthropic (2022) опубликовала Constitutional AI: подход, где вместо human feedback модель использует **конституцию** - набор принципов - для самооценки своих ответов. RLAIF (RL from AI Feedback) - обобщение этой идеи: использовать другую AI-модель как судью вместо людей.
Почему это важно для инженеров: Constitutional AI делает **критерии оценки явными и аудируемыми**. Обычный RLHF - чёрный ящик: неизвестно точно, что именно оценивают human labelers. Конституция - это код: её можно читать, изменять, версионировать, аудировать на соответствие регуляторным требованиям.
| Метод | Источник feedback | Масштаб | Прозрачность |
|---|---|---|---|
| RLHF | Human annotators | Дорого, медленно | Низкая (неявные предпочтения) |
| DPO | Human comparisons | Дешевле RM+PPO | Средняя (пары видны) |
| Constitutional AI | Конституция + AI critique | Масштабируется без людей | Высокая (принципы явные) |
| RLAIF | AI model как judge | Дёшево и быстро | Зависит от judge-модели |
**Claude как пример:** Claude 2 и последующие версии обучены с использованием Constitutional AI. Это означает, что поведение Claude отчасти детерминировано набором явных принципов - в отличие от моделей, где alignment полностью задан human preferences.
Какое главное инженерное преимущество Constitutional AI перед обычным RLHF?
Alignment - это просто дополнительное обучение на хороших данных
Alignment меняет целевую функцию: с предсказания токенов на максимизацию человеческих предпочтений. Это не косметика - это принципиально иная оптимизационная задача
Pretrained GPT без alignment уже знает всё что нужно знать. Проблема не в знаниях - в том, что модель не оптимизирует «быть полезным». RLHF/DPO меняют саму цель обучения через reward signal.
Большая модель = лучше aligned модель
InstructGPT 1.3B превзошла GPT-3 175B по следованию инструкциям. Alignment эффективнее масштабирования для задач ассистента
Размер модели определяет capability (знание, рассуждение). Alignment определяет behaviour (следование инструкциям, безвредность). Это ортогональные оси. Claude 3 Haiku aligned лучше многих misaligned больших open-source моделей.
Итоги
- Pretraining = предсказание токенов. Alignment = обучение быть полезным. Это разные задачи с разными данными и методами
- RLHF (2022): три шага - SFT → Reward Model → PPO. Reward model - компрессия human preferences в дифференцируемую функцию
- DPO (2023): убирает reward model и PPO, оптимизирует напрямую на парах (chosen/rejected). Стандарт для open-source 2024-2026
- Constitutional AI: принципы → AI-critique → self-revision. Критерии alignment становятся явными, аудируемыми, версионируемыми
- RLAIF: AI model как судья вместо людей. Масштабируется на порядки дешевле human labeling
Вопросы для размышления
- Если бы требовалось добавить alignment к кастомной модели под конкретный продукт - какой метод выбрать и почему: RLHF, DPO или Constitutional AI?
- Чем «конституция» как набор принципов лучше или хуже, чем implicit human preferences из RLHF для production-системы?
- Как alignment влияет на то, что модель отказывается делать? Это баг или фича - и кто должен контролировать эти границы?
Связанные темы
Alignment - основа для fine-tuning и advanced reasoning. Понимание методов помогает правильно выбирать и настраивать модели.
- Fine-tuning: LoRA, QLoRA, PEFT — DPO реализуется поверх fine-tuning инфраструктуры
- Reasoning модели — RLVR (Verifiable Rewards) - вариация RLHF для reasoning
- Guardrails и безопасность — Alignment задаёт baseline безопасности, guardrails добавляют application-level контроль
Связанные уроки
- aie-03-llm-fundamentals — Alignment начинается с внутренностей предобученной LLM
- aie-36-fine-tuning — RLHF и DPO - это fine-tuning на стадии alignment
- aie-33-guardrails — Constitutional AI зашивает guardrails в обучение
- aie-53-future-reasoning — RL на цепочках обучает reasoning-модели
- ml-50-policy-gradient — RLHF оптимизирует политику через градиенты награды