AI-инжиниринг

Alignment: как модели становятся полезными - RLHF, DPO, Constitutional AI

Цели урока

Понять фундаментальный разрыв между pretrained и aligned моделью
Разобрать RLHF (InstructGPT 2022): SFT, Reward Model, PPO - зачем каждый шаг
Понять DPO: почему он заменил RLHF в большинстве open-source моделей
Узнать Constitutional AI и RLAIF - как Anthropic решила масштабирование alignment

Ноябрь 2022 - запуск ChatGPT. GPT-3.5 под капотом - но не raw GPT-3.5. InstructGPT: 1.3B параметров против 175B у GPT-3, при этом в 85% случаев людям нравился больше. Не потому что умнее - потому что aligned. За 18 месяцев между GPT-3 и ChatGPT произошло то же самое, что между молотком и хирургическим инструментом: не размер важен, а точность применения. Alignment - это и есть эта точность.

InstructGPT (Ouyang et al., 2022) - первая публичная демонстрация RLHF в масштабе: 1.3B модель превзошла 175B GPT-3 по полезности
DPO (Rafailov et al., 2023) - сейчас стандарт в open-source: Llama 3, Mistral, большинство моделей Hugging Face используют DPO или его вариации
Constitutional AI (Anthropic, 2022) - лежит в основе Claude: поведение модели задаётся явными принципами, а не только human feedback
RLAIF масштабирует alignment: вместо 1000 human annotators - AI-судья. Снижение стоимости в 100x при сопоставимом качестве

Предварительные знания

Как работает LLM: pretraining, предсказание следующего токена, autoregressive генерация
Базовое понимание fine-tuning: дообучение модели на дополнительных данных
Знакомство с concept'ом loss function и градиентного спуска

От RL по человеческим предпочтениям до DPO: как сделали личность LLM

Корни alignment уходят в 2017 год: Christiano et al. (OpenAI и DeepMind) в работе Deep Reinforcement Learning from Human Preferences показали, что агента можно обучать на парных сравнениях человека вместо явной reward function, и обучили reward model на этих сравнениях. Эта идея пять лет спустя стала основой ChatGPT. В 2022 году Ouyang et al. (OpenAI) опубликовали InstructGPT: трёхшаговый RLHF (SFT, reward model, PPO), где модель на 1.3B параметров после alignment людям нравилась больше, чем 175B GPT-3. В том же 2022 году Anthropic представила Constitutional AI и RLAIF: вместо тысяч человеческих оценок модель критикует и переписывает свои ответы по набору принципов (конституции), а AI-модель выступает судьёй. В мае 2023 Rafailov et al. (Stanford) выпустили DPO (Direct Preference Optimization, arXiv 2305.18290, позже NeurIPS 2023): математически показали, что reward model в RLHF можно выразить в замкнутой форме и убрать PPO, заменив весь pipeline обычным classification loss. DPO оказался проще и стабильнее PPO и к 2024-2025 стал стандартом для open-source моделей (Llama 3, Mistral).

Pretraining vs Alignment: два разных процесса

GPT-3 в 2020 году умел одно: предсказывать следующий токен. Попросить его написать письмо - и он продолжал в стиле вопроса, вместо письма. Попросить решить задачу - он цитировал похожие задачи из интернета. Это не тупость модели: это точное выполнение задачи обучения. **Pretraining оптимизирует не полезность - а статистическую близость к корпусу.**

Alignment - отдельный процесс поверх pretraining. Его задача: переориентировать модель с «предсказывать текст» на «быть полезным ассистентом». Это фундаментальный сдвиг целевой функции, а не просто дополнительное обучение.

Разрыв между GPT-3 и InstructGPT - при том что InstructGPT **меньше** GPT-3 по параметрам - стал главным доказательством: в 2026 году alignment важнее размера. 1.3B-параметрная InstructGPT превосходила 175B GPT-3 в 85% human evaluations на следование инструкциям (Ouyang et al., 2022).

**Терминология:** «alignment» буквально означает выравнивание целей модели с целями людей. Misaligned модель - гибкий инструмент без направления. Aligned - тот же инструмент, обученный быть полезным конкретным образом.

Почему GPT-3 без alignment не следовал инструкциям, хотя и был мощной моделью?

RLHF: InstructGPT и как научить модель слушаться

Ouyang et al. (OpenAI, 2022) описали трёхшаговый процесс, превративший GPT в ChatGPT. Называется **RLHF** - Reinforcement Learning from Human Feedback. Каждый шаг решает конкретную проблему предыдущего.

Ключевой инсайт RLHF: **reward model - это компрессия human preferences**. Labeler не может оценить 100 000 ответов, но может ранжировать 50 000 пар. RM обобщает эти предпочтения в дифференцируемую функцию, которую PPO может оптимизировать. Поэтому 13K демонстраций хватило для выравнивания 175B-модели.

Шаг	Данные	Цель	Результат
SFT	~13K демонстраций	Формат ответа ассистента	SFT-модель
RM Training	~33K comparisons	Предсказание human preference	Reward Model
PPO/RL	RM feedback	Максимизировать reward	InstructGPT

**Проблема RLHF:** дорого и нестабильно. Нужны тысячи human comparisons. PPO - сложный алгоритм с нестабильным обучением. KL-дивергенция требует тонкой настройки. Именно это мотивировало поиск альтернатив, которые привели к DPO.

Зачем в RLHF нужна отдельная Reward Model, а не прямой human feedback?

DPO: RLHF без reward model - в 10 раз проще

Rafailov et al. (Stanford, 2023) показали: reward model в RLHF - промежуточный артефакт, от которого можно избавиться. **DPO (Direct Preference Optimization)** решает ту же задачу через обычный cross-entropy loss, напрямую на парах (выбранный/отвергнутый ответ). Никакого RL. Никакого PPO. Никакой отдельной модели.

Математическая интуиция: RLHF формулирует задачу как RL с reward model. DPO показывает, что оптимальная политика при reward model выражается в замкнутой форме через логарифм отношения вероятностей. Это позволяет подставить аналитическое решение напрямую в loss - и убрать reward model из цикла.

Характеристика	RLHF	DPO
Reward model	Нужна (отдельная модель)	Не нужна
RL алгоритм	PPO (сложный)	Нет (cross-entropy)
Стабильность обучения	Нестабильный	Стабильный
Данные	Comparisons → RM → PPO	Пары (chosen, rejected) напрямую
Сложность реализации	Высокая	Низкая
Качество (практика)	Сопоставимо	Сопоставимо

К 2024-2025 годам DPO стал стандартом. Mistral, Llama 3, большинство open-source моделей используют DPO или его вариации (IPO, KTO, ORPO). RLHF с PPO остался у лабораторий с ресурсами для нестабильного обучения - OpenAI, Anthropic в ранних версиях.

**Практически:** DPO требует датасет предпочтений - пар (prompt, chosen_response, rejected_response). Такие датасеты есть публично: Anthropic HH-RLHF, OpenAssistant, UltraFeedback. Для fine-tuning с alignment через Hugging Face TRL библиотека реализует DPOTrainer из коробки.

Главное преимущество DPO над RLHF для инженера, который хочет добавить alignment к своей модели:

Constitutional AI и RLAIF: модель сама себя выравнивает

Anthropic (2022) опубликовала Constitutional AI: подход, где вместо human feedback модель использует **конституцию** - набор принципов - для самооценки своих ответов. RLAIF (RL from AI Feedback) - обобщение этой идеи: использовать другую AI-модель как судью вместо людей.

Почему это важно для инженеров: Constitutional AI делает **критерии оценки явными и аудируемыми**. Обычный RLHF - чёрный ящик: неизвестно точно, что именно оценивают human labelers. Конституция - это код: её можно читать, изменять, версионировать, аудировать на соответствие регуляторным требованиям.

Метод	Источник feedback	Масштаб	Прозрачность
RLHF	Human annotators	Дорого, медленно	Низкая (неявные предпочтения)
DPO	Human comparisons	Дешевле RM+PPO	Средняя (пары видны)
Constitutional AI	Конституция + AI critique	Масштабируется без людей	Высокая (принципы явные)
RLAIF	AI model как judge	Дёшево и быстро	Зависит от judge-модели

**Claude как пример:** Claude 2 и последующие версии обучены с использованием Constitutional AI. Это означает, что поведение Claude отчасти детерминировано набором явных принципов - в отличие от моделей, где alignment полностью задан human preferences.

Какое главное инженерное преимущество Constitutional AI перед обычным RLHF?

Alignment - это просто дополнительное обучение на хороших данных

Alignment меняет целевую функцию: с предсказания токенов на максимизацию человеческих предпочтений. Это не косметика - это принципиально иная оптимизационная задача

Pretrained GPT без alignment уже знает всё что нужно знать. Проблема не в знаниях - в том, что модель не оптимизирует «быть полезным». RLHF/DPO меняют саму цель обучения через reward signal.

Большая модель = лучше aligned модель

InstructGPT 1.3B превзошла GPT-3 175B по следованию инструкциям. Alignment эффективнее масштабирования для задач ассистента

Размер модели определяет capability (знание, рассуждение). Alignment определяет behaviour (следование инструкциям, безвредность). Это ортогональные оси. Claude 3 Haiku aligned лучше многих misaligned больших open-source моделей.

Итоги

Pretraining = предсказание токенов. Alignment = обучение быть полезным. Это разные задачи с разными данными и методами
RLHF (2022): три шага - SFT → Reward Model → PPO. Reward model - компрессия human preferences в дифференцируемую функцию
DPO (2023): убирает reward model и PPO, оптимизирует напрямую на парах (chosen/rejected). Стандарт для open-source 2024-2026
Constitutional AI: принципы → AI-critique → self-revision. Критерии alignment становятся явными, аудируемыми, версионируемыми
RLAIF: AI model как судья вместо людей. Масштабируется на порядки дешевле human labeling

Вопросы для размышления

Если бы требовалось добавить alignment к кастомной модели под конкретный продукт - какой метод выбрать и почему: RLHF, DPO или Constitutional AI?
Чем «конституция» как набор принципов лучше или хуже, чем implicit human preferences из RLHF для production-системы?
Как alignment влияет на то, что модель отказывается делать? Это баг или фича - и кто должен контролировать эти границы?

Связанные темы

Alignment - основа для fine-tuning и advanced reasoning. Понимание методов помогает правильно выбирать и настраивать модели.

Fine-tuning: LoRA, QLoRA, PEFT — DPO реализуется поверх fine-tuning инфраструктуры
Reasoning модели — RLVR (Verifiable Rewards) - вариация RLHF для reasoning
Guardrails и безопасность — Alignment задаёт baseline безопасности, guardrails добавляют application-level контроль

Связанные уроки

aie-03-llm-fundamentals — Alignment начинается с внутренностей предобученной LLM
aie-36-fine-tuning — RLHF и DPO - это fine-tuning на стадии alignment
aie-33-guardrails — Constitutional AI зашивает guardrails в обучение
aie-53-future-reasoning — RL на цепочках обучает reasoning-модели
ml-50-policy-gradient — RLHF оптимизирует политику через градиенты награды