Обработка естественного языка

Large Language Models

GPT-4 обучался на 13 триллионах токенов - в 26 000 раз больше, чем человек прочитывает за жизнь. Но не масштаб данных сделал GPT-4 полезным ассистентом. Это сделали три этапа поверх масштаба: scaling laws, instruction tuning, alignment.

**GitHub Copilot** - code-specific LLM c instruction tuning на парах (комментарий, код): ускоряет написание кода на 55% по данным Microsoft Research
**ChatGPT** - pretrained GPT-4 + SFT + RLHF: без alignment GPT-4 был бы мощным next-token predictor, но не ассистентом
**Llama-3-8B** - при правильном instruction tuning и 15T токенах данных конкурирует с GPT-3.5, доказывая что данные важнее размера

Предварительные знания

Авторегрессионная генерация: модель предсказывает следующий токен по предыдущим
Трансформер и self-attention как основа decoder-only архитектуры
Идея предобучения на больших корпусах из BERT

GPT-3 и рождение эры few-shot learning

2020 год. Tom Brown и соавторы из OpenAI публикуют "Language Models are Few-Shot Learners" - статью про GPT-3 на 175 миллиардов параметров. Главное открытие было не в размере, а в поведении: модель решала задачи, которых не видела при обучении, по двум-трём примерам прямо в промпте. Никакого fine-tuning. В том же году Jared Kaplan с коллегами вывели scaling laws - loss падает как степенная функция от параметров, данных и вычислений. Эти две работы превратили "делаем модель больше" из надежды в инженерный прогноз. Wei с соавторами (2022) задокументировали emergent abilities, а в ноябре 2022 OpenAI выпустила ChatGPT, и абстрактные scaling laws стали продуктом, которым за пять дней воспользовался миллион человек.

Scaling Laws: как растёт интеллект с масштабом

2020 год. OpenAI публикует Scaling Laws for Neural Language Models. Главный результат: loss убывает как степенная функция от количества параметров, данных и вычислений. Это не гипотеза - это эмпирический закон с предсказательной силой.

Закон Хофмана (Chinchilla, 2022) уточнил: оптимальная модель требует примерно 20 токенов данных на каждый параметр. GPT-3 с 175B параметров обучался на 300B токенах - данных не хватало вдвое. Chinchilla-70B с теми же вычислениями побил GPT-3, просто перераспределив бюджет.

Практическое следствие Chinchilla: если бюджет фиксирован, лучше обучить модель меньшего размера на большем количестве данных. Llama-2-7B, обученная на 2 триллионах токенов, на большинстве бенчмарков обходит GPT-3-175B.

Что показал закон Chinchilla относительно GPT-3?

Emergence: способности, которых никто не планировал

Emergence в LLM - это появление качественно новых способностей при переходе через определённый порог масштаба. Малые модели не умеют решать задачи с многошаговыми рассуждениями. Большие - умеют, хотя никто специально этому не учил.

Chain-of-thought рассуждение - канонический пример. Модели до ~100B параметров, получив задачу "25+37=?", отвечают напрямую. Модели от ~100B, если попросить думать вслух, начинают раскладывать задачу на шаги и делают значительно меньше ошибок. Это не было заложено в данные намеренно.

Wei et al. (2022) задокументировали более 130 emergent abilities: перевод с языков, которых нет в датасете, решение математических уравнений через рассуждение, понимание контрфактических условий. Важно: некоторые исследователи оспаривают "внезапность" - возможно, это артефакт метрики, не настоящий скачок.

Практическое следствие для инженеров: small models и large models - качественно разные инструменты. Gpt-4o-mini не "медленнее GPT-4" - это другой класс задач. Многошаговое рассуждение, планирование, self-correction - область больших моделей.

В чём особенность emergent abilities по сравнению с постепенным улучшением?

Instruction Tuning: из next-token predictor в ассистента

Pretrained LLM умеет продолжать текст. Это не то же самое, что следовать инструкциям. Если попросить GPT-3 (без fine-tuning) "Переведи на французский: Hello", он может продолжить генерацию похожих примеров вместо перевода - он видел такие обучающие тексты.

Instruction tuning (FLAN, InstructGPT) - это supervised fine-tuning на парах (instruction, desired output). Несколько тысяч пар достаточно, чтобы модель "поняла" что от неё ожидают. FLAN-T5 на 80M параметров после instruction tuning обходит GPT-3 на zero-shot задачах.

Ключевое наблюдение Wei et al. (2022): instruction tuning работает лучше при большем разнообразии задач (task diversity), а не при большем количестве примеров одного типа. Модель обучается следовать инструкциям в общем, а не конкретным командам.

Почему pretrained LLM без instruction tuning плохо следует инструкциям?

Alignment: согласование с человеческими ценностями

Instruction-tuned модель следует инструкциям. Но следует ли она правильным инструкциям? Модель, обученная максимизировать human approval, может научиться давать уверенно звучащие, но ложные ответы. Это проблема alignment.

RLHF (Reinforcement Learning from Human Feedback) - текущий стандарт alignment. Схема: люди-оценщики ранжируют ответы модели, на этих ранжированиях обучается reward model, затем основная модель оптимизируется PPO относительно reward. ChatGPT, Claude, Gemini используют этот подход.

Alignment - открытая исследовательская проблема. Goodhart's Law применим и здесь: когда метрика становится целью, она перестаёт быть хорошей метрикой. Модели, оптимизированные под human approval, могут стать лестью (sycophancy): соглашаться с пользователем даже когда он неправ.

Большая модель автоматически лучше выровнена с человеческими ценностями

Размер и alignment - независимые оси; большие модели могут быть хуже выровнены без специального обучения

Pretraining оптимизирует next-token prediction, а не полезность и безвредность. Alignment требует отдельного этапа (RLHF/DPO), независимо от размера модели

Что такое sycophancy в контексте aligned LLM?

Связанные темы

LLM строятся поверх архитектуры трансформера и соединяются с RL через alignment:

GPT и авторегрессионные LM — Архитектурный фундамент - decoder-only transformer
RLHF и Alignment — Детальный разбор RLHF, PPO и DPO
PPO: Proximal Policy Optimization — Алгоритм оптимизации в RLHF pipeline

Ключевые идеи

**Scaling laws** (Hoffmann 2022): оптимальное соотношение - 20 токенов на параметр; GPT-3 был недообучен при верном размере
**Emergence**: при переходе ~100B параметров появляются качественно новые способности (chain-of-thought, few-shot reasoning)
**Instruction tuning** трансформирует next-token predictor в полезного ассистента без изменения архитектуры
**Alignment** через RLHF: Goodhart's Law работает и здесь - модели, оптимизированные под approval, рискуют стать sycophantic

Вопросы для размышления

Если scaling laws работают, что остановит рост возможностей LLM - технические, физические или экономические ограничения?
Как проверить, что instruction-tuned модель действительно понимает инструкции, а не просто запомнила паттерны из датасета?
Goodhart's Law применим к RLHF. Какие альтернативы alignment существуют и почему DPO набирает популярность?

Связанные уроки

nlp-13 — GPT и авторегрессионные LM - архитектурный фундамент LLM
nlp-16 — RLHF - следующий шаг после instruction tuning
nlp-17 — RAG строится поверх instruction-tuned моделей
rl-05 — PPO из RL используется в RLHF для fine-tuning LLM
nlp-12 — BERT заложил паттерны предобучения, которые масштабировали в LLM
ml-01-intro