AI-инжиниринг

Reasoning модели: o3, o4, Extended Thinking - как думают модели нового поколения

Цели урока

Понять концепцию test-time compute scaling и чем она отличается от train-time scaling
Разобраться в архитектуре reasoning models (o1, o3, DeepSeek-R1)
Научиться определять задачи, где reasoning models дают кратное преимущество
Освоить паттерны model routing и escalating reasoning для production-систем

o4-mini проходит AIME на уровне 99-го перцентиля людей. Claude 4 Opus решает задачи уровня PhD в химии и биологии - не потому что знает ответ наизусть, а потому что думает вслух несколько минут. DeepSeek R2 делает то же самое в open-source. Это не будущее - это production 2026 года. Reasoning models уже встроены в Cursor, GitHub Copilot, Notion AI. Вопрос не "появятся ли они" - а "сколько reasoning tokens стоит конкретная задача".

o4-mini (OpenAI, 2025) - reasoning в production: используется в Cursor для анализа сложных баг-репортов, где обычная генерация давала ошибки
Claude 4.x Extended Thinking (Anthropic, 2025-2026) - в production для аудита кода и архитектурных решений: виден thinking process, можно контролировать budget
DeepSeek R2 - open-source reasoning на уровне frontier, доступен для self-hosting: reasoning без vendor lock-in стал реальностью
Стоимость reasoning token - ключевая метрика 2026: o4-mini в 10x дешевле o3 при сопоставимом качестве на большинстве задач - routing по типу задачи экономит 70-90% бюджета

От Chain-of-Thought к Reasoning Models

В январе 2022 года команда Google Brain опубликовала статью «Chain-of-Thought Prompting Elicits Reasoning in Large Language Models» (Jason Wei и др.). Простой трюк - показать модели несколько worked examples с расписанными шагами рассуждения - поднял точность PaLM 540B на математическом бенчмарке GSM8K примерно с 18% до 57%. Это была первая подсказка: LLM *способны* рассуждать, просто не делают этого по умолчанию. OpenAI пошли дальше - обучили модель *всегда* рассуждать через RL, создав o1. Гонка reasoning models началась.

Предварительные знания

AI Agents: ReAct, Planning, Memory, Observe-Think-Act Loop

Test-Time Compute Scaling: думать дольше = думать лучше

Традиционный путь улучшения LLM - больше параметров и больше данных. Но в 2024 году появился альтернативный вектор: **test-time compute scaling** - выделение большего количества вычислений *на этапе inference*, а не на этапе обучения. OpenAI реализовала это в o1, DeepMind подтвердила математически в статье «Scaling LLM Test-Time Compute Optimally».

Аналогия из когнитивной науки: Даниэль Канеман в книге «Thinking, Fast and Slow» описал два режима мышления. **System 1** - быстрое, автоматическое, интуитивное (как обычная LLM: получила промпт → сразу выдала ответ). **System 2** - медленное, пошаговое, аналитическое (как reasoning model: получила промпт → подумала → проверила → ответила).

Статья DeepMind «Scaling LLM Test-Time Compute Optimally» (2024) формализовала **scaling law для inference**: рост compute на этапе генерации даёт предсказуемое улучшение качества - особенно на задачах с верифицируемым ответом (математика, код). Для таких задач модель среднего размера с большим test-time compute обгоняет 10x-крупнейшую модель без него.

Подход	Что масштабируется	Результат	Пример
Train-time scaling	Параметры, данные, compute обучения	Более умная модель в целом	GPT-3 → GPT-4
Test-time scaling	Compute на inference (цепочки рассуждений)	Лучше на конкретной задаче	GPT-4o → o1
Комбинация	Оба направления	Максимальный результат	o3 (большая модель + reasoning)

**Практическое значение:** test-time compute scaling означает, что одна и та же модель может работать в двух режимах - быстром (дешёвом) для простых задач и медленном (дорогом) для сложных. Это фундаментально меняет экономику AI-приложений.

В чём ключевая идея test-time compute scaling?

Архитектура o1/o3: chain-of-thought на стероидах

OpenAI o1 (сентябрь 2024) и o3 (февраль 2025) - первые коммерческие reasoning models. Принципиальное отличие от GPT-4o: модель обучена генерировать **скрытую цепочку рассуждений** (hidden chain-of-thought) перед финальным ответом. DeepSeek-R1 (январь 2025) воспроизвёл тот же подход в open-source, доказав, что паттерн воспроизводим без секретных архитектур.

Ключевой инструмент обучения - **RLVR** (Reinforcement Learning with Verifiable Rewards): модель получает reward не за качество промежуточных рассуждений, а за правильность финального ответа. Именно это заставляет её самостоятельно открывать стратегии backtracking, проверки гипотез и разбиения задачи на подзадачи. DeepSeek-R1 использовал RLVR открыто - в отличие от закрытого o1, детали которого до сих пор засекречены.

Характеристика	GPT-4o	o1 / o1-pro	o3-mini
System message	Да	Нет (только user)	Да (developer role)
Temperature	0-2	Фиксированная (1)	Фиксированная (1)
Streaming	Да	Ограниченно	Да
Reasoning effort	-	-	low / medium / high
Стоимость (input)	2.50/1M	15/1M	1.10/1M
Стоимость (output)	10/1M	60/1M	4.40/1M
Скорость	~50 tok/s	~10-30s на задачу	~5-15s на задачу

**Reasoning tokens оплачиваются как output tokens.** Запрос к o1, который требует 2000 reasoning tokens + 200 output tokens, будет стоить как 2200 output tokens. На сложных математических задачах reasoning может занимать 10,000+ токенов - это `0.60` за один запрос к o1.

За шесть месяцев после o1 весь рынок переориентировался: Gemini 2.0 Flash Thinking, Claude Extended Thinking (Anthropic), Grok-3 Think (xAI) - все реализовали вариации chain-of-thought reasoning. DeepSeek-R1 сделал это в open-source с публично описанным процессом обучения. Подход из исследовательской лаборатории превратился в commodity-фичу менее чем за год.

Почему reasoning models дороже обычных LLM при использовании через API?

Reasoning vs Generation: два режима одной модели

Не каждая задача требует глубокого рассуждения. Запустить o1 для генерации маркетингового текста - это как арендовать суперкомпьютер для сложения двух чисел: результат тот же, цена в 10x выше. Умение разграничить задачи на **reasoning** (логика, математика, сложный код) и **generation** (текст, перевод, суммаризация) - одно из ключевых умений AI-инженера.

Цифры бенчмарков наглядно показывают эту границу. На MMLU (общие знания) разрыв между GPT-4o и o1 минимален: 88% против 92% - почти шум. Зато на AIME 2024 (американские математические олимпиады) - пропасть: GPT-4o набирает 13%, o1 - 83%, o3 - 96%. На Codeforces (алгоритмические задачи) GPT-4o имеет рейтинг 808, o3 - 2727 (уровень International Grandmaster). Именно верифицируемые задачи с чёткими критериями правильности - родная среда reasoning models.

Benchmark	GPT-4o	o1	o3	Тип задач
MMLU	88%	92%	96%	Общие знания, факты
GPQA (PhD-level science)	53%	78%	88%	Научные рассуждения
AIME 2024 (мат. олимпиады)	13%	83%	96%	Математическая логика
Codeforces rating	808	1807	2727	Алгоритмические задачи
SWE-bench Verified	33%	49%	71%	Реальные баги в коде
ARC-AGI (абстрактное мышление)	5%	32%	88%	Паттерны и аналогии

**ARC-AGI benchmark** (создан Франсуа Шолле, автором Keras) специально проектировался как тест на обобщение - задачи, которые нельзя решить заучиванием паттернов. Результат o3 в 88% на ARC-AGI вызвал серьёзные дискуссии: это настоящее рассуждение или очень хорошее распознавание паттернов?

Для какой задачи reasoning model (o1/o3) даст наибольшее преимущество перед обычной GPT-4o?

Reasoning Engineering: архитектура приложений с reasoning models

Появление reasoning models меняет архитектурные паттерны AI-приложений. Использовать одну модель для всех задач - значит либо переплачивать на простых, либо проигрывать на сложных. Решение - **model routing**: дешёвый классификатор (gpt-4o-mini) определяет сложность запроса и направляет его к соответствующей модели. Production-системы вроде Cursor и GitHub Copilot работают именно так.

Параметр **reasoning_effort** в o3-mini создаёт управляемый спектр: `low` - быстро и дёшево (близко к GPT-4o по стоимости), `medium` - баланс скорости и качества, `high` - максимальная тщательность с риском 10,000+ reasoning tokens на запрос. Паттерн Escalating Reasoning начинает с `low` и переходит выше только при низкой уверенности модели - это сокращает затраты при сохранении надёжности.

Reasoning models меняют и подход к **prompt engineering** - причём контринтуитивно. Для GPT-4o детальные инструкции («думай пошагово», «сначала составь план») повышают качество. Для o1/o3 они избыточны: модель сама строит цепочку рассуждений через RLVR, и многословный промпт может буквально сбить её с курса. Оптимальный промпт для reasoning model - точная постановка задачи без инструкций по процессу.

Prompt для GPT-4o (подробный) — Подробные инструкции, пошаговый план, примеры, ограничения - всё это повышает качество. System message критически важен. Chain-of-thought нужно просить явно: "Let's think step by step".
Prompt для o1/o3 (лаконичный) — Краткая постановка задачи. Модель сама решает, как рассуждать. Избыточные инструкции могут снижать качество. Chain-of-thought встроен - просить не нужно. Лучше сфокусироваться на чёткой формулировке *что нужно получить*.

**Latency:** reasoning models кратно медленнее. Запрос к o1 может занимать 10-60 секунд. Для real-time чат-ботов это критично. Архитектурное решение - streaming partial results: показывать пользователю "Analyzing..." с progress bar, пока модель думает.

**Состояние 2026:** граница между reasoning и generation моделями размылась. Claude 4 переключается в Extended Thinking по запросу, o4-mini доступен через тот же API что и gpt-4o-mini. Понимание *когда* reasoning нужен - главный рычаг оптимизации стоимости.

Какой паттерн наиболее эффективен для production-системы, обрабатывающей разнородные запросы пользователей?

Итоги

Test-time compute scaling: DeepMind доказал, что для сложных задач выгоднее дать модели больше времени на рассуждение, чем обучать модель в 10x крупнее
o1/o3 и DeepSeek-R1 генерируют тысячи скрытых reasoning tokens через RLVR (reward за правильный финальный ответ, а не за промежуточные шаги)
Reasoning tokens оплачиваются как output - сложный запрос к o1 легко стоит `0.60`; без мониторинга бюджет утекает незаметно
AIME 2024: GPT-4o - 13%, o1 - 83%. На задачах типа MMLU разрыв минимален - выбирать модель под тип задачи, не по умолчанию
Model routing через gpt-4o-mini-классификатор снижает стоимость production-системы в 5-10x без потери качества на сложных запросах
GPT-4o, Claude 3.5, Gemini 1.5 - поколение без встроенного reasoning - уступили место моделям с thinking: GPT-4o mini vs o4-mini, Claude Sonnet vs Extended Thinking режим

Что дальше

Reasoning models - один из путей к более общему AI. Следующие уроки рассматривают другие направления: world models для понимания физического мира и путь к AGI через scaling laws.

World Models — Reasoning о языке → reasoning о физическом мире
Путь к AGI — Reasoning models как один из шагов к general intelligence
Model Routing — Практические паттерны маршрутизации между моделями

Связанные уроки

aie-17-agent-fundamentals — Reasoning-модели расширяют CoT агентные циклы
aie-22-model-routing — Маршрутизировать в reasoning-модели только когда окупается
aie-29-cost-management — Бюджеты размышления напрямую влияют на стоимость токенов
aie-65-alignment-rlhf-dpo — Reasoning тренируют через RL на цепочках рассуждений
ml-50-policy-gradient — Поиск во время вывода похож на оптимизацию политики
ml-01