AI-инжиниринг

Будущее: путь к AGI - scaling laws, emergent abilities, alignment problem

Цели урока

Понять scaling laws (Kaplan, Chinchilla) и их implications для развития AI
Разобраться в феномене emergent capabilities и дискуссии вокруг него
Освоить ключевые подходы к alignment: RLHF, Constitutional AI, DPO
Сформировать обоснованное мнение о таймлайнах AGI на основе аргументов разных сторон

В декабре 2023 года Ilya Sutskever на NeurIPS сказал в кулуарах: «Может быть, у нас уже есть AGI». В мае 2024 OpenAI o3 набрал 87.5% на ARC-AGI - тесте, который Francois Chollet создал как «барьер, непреодолимый без настоящего мышления». Microsoft Research в статье «Sparks of AGI» (2023) написали, что GPT-4 демонстрирует «искры общего интеллекта». Anthropic сдвинул собственное определение AGI: больше не «умнее любого человека», а «способен автономно вести научные исследования». Граница размывается - и это происходит прямо сейчас.

OpenAI o3 набрал 87.5% на ARC-AGI (декабрь 2024) - бенчмарке, специально разработанном Francois Chollet как «непреодолимый для LLM без настоящего reasoning»
«Sparks of Artificial General Intelligence» (Microsoft Research, 2023): GPT-4 показал способности в задачах, которые ранее считались исключительно человеческими - от юридических экзаменов до творческого письма
OpenAI официально опубликовал 5 уровней AGI: L1 Chatbots → L2 Reasoners → L3 Agents → L4 Innovators → L5 Organizations; по их оценке, индустрия перешла с L1 на L2 между 2023 и 2024 годом
Anthropic в 2024 переопределил AGI как «способность автономно вести научные исследования мирового уровня» - сдвиг от IQ-метрики к операционной полезности

AI Winters и текущий бум

AI-исследования дважды переживали "зиму" - периоды разочарования и сокращения финансирования. Первая AI Winter (1974-1980): после провала machine translation и отчёта Lighthill. Вторая AI Winter (1987-1993): после краха expert systems. Каждый раз обещания исследователей не совпадали с реальностью. Текущий бум (с 2012, deep learning revolution) длится уже 13 лет и масштабнее предыдущих на порядки. Вопрос: это устойчивый прогресс или третий пузырь? Ключевое отличие - на этот раз AI генерирует реальную экономическую ценность: Copilot, ChatGPT, Midjourney - продукты с миллиардными доходами.

Предварительные знания

How LLMs Work: Tokens, Embeddings, Attention

Scaling Hypothesis: больше compute = умнее модель?

**Scaling hypothesis** - эмпирически подтверждённая закономерность: увеличение трёх компонентов (размер модели, объём данных, compute обучения) предсказуемо и пропорционально улучшает capabilities AI. Не теория - повторяемый результат серии независимых работ на 4 порядках величины.

**Kaplan et al. (2020)** из OpenAI в статье «Scaling Laws for Neural Language Models» показали: loss модели снижается по **power law** (`Loss ∝ C^(-0.05)`) при росте параметров, данных и compute. Прямая линия на log-log графике - значит закономерность работает от GPT-1 до GPT-4 без изломов и аномалий.

**Chinchilla (Hoffmann et al., 2022, DeepMind)** сломал репутацию GPT-3: оказалось, он был *undertrained* - слишком много параметров, катастрофически мало данных. Оптимальное соотношение - 20 токенов на параметр. Chinchilla (70B параметров, 1.4T токенов) обошла GPT-3 (175B параметров, 300B токенов) при меньшем compute-бюджете. После Chinchilla все frontier labs пересмотрели свои training runs.

Модель	Параметры	Токены обучения	Compute	Стоимость обучения*
GPT-3 (2020)	175B	300B	~3.6×10²³ FLOP	~5M
Chinchilla (2022)	70B	1.4T	~5.8×10²³ FLOP	~3M
Llama 2 70B (2023)	70B	2T	~10²⁴ FLOP	~10M
GPT-4 (2023)	~1.8T (MoE)	~13T	~2×10²⁵ FLOP	~100M
Llama 3 405B (2024)	405B	15T	~4×10²⁵ FLOP	~100M+
GPT-5 (2025, оценка)	?	?	~10²⁶ FLOP	200-500M

**Стоимость обучения удваивается каждые ~6 месяцев.** GPT-4 стоил ~100 млн долларов. GPT-5, по оценкам, обойдётся в 200-500 млн долларов. Это создаёт natural barrier - только компании с капиталом 10 млрд долларов+ могут обучать frontier models. Контраргумент: open-source модели (Llama, Mistral, DeepSeek) доступны для fine-tuning при стоимости в 1000x меньше.

Ключевой вопрос 2025 года: **закончится ли масштабирование?** Два лимита всё ближе. 1. Данные: качественного текста в интернете ~10T токенов - Llama 3 уже обучался на 15T, значит интернет «прочитан» дважды. Синтетические данные спасают частично, но AI, обученный на AI-тексте, рискует попасть в петлю деградации. 2. Энергия: обучение GPT-5 требует ~50 МВт месяцами - это отдельная электростанция. Ilya Sutskever (бывший CSO OpenAI) в 2024 сформулировал жёстко: «The age of scaling data is over» - акцент смещается на test-time compute scaling (именно это дало прорыв o1/o3).

Emergent Capabilities: способности, которых никто не ожидал

**Emergence** в контексте AI - появление способностей, которых нет у маленьких моделей и которые *резко* возникают при достижении определённого масштаба. Никто не учил модель решать математические олимпиады - предсказывать следующий токен учили. Но при 100B+ параметрах chain-of-thought reasoning появляется сам. Это делает roadmap возможностей непредсказуемым: нельзя заранее знать, что умеет GPT-5.

«Emergent Abilities of Large Language Models» (Wei et al., Google, 2022) каталогизировала десятки таких способностей. Паттерн одинаковый: accuracy держится у random baseline при 10M-10B параметров, затем - скачок. Multi-step arithmetic появляется при ~100B, chain-of-thought при ~60B, code generation при ~50B. Ни одна из этих способностей явно не тренировалась.

**Контроверсия:** Schaeffer et al. (Stanford, 2023) в «Are Emergent Abilities a Mirage?» поставили под сомнение саму идею скачка. Аргумент: резкий переход - артефакт бинарной метрики (правильно/нет). При измерении token-level log-probability (непрерывная шкала) улучшение *гладкое* на всём диапазоне размеров. Emergence не магия - это порог восприятия метрики, а не реальный перелом в способностях.

**Практическое следствие для AI-инженеров:** даже если emergence - артефакт метрик, он создаёт реальную проблему: невозможно предсказать capabilities будущей модели по текущей. GPT-3 не умел решать сложные задачи программирования. GPT-4 вдруг смог. Это делает roadmap AI-продуктов непредсказуемым.

Самая практически значимая emergent ability - **in-context learning**: модель решает новую задачу по 2-5 примерам *без дообучения*, прямо в промпте. GPT-2 не мог этого. GPT-3 смог - и весь мир разработки few-shot приложений построен на этом факте. Механизм по-прежнему не до конца понят: Olsson et al. (2022) связывают его с «induction heads» - специфическими паттернами attention в Transformer, которые реализуют обобщение по аналогии.

Что такое emergence в контексте LLM?

Alignment Problem: как сделать AI безопасным

**Alignment** - задача обеспечить, чтобы AI-система действовала в соответствии с намерениями и ценностями человека. С ростом capabilities проблема обостряется нелинейно: модель, пишущая плохие стихи - неудобство; агент, автономно управляющий продакшн-инфраструктурой по размытому промпту - потенциальная катастрофа. Именно это делает alignment не академической темой, а инженерной.

**RLHF (Reinforcement Learning from Human Feedback)** - метод, превративший base GPT-4 в ChatGPT. Принцип: 1. pre-train base model на текстах интернета 2. собрать ~300K человеческих сравнений «ответ A лучше B» 3. обучить reward model на этих парах 4. оптимизировать LLM через PPO, чтобы максимизировать reward. InstructGPT (предшественник ChatGPT) показал: 1.3B-параметровая RLHF-модель предпочтительнее для людей, чем raw GPT-3 на 175B.

**Constitutional AI (Anthropic, 2022)** - альтернатива RLHF без армии оценщиков. Вместо тысяч человеческих сравнений - набор принципов («конституция»), по которым сама модель критикует и ревизирует свои ответы. Пара (оригинал, ревизия) идёт в обучение preference model - это RLAIF вместо RLHF. На этом подходе построен Claude. Ключевое преимущество: масштабируется на любые объёмы данных без роста стоимости разметки.

Фундаментальная проблема alignment - **Goodhart's Law**: «When a measure becomes a target, it ceases to be a good measure». Reward model - лишь прокси человеческих предпочтений, а не сами предпочтения. AI, оптимизирующий прокси, неизбежно находит shortcut: модели учатся звучать уверенно вместо того, чтобы быть точными, давать длинные ответы вместо правильных, соглашаться с пользователем вместо того, чтобы корректировать. Это называют reward hacking - и оно происходит каждый раз при достаточном давлении оптимизации.

Метод	Автор	Ключевая идея	Недостаток
RLHF	OpenAI (2022)	Reward model из человеческих оценок + RL	Дорого, не масштабируется, reward hacking
Constitutional AI	Anthropic (2022)	Набор принципов, самооценка AI	Сложно формализовать все ценности
DPO	Stanford (2023)	Direct optimization без reward model	Менее стабильно на сложных задачах
RLAIF	Google (2023)	AI оценивает вместо людей	AI наследует собственные bias'ы
Scalable Oversight	Research frontier	Слабый AI контролирует сильный	Пока теоретическая работа

**Superalignment problem (Ilya Sutskever, OpenAI, 2023):** как align'ить AI, который умнее человека? Если AI превосходит людей интеллектуально, человеческие оценщики не смогут адекватно оценить его ответы. Это как пытаться оценить доказательство теоремы, которую сам не понимаешь. OpenAI создала Superalignment team в 2023 - и расформировала в 2024 после ухода ключевых исследователей.

Таймлайны AGI: оптимисты, пессимисты и реалисты

**AGI (Artificial General Intelligence)** не имеет единственного определения - и именно в этом корень всех споров. OpenAI определяет AGI как «систему, превосходящую людей в большинстве экономически значимых задач». Anthropic сдвинулся к «автономному ведению научных исследований». Francois Chollet (автор ARC-AGI) требует способность к обобщению на принципиально новые задачи без prior exposure. Каждый оптимист и скептик говорит о разном, называя это одним словом.

OpenAI формализовал прогресс в виде пяти уровней: L1 (Chatbots) → L2 (Reasoners) → L3 (Agents) → L4 (Innovators) → L5 (Organizations). По их оценке, переход L1→L2 произошёл с выходом o1 в конце 2023. o3, набравший 87.5% на ARC-AGI и решающий задачи Codeforces уровня Grandmaster, - это уже граница L2/L3. Sam Altman поставил AGI на 2025-2026 год; Dario Amodei (Anthropic) говорит о «powerful AI» к 2026-2027.

**Аргументы оптимистов:** o3 набрал 87.5% на ARC-AGI (декабрь 2024), который два года назад считался непреодолимым барьером; GPT-4 сдаёт bar exam в топ-10%; reasoning models (o1, o3, Gemini 2.0 Thinking) показали, что test-time compute - новый вектор scaling; Microsoft Research задокументировали «sparks of AGI» уже в GPT-4.

**Аргументы скептиков:** Yann LeCun (Meta) настаивает, что LLM - принципиальный тупик без world models и causal reasoning; галлюцинации не уменьшаются пропорционально масштабу; ARC-AGI прорыв o3 получен ценой ~`1000` compute на задачу - нечеловеческая эффективность; каждый «решённый» benchmark немедленно заменяется следующим, не решённым.

Позиция	Ключевой аргумент	Какие данные поддерживают	Слабое место
Scaling is all you need	Scaling laws предсказуемы, GPT-5 будет ещё умнее	Kaplan laws, emergence, o1/o3 benchmarks	Данные заканчиваются, энергия дорожает, diminishing returns
New architectures needed	LLM - stochastic parrots, нет понимания	Галлюцинации, failure на causal tasks, ARC-AGI	Каждый новый benchmark-рекорд ослабляет этот аргумент
Hybrid approach	Нужны LLM + world models + reasoning + embodiment	JEPA, robotics research, multimodal models	Интеграция разных подходов - нерешённая проблема

Независимо от таймлайнов, **экзистенциальные риски (x-risk)** AI перестали быть фантастикой. В 2023 году 350+ ведущих исследователей подписали заявление: «Mitigating the risk of extinction from AI should be a global priority alongside other societal-scale risks such as pandemics and nuclear war.» Среди подписантов - Hinton, Bengio, Altman, Hassabis. Это не паника - это инженерная предосторожность в условиях экспоненциального роста capabilities при медленном прогрессе в alignment.

Итоги

Scaling laws (Kaplan 2020, Chinchilla 2022) дают формулу: оптимум - 20 токенов на параметр; GPT-3 нарушал это правило, переплатив в 2x за параметры вместо данных
Emergent abilities - не магия, а порог метрики (Schaeffer, Stanford 2023); практический факт остаётся: модели 100B+ умеют то, чего 10B не могут, независимо от причин
RLHF дал ChatGPT, Constitutional AI дал Claude, DPO упростил оба - стоит знать разницу: RLHF дорог и нестабилен, DPO дешевле, Constitutional AI масштабируется без оценщиков
5 уровней AGI по OpenAI: сейчас L2 (Reasoners). Путь к L3 (Agents) - это и есть следующие 2-3 года инженерной практики
Для инженера важнее не «когда AGI» - а как строить системы, устойчивые к быстро меняющимся capabilities: eval-driven development, model routing, guardrails как архитектурный паттерн

Что дальше

AGI - стратегический горизонт. Следующие уроки фокусируются на том, как эти тренды уже сейчас меняют экономику, профессии и повседневную жизнь.

AI экономика — Как scaling AI меняет рынок труда и профессии прямо сейчас
Reasoning модели — Конкретная реализация "пути к AGI": test-time compute scaling
World Models — Альтернативный путь к AGI через физическое понимание мира

Связанные уроки

aie-03-llm-fundamentals — Законы масштабирования строятся на основах LLM
aie-65-alignment-rlhf-dpo — Проблема alignment изучается через RLHF и CAI
aie-53-future-reasoning — Эмерджентный reasoning формирует путь к AGI
aie-36-fine-tuning — Constitutional AI применяет техники fine-tuning
prob-04-bayes — Прогнозы сроков AGI рассуждают в условиях неопределённости
ml-01