Генеративный AI

Что такое генеративный AI

Предварительные знания

Базовая интуиция вероятности: что описывает распределение P(x)
Понимание на верхнем уровне, что такое нейронная сеть

В ноябре 2022 года мир изменился. ChatGPT набрал 100 миллионов пользователей за 2 месяца - быстрее, чем любой продукт в истории человечества. Но что стоит за этим? Как машина, которая «всего лишь предсказывает следующее слово», пишет стихи, решает олимпиадные задачи и проходит медицинские экзамены? Ответ - в фундаментальном различии между AI, который *распознаёт*, и AI, который *создаёт*.

**GitHub Copilot** генерирует ~46% всего кода в проектах, где он используется - программисты стали кураторами AI-кодера
**AlphaFold** предсказал структуру 200 миллионов белков, ускорив биологические исследования на десятилетия (Нобелевская премия 2024)
**Midjourney и DALL-E** создают изображения по текстовому описанию - концепт-арт, который раньше стоил 5000 и занимал неделю, генерируется за секунды

Неделя, когда генеративный AI стал массовым

30 ноября 2022 года OpenAI без шума выпустил research preview под названием ChatGPT на базе GPT-3.5. За пять дней он набрал миллион пользователей, за два месяца - около 100 миллионов, самое быстрое потребительское распространение на тот момент. Технические компоненты существовали уже годами: GPT-3 (175B параметров) вышел в 2020, а text-to-image diffusion модели Stable Diffusion и DALL-E 2 появились ранее в 2022. Изменился именно доступ. Бесплатное окно чата превратило исследовательскую диковинку в инструмент, которым ежедневно пользуются сотни миллионов людей, и 2022 год стал точкой перелома, разделившей историю AI на до и после.

Генеративные vs дискриминативные модели

В 2023 году ChatGPT набрал 100 миллионов пользователей за 2 месяца - быстрее любого продукта в истории. Instagram потребовалось 2.5 года, TikTok - 9 месяцев. Почему? Потому что впервые массовый пользователь получил доступ к AI, который не просто *анализирует*, а **создаёт**. Это фундаментальный сдвиг: от моделей, которые говорят «это кошка», к моделям, которые рисуют кошку по описанию.

В машинном обучении существует два принципиально разных подхода. **Дискриминативные модели** учатся проводить границу между классами - они моделируют **P(y|x)**: «какова вероятность, что это спам, если в письме есть слово FREE?». **Генеративные модели** учат само распределение данных - **P(x)** или **P(x|z)**: «как выглядят типичные письма?» и могут создавать новые примеры, неотличимые от реальных.

Ключевое отличие в **направлении информации**. Дискриминативная модель *сжимает* вход до метки: изображение 1024x1024 пикселей → одно слово «кот». Генеративная модель *расширяет* вход: короткий промпт «рыжий кот на подоконнике» → детальное изображение с миллионами пикселей. Это как разница между критиком, который оценивает картину, и художником, который её пишет.

**Граница размывается.** Современные модели часто совмещают оба подхода. GPT-4 - генеративная модель (предсказывает следующий токен), но её можно использовать как дискриминативную (classify sentiment). Модели вроде CLIP обучаются связывать изображения и текст, что позволяет и классифицировать, и генерировать.

Характеристика	Дискриминативная	Генеративная
Моделирует	P(y\|x) - границу классов	P(x) - распределение данных
Задача	Классификация, регрессия	Создание нового контента
Вход → Выход	Данные → Метка	Промпт → Контент
Примеры	SVM, Logistic Regression, ResNet	GPT, DALL-E, Stable Diffusion
Данные для обучения	Пары (вход, метка)	Большие корпуса неразмеченных данных
Типичный размер	Миллионы параметров	Миллиарды параметров

Спам-фильтр Gmail анализирует входящие письма и помечает их как «спам» или «не спам». К какому типу моделей он относится?

Модальности генеративного AI

Генеративный AI не ограничивается текстом. Современные модели работают с **разными модальностями** - типами данных. Каждая модальность имеет свои особенности: текст дискретен (токены), изображения непрерывны (пиксели), аудио - одномерный сигнал, видео - последовательность кадров. И для каждой модальности исследователи нашли свои архитектурные решения.

**Текст** - самая развитая модальность. Large Language Models (LLM) предсказывают следующий токен и способны писать код, эссе, стихи, переводить и рассуждать. Ключевые модели: **GPT-4** (OpenAI), **Claude** (Anthropic), **Gemini** (Google), **LLaMA** (Meta, open-source). Все они основаны на архитектуре Transformer и обучены на триллионах токенов текста.

**Изображения** - вторая по зрелости модальность. Три основных подхода: **Diffusion models** (Stable Diffusion, DALL-E 3, Midjourney) постепенно убирают шум из случайного изображения; **GAN** (StyleGAN) используют соревнование генератора и дискриминатора; **Autoregressive** (DALL-E 1) генерируют изображение токен за токеном. Diffusion-модели сейчас доминируют благодаря стабильности обучения и качеству результата.

Модальность	Ключевые модели	Принцип	Зрелость
Текст	GPT-4, Claude, Gemini, LLaMA	Autoregressive (next token prediction)	Высокая
Изображения	DALL-E 3, Midjourney, Stable Diffusion	Diffusion (деноизинг)	Высокая
Аудио/Музыка	Suno, ElevenLabs, Bark, MusicGen	Autoregressive + Diffusion	Средняя
Видео	Sora, Runway Gen-3, Kling	Diffusion в пространстве-времени	Растущая
Код	Copilot, Cursor, Claude Code	LLM с fine-tuning на коде	Высокая
3D	Point-E, Shap-E, Meshy	Diffusion + NeRF	Ранняя

**Аудио** разделяется на две задачи: **speech synthesis** (ElevenLabs создаёт голос, неотличимый от реального человека, клонируя голос по 30 секундам записи) и **music generation** (Suno генерирует полные песни с вокалом по текстовому описанию). **Видео** - самая сложная модальность: нужно поддерживать консистентность объектов между кадрами, физику движения и временную когерентность. Sora от OpenAI показала впечатляющие результаты, но генерация минуты видео занимает минуты GPU-времени.

**Мультимодальные модели** - главный тренд. GPT-4V (Vision) принимает и текст, и изображения. Gemini работает с текстом, изображениями, аудио и видео. GPT-4o (omni) обрабатывает все модальности в одном потоке. Это движение к **universal model** - единой модели, которая понимает и создаёт контент в любом формате.

Области применения генеративного AI

Генеративный AI проникает в индустрии со скоростью, невиданной для предыдущих технологий. По оценке McKinsey (2023), генеративный AI может добавить **2.6–4.4 трлн** к мировой экономике ежегодно. Но дело не только в деньгах - GenAI меняет сам характер работы: вместо выполнения рутинных задач люди становятся **кураторами и редакторами** AI-контента.

Область	Применение	Пример	Влияние
Разработка	Генерация кода, code review, debugging	GitHub Copilot генерирует ~46% кода	Ускорение в 2-3x
Креатив	Дизайн, копирайтинг, видеопродакшн	Midjourney для концепт-артов в играх	Сокращение итераций
Образование	Персонализированное обучение, тьюторинг	Khan Academy Khanmigo - AI-репетитор	Масштабирование 1-on-1
Медицина	Анализ снимков, drug discovery	AlphaFold предсказал 200M белковых структур	Ускорение исследований
Наука	Формулировка гипотез, анализ литературы	FunSearch нашёл новые математические решения	Ускорение открытий
Бизнес	Автоматизация отчётов, поддержка клиентов	Klarna AI обрабатывает 2/3 обращений	Снижение затрат
Право	Анализ контрактов, подготовка документов	Harvey AI для юридических фирм	Часы → минуты
Музыка	Генерация треков, мастеринг	Suno создаёт полные песни с вокалом	Демократизация

**Разработка ПО** - одна из наиболее трансформированных областей. GitHub Copilot, Claude Code и Cursor не просто автодополняют код - они понимают контекст проекта, пишут тесты, находят баги и рефакторят. Исследование GitHub показало, что разработчики с Copilot завершают задачи **на 55% быстрее**. Но важно: AI не заменяет понимание архитектуры и алгоритмов - он усиливает того, кто уже знает, что делает.

**AlphaFold** от DeepMind заслуживает отдельного упоминания. Предсказание 3D-структуры белка по аминокислотной последовательности - задача, которую биологи пытались решить 50 лет. AlphaFold решила её для **200 миллионов белков** (практически всех известных), ускорив исследования в биологии, фармакологии и медицине на десятилетия. За это Демис Хассабис получил Нобелевскую премию по химии в 2024 году.

**Где GenAI наиболее эффективен?** В задачах с тремя характеристиками: 1. есть много примеров - обучающих данных 2. допустима неточность - черновик лучше, чем ничего 3. нужна скорость, а не совершенство - первый драфт, а не финальная версия. Юридическая экспертиза, диагностика болезней, принятие критических решений - здесь AI остаётся *ассистентом*, а не заменой человека.

История генеративного AI

Генеративный AI не возник из ниоткуда в 2022 году. За ним стоят **60 лет** исследований, неудач и прорывов. Каждый период приносил новые идеи, и многие концепции, которые кажутся новыми (вроде нейросетей и attention), были придуманы десятилетия назад - просто тогда не хватало вычислительных мощностей и данных.

**Ключевые поворотные точки.** В 2014 году Иан Гудфеллоу придумал **GAN** (Generative Adversarial Network) - по легенде, за пивом в баре. Идея элегантна: два нейросети соревнуются - генератор создаёт фейковые изображения, дискриминатор отличает их от реальных. В процессе соревнования генератор становится всё лучше. GAN произвели революцию в генерации изображений, но были нестабильны в обучении.

В 2017 году команда Google Brain опубликовала статью **"Attention Is All You Need"** - одну из самых влиятельных работ в истории AI. Transformer заменил рекуррентные сети: вместо последовательной обработки слов (слово за словом) модель научилась обрабатывать все слова **параллельно**, используя механизм **self-attention**. Это позволило масштабировать модели до миллиардов параметров.

**Эра масштабирования (2018–2024).** GPT-1 (117M параметров) показал, что pretraining на большом корпусе текста работает. GPT-2 (1.5B) - что масштабирование даёт качественный скачок. GPT-3 (175B) - что при достаточном масштабе появляются **emergent abilities**: модель начинает делать вещи, которым её не учили (few-shot learning, chain-of-thought reasoning). А ChatGPT (2022) добавил **RLHF** - обучение через человеческую обратную связь - и сделал AI доступным каждому.

**Почему именно сейчас?** Три фактора совпали: 1. **Вычисления** - GPU NVIDIA стали в тысячи раз мощнее, появились TPU и специализированные чипы 2. **Данные** - интернет накопил петабайты текста, изображений, кода 3. **Алгоритмы** - Transformer оказался идеальной архитектурой для масштабирования. Ни один фактор по отдельности не дал бы прорыва - нужны были все три.

ELIZA (1966): иллюзия понимания

Джозеф Вейценбаум в MIT создал ELIZA - программу, имитирующую психотерапевта. Она использовала простой pattern matching: если пользователь говорил «мне грустно», ELIZA отвечала «Почему вам грустно?». Вейценбаум был потрясён, когда его секретарь попросила оставить её наедине с программой для «приватного разговора». Он написал книгу-предупреждение о том, как легко люди приписывают машинам интеллект. Спустя 58 лет этот урок актуален как никогда.

Генеративный AI понимает и думает как человек - он ведёт осмысленные диалоги и решает задачи

GenAI - это статистические модели предсказания следующего токена. Они выучили паттерны из триллионов токенов текста и создают правдоподобные продолжения, но не обладают пониманием, сознанием или намерениями

Когда GPT пишет «Париж - столица Франции», он не «знает» это как факт. Он выучил, что после токенов «Париж - столица» с высокой вероятностью следует «Франции». Это создаёт иллюзию понимания (как ELIZA в 1966!), но модель не имеет внутренней модели мира - она оперирует статистикой последовательностей. Потому модели уверенно «галлюцинируют» - выдают правдоподобный, но ложный текст.

Ключевые идеи

**Два типа моделей:** дискриминативные (P(y|x) - классификация) vs генеративные (P(x) - создание нового). ChatGPT - это генеративная модель, спам-фильтр - дискриминативная
**6 модальностей:** текст, изображения, аудио, видео, код, 3D. Тренд - мультимодальные модели (GPT-4o), обрабатывающие все форматы
**60 лет эволюции:** от ELIZA (1966) через GAN (2014) и Transformer (2017) к ChatGPT (2022). Три фактора прорыва: вычисления + данные + алгоритмы
**GenAI не думает** - это статистические модели предсказания паттернов. Иллюзия понимания ≠ понимание. Помните ELIZA!

Связанные темы

Генеративный AI стоит на фундаменте нескольких ключевых технологий:

Языковые модели: от n-gram до GPT — Как именно LLM предсказывают следующий токен - от простых n-gram к Transformer
Токенизация: BPE и SentencePiece — Как текст разбивается на токены - первый шаг обработки в любой LLM
Transformer-архитектура — Self-attention и позиционное кодирование - сердце современных генеративных моделей

Вопросы для размышления

Если генеративная модель не «понимает» в человеческом смысле, а лишь предсказывает токены - где проходит граница между «имитацией понимания» и «настоящим пониманием»? Существует ли эта граница?
Какие задачи в вашей работе или учёбе уже можно делегировать генеративному AI, а какие требуют именно человеческого суждения?
Рост моделей: 117M → 1.8T параметров за 5 лет. Может ли этот рост продолжаться бесконечно, или мы упрёмся в фундаментальные ограничения?

Связанные уроки

gai-02 — Архитектуры генеративных моделей: VAE, GAN, Diffusion
dl-01 — Deep learning - фундамент всех генеративных архитектур
prob-01-intro — Вероятностные распределения: basis generative modeling
nlp-01 — Языковая генерация строится поверх NLP
aie-03-llm-fundamentals — LLM как главный кейс генеративного AI
st-01-feedback-loops — Диффузия как обратная связь: шум → денойз → изображение
ml-01-intro