Генеративный AI
Что такое генеративный AI
Предварительные знания
- Базовая интуиция вероятности: что описывает распределение P(x)
- Понимание на верхнем уровне, что такое нейронная сеть
В ноябре 2022 года мир изменился. ChatGPT набрал 100 миллионов пользователей за 2 месяца - быстрее, чем любой продукт в истории человечества. Но что стоит за этим? Как машина, которая «всего лишь предсказывает следующее слово», пишет стихи, решает олимпиадные задачи и проходит медицинские экзамены? Ответ - в фундаментальном различии между AI, который *распознаёт*, и AI, который *создаёт*.
- **GitHub Copilot** генерирует ~46% всего кода в проектах, где он используется - программисты стали кураторами AI-кодера
- **AlphaFold** предсказал структуру 200 миллионов белков, ускорив биологические исследования на десятилетия (Нобелевская премия 2024)
- **Midjourney и DALL-E** создают изображения по текстовому описанию - концепт-арт, который раньше стоил 5000 и занимал неделю, генерируется за секунды
Неделя, когда генеративный AI стал массовым
30 ноября 2022 года OpenAI без шума выпустил research preview под названием ChatGPT на базе GPT-3.5. За пять дней он набрал миллион пользователей, за два месяца - около 100 миллионов, самое быстрое потребительское распространение на тот момент. Технические компоненты существовали уже годами: GPT-3 (175B параметров) вышел в 2020, а text-to-image diffusion модели Stable Diffusion и DALL-E 2 появились ранее в 2022. Изменился именно доступ. Бесплатное окно чата превратило исследовательскую диковинку в инструмент, которым ежедневно пользуются сотни миллионов людей, и 2022 год стал точкой перелома, разделившей историю AI на до и после.
Генеративные vs дискриминативные модели
В 2023 году ChatGPT набрал 100 миллионов пользователей за 2 месяца - быстрее любого продукта в истории. Instagram потребовалось 2.5 года, TikTok - 9 месяцев. Почему? Потому что впервые массовый пользователь получил доступ к AI, который не просто *анализирует*, а **создаёт**. Это фундаментальный сдвиг: от моделей, которые говорят «это кошка», к моделям, которые рисуют кошку по описанию.
В машинном обучении существует два принципиально разных подхода. **Дискриминативные модели** учатся проводить границу между классами - они моделируют **P(y|x)**: «какова вероятность, что это спам, если в письме есть слово FREE?». **Генеративные модели** учат само распределение данных - **P(x)** или **P(x|z)**: «как выглядят типичные письма?» и могут создавать новые примеры, неотличимые от реальных.
Ключевое отличие в **направлении информации**. Дискриминативная модель *сжимает* вход до метки: изображение 1024x1024 пикселей → одно слово «кот». Генеративная модель *расширяет* вход: короткий промпт «рыжий кот на подоконнике» → детальное изображение с миллионами пикселей. Это как разница между критиком, который оценивает картину, и художником, который её пишет.
**Граница размывается.** Современные модели часто совмещают оба подхода. GPT-4 - генеративная модель (предсказывает следующий токен), но её можно использовать как дискриминативную (classify sentiment). Модели вроде CLIP обучаются связывать изображения и текст, что позволяет и классифицировать, и генерировать.
| Характеристика | Дискриминативная | Генеративная |
|---|---|---|
| Моделирует | P(y|x) - границу классов | P(x) - распределение данных |
| Задача | Классификация, регрессия | Создание нового контента |
| Вход → Выход | Данные → Метка | Промпт → Контент |
| Примеры | SVM, Logistic Regression, ResNet | GPT, DALL-E, Stable Diffusion |
| Данные для обучения | Пары (вход, метка) | Большие корпуса неразмеченных данных |
| Типичный размер | Миллионы параметров | Миллиарды параметров |
Спам-фильтр Gmail анализирует входящие письма и помечает их как «спам» или «не спам». К какому типу моделей он относится?
Модальности генеративного AI
Генеративный AI не ограничивается текстом. Современные модели работают с **разными модальностями** - типами данных. Каждая модальность имеет свои особенности: текст дискретен (токены), изображения непрерывны (пиксели), аудио - одномерный сигнал, видео - последовательность кадров. И для каждой модальности исследователи нашли свои архитектурные решения.
**Текст** - самая развитая модальность. Large Language Models (LLM) предсказывают следующий токен и способны писать код, эссе, стихи, переводить и рассуждать. Ключевые модели: **GPT-4** (OpenAI), **Claude** (Anthropic), **Gemini** (Google), **LLaMA** (Meta, open-source). Все они основаны на архитектуре Transformer и обучены на триллионах токенов текста.
**Изображения** - вторая по зрелости модальность. Три основных подхода: **Diffusion models** (Stable Diffusion, DALL-E 3, Midjourney) постепенно убирают шум из случайного изображения; **GAN** (StyleGAN) используют соревнование генератора и дискриминатора; **Autoregressive** (DALL-E 1) генерируют изображение токен за токеном. Diffusion-модели сейчас доминируют благодаря стабильности обучения и качеству результата.
| Модальность | Ключевые модели | Принцип | Зрелость |
|---|---|---|---|
| Текст | GPT-4, Claude, Gemini, LLaMA | Autoregressive (next token prediction) | Высокая |
| Изображения | DALL-E 3, Midjourney, Stable Diffusion | Diffusion (деноизинг) | Высокая |
| Аудио/Музыка | Suno, ElevenLabs, Bark, MusicGen | Autoregressive + Diffusion | Средняя |
| Видео | Sora, Runway Gen-3, Kling | Diffusion в пространстве-времени | Растущая |
| Код | Copilot, Cursor, Claude Code | LLM с fine-tuning на коде | Высокая |
| 3D | Point-E, Shap-E, Meshy | Diffusion + NeRF | Ранняя |
**Аудио** разделяется на две задачи: **speech synthesis** (ElevenLabs создаёт голос, неотличимый от реального человека, клонируя голос по 30 секундам записи) и **music generation** (Suno генерирует полные песни с вокалом по текстовому описанию). **Видео** - самая сложная модальность: нужно поддерживать консистентность объектов между кадрами, физику движения и временную когерентность. Sora от OpenAI показала впечатляющие результаты, но генерация минуты видео занимает минуты GPU-времени.
**Мультимодальные модели** - главный тренд. GPT-4V (Vision) принимает и текст, и изображения. Gemini работает с текстом, изображениями, аудио и видео. GPT-4o (omni) обрабатывает все модальности в одном потоке. Это движение к **universal model** - единой модели, которая понимает и создаёт контент в любом формате.
Области применения генеративного AI
Генеративный AI проникает в индустрии со скоростью, невиданной для предыдущих технологий. По оценке McKinsey (2023), генеративный AI может добавить **2.6–4.4 трлн** к мировой экономике ежегодно. Но дело не только в деньгах - GenAI меняет сам характер работы: вместо выполнения рутинных задач люди становятся **кураторами и редакторами** AI-контента.
| Область | Применение | Пример | Влияние |
|---|---|---|---|
| Разработка | Генерация кода, code review, debugging | GitHub Copilot генерирует ~46% кода | Ускорение в 2-3x |
| Креатив | Дизайн, копирайтинг, видеопродакшн | Midjourney для концепт-артов в играх | Сокращение итераций |
| Образование | Персонализированное обучение, тьюторинг | Khan Academy Khanmigo - AI-репетитор | Масштабирование 1-on-1 |
| Медицина | Анализ снимков, drug discovery | AlphaFold предсказал 200M белковых структур | Ускорение исследований |
| Наука | Формулировка гипотез, анализ литературы | FunSearch нашёл новые математические решения | Ускорение открытий |
| Бизнес | Автоматизация отчётов, поддержка клиентов | Klarna AI обрабатывает 2/3 обращений | Снижение затрат |
| Право | Анализ контрактов, подготовка документов | Harvey AI для юридических фирм | Часы → минуты |
| Музыка | Генерация треков, мастеринг | Suno создаёт полные песни с вокалом | Демократизация |
**Разработка ПО** - одна из наиболее трансформированных областей. GitHub Copilot, Claude Code и Cursor не просто автодополняют код - они понимают контекст проекта, пишут тесты, находят баги и рефакторят. Исследование GitHub показало, что разработчики с Copilot завершают задачи **на 55% быстрее**. Но важно: AI не заменяет понимание архитектуры и алгоритмов - он усиливает того, кто уже знает, что делает.
**AlphaFold** от DeepMind заслуживает отдельного упоминания. Предсказание 3D-структуры белка по аминокислотной последовательности - задача, которую биологи пытались решить 50 лет. AlphaFold решила её для **200 миллионов белков** (практически всех известных), ускорив исследования в биологии, фармакологии и медицине на десятилетия. За это Демис Хассабис получил Нобелевскую премию по химии в 2024 году.
**Где GenAI наиболее эффективен?** В задачах с тремя характеристиками: 1. есть много примеров - обучающих данных 2. допустима неточность - черновик лучше, чем ничего 3. нужна скорость, а не совершенство - первый драфт, а не финальная версия. Юридическая экспертиза, диагностика болезней, принятие критических решений - здесь AI остаётся *ассистентом*, а не заменой человека.
История генеративного AI
Генеративный AI не возник из ниоткуда в 2022 году. За ним стоят **60 лет** исследований, неудач и прорывов. Каждый период приносил новые идеи, и многие концепции, которые кажутся новыми (вроде нейросетей и attention), были придуманы десятилетия назад - просто тогда не хватало вычислительных мощностей и данных.
**Ключевые поворотные точки.** В 2014 году Иан Гудфеллоу придумал **GAN** (Generative Adversarial Network) - по легенде, за пивом в баре. Идея элегантна: два нейросети соревнуются - генератор создаёт фейковые изображения, дискриминатор отличает их от реальных. В процессе соревнования генератор становится всё лучше. GAN произвели революцию в генерации изображений, но были нестабильны в обучении.
В 2017 году команда Google Brain опубликовала статью **"Attention Is All You Need"** - одну из самых влиятельных работ в истории AI. Transformer заменил рекуррентные сети: вместо последовательной обработки слов (слово за словом) модель научилась обрабатывать все слова **параллельно**, используя механизм **self-attention**. Это позволило масштабировать модели до миллиардов параметров.
**Эра масштабирования (2018–2024).** GPT-1 (117M параметров) показал, что pretraining на большом корпусе текста работает. GPT-2 (1.5B) - что масштабирование даёт качественный скачок. GPT-3 (175B) - что при достаточном масштабе появляются **emergent abilities**: модель начинает делать вещи, которым её не учили (few-shot learning, chain-of-thought reasoning). А ChatGPT (2022) добавил **RLHF** - обучение через человеческую обратную связь - и сделал AI доступным каждому.
**Почему именно сейчас?** Три фактора совпали: 1. **Вычисления** - GPU NVIDIA стали в тысячи раз мощнее, появились TPU и специализированные чипы 2. **Данные** - интернет накопил петабайты текста, изображений, кода 3. **Алгоритмы** - Transformer оказался идеальной архитектурой для масштабирования. Ни один фактор по отдельности не дал бы прорыва - нужны были все три.
ELIZA (1966): иллюзия понимания
Джозеф Вейценбаум в MIT создал ELIZA - программу, имитирующую психотерапевта. Она использовала простой pattern matching: если пользователь говорил «мне грустно», ELIZA отвечала «Почему вам грустно?». Вейценбаум был потрясён, когда его секретарь попросила оставить её наедине с программой для «приватного разговора». Он написал книгу-предупреждение о том, как легко люди приписывают машинам интеллект. Спустя 58 лет этот урок актуален как никогда.
Генеративный AI понимает и думает как человек - он ведёт осмысленные диалоги и решает задачи
GenAI - это статистические модели предсказания следующего токена. Они выучили паттерны из триллионов токенов текста и создают правдоподобные продолжения, но не обладают пониманием, сознанием или намерениями
Когда GPT пишет «Париж - столица Франции», он не «знает» это как факт. Он выучил, что после токенов «Париж - столица» с высокой вероятностью следует «Франции». Это создаёт иллюзию понимания (как ELIZA в 1966!), но модель не имеет внутренней модели мира - она оперирует статистикой последовательностей. Потому модели уверенно «галлюцинируют» - выдают правдоподобный, но ложный текст.
Ключевые идеи
- **Два типа моделей:** дискриминативные (P(y|x) - классификация) vs генеративные (P(x) - создание нового). ChatGPT - это генеративная модель, спам-фильтр - дискриминативная
- **6 модальностей:** текст, изображения, аудио, видео, код, 3D. Тренд - мультимодальные модели (GPT-4o), обрабатывающие все форматы
- **60 лет эволюции:** от ELIZA (1966) через GAN (2014) и Transformer (2017) к ChatGPT (2022). Три фактора прорыва: вычисления + данные + алгоритмы
- **GenAI не думает** - это статистические модели предсказания паттернов. Иллюзия понимания ≠ понимание. Помните ELIZA!
Связанные темы
Генеративный AI стоит на фундаменте нескольких ключевых технологий:
- Языковые модели: от n-gram до GPT — Как именно LLM предсказывают следующий токен - от простых n-gram к Transformer
- Токенизация: BPE и SentencePiece — Как текст разбивается на токены - первый шаг обработки в любой LLM
- Transformer-архитектура — Self-attention и позиционное кодирование - сердце современных генеративных моделей
Вопросы для размышления
- Если генеративная модель не «понимает» в человеческом смысле, а лишь предсказывает токены - где проходит граница между «имитацией понимания» и «настоящим пониманием»? Существует ли эта граница?
- Какие задачи в вашей работе или учёбе уже можно делегировать генеративному AI, а какие требуют именно человеческого суждения?
- Рост моделей: 117M → 1.8T параметров за 5 лет. Может ли этот рост продолжаться бесконечно, или мы упрёмся в фундаментальные ограничения?
Связанные уроки
- gai-02 — Архитектуры генеративных моделей: VAE, GAN, Diffusion
- dl-01 — Deep learning - фундамент всех генеративных архитектур
- prob-01-intro — Вероятностные распределения: basis generative modeling
- nlp-01 — Языковая генерация строится поверх NLP
- aie-03-llm-fundamentals — LLM как главный кейс генеративного AI
- st-01-feedback-loops — Диффузия как обратная связь: шум → денойз → изображение
- ml-01-intro