Генеративный AI

Что такое генеративный AI

Предварительные знания

  • Базовая интуиция вероятности: что описывает распределение P(x)
  • Понимание на верхнем уровне, что такое нейронная сеть
  • Deep Learning: основы
  • Вероятность: введение

В ноябре 2022 года мир изменился. ChatGPT набрал 100 миллионов пользователей за 2 месяца - быстрее, чем любой продукт в истории человечества. Но что стоит за этим? Как машина, которая «всего лишь предсказывает следующее слово», пишет стихи, решает олимпиадные задачи и проходит медицинские экзамены? Ответ - в фундаментальном различии между AI, который *распознаёт*, и AI, который *создаёт*.

  • **GitHub Copilot** генерирует ~46% всего кода в проектах, где он используется - программисты стали кураторами AI-кодера
  • **AlphaFold** предсказал структуру 200 миллионов белков, ускорив биологические исследования на десятилетия (Нобелевская премия 2024)
  • **Midjourney и DALL-E** создают изображения по текстовому описанию - концепт-арт, который раньше стоил 5000 и занимал неделю, генерируется за секунды

Неделя, когда генеративный AI стал массовым

30 ноября 2022 года OpenAI без шума выпустил research preview под названием ChatGPT на базе GPT-3.5. За пять дней он набрал миллион пользователей, за два месяца - около 100 миллионов, самое быстрое потребительское распространение на тот момент. Технические компоненты существовали уже годами: GPT-3 (175B параметров) вышел в 2020, а text-to-image diffusion модели Stable Diffusion и DALL-E 2 появились ранее в 2022. Изменился именно доступ. Бесплатное окно чата превратило исследовательскую диковинку в инструмент, которым ежедневно пользуются сотни миллионов людей, и 2022 год стал точкой перелома, разделившей историю AI на до и после.

Генеративные vs дискриминативные модели

В 2023 году ChatGPT набрал 100 миллионов пользователей за 2 месяца - быстрее любого продукта в истории. Instagram потребовалось 2.5 года, TikTok - 9 месяцев. Почему? Потому что впервые массовый пользователь получил доступ к AI, который не просто *анализирует*, а **создаёт**. Это фундаментальный сдвиг: от моделей, которые говорят «это кошка», к моделям, которые рисуют кошку по описанию.

В машинном обучении существует два принципиально разных подхода. **Дискриминативные модели** учатся проводить границу между классами - они моделируют **P(y|x)**: «какова вероятность, что это спам, если в письме есть слово FREE?». **Генеративные модели** учат само распределение данных - **P(x)** или **P(x|z)**: «как выглядят типичные письма?» и могут создавать новые примеры, неотличимые от реальных.

Ключевое отличие в **направлении информации**. Дискриминативная модель *сжимает* вход до метки: изображение 1024x1024 пикселей → одно слово «кот». Генеративная модель *расширяет* вход: короткий промпт «рыжий кот на подоконнике» → детальное изображение с миллионами пикселей. Это как разница между критиком, который оценивает картину, и художником, который её пишет.

**Граница размывается.** Современные модели часто совмещают оба подхода. GPT-4 - генеративная модель (предсказывает следующий токен), но её можно использовать как дискриминативную (classify sentiment). Модели вроде CLIP обучаются связывать изображения и текст, что позволяет и классифицировать, и генерировать.

ХарактеристикаДискриминативнаяГенеративная
МоделируетP(y|x) - границу классовP(x) - распределение данных
ЗадачаКлассификация, регрессияСоздание нового контента
Вход → ВыходДанные → МеткаПромпт → Контент
ПримерыSVM, Logistic Regression, ResNetGPT, DALL-E, Stable Diffusion
Данные для обученияПары (вход, метка)Большие корпуса неразмеченных данных
Типичный размерМиллионы параметровМиллиарды параметров

Спам-фильтр Gmail анализирует входящие письма и помечает их как «спам» или «не спам». К какому типу моделей он относится?

Модальности генеративного AI

Генеративный AI не ограничивается текстом. Современные модели работают с **разными модальностями** - типами данных. Каждая модальность имеет свои особенности: текст дискретен (токены), изображения непрерывны (пиксели), аудио - одномерный сигнал, видео - последовательность кадров. И для каждой модальности исследователи нашли свои архитектурные решения.

**Текст** - самая развитая модальность. Large Language Models (LLM) предсказывают следующий токен и способны писать код, эссе, стихи, переводить и рассуждать. Ключевые модели: **GPT-4** (OpenAI), **Claude** (Anthropic), **Gemini** (Google), **LLaMA** (Meta, open-source). Все они основаны на архитектуре Transformer и обучены на триллионах токенов текста.

**Изображения** - вторая по зрелости модальность. Три основных подхода: **Diffusion models** (Stable Diffusion, DALL-E 3, Midjourney) постепенно убирают шум из случайного изображения; **GAN** (StyleGAN) используют соревнование генератора и дискриминатора; **Autoregressive** (DALL-E 1) генерируют изображение токен за токеном. Diffusion-модели сейчас доминируют благодаря стабильности обучения и качеству результата.

МодальностьКлючевые моделиПринципЗрелость
ТекстGPT-4, Claude, Gemini, LLaMAAutoregressive (next token prediction)Высокая
ИзображенияDALL-E 3, Midjourney, Stable DiffusionDiffusion (деноизинг)Высокая
Аудио/МузыкаSuno, ElevenLabs, Bark, MusicGenAutoregressive + DiffusionСредняя
ВидеоSora, Runway Gen-3, KlingDiffusion в пространстве-времениРастущая
КодCopilot, Cursor, Claude CodeLLM с fine-tuning на кодеВысокая
3DPoint-E, Shap-E, MeshyDiffusion + NeRFРанняя

**Аудио** разделяется на две задачи: **speech synthesis** (ElevenLabs создаёт голос, неотличимый от реального человека, клонируя голос по 30 секундам записи) и **music generation** (Suno генерирует полные песни с вокалом по текстовому описанию). **Видео** - самая сложная модальность: нужно поддерживать консистентность объектов между кадрами, физику движения и временную когерентность. Sora от OpenAI показала впечатляющие результаты, но генерация минуты видео занимает минуты GPU-времени.

**Мультимодальные модели** - главный тренд. GPT-4V (Vision) принимает и текст, и изображения. Gemini работает с текстом, изображениями, аудио и видео. GPT-4o (omni) обрабатывает все модальности в одном потоке. Это движение к **universal model** - единой модели, которая понимает и создаёт контент в любом формате.

Области применения генеративного AI

Генеративный AI проникает в индустрии со скоростью, невиданной для предыдущих технологий. По оценке McKinsey (2023), генеративный AI может добавить **2.6–4.4 трлн** к мировой экономике ежегодно. Но дело не только в деньгах - GenAI меняет сам характер работы: вместо выполнения рутинных задач люди становятся **кураторами и редакторами** AI-контента.

ОбластьПрименениеПримерВлияние
РазработкаГенерация кода, code review, debuggingGitHub Copilot генерирует ~46% кодаУскорение в 2-3x
КреативДизайн, копирайтинг, видеопродакшнMidjourney для концепт-артов в играхСокращение итераций
ОбразованиеПерсонализированное обучение, тьюторингKhan Academy Khanmigo - AI-репетиторМасштабирование 1-on-1
МедицинаАнализ снимков, drug discoveryAlphaFold предсказал 200M белковых структурУскорение исследований
НаукаФормулировка гипотез, анализ литературыFunSearch нашёл новые математические решенияУскорение открытий
БизнесАвтоматизация отчётов, поддержка клиентовKlarna AI обрабатывает 2/3 обращенийСнижение затрат
ПравоАнализ контрактов, подготовка документовHarvey AI для юридических фирмЧасы → минуты
МузыкаГенерация треков, мастерингSuno создаёт полные песни с вокаломДемократизация

**Разработка ПО** - одна из наиболее трансформированных областей. GitHub Copilot, Claude Code и Cursor не просто автодополняют код - они понимают контекст проекта, пишут тесты, находят баги и рефакторят. Исследование GitHub показало, что разработчики с Copilot завершают задачи **на 55% быстрее**. Но важно: AI не заменяет понимание архитектуры и алгоритмов - он усиливает того, кто уже знает, что делает.

**AlphaFold** от DeepMind заслуживает отдельного упоминания. Предсказание 3D-структуры белка по аминокислотной последовательности - задача, которую биологи пытались решить 50 лет. AlphaFold решила её для **200 миллионов белков** (практически всех известных), ускорив исследования в биологии, фармакологии и медицине на десятилетия. За это Демис Хассабис получил Нобелевскую премию по химии в 2024 году.

**Где GenAI наиболее эффективен?** В задачах с тремя характеристиками: 1. есть много примеров - обучающих данных 2. допустима неточность - черновик лучше, чем ничего 3. нужна скорость, а не совершенство - первый драфт, а не финальная версия. Юридическая экспертиза, диагностика болезней, принятие критических решений - здесь AI остаётся *ассистентом*, а не заменой человека.

История генеративного AI

Генеративный AI не возник из ниоткуда в 2022 году. За ним стоят **60 лет** исследований, неудач и прорывов. Каждый период приносил новые идеи, и многие концепции, которые кажутся новыми (вроде нейросетей и attention), были придуманы десятилетия назад - просто тогда не хватало вычислительных мощностей и данных.

**Ключевые поворотные точки.** В 2014 году Иан Гудфеллоу придумал **GAN** (Generative Adversarial Network) - по легенде, за пивом в баре. Идея элегантна: два нейросети соревнуются - генератор создаёт фейковые изображения, дискриминатор отличает их от реальных. В процессе соревнования генератор становится всё лучше. GAN произвели революцию в генерации изображений, но были нестабильны в обучении.

В 2017 году команда Google Brain опубликовала статью **"Attention Is All You Need"** - одну из самых влиятельных работ в истории AI. Transformer заменил рекуррентные сети: вместо последовательной обработки слов (слово за словом) модель научилась обрабатывать все слова **параллельно**, используя механизм **self-attention**. Это позволило масштабировать модели до миллиардов параметров.

**Эра масштабирования (2018–2024).** GPT-1 (117M параметров) показал, что pretraining на большом корпусе текста работает. GPT-2 (1.5B) - что масштабирование даёт качественный скачок. GPT-3 (175B) - что при достаточном масштабе появляются **emergent abilities**: модель начинает делать вещи, которым её не учили (few-shot learning, chain-of-thought reasoning). А ChatGPT (2022) добавил **RLHF** - обучение через человеческую обратную связь - и сделал AI доступным каждому.

**Почему именно сейчас?** Три фактора совпали: 1. **Вычисления** - GPU NVIDIA стали в тысячи раз мощнее, появились TPU и специализированные чипы 2. **Данные** - интернет накопил петабайты текста, изображений, кода 3. **Алгоритмы** - Transformer оказался идеальной архитектурой для масштабирования. Ни один фактор по отдельности не дал бы прорыва - нужны были все три.

ELIZA (1966): иллюзия понимания

Джозеф Вейценбаум в MIT создал ELIZA - программу, имитирующую психотерапевта. Она использовала простой pattern matching: если пользователь говорил «мне грустно», ELIZA отвечала «Почему вам грустно?». Вейценбаум был потрясён, когда его секретарь попросила оставить её наедине с программой для «приватного разговора». Он написал книгу-предупреждение о том, как легко люди приписывают машинам интеллект. Спустя 58 лет этот урок актуален как никогда.

Генеративный AI понимает и думает как человек - он ведёт осмысленные диалоги и решает задачи

GenAI - это статистические модели предсказания следующего токена. Они выучили паттерны из триллионов токенов текста и создают правдоподобные продолжения, но не обладают пониманием, сознанием или намерениями

Когда GPT пишет «Париж - столица Франции», он не «знает» это как факт. Он выучил, что после токенов «Париж - столица» с высокой вероятностью следует «Франции». Это создаёт иллюзию понимания (как ELIZA в 1966!), но модель не имеет внутренней модели мира - она оперирует статистикой последовательностей. Потому модели уверенно «галлюцинируют» - выдают правдоподобный, но ложный текст.

Ключевые идеи

  • **Два типа моделей:** дискриминативные (P(y|x) - классификация) vs генеративные (P(x) - создание нового). ChatGPT - это генеративная модель, спам-фильтр - дискриминативная
  • **6 модальностей:** текст, изображения, аудио, видео, код, 3D. Тренд - мультимодальные модели (GPT-4o), обрабатывающие все форматы
  • **60 лет эволюции:** от ELIZA (1966) через GAN (2014) и Transformer (2017) к ChatGPT (2022). Три фактора прорыва: вычисления + данные + алгоритмы
  • **GenAI не думает** - это статистические модели предсказания паттернов. Иллюзия понимания ≠ понимание. Помните ELIZA!

Связанные темы

Генеративный AI стоит на фундаменте нескольких ключевых технологий:

  • Языковые модели: от n-gram до GPT — Как именно LLM предсказывают следующий токен - от простых n-gram к Transformer
  • Токенизация: BPE и SentencePiece — Как текст разбивается на токены - первый шаг обработки в любой LLM
  • Transformer-архитектура — Self-attention и позиционное кодирование - сердце современных генеративных моделей

Вопросы для размышления

  • Если генеративная модель не «понимает» в человеческом смысле, а лишь предсказывает токены - где проходит граница между «имитацией понимания» и «настоящим пониманием»? Существует ли эта граница?
  • Какие задачи в вашей работе или учёбе уже можно делегировать генеративному AI, а какие требуют именно человеческого суждения?
  • Рост моделей: 117M → 1.8T параметров за 5 лет. Может ли этот рост продолжаться бесконечно, или мы упрёмся в фундаментальные ограничения?

Связанные уроки

  • gai-02 — Архитектуры генеративных моделей: VAE, GAN, Diffusion
  • dl-01 — Deep learning - фундамент всех генеративных архитектур
  • prob-01-intro — Вероятностные распределения: basis generative modeling
  • nlp-01 — Языковая генерация строится поверх NLP
  • aie-03-llm-fundamentals — LLM как главный кейс генеративного AI
  • st-01-feedback-loops — Диффузия как обратная связь: шум → денойз → изображение
  • ml-01-intro
Что такое генеративный AI

0

1

Войти

**Качество сильно варьируется между модальностями.** Текстовые модели уже превосходят среднего человека в ряде задач (SAT, медицинские экзамены). Генерация изображений впечатляет, но часто ошибается в деталях (пальцы, текст на изображениях). Видео-генерация пока на ранней стадии - несколько секунд приемлемого качества.

Какая модальность генеративного AI считается наиболее технически сложной из-за необходимости поддерживать консистентность во времени?

**Экономическое влияние.** Goldman Sachs оценивает, что генеративный AI затронет **300 миллионов** рабочих мест в мире. Но это не означает массовые увольнения - скорее трансформацию: задачи изменятся, а не исчезнут. Дизайнер не перестанет быть нужен - он будет курировать AI-генерацию. Программист не останется без работы - он будет управлять AI-кодером на уровне архитектуры.

AlphaFold от DeepMind решила задачу предсказания структуры белков, над которой учёные работали 50 лет. Какой аспект этого достижения демонстрирует уникальную силу GenAI?

Какое событие 2017 года стало архитектурным фундаментом для всех современных LLM - от GPT до Claude?