Генеративный AI

Image Generation: продвинутые

В 2023 году SDXL-Turbo сгенерировал качественную картинку за 150 мс - примерно столько же, сколько занимает моргание. Через год Sora показала видео длиной в минуту. Скорость диффузии выросла в 300 раз за два года.

**Consistency Models в мобильных приложениях:** приложение Lensa и аналоги используют 4-шаговую генерацию прямо на смартфоне без серверного вызова
**Stable Video Diffusion в рекламе:** генерация product showcase-видео из одной фотографии товара - агентства заменяют видеосъёмку ИИ-генерацией
**Shap-E в e-commerce:** автоматическая генерация 3D-моделей товаров для AR-примерки без участия 3D-художников

Гонка за скорость и управляемость

К 2023 году диффузия из исследовательской диковинки превратилась в индустрию. В феврале 2023 года Lvmin Zhang, Anyi Rao и Maneesh Agrawala представили ControlNet, добавив к Stable Diffusion структурный контроль через карты глубины, контуры и позу. Летом 2023 года Stability AI выпустила SDXL - модель с заметно более высоким качеством и разрешением. OpenAI ответила DALL-E 3, тесно интегрировав генерацию с ChatGPT. Параллельно дистилляция (Latent Consistency Models, SDXL-Turbo) сократила число шагов с десятков до одного-четырёх, приблизив генерацию к реальному времени.

Предварительные знания

Базовая теория диффузии и DDPM
Stable Diffusion: латентная диффузия и кондиционирование
ControlNet и img2img на уровне идеи

Consistency Models

Диффузные модели генерируют картинку за 50-1000 шагов деноизинга - красиво, но медленно. Consistency Models решают это радикально: одна функция f(x_t, t) = x_0 должна давать одинаковый результат для любой точки траектории деноизинга. Это свойство самосогласованности (consistency) позволяет генерировать изображение за 1-4 шага вместо сотен.

Consistency Training обучает модель напрямую, Consistency Distillation берёт готовую диффузную модель как учителя. Дистилляция быстрее и стабильнее - именно её используют в большинстве production-систем.

Что является ключевым свойством Consistency Models, которое позволяет генерировать за 1 шаг?

Turbo-дистилляция

SDXL-Turbo и Stable Diffusion 3 Turbo используют Adversarial Diffusion Distillation (ADD) - гибрид дистилляции и GAN. Студент-модель обучается одновременно: минимизировать дистилляционный лосс от учителя-диффузии и обмануть дискриминатор. Результат - 4-шаговая модель с качеством, неотличимым от 50-шаговой. Latency падает с 3 секунд до 150 мс на одной A100.

SDXL-Turbo обучен на 4 шага, но реально работает даже на 1 шаге с приемлемым качеством. LCM-LoRA (Latent Consistency Model LoRA) позволяет применить ускорение к любому fine-tuned варианту SD без полного переобучения.

Почему при использовании SDXL-Turbo нужно устанавливать guidance_scale=0.0?

Video Generation

Генерация видео - это генерация изображений плюс временная согласованность. Sora, Stable Video Diffusion, Runway Gen-3 используют разные архитектуры: DiT (Diffusion Transformer) с 3D-attention по пространству и времени, или 2D-диффузию с temporal attention слоями. Главная проблема - видеопамяти: 16 кадров 1024x576 в float16 весят около 3 GB только для активаций.

Stable Video Diffusion генерирует 25 кадров из одного изображения. CogVideoX и Open-Sora - open-source альтернативы с публичными весами. Sora от OpenAI использует spacetime patches - аналог image patches, но в 3D пространстве-времени.

Что такое spacetime patches в архитектуре Sora?

3D-синтез

3D-генерация переживает революцию через Neural Radiance Fields (NeRF) и 3D Gaussian Splatting. DreamFusion обучает NeRF через Score Distillation Sampling (SDS) - диффузная модель выступает как critic, оценивающий рендеры с разных ракурсов. Shap-E и Point-E от OpenAI генерируют 3D напрямую за секунды. Gaussian Splatting на порядок быстрее NeRF при сопоставимом качестве.

Score Distillation Sampling - ключевой трюк: вместо прямой генерации 3D-объекта используется диффузная модель как источник градиентов. NeRF оптимизируется так, чтобы рендеры с любого угла выглядели правдоподобно по мнению 2D-диффузной модели.

3D Gaussian Splatting - это просто 'быстрый NeRF'

Gaussian Splatting - принципиально другое представление: сцена задаётся миллионами гауссиан с позицией, формой, цветом и прозрачностью, а не нейросетью плотности/цвета

NeRF - implicit representation (нейросеть), Gaussian Splatting - explicit (набор параметрических примитивов). Splatting растеризует гауссианы напрямую на GPU без ray marching, что даёт скорость рендеринга 100+ FPS вместо секунд для NeRF

Что такое Score Distillation Sampling в контексте 3D-генерации?

Ключевые идеи

**Consistency Models:** самосогласованность f(x_t, t) = x_0 позволяет генерировать за 1-4 шага вместо 50-1000
**ADD-дистилляция:** SDXL-Turbo сочетает дистилляцию и GAN - 4 шага с quality gap менее 10% от полного SDXL
**Видео и 3D:** DiT с 3D-attention для видео, SDS + NeRF/Gaussian Splatting для 3D - диффузия вышла за пределы статических изображений

Связанные темы

Продвинутые техники генерации опираются на фундаментальные концепции диффузных моделей:

Диффузные модели — Consistency Models и Turbo - методы ускорения классической диффузии через дистилляцию
ControlNet и Fine-tuning — LCM-LoRA применяет ускорение к fine-tuned моделям без переобучения

Вопросы для размышления

Consistency Distillation требует существующую диффузную модель как учителя. Какие ограничения это накладывает - может ли CD-модель превзойти учителя по качеству?
Sora генерирует видео до минуты. Какие технические барьеры мешают генерировать полнометражные фильмы - и являются ли они фундаментальными или временными?
Score Distillation Sampling использует 2D-диффузию для оптимизации 3D. Какие артефакты возникают из-за того, что модель 'видела' только 2D-изображения, а не реальные 3D-объекты?

Связанные уроки

gai-10 — Строится прямо на пайплайнах Stable Diffusion
gai-14 — Техники изображений обобщаются на генерацию видео
aie-27-video-audio-generation — Продакшен-взгляд на продвинутый синтез видео и аудио
cv-16 — 3D и видео-синтез относятся к области vision
gai-19 — Turbo-дистилляция - оптимизация скорости инференса
dl-01