Глубокое обучение
Flow Models и Energy-Based Models
2018. OpenAI GLOW: первые Normalizing Flows с реалистичным лицом 256x256. 2020. SimCLR от Google: self-supervised learning без единой метки обгоняет supervised подходы на ImageNet. 2022. Rectified Flow: диффузия как прямая линия. Каждые 2 года - новая парадигма. Понять все три семейства - значит видеть глубже любого отдельного алгоритма.
- WaveGlow (NVIDIA) использует Normalizing Flows для neural TTS - в 500x быстрее autoregressive WaveNet при качестве студийной записи
- AlphaFold2 использует идеи flows в IPA (Invariant Point Attention) для предсказания 3D структуры белков - революция в drug discovery
- CLIP embeddings от OpenAI используются в Stable Diffusion, DALL-E 3, Midjourney - contrastive learning стал фундаментом multimodal AI
NICE, RealNVP, and the road to invertible models
Laurent Dinh с соавторами представил NICE в 2014, затем RealNVP в 2016, показав, что нейросеть может быть одновременно выразительной и точно обратимой через coupling layers с вычислимым якобианом. В 2018 Kingma и Dhariwal масштабировали идею в Glow - первую flow-модель, генерировавшую фотореалистичные лица. У energy-based моделей корни ещё глубже: сеть ассоциативной памяти John Hopfield 1982 года задавала энергетический ландшафт, минимумы которого хранят паттерны, и эту идею позже развивал LeCun. Flows и EBM - две старейшие линии в генеративном моделировании, теперь вплетённые обратно в score-based диффузию.
Предварительные знания
Normalizing Flows: обратимые преобразования
Normalizing Flows - честная вероятностная модель: точная log-likelihood, точный posterior, детерминированный sampling. VAE аппроксимирует - flows точны. GAN не может оценить likelihood - flows могут. Цена: архитектурные ограничения на обратимость.
Идея: взять простое распределение z ~ N(0,I) и применить последовательность обратимых преобразований f1, f2, ..., fK. Итоговое распределение x = fK(fK-1(...f1(z))) сложное и реалистичное. Через change-of-variables formula: log p(x) = log p(z) + sum log|det J_fi|, где J_fi - якобиан преобразования.
RealNVP (Dinh et al. 2016): coupling layers. x = [x1, x2]. y1 = x1, y2 = x2 * exp(s(x1)) + t(x1). s и t - произвольные нейросети. Якобиан треугольный -> determinant = prod(exp(s(x1))) - O(d). GLOW (Kingma & Dhariwal, OpenAI 2018): 1x1 learned convolutions + coupling layers. Первые flows с реалистичным face generation 256x256.
Flows в audio: WaveGlow (NVIDIA 2019) генерирует speech waveforms через flows. В 500x быстрее WaveNet при сопоставимом качестве. В молекулярном дизайне: flows генерируют 3D молекулярные конформации для drug discovery. AlphaFold2 использует идеи flows в head для структуры белков.
Почему coupling layers в RealNVP эффективны для вычисления якобиана?
Energy-Based Models: функция энергии как модель
Energy-Based Models (EBM) - один из старейших подходов к генеративному моделированию. Идея Хопфилда и Больцмана 1980-х: определить энергетическую функцию E(x), где реальные данные имеют низкую энергию, нереальные - высокую. Вероятность: p(x) = exp(-E(x)) / Z, где Z - нормализационная константа.
Проблема: Z (partition function) невычислима аналитически для сложных E(x). Обучение через contrastive divergence (Hinton 2002) или MCMC. Inference (sampling) через Langevin dynamics: x_{t+1} = x_t - alpha*grad_x E(x_t) + noise. Это та же Langevin dynamics из score matching - связь неслучайна.
Современные EBM ренессанс: Grathwohl et al. (JEM - Joint Energy-based Model, 2020). JEM совмещает classifier и EBM: f(x, y) = E(x) - log p(y|x). leading на CIFAR-10 по OOD detection. EBM как prior в VAE улучшает качество sampling. LeCun активно продвигает EBM как путь к AGI.
Почему partition function Z в EBM является проблемой?
Contrastive Learning: структура без меток
Contrastive Learning - обучение без разметки через сравнение. SimCLR (Chen et al. Google, 2020): взять изображение, сделать два аугментированных вида, минимизировать расстояние между их embeddings, максимизировать расстояние до других изображений в батче. Без единой метки - self-supervised representation learning.
NT-Xent loss (Normalized Temperature-scaled Cross Entropy): для пары (i, j) из одного изображения, loss = -log(sim(i,j) / sum_k sim(i,k)), где sim = cosine similarity / temperature. Temperature tau управляет 'жёсткостью': низкая tau -> острые softmax, высокая-> мягкие, больше tolerance к неточным парам.
CLIP (Radford et al. OpenAI, 2021) - contrastive learning между текстом и изображением. Батч из N пар (image, text). Image encoder + Text encoder. Максимизировать similarity N совпадающих пар, минимизировать N^2 - N несовпадающих. Результат: zero-shot classification без fine-tuning. CLIP embeddings используются в Stable Diffusion для text conditioning.
Что такое 'негативные примеры' в contrastive learning?
Score-Based vs Flow vs EBM: выбор инструмента
Три семейства генеративных моделей помимо GAN и VAE: Flows (точная likelihood, медленные), EBM (гибкие, сложное обучение), Score-based (диффузия). В 2024 году диффузия доминирует в image/audio/video. Flows выиграли в audio TTS и molecular generation. EBM - нишевые применения, OOD detection.
Rectified Flow (Liu et al. 2022, основа Flux) - упрощённая диффузия: прямой процесс как прямая линия от данных до шума (a*x0 + (1-a)*noise), а не кривая Марковская цепь. ODE проще, меньше шагов нужно. Flux.1 (Black Forest Labs, 2024) - leading text-to-image, обгоняет Stable Diffusion XL.
Consistency Models (Song et al. 2023): новая парадигма на стыке flows и диффузии. Один forward pass = финальное изображение. Multi-step: несколько passes для качества. LCM-LoRA: LoRA adapter поверх любой диффузионной модели за 4 шага вместо 50. Practical real-time inference на edge устройствах.
EBM устарели и не используются в современном ML
EBM активно исследуются для OOD detection, composable generation и как components в hybrid models
LeCun продвигает Joint EBM для planning и reasoning как путь к AGI. JEM (2020) показал SOTA OOD detection. Composable EBM (Du et al.): несколько EBM комбинируются мультипликативно для составных концептов без переобучения. Это то, чего диффузия не умеет из коробки
В каком применении Normalizing Flows остаются конкурентоспособными с диффузией в 2024?
Связанные темы
Flows, EBM, Contrastive - три взгляда на одну проблему генерации:
- Diffusion Models — Score-based объединяет EBM и диффузию
- VAE — Латентное пространство и вероятностная генерация
Ключевые идеи
- Flows: обратимые преобразования, точная likelihood через change-of-variables, coupling layers для эффективного якобиана
- EBM: E(x) = скалярная энергия, низкая у реальных данных. Sampling через Langevin. Z невычислима
- Contrastive: self-supervised через позитивные/негативные пары. SimCLR -> CLIP -> foundation embeddings
- 2024: диффузия доминирует в images, flows в audio/molecules, EBM нишевые. Rectified flow упрощает диффузию
Вопросы для размышления
- Почему точная likelihood Flows не всегда лучше приближённой у VAE/диффузии для downstream задач?
- Как Contrastive Learning избегает mode collapse - проблемы характерной для GAN?
- В каком сценарии EBM предпочтительнее диффузионной модели, несмотря на сложность обучения?
Связанные уроки
- dl-15 — Score-based generative models - связующее звено с диффузией
- dl-13 — GAN - классический генеративный конкурент flows
- dl-14 — VAE - ближайший родственник normalizing flows
- calc-19-gradient