Статистика

Вариационный вывод (продвинутый ELBO)

Как аппроксимировать аналитически неразрешимое апостериорное распределение в масштабируемых моделях, когда MCMC требует недель вычислений?

**VAE (Kingma & Welling 2013):** обучение на 60 000 изображений MNIST за 4 минуты против нескольких часов MCMC; основа современных генеративных моделей
**Latent Dirichlet Allocation:** вариационный EM обрабатывает 1 миллион документов за часы; MCMC на том же корпусе занял бы недели
**Байесовские нейросети:** вариационный вывод для неопределённости предсказаний в автономных автомобилях Tesla
**Stan и PyMC:** автоматическое вариационное приближение (ADVI) как быстрая альтернатива MCMC для исследовательского анализа

Предварительные знания

КЛ-расходимость
Байесовский вывод
Иерархические байесовские модели

Вариационный вывод превращает интеграцию в оптимизацию: вместо MCMC-выборки из p(z|x) ищется ближайшее распределение q_φ(z|x) из параметрического семейства Q, минимизируя KL(q‖p). Задача становится дифференцируемой и решается стохастическим градиентным спуском.

Выбор вариационного семейства - ключевой компромисс: Mean-field Q = ∏_i q(z_i) быстр, но теряет корреляции. Полное ковариационное гауссовское q дорогостоящее (O(d²) параметров). Нормализующие потоки - средний вариант с управляемой экспрессивностью.

Importance Weighted Autoencoder (IWAE, Burda et al., 2015) улучшает ELBO через importance sampling: L_K = E[log (1/K) ∑_{k=1}^K p(x,z_k)/q(z_k|x)]. L_K ≥ L_{K-1} ≥ ELBO и L_K → log p(x) при K → ∞. При K > 1 дисперсия оценки градиента растёт, но граница становится плотнее. Применяется когда точность аппроксимации критична и вычислительный бюджет позволяет K ≥ 5 samples.

Стохастическая вариационная оптимизация (SVI, Hoffman et al., 2013) масштабирует вариационный вывод на большие датасеты через минибатчи: на каждом шаге используется подвыборка точек данных для оценки градиента ELBO. Метод следует стохастическому градиентному спуску с убывающим шагом ρ_t = (τ_0 + t)^{-κ} (κ ∈ (0.5, 1]). В LDA это позволяет обучать на корпусах из миллионов документов без загрузки всего датасета в память.

Posterior collapse в VAE: при мощном декодере p_θ(x|z) нейросеть игнорирует z, и q_φ(z|x) вырождается в p(z) (KL → 0). Это проблема для диффузионных задач и генерации текста. Решения: KL annealing (постепенное включение KL-члена во время обучения), free bits (принудительный минимальный KL per dimension), использование CNN вместо LSTM декодера.

ELBO и вариационная нижняя граница

Вариационный вывод (VI) заменяет MCMC оптимизацией: апостериорное p(z | x) аппроксимируется параметрическим распределением q_φ(z), параметры φ выбираются минимизацией KL(q_φ || p). Прямая минимизация KL невозможна (требует знать p(x)), но эквивалентна максимизации ELBO — нижней границы log-маргинального правдоподобия log p(x).

Почему максимизация ELBO эквивалентна минимизации KL(q || p(z|x)) при фиксированных данных x?

Ключевое равенство: log p(x) = ELBO(q_φ) + KL(q_φ || p(z|x)). Левая часть фиксирована при заданных данных x (это маргинальное правдоподобие модели). Значит сумма ELBO + KL константна, и максимизация ELBO по φ автоматически минимизирует KL. Это позволяет обойти невычислимое p(x) и работать только с ELBO.

среднеполевая аппроксимация

Mean-field VI — самая популярная параметризация: q факторизуется по координатам z_j, q(z) = Π_j q_j(z_j). Каждый q_j оптимизируется поочерёдно с фиксированными остальными (coordinate ascent VI, CAVI). Замкнутые обновления существуют для сопряжённых экспоненциальных семейств.

Mean-field обновления для гауссовских моделей напоминают EM, но симметризованы по всем переменным. SVI (Stochastic VI) применяет mini-batch SGD к ELBO для больших датасетов.

Какое главное ограничение mean-field вариационной аппроксимации q(z) = Π_j q_j(z_j)?

По построению q(z) = Π_j q_j(z_j) не может выразить никаких корреляций между координатами. Если истинное p(z | x) имеет сильно коррелированные компоненты (например, через скрытую структуру в иерархической модели), mean-field 'сжимает' каждую координату индивидуально и недооценивает совместную дисперсию. Решение: structured VI или normalizing flows, допускающие зависимости.

репараметризация и связь с VAE

Трюк репараметризации (Kingma-Welling, 2013): для гладких q_φ выразить z = g(ε, φ) с фиксированной базовой ε ~ N(0, I). Тогда градиент ELBO по φ выносится из ожидания и оценивается обычным backprop — основа VAE и амортизированного VI.

Нормализующие потоки (Rezende-Mohamed) обобщают репараметризацию: z = f_K ∘ ... ∘ f_1(ε), где f_k — обратимые преобразования с трактабельным якобианом. Дают гибкие неГауссовские q без потери дифференцируемости.

Почему трюк репараметризации даёт градиенты ELBO с гораздо меньшей дисперсией, чем оценка через score function (REINFORCE)?

Score function: ∇_φ E_q[f] = E_q[f · ∇_φ log q] — оценка имеет огромную дисперсию из-за множителя log q. Репараметризация z = g(ε, φ): ∇_φ E_ε[f(g(ε,φ))] = E_ε[∇_φ f(g(ε,φ))] — градиент f напрямую через путь данных. Дисперсия pathwise-оценки обычно в 10-100 раз меньше, что делает обучение VAE возможным.

Вариационный вывод и генеративные модели

Вариационный вывод — фундамент современных глубоких генеративных моделей.

VAE и диффузионные модели — VAE напрямую максимизирует ELBO; диффузионные модели — иерархический VAE с фиксированным forward-процессом
GAN — Альтернативный подход к генерации без явной плотности; теряет вероятностную интерпретацию, но избегает проблем размытия VAE
Байесовские нейросети — VI применяют к весам сети для аппроксимации апостериорного и оценки эпистемической неопределённости

Итоги

ELBO = E_q[log p(x,z)] - E_q[log q(z|x)] = log p(x) - KL(q||p(z|x)); максимизируется вместо прямой интеграции
VAE: репараметризация z = μ_φ + σ_φ ⊙ ε позволяет backprop через выборку; ELBO = реконструкция - KL-регуляризация
Нормализующие потоки: последовательность биекций f_k трансформирует q_0 → q_K с отслеживанием якобиана
BBVI: score function estimator ∇_φ L = E_q[log p(x,z) ∇_φ log q_φ]; работает без репараметризации
ADVI: гауссовское q в трансформированном пространстве; быстрое исследовательское приближение в Stan/PyMC

ELBO и вариационная нижняя граница

Почему максимизация ELBO эквивалентна минимизации KL(q || p(z|x)) при фиксированных данных x?

среднеполевая аппроксимация

Какое главное ограничение mean-field вариационной аппроксимации q(z) = Π_j q_j(z_j)?

репараметризация и связь с VAE

Итоги

ELBO = E_q[log p(x,z)] - E_q[log q(z|x)] = log p(x) - KL(q||p(z|x)); максимизируется вместо прямой интеграции

VAE: репараметризация z = μ_φ + σ_φ ⊙ ε позволяет backprop через выборку; ELBO = реконструкция - KL-регуляризация

Нормализующие потоки: последовательность биекций f_k трансформирует q_0 → q_K с отслеживанием якобиана

BBVI: score function estimator ∇_φ L = E_q[log p(x,z) ∇_φ log q_φ]; работает без репараметризации

ADVI: гауссовское q в трансформированном пространстве; быстрое исследовательское приближение в Stan/PyMC