Теория меры

Теория меры в ML и Statistics

KL-дивергенция в VAE, информационное узкое горлышко в трансформерах, MCMC в байесовских методах - всё это не разные техники, а одна теория меры в разных нарядах. Понимание общей структуры позволяет переносить результаты между задачами и видеть глубинные связи между методами.

**VAE и диффузионные модели:** ELBO = реконструкция − KL(q||p), где KL - это производная Радона-Никодима между апостериорным и приорным распределениями
**GAN-ы:** минимизируют Jensen-Shannon дивергенцию - F-дивергенцию между реальным и генеративным распределениями
**MCMC:** использует эргодическую теорему: временные средние по цепи Маркова сходятся к E_π[f] почти наверное

Предварительные знания

Measure Theory and Probability

KL-дивергенция и производная Радона-Никодима

KL-дивергенция - не просто формула из учебника по информационной теории. Это интеграл Лебега от производной Радона-Никодима. Такая перспектива объясняет её несимметричность, условие конечности, и почему F-дивергенции обобщают её естественным образом.

**KL-дивергенция через теорию меры:** KL(P || Q) = ∫_Ω log(dP/dQ) dP где dP/dQ - производная Радона-Никодима P относительно Q. **Условия конечности:** - KL(P || Q) < ∞ тогда и только тогда, когда P ≪ Q (P абсолютно непрерывна относительно Q) - Если P ⊄ Q - существует A с Q(A)=0, P(A)>0 - то KL = +∞ **Несимметричность:** KL(P||Q) ≠ KL(Q||P) потому что dP/dQ ≠ dQ/dP.

**F-дивергенции:** обобщение KL - это D_f(P||Q) = ∫ f(dP/dQ) dQ для выпуклой f с f(1)=0. При f(t) = t log t получается KL(P||Q); при f(t) = (1/2)(t-1)² - χ²-дивергенция. GAN-ы обучаются минимизировать F-дивергенцию (Jensen-Shannon дивергенцию) между генеративным и реальным распределениями.

Почему при оптимизации ELBO «mode-seeking» поведение KL(q||p) vs. «mass-covering» поведение KL(p||q)? Это объясняется несимметричностью производных Радона-Никодима: dq/dp и dp/dq меняются местами, что меняет, какие области пространства «штрафуются» сильнее.

KL(P||Q) = +∞ для P = N(1,1) и Q = Uniform([−2, 2]). Почему?

Информационно-теоретические величины через теорию меры

Энтропия, взаимная информация, условная энтропия - все они определяются через интеграл Лебега и производную Радона-Никодима. Теория меры даёт единый язык для этих понятий без привязки к дискретному или непрерывному случаю.

**Энтропия и взаимная информация через теорию меры:** **Энтропия:** H(P) = −KL(P || λ) если P ≪ λ (имеет плотность), или H(P) = −∫ log(dP/dλ) dP **Взаимная информация:** I(X;Y) = KL(P_{X,Y} || P_X ⊗ P_Y) = ∫ log(dP_{XY}/d(P_X⊗P_Y)) dP_{XY} **Смысл:** I(X;Y) = 0 тогда и только тогда, когда P_{X,Y} = P_X ⊗ P_Y - то есть X и Y независимы (мера-произведение!).

**Information Bottleneck (Tishby et al.):** задача обучения представлений формулируется как минимизация I(X;Z) − β·I(Y;Z). Здесь X - исходные данные, Z - скрытое представление, Y - целевая переменная. Теория меры: оба слагаемых - KL-дивергенции между мерами-произведениями и совместными мерами.

Дифференциальная энтропия h(X) может быть отрицательной (в отличие от дискретной) и зависит от выбора меры отсчёта λ. Это следствие того, что h = −KL(P||λ) - и при другом выборе λ получится другое значение. В ML это редко проблема, но формально нужно фиксировать базовую меру.

Взаимная информация I(X;Y) = 0 означает:

ELBO и вариационные автоэнкодеры через теорию меры

Вариационный автоэнкодер (VAE) - это ML-система, основанная на вариационном выводе. Его теоретические основы - неравенство Йенсена для условного ожидания и KL-дивергенция как производная Радона-Никодима.

**ELBO через теорию меры:** log p(x) = log ∫ p(x,z) dz ≥ E_{q(z|x)}[log p(x|z)] − KL(q(z|x) || p(z)) Где KL(q||p) = ∫ log(dq/dp) dq - производная Радона-Никодима в действии. **Доказательство через Йенсена:** log E_p[f] ≥ E_p[log f] (вогнутость логарифма). Применяем к ∫p(x,z)/q(z|x)·q(z|x) dz = ∫ p(x|z)p(z)/q(z|x) · q(z|x) dz.

**β-VAE:** вариант с ELBO = E_q[log p(x|z)] − β·KL(q||p). При β > 1 усиливается штраф за отклонение q от приора p - это информационное узкое горлышко, реализующее принцип Information Bottleneck. Параметр β контролирует баланс между реконструкцией и структурированностью латентного пространства.

В ELBO слагаемое KL(q(z|x) || p(z)) штрафует за:

Эргодическая теорема и временные средние

Эргодическая теорема - глубокий результат, связывающий временные средние и пространственные средние. В ML она объясняет, почему обучение на потоке данных эквивалентно оптимизации по всему распределению.

**Эргодическая теорема Биркгофа:** пусть T: Ω → Ω - мер-сохраняющее преобразование (T-инвариантная мера P) и f ∈ L¹(P). Тогда: (1/N) Σₙ₌₀^{N-1} f(Tⁿω) → E_P[f] при N → ∞ P-почти наверное Временное среднее сходится к пространственному. Это обобщение ЗБЧ на зависимые последовательности.

**Эргодичность в SGD:** при обучении нейросети, последовательно проходя по данным эпоха за эпохой, мы фактически вычисляем временные средние вдоль траектории оптимизатора. Если цепь Маркова, задаваемая SGD в пространстве параметров, эргодична, то эмпирическое среднее потерь сходится к полному математическому ожиданию по распределению данных.

MCMC (Markov Chain Monte Carlo) - прямое применение эргодической теоремы. Строим цепь Маркова с инвариантной мерой π = p(θ|data). По эргодической теореме: (1/N) Σ f(θₙ) → E_π[f(θ)]. Это основа байесовского вывода через Metropolis-Hastings и Hamiltonian MC.

Эргодическая теорема гарантирует, что для мер-сохраняющего T и f ∈ L¹:

Ключевые идеи

**KL(P||Q) = ∫ log(dP/dQ) dP** - интеграл от производной Радона-Никодима; конечна тогда и только тогда, когда P ≪ Q
**I(X;Y) = KL(P_{XY} || P_X⊗P_Y)** - взаимная информация как дивергенция между совместным и произведением маргинальных распределений
**ELBO = E_q[log p(x|z)] − KL(q||p)** - нижняя оценка правдоподобия, доказываемая через неравенство Йенсена для условного ожидания
**Эргодическая теорема:** (1/N)Σ f(Tⁿω) → E_P[f] п.н. - обоснование MCMC и SGD с перебором данных

Связанные темы

Теория меры в ML объединяет все предыдущие концепции:

Абстрактная теория меры — KL-дивергенция и F-дивергенции - интегралы Лебега от производных Радона-Никодима
Мера и вероятность — ELBO использует условное ожидание E_q[log p(x|z)] и неравенство Йенсена для него
Теория меры на собеседовании — Объяснение KL-дивергенции и ELBO без формул - ключевая задача для ML-интервью

Вопросы для размышления

Почему в вариационном выводе используется KL(q||p), а не KL(p||q)? Как это влияет на поведение модели (mode-seeking vs. mass-covering)?
GAN-ы минимизируют Jensen-Shannon дивергенцию, а VAE - KL-дивергенцию. Как это различие в выборе F-дивергенции влияет на качество генерации?
Эргодическая теорема гарантирует сходимость временных средних. Что нарушает эргодичность цепи Маркова на практике (при SGD с батчами)?

Связанные уроки

stat-03-mle