Теория меры
Абстрактная теория меры
Почему KL-дивергенция равна +∞ для некоторых пар распределений? Что делает importance sampling теоретически обоснованным? За этими вопросами стоит теорема Радона-Никодима: она формализует понятие «плотности одного распределения относительно другого» и объясняет, когда такая плотность существует.
- **KL-дивергенция:** KL(P||Q) = ∫ log(dP/dQ) dP - определяется через производную Радона-Никодима; требует P ≪ Q
- **Importance sampling:** E_P[f] = E_Q[f · dP/dQ] - вычисление ожиданий без выборки из P; основа методов MCMC и вариационного вывода
- **ELBO в VAE:** слагаемое KL(q||p) в нижней оценке свидетельности - это производная Радона-Никодима в скрытом виде
Предварительные знания
Знакопеременные меры и разложение Хана
До сих пор меры были неотрицательны. Но при вычислении разностей мер, при работе с вероятностями со знаком (например, в теории мартингалов) или при формализации KL-дивергенции естественно появляются **знакопеременные меры** - аддитивные функции на σ-алгебре, принимающие отрицательные значения.
**Знакопеременная мера:** σ-аддитивная функция ν: F → [-∞, +∞], принимающая не более одного из значений ±∞. **Теорема Хана о разложении:** для каждой знакопеременной меры ν существует разбиение X = P ∪ N (P ∩ N = ∅, P, N ∈ F) такое, что: - ν(A) ≥ 0 для всех A ⊂ P, A ∈ F (P - «положительное множество») - ν(A) ≤ 0 для всех A ⊂ N, A ∈ F (N - «отрицательное множество») **Разложение Жордана:** ν = ν⁺ − ν⁻, где ν⁺ = ν|_P ≥ 0 и ν⁻ = −ν|_N ≥ 0.
**Полная вариация:** |ν| = ν⁺ + ν⁻ - это «общая масса» знакопеременной меры. В статистике расстояние полной вариации TV(P,Q) = (1/2) ∫ |dP/dQ − 1| dQ - мера различия между распределениями, связанная с лучшей ошибкой классификации.
Расстояние полной вариации TV(P,Q) связано с KL-дивергенцией через **неравенство Пинскера**: TV(P,Q) ≤ √(KL(P||Q)/2). Это даёт практическую оценку: если KL мала, то P и Q близки и по более сильной метрике TV.
Знакопеременная мера ν = P − Q (разность двух вероятностных мер). Чему равно ν(X) для всего пространства X?
Теорема Радона-Никодима
Теорема Радона-Никодима - один из главных результатов абстрактной теории меры. Она отвечает на вопрос: когда одну меру можно «выразить» через другую? Ответ - через интеграл функции, называемой **производной Радона-Никодима** или плотностью.
**Абсолютная непрерывность:** мера ν **абсолютно непрерывна** относительно μ (пишут ν ≪ μ), если для любого A ∈ F: μ(A) = 0 ⟹ ν(A) = 0. **Теорема Радона-Никодима:** если ν ≪ μ и обе σ-конечны, то существует единственная (μ-п.в.) неотрицательная измеримая функция f такая, что: ν(A) = ∫_A f dμ для всех A ∈ F Функция f = dν/dμ называется **производной Радона-Никодима** или плотностью ν относительно μ.
**KL-дивергенция через производную Радона-Никодима:** KL(P || Q) = ∫ log(dP/dQ) dP Эта формула определяет KL-дивергенцию для произвольных (не обязательно непрерывных) распределений. Она требует P ≪ Q; если это условие нарушено, KL = +∞ по определению.
Важное приложение: **переход к мере** в стохастических дифференциальных уравнениях. Теорема Гирсанова выражает одно вероятностное пространство через другое через производную Радона-Никодима - это основа ценообразования опционов в финансовой математике.
Что означает, что мера ν абсолютно непрерывна относительно μ (ν ≪ μ)?
Разложение Лебега и сингулярные меры
Не всякая мера абсолютно непрерывна относительно другой. Теорема о разложении Лебега позволяет разложить произвольную меру в сумму абсолютно непрерывной и «ортогональной» (сингулярной) части.
**Теорема Лебега о разложении:** для любых σ-конечных мер ν и μ существует единственное разложение: ν = ν_ac + ν_s где ν_ac ≪ μ (абсолютно непрерывная часть) и ν_s ⊥ μ (сингулярная часть: существует N с μ(N)=0 и ν_s(X\N)=0). **Сингулярная мера:** ν ⊥ μ, если они «живут» на непересекающихся множествах.
**Канторова мера** - классический пример сингулярной непрерывной меры. Она сосредоточена на канторовом множестве (меры Лебега нуль), но при этом не является дискретной - не имеет атомов. Это «третий тип» меры: не абсолютно непрерывная, не дискретная.
В ML смешанные распределения (Gaussian Mixture Models) имеют меру вида Σ πᵢ N(μᵢ, Σᵢ) - это всегда абсолютно непрерывная мера относительно Лебега. Но если в смеси есть дискретная компонента (как в spike-and-slab регуляризации), появляется сингулярная часть.
Мера Дирака δ₀ по отношению к мере Лебега λ является:
Производная Радона-Никодима в ML
Производная Радона-Никодима появляется в ML под разными именами: отношение правдоподобий, importance weight, плотность распределения. Это единая математическая концепция, объединяющая разные задачи.
**Приложения производной Радона-Никодима dP/dQ в ML:** 1. **Importance sampling:** E_P[f] = E_Q[f · dP/dQ] - вычисление ожиданий относительно P через выборку из Q 2. **KL-дивергенция:** KL(P||Q) = ∫ log(dP/dQ) dP 3. **ELBO в VAE:** нижняя оценка ELBO содержит слагаемое KL(q(z|x)||p(z)) = E_{q}[log dq/dp] 4. **Отношение правдоподобий:** Λ(x) = p(x|H₁)/p(x|H₀) = d(P|H₁)/d(P|H₀) - критерий Неймана-Пирсона
**Importance sampling** в ML используется для оценки ожидания по одному распределению через выборку из другого. Корректность оценки требует P ≪ Q (абсолютная непрерывность!): если P имеет область поддержки, где Q = 0, оценка невозможна. Это прямое следствие теоремы Радона-Никодима.
Self-normalised importance sampling: оценка (Σ wᵢ f(xᵢ)) / (Σ wᵢ), где wᵢ = p(xᵢ)/q(xᵢ) - производная Радона-Никодима. Эта оценка более устойчива при больших отклонениях весов. Применяется в Sequential Monte Carlo (SMC) и Particle Filters.
KL(P||Q) = +∞ в каком случае?
Ключевые идеи
- **Знакопеременные меры** = разности мер; разложение Хана: ν = ν⁺ − ν⁻ на положительном и отрицательном множестве
- **Радон-Никодим:** если ν ≪ μ, то ν(A) = ∫_A (dν/dμ) dμ для единственной измеримой dν/dμ ≥ 0
- **Разложение Лебега:** ν = ν_ac + ν_s (абсолютно непрерывная + сингулярная части относительно μ)
- **Производная РН в ML:** KL(P||Q) = ∫ log(dP/dQ) dP; importance weight wᵢ = dP/dQ(xᵢ)
Связанные темы
Теорема Радона-Никодима связывает абстрактную теорию меры с вероятностью и ML:
- Мера-произведение и теорема Фубини — Маргинализация - это интеграл по произведению, а условные распределения задаются через производную Радона-Никодима
- Мера и теория вероятностей — Условное математическое ожидание E[X|F] определяется через теорему Радона-Никодима
- Теория меры в ML — KL-дивергенция, ELBO, важностная выборка - все через производную Радона-Никодима
Вопросы для размышления
- Почему KL-дивергенция несимметрична: KL(P||Q) ≠ KL(Q||P)? Что происходит с производной Радона-Никодима при перестановке P и Q?
- Importance sampling работает хуже, когда P и Q «далеки». Как это связано с абсолютной непрерывностью и производной Радона-Никодима?
- Канторова мера сингулярна к мере Лебега, но непрерывна (не имеет атомов). Существует ли аналог в ML: «непрерывные» объекты без плотности Лебега?