Теория меры

Абстрактная теория меры

Почему KL-дивергенция равна +∞ для некоторых пар распределений? Что делает importance sampling теоретически обоснованным? За этими вопросами стоит теорема Радона-Никодима: она формализует понятие «плотности одного распределения относительно другого» и объясняет, когда такая плотность существует.

**KL-дивергенция:** KL(P||Q) = ∫ log(dP/dQ) dP - определяется через производную Радона-Никодима; требует P ≪ Q
**Importance sampling:** E_P[f] = E_Q[f · dP/dQ] - вычисление ожиданий без выборки из P; основа методов MCMC и вариационного вывода
**ELBO в VAE:** слагаемое KL(q||p) в нижней оценке свидетельности - это производная Радона-Никодима в скрытом виде

Предварительные знания

Product Measures and Fubini's Theorem

Знакопеременные меры и разложение Хана

До сих пор меры были неотрицательны. Но при вычислении разностей мер, при работе с вероятностями со знаком (например, в теории мартингалов) или при формализации KL-дивергенции естественно появляются **знакопеременные меры** - аддитивные функции на σ-алгебре, принимающие отрицательные значения.

**Знакопеременная мера:** σ-аддитивная функция ν: F → [-∞, +∞], принимающая не более одного из значений ±∞. **Теорема Хана о разложении:** для каждой знакопеременной меры ν существует разбиение X = P ∪ N (P ∩ N = ∅, P, N ∈ F) такое, что: - ν(A) ≥ 0 для всех A ⊂ P, A ∈ F (P - «положительное множество») - ν(A) ≤ 0 для всех A ⊂ N, A ∈ F (N - «отрицательное множество») **Разложение Жордана:** ν = ν⁺ − ν⁻, где ν⁺ = ν|_P ≥ 0 и ν⁻ = −ν|_N ≥ 0.

**Полная вариация:** |ν| = ν⁺ + ν⁻ - это «общая масса» знакопеременной меры. В статистике расстояние полной вариации TV(P,Q) = (1/2) ∫ |dP/dQ − 1| dQ - мера различия между распределениями, связанная с лучшей ошибкой классификации.

Расстояние полной вариации TV(P,Q) связано с KL-дивергенцией через **неравенство Пинскера**: TV(P,Q) ≤ √(KL(P||Q)/2). Это даёт практическую оценку: если KL мала, то P и Q близки и по более сильной метрике TV.

Знакопеременная мера ν = P − Q (разность двух вероятностных мер). Чему равно ν(X) для всего пространства X?

Теорема Радона-Никодима

Теорема Радона-Никодима - один из главных результатов абстрактной теории меры. Она отвечает на вопрос: когда одну меру можно «выразить» через другую? Ответ - через интеграл функции, называемой **производной Радона-Никодима** или плотностью.

**Абсолютная непрерывность:** мера ν **абсолютно непрерывна** относительно μ (пишут ν ≪ μ), если для любого A ∈ F: μ(A) = 0 ⟹ ν(A) = 0. **Теорема Радона-Никодима:** если ν ≪ μ и обе σ-конечны, то существует единственная (μ-п.в.) неотрицательная измеримая функция f такая, что: ν(A) = ∫_A f dμ для всех A ∈ F Функция f = dν/dμ называется **производной Радона-Никодима** или плотностью ν относительно μ.

**KL-дивергенция через производную Радона-Никодима:** KL(P || Q) = ∫ log(dP/dQ) dP Эта формула определяет KL-дивергенцию для произвольных (не обязательно непрерывных) распределений. Она требует P ≪ Q; если это условие нарушено, KL = +∞ по определению.

Важное приложение: **переход к мере** в стохастических дифференциальных уравнениях. Теорема Гирсанова выражает одно вероятностное пространство через другое через производную Радона-Никодима - это основа ценообразования опционов в финансовой математике.

Что означает, что мера ν абсолютно непрерывна относительно μ (ν ≪ μ)?

Разложение Лебега и сингулярные меры

Не всякая мера абсолютно непрерывна относительно другой. Теорема о разложении Лебега позволяет разложить произвольную меру в сумму абсолютно непрерывной и «ортогональной» (сингулярной) части.

**Теорема Лебега о разложении:** для любых σ-конечных мер ν и μ существует единственное разложение: ν = ν_ac + ν_s где ν_ac ≪ μ (абсолютно непрерывная часть) и ν_s ⊥ μ (сингулярная часть: существует N с μ(N)=0 и ν_s(X\N)=0). **Сингулярная мера:** ν ⊥ μ, если они «живут» на непересекающихся множествах.

**Канторова мера** - классический пример сингулярной непрерывной меры. Она сосредоточена на канторовом множестве (меры Лебега нуль), но при этом не является дискретной - не имеет атомов. Это «третий тип» меры: не абсолютно непрерывная, не дискретная.

В ML смешанные распределения (Gaussian Mixture Models) имеют меру вида Σ πᵢ N(μᵢ, Σᵢ) - это всегда абсолютно непрерывная мера относительно Лебега. Но если в смеси есть дискретная компонента (как в spike-and-slab регуляризации), появляется сингулярная часть.

Мера Дирака δ₀ по отношению к мере Лебега λ является:

Производная Радона-Никодима в ML

Производная Радона-Никодима появляется в ML под разными именами: отношение правдоподобий, importance weight, плотность распределения. Это единая математическая концепция, объединяющая разные задачи.

**Приложения производной Радона-Никодима dP/dQ в ML:** 1. **Importance sampling:** E_P[f] = E_Q[f · dP/dQ] - вычисление ожиданий относительно P через выборку из Q 2. **KL-дивергенция:** KL(P||Q) = ∫ log(dP/dQ) dP 3. **ELBO в VAE:** нижняя оценка ELBO содержит слагаемое KL(q(z|x)||p(z)) = E_{q}[log dq/dp] 4. **Отношение правдоподобий:** Λ(x) = p(x|H₁)/p(x|H₀) = d(P|H₁)/d(P|H₀) - критерий Неймана-Пирсона

**Importance sampling** в ML используется для оценки ожидания по одному распределению через выборку из другого. Корректность оценки требует P ≪ Q (абсолютная непрерывность!): если P имеет область поддержки, где Q = 0, оценка невозможна. Это прямое следствие теоремы Радона-Никодима.

Self-normalised importance sampling: оценка (Σ wᵢ f(xᵢ)) / (Σ wᵢ), где wᵢ = p(xᵢ)/q(xᵢ) - производная Радона-Никодима. Эта оценка более устойчива при больших отклонениях весов. Применяется в Sequential Monte Carlo (SMC) и Particle Filters.

KL(P||Q) = +∞ в каком случае?

Ключевые идеи

**Знакопеременные меры** = разности мер; разложение Хана: ν = ν⁺ − ν⁻ на положительном и отрицательном множестве
**Радон-Никодим:** если ν ≪ μ, то ν(A) = ∫_A (dν/dμ) dμ для единственной измеримой dν/dμ ≥ 0
**Разложение Лебега:** ν = ν_ac + ν_s (абсолютно непрерывная + сингулярная части относительно μ)
**Производная РН в ML:** KL(P||Q) = ∫ log(dP/dQ) dP; importance weight wᵢ = dP/dQ(xᵢ)

Связанные темы

Теорема Радона-Никодима связывает абстрактную теорию меры с вероятностью и ML:

Мера-произведение и теорема Фубини — Маргинализация - это интеграл по произведению, а условные распределения задаются через производную Радона-Никодима
Мера и теория вероятностей — Условное математическое ожидание E[X|F] определяется через теорему Радона-Никодима
Теория меры в ML — KL-дивергенция, ELBO, важностная выборка - все через производную Радона-Никодима

Вопросы для размышления

Почему KL-дивергенция несимметрична: KL(P||Q) ≠ KL(Q||P)? Что происходит с производной Радона-Никодима при перестановке P и Q?
Importance sampling работает хуже, когда P и Q «далеки». Как это связано с абсолютной непрерывностью и производной Радона-Никодима?
Канторова мера сингулярна к мере Лебега, но непрерывна (не имеет атомов). Существует ли аналог в ML: «непрерывные» объекты без плотности Лебега?

Связанные уроки

top-01