Теория меры

Теорема Радона-Никодима

Плотность вероятности f(x) = dP/dλ - частный случай производной Радона-Никодима. Importance Sampling в ML - это оценка интегралов через R-H производную. Условное ожидание E[X|G] - R-H производная на подпространстве. Вся современная вероятность строится на этой теореме.

  • Importance Sampling: dP/dQ - веса для смены меры при интегрировании
  • Байесовский вывод: апостериорная плотность = R-H производная апостериора по приору
  • RLHF (Reinforcement Learning from Human Feedback): KL-дивергенция через R-H производную
  • Финансы: цена опциона = E_Q[payoff] под риск-нейтральной мерой Q (смена меры!)

Абсолютная непрерывность мер: μ ≪ ν

Wolfram Mathematica 14 (2024) реализует Lebesgue integration для symbolic computing: вычисление ∫ от exp(-x²) от 0 до ∞ за 0.001 с с символьной точностью. Мера μ **абсолютно непрерывна** относительно меры ν (пишем μ ≪ ν), если из ν(E) = 0 следует μ(E) = 0. Интуитивно: ν «видит» всё, что видит μ. Противоположное - **сингулярность** μ ⊥ ν: существует разбиение X = A ∪ B с ν(A) = 0 и μ(B) = 0 (меры «живут» на непересекающихся множествах).

**Примеры абсолютной непрерывности:** - μ = N(0,1), ν = мера Лебега: μ ≪ ν (гауссова мера имеет плотность) - μ = Poisson(λ), ν = мера подсчёта на ℕ: μ ≪ ν - μ = мера Дирака δ₀, ν = мера Лебега: μ ⊥ ν (Дирак сосредоточена в точке 0 - нулевом множестве Лебега) - μ = мера Кантора, ν = мера Лебега: μ ⊥ ν (мера Кантора сосредоточена на канторовом множестве меры 0) **Теорема Лебега (разложение):** Любая мера μ однозначно раскладывается: μ = μ_ac + μ_s, где μ_ac ≪ ν и μ_s ⊥ ν.

Мера μ абсолютно непрерывна относительно ν (μ ≪ ν). Что это означает?

Теорема Радона-Никодима: существование плотности

**Теорема Радона-Никодима:** Если μ и ν - σ-конечные меры на (X, 𝒜) и μ ≪ ν, то существует единственная (ν-п.в.) неотрицательная измеримая функция f такая, что μ(E) = ∫_E f dν для всех E ∈ 𝒜. Функцию f называют **производной Радона-Никодима** или **плотностью меры μ относительно ν** и обозначают dμ/dν.

**Производная Радона-Никодима - обобщение плотности вероятности:**

Контекстνμdμ/dν
Непрерывная случайная величинаЛебег λP_X (распределение X)плотность f_X(x)
Дискретная случайная величинаСчитающая мераP_XP(X = x) (масса вероятности)
Importance SamplingQ (предложение)P (цель)весовая функция w(x) = dP/dQ
Байесовский выводПриоритет πАпостериоротношение правдоподобия × 1/Z

**Свойства:** d(αμ)/dν = α·dμ/dν; d(μ₁+μ₂)/dν = dμ₁/dν + dμ₂/dν; цепное правило: dμ/dλ = (dμ/dν)·(dν/dλ)

Что такое производная Радона-Никодима dμ/dν в теории вероятностей?

Условное ожидание как производная Радона-Никодима

**Условное ожидание E[X|G]** (относительно σ-подалгебры G ⊆ F) существует и единственно по теореме Радона-Никодима. Определим меру ν на (Ω, G) как ν(A) = ∫_A X dP. Тогда ν ≪ P|_G, и E[X|G] = dν/d(P|_G) - производная R-H. Это строгое определение условного ожидания для общих вероятностных пространств.

**Условие σ-конечности в теореме Радона-Никодима нельзя опустить!** Пример: (X, 𝒜) = ([0,1], ℬ([0,1])), ν = мера подсчёта (несчётная), μ = мера Лебега. Тогда μ ≪ ν (ν(E) = 0 ⟹ E = ∅ ⟹ μ(E) = 0). Но производная R-H не существует: ν не σ-конечна. Стандартная теорема требует σ-конечности обеих мер.

Почему условное ожидание E[X|G] определяется через производную Радона-Никодима?

Ключевые идеи

  • μ ≪ ν (абсолютная непрерывность): ν(E) = 0 ⟹ μ(E) = 0
  • Теорема Радона-Никодима: μ ≪ ν ⟹ ∃! f = dμ/dν с μ(E) = ∫_E f dν
  • Плотность вероятности = R-H производная относительно меры Лебега
  • Цепное правило: dμ/dλ = (dμ/dν)·(dν/dλ)
  • Условное ожидание E[X|G] = R-H производная ν/P|_G, где ν(A) = ∫_A X dP
  • Importance Sampling: E_P[f] = E_Q[f·(dP/dQ)]

Связанные темы

Теорема Радона-Никодима - центральный результат теории меры:

  • Знаковые меры — R-H теорема расширяется на знаковые меры через разложение Жордана
  • Регулярные меры — Теорема Риса - R-H теорема для функционалов на пространстве непрерывных функций

Вопросы для размышления

  • Как теорема Радона-Никодима объясняет, почему для непрерывных распределений P(X = a) = 0?
  • Цепное правило dμ/dλ = (dμ/dν)·(dν/dλ) - как это соотносится с цепным правилом дифференцирования?
  • Что происходит в importance sampling, если поддержка предложения Q не содержит поддержку цели P? Почему это провал?

Связанные уроки

  • stat-03-mle
Теорема Радона-Никодима

0

1

Войти