Теория меры
Мера-произведение и теорема Фубини
Как вычислить ожидание по совместному распределению двух случайных величин? Почему маргинализация в байесовских моделях работает именно так? Теорема Фубини - математическое обоснование возможности «интегрировать по одной переменной за раз». Метод Монте-Карло - её численный двойник.
- **Совместные распределения:** независимость случайных величин = мера совместного распределения есть произведение мер; P_{(X,Y)} = P_X × P_Y
- **Байесовская маргинализация:** p(y|x) = ∫ p(y|θ,x) p(θ) dθ - итерированный интеграл по мере-произведению, оправдываемый теоремой Фубини
- **Метод Монте-Карло:** численная реализация теоремы Фубини; ошибка O(1/√N) не зависит от размерности
Предварительные знания
Произведение σ-алгебр и мер
Как корректно определить интегрирование по нескольким переменным? Нужно построить меру на произведении пространств. Именно так формализуется понятие совместного распределения в теории вероятностей.
**Произведение σ-алгебр:** для двух измеримых пространств (X, F) и (Y, G) **произведение σ-алгебр** F ⊗ G - наименьшая σ-алгебра на X×Y, содержащая все «прямоугольники» A×B, где A ∈ F, B ∈ G. **Мера-произведение:** для σ-конечных мер μ на (X,F) и ν на (Y,G) существует единственная мера μ×ν на (X×Y, F⊗G) такая, что: (μ×ν)(A×B) = μ(A) · ν(B)
**Независимость = мера-произведение:** случайные величины X и Y называются независимыми тогда и только тогда, когда их совместное распределение P_{(X,Y)} совпадает с мерой-произведением P_X × P_Y. Это фундаментальное определение независимости, не требующее предположений о существовании плотности.
Борелевская σ-алгебра на ℝ² совпадает с B(ℝ) ⊗ B(ℝ) - произведением борелевских σ-алгебр на ℝ. Это глубокий факт, который гарантирует, что обычная двумерная мера Лебега является мерой-произведением λ × λ.
Случайные величины X и Y независимы. Что это означает с точки зрения меры-произведения?
Теорема Фубини и теорема Тонелли
Можно ли менять порядок интегрирования в двойном интеграле? Для Римана это было тонким вопросом. Теоремы Фубини и Тонелли дают точные условия для Лебега.
**Теорема Тонелли (неотрицательный случай):** если f ≥ 0 измерима на (X×Y, F⊗G), то: ∫_{X×Y} f d(μ×ν) = ∫_X (∫_Y f(x,y) dν(y)) dμ(x) = ∫_Y (∫_X f(x,y) dμ(x)) dν(y) Порядок интегрирования можно менять без дополнительных условий! **Теорема Фубини:** если f ∈ L¹(μ×ν), то то же равенство выполняется для произвольных знакопеременных f.
**Маргинализация как итерированный интеграл:** в байесовской статистике маргинальное правдоподобие p(y) = ∫ p(y|θ) p(θ) dθ - это именно итерированный интеграл по мере-произведению. Теорема Фубини гарантирует, что сначала можно интегрировать по θ для фиксированного y, а не наоборот.
**Метод Монте-Карло** - численная версия теоремы Фубини: ∫∫ f(x,y) dx dy ≈ (1/N) Σ f(xᵢ, yᵢ), где (xᵢ, yᵢ) ~ μ×ν. Фубини гарантирует, что итерированное приближение (сначала по одной переменной, потом по другой) даёт тот же результат.
Теорема Фубини позволяет менять порядок интегрирования ∫_X(∫_Y f dν)dμ = ∫_Y(∫_X f dμ)dν при условии:
Когда Фубини не работает: контрпример
Что происходит, если нарушить условие L¹? Рассмотрим классический контрпример: два итерированных интеграла дают разные значения. Это не противоречие - просто функция не является L¹-интегрируемой.
**Контрпример Фубини:** определим на [0,1]×[0,1] функцию: f(x,y) = (x² − y²) / (x² + y²)² Тогда: - ∫₀¹ (∫₀¹ f(x,y) dy) dx = π/4 - ∫₀¹ (∫₀¹ f(x,y) dx) dy = −π/4 Два итерированных интеграла дают **разные значения**! Причина: f ∉ L¹([0,1]²), то есть ∫∫ |f| d(λ×λ) = ∞.
**Практический урок для ML:** при вычислении ожидания E_{(x,y) ~ P}[f(x,y)] через итерированные интегралы - сначала по x, потом по y - нужно убедиться, что E[|f(X,Y)|] < ∞. Если это условие нарушено (например, при тяжёлых хвостах), разные порядки интегрирования могут давать разные ответы.
В глубоком обучении контрпримеры к Фубини могут проявляться при вычислении градиентов ожидаемых потерь с несуммируемыми хвостами. Всегда проверяйте конечность E[|L(θ,X)|] перед перестановкой ожидания и дифференцирования.
Если ∫₀¹(∫₀¹ f dy)dx ≠ ∫₀¹(∫₀¹ f dx)dy, что это означает?
Монте-Карло как численная теорема Фубини
Метод Монте-Карло - это численная реализация теоремы Фубини. Интеграл по произведению мер вычисляется как среднее по выборке из этого произведения. Теория меры объясняет, почему этот метод работает и какова его точность.
**Метод Монте-Карло для двойного интеграла:** по УЗБЧ и теореме Фубини: E_{(x,y)~μ×ν}[f(x,y)] = ∫∫ f d(μ×ν) ≈ (1/N) Σᵢ f(xᵢ, yᵢ) где (xᵢ, yᵢ) ~ μ×ν (независимые выборки из произведения мер). Ошибка ~ O(1/√N) не зависит от размерности!
**Marginalisation в вероятностном ML:** для вычисления апостериорного предсказания p(y*|x*, X, y) = ∫ p(y*|x*,θ) p(θ|X,y) dθ используется MCMC или вариационные методы. Теорема Фубини гарантирует, что маргинализация корректна: ∫∫ p(y*,θ|x*,X,y) dθ = p(y*|x*,X,y).
Квазимонте-Карло (Quasi-MC) заменяет случайные точки последовательностями с равномерным покрытием (последовательности Соболя, Холтона). Это ещё более непосредственно связано с теоремой Фубини: итерированное интегрирование ошибки сходится быстрее, O(log(N)^d/N), чем стандартный MC.
Главное преимущество метода Монте-Карло для вычисления многомерных интегралов:
Ключевые идеи
- **Мера-произведение μ×ν** - единственная мера на X×Y такая, что (μ×ν)(A×B) = μ(A)·ν(B); независимость = совместное = произведение
- **Тонелли:** для f ≥ 0 порядок интегрирования можно менять свободно; **Фубини:** для f ∈ L¹(μ×ν) - тот же вывод для знакопеременных функций
- **Контрпример:** f(x,y) = (x²−y²)/(x²+y²)² даёт разные итерированные интегралы - условие L¹ нарушено
- **Монте-Карло:** E_{μ×ν}[f] ≈ (1/N) Σ f(xᵢ,yᵢ) с ошибкой O(1/√N) без «проклятия размерности»
Связанные темы
Мера-произведение объединяет теорию меры с вероятностью и вычислительными методами:
- Двойственность и теорема Рисса — Интегральные представления функционалов φ(f) = ∫fg dμ используют структуру произведения мер
- Теорема Радона-Никодима — Маргинализация и условные распределения - это теорема Радона-Никодима применительно к проекциям меры-произведения
- Мера и теория вероятностей — Совместные распределения и условные ожидания строятся через меру-произведение и Фубини
Вопросы для размышления
- Почему в теореме Тонелли нет условия L¹? Что происходит, если функция неотрицательна, но её интеграл бесконечен?
- Метод Монте-Карло теоретически требует f ∈ L¹. Как это ограничение проявляется на практике при вычислении ожиданий для тяжёлых распределений?
- В вариационном выводе (VAE) нижняя оценка ELBO = E_{q(z)}[log p(x|z)] - KL(q(z)||p(z)). Где в этой формуле скрыты мера-произведение и теорема Фубини?