Теория меры
Мера и теория вероятностей
Почему регрессионная функция E[Y|X=x] - это «лучший предсказатель»? Почему математическое ожидание - это интеграл? Теория вероятностей - это теория меры с нормировкой P(Ω)=1. Это не просто язык: единый аппарат позволяет доказывать теоремы, применимые к любым распределениям - дискретным, непрерывным, смешанным.
- **Регрессия:** E[Y|X=x] - условное ожидание, определяемое через производную Радона-Никодима; MSE-оптимальный предсказатель - это L²-проекция Y на функции от X
- **Глубокое обучение:** SGD работает с мартингальными инкрементами; анализ сходимости через теорию мартингалов и предельные теоремы теории меры
- **Байесовский вывод:** апостериорное распределение P(θ|X) - это условная вероятность, формализуемая через теорему Радона-Никодима
Предварительные знания
Вероятностное пространство как пространство с мерой
Теория вероятностей - это теория меры, специализированная для μ(X) = 1. Каждое понятие теории вероятностей имеет точный аналог в теории меры. Это не просто аналогия - это буквальное соответствие.
**Вероятностное пространство (Ω, F, P):** - **Ω** - пространство элементарных исходов (аналог X в теории меры) - **F** - σ-алгебра событий (аналог σ-алгебры измеримых множеств) - **P** - вероятностная мера: P: F → [0,1], P(Ω) = 1 Все аксиомы вероятности - это аксиомы меры плюс условие нормировки P(Ω) = 1.
| Теория меры | Теория вероятностей |
|---|---|
| Пространство с мерой (X, F, μ) | Вероятностное пространство (Ω, F, P) |
| Измеримое множество A ∈ F | Событие A ∈ F |
| μ(A) - мера множества | P(A) - вероятность события |
| μ(X) (произвольно) | P(Ω) = 1 (нормировка) |
| Измеримая функция f: X → ℝ | Случайная величина X: Ω → ℝ |
| ∫ f dμ - интеграл Лебега | E[X] = ∫ X dP - математическое ожидание |
| f = g μ-п.в. | X = Y почти наверное (п.н.) |
**Зачем это нужно?** Формальный подход позволяет работать с непрерывными, дискретными и смешанными распределениями в одном языке. E[X] = ∫ X dP одновременно означает Σ xᵢ pᵢ (дискретный случай) и ∫ x f(x) dx (непрерывный случай) - зависит от того, какова мера P.
Чем σ-алгебра событий F в вероятностном пространстве отличается от «всех подмножеств» Ω?
Случайные величины как измеримые функции
Случайная величина - это не «случайное число», а конкретная функция X: Ω → ℝ, которая является измеримой относительно F. Случайность возникает не в самой функции, а в том, какой элемент ω ∈ Ω «выбирает природа».
**Случайная величина:** измеримая функция X: (Ω, F) → (ℝ, B(ℝ)). **Распределение случайной величины X:** мера P_X на (ℝ, B(ℝ)), определяемая как P_X(B) = P(X ∈ B) = P({ω: X(ω) ∈ B}). P_X - это «образ» меры P под отображением X. Математическое ожидание E[f(X)] = ∫_ℝ f(x) dP_X(x) = ∫_Ω f(X(ω)) dP(ω).
**σ-алгебра как информация:** σ-алгебра, порождённая случайной величиной X, это σ(X) = X⁻¹(B(ℝ)) - множество всех событий, о которых можно узнать, наблюдая X. В ML это интерпретируется: наблюдая признаки X, мы «видим» только σ(X)-измеримые события.
Функция g(X) является σ(X)-измеримой тогда и только тогда, когда g = h ∘ X для некоторой борелевской функции h. Это означает: «всё, что можно сказать о g, определяется значением X». Именно так формализуется достаточная статистика в математической статистике.
σ-алгебра σ(X), порождённая случайной величиной X, содержит:
Условное математическое ожидание E[X|F]
Условное математическое ожидание E[X|G] - одно из самых тонких понятий теории вероятностей. Его строгое определение через теорему Радона-Никодима объясняет, почему E[X|Y] - это функция (а не число!), и почему проекция на L² правильно передаёт интуицию.
**Условное математическое ожидание E[X|G]:** пусть X ∈ L¹(Ω, F, P) и G ⊂ F - подσ-алгебра. Случайная величина Z = E[X|G] определяется как единственная (п.н.) G-измеримая случайная величина такая, что: ∫_A Z dP = ∫_A X dP для всех A ∈ G Это определение через теорему Радона-Никодима: Z = d(ν|_G)/d(P|_G), где ν(A) = ∫_A X dP.
**E[X|Y] как L²-проекция:** условное ожидание E[X|G] минимизирует E[(X − Z)²] по всем G-измеримым Z ∈ L². Это проекция X на замкнутое подпространство G-измеримых функций в L²(Ω, F, P). Именно поэтому условное ожидание «наилучшим образом предсказывает X по информации G».
Условное ожидание в ML: регрессионная функция E[Y|X=x] - это именно условное математическое ожидание. Нейронная сеть, минимизирующая MSE, аппроксимирует E[Y|X] - L²-проекцию Y на функции от X. Это не просто аналогия - это буквальное равенство.
E[X|G] - G-измеримая случайная величина. Что означает G-измеримость в вероятностном контексте?
Закон больших чисел и мартингалы
Строгое доказательство закона больших чисел использует теорему монотонной сходимости. Мартингалы - это последовательности случайных величин, формализующие «справедливую игру», и они напрямую связаны с условными ожиданиями.
**Мартингал:** последовательность случайных величин (Mₙ)_{n≥0} со своей фильтрацией (Fₙ)_{n≥0} называется мартингалом, если: 1. Mₙ ∈ L¹(P) для всех n 2. Mₙ является Fₙ-измеримой (адаптированность) 3. E[Mₙ₊₁ | Fₙ] = Mₙ п.н. (мартингальное свойство) Интуиция: «завтрашнее значение, учитывая всё известное сегодня, равно сегодняшнему».
**Мартингалы в SGD:** стохастический градиент g(θ, xᵢ) является несмещённой оценкой истинного градиента ∇L(θ), то есть E[g(θ, xᵢ)] = ∇L(θ). Шумовой член gᵢ − ∇L(θ) образует мартингальный инкремент. Анализ сходимости SGD опирается на теорию мартингалов.
Оптимальное прогнозирование: E[X|G] - наилучший (в смысле MSE) предиктор X по информации G. Это математическая основа для всей регрессии. Неравенство Дженсена: f(E[X|G]) ≤ E[f(X)|G] для выпуклой f - используется при доказательстве ELBO в VAE.
Последовательность (Mₙ) является мартингалом относительно (Fₙ). Это означает:
Ключевые идеи
- **Вероятностное пространство (Ω,F,P)** = пространство с мерой с P(Ω)=1; случайная величина X = измеримая функция; E[X] = ∫X dP
- **σ(X)** - σ-алгебра, порождённая X: события, определяемые наблюдением X; «информация от X»
- **E[X|G]** - G-измеримая случайная величина, удовлетворяющая ∫_A E[X|G] dP = ∫_A X dP для всех A ∈ G; это L²-проекция
- **Мартингалы:** E[Mₙ₊₁|Fₙ] = Mₙ; появляются в SGD, RL и байесовском обновлении
Связанные темы
Вероятность как теория меры связывает все предыдущие темы:
- Абстрактная теория меры — Условное ожидание E[X|G] определяется через теорему Радона-Никодима
- Теория меры в ML — KL-дивергенция, VAE, SGD - конкретные ML-приложения, рассмотренные через вероятностную теорию меры
Вопросы для размышления
- Случайная величина X: Ω → ℝ - это конкретная функция, не «случайная». Где же случайность? Как это связано с тем, какую ω «выбирает природа»?
- Нейронная сеть, обученная минимизировать MSE, аппроксимирует E[Y|X]. Что происходит, если минимизировать MAE? Какую функцию будет аппроксимировать сеть?
- SGD использует несмещённую оценку градиента. Почему несмещённость важна именно с точки зрения теории мартингалов?