Теория меры

Мера и теория вероятностей

Почему регрессионная функция E[Y|X=x] - это «лучший предсказатель»? Почему математическое ожидание - это интеграл? Теория вероятностей - это теория меры с нормировкой P(Ω)=1. Это не просто язык: единый аппарат позволяет доказывать теоремы, применимые к любым распределениям - дискретным, непрерывным, смешанным.

**Регрессия:** E[Y|X=x] - условное ожидание, определяемое через производную Радона-Никодима; MSE-оптимальный предсказатель - это L²-проекция Y на функции от X
**Глубокое обучение:** SGD работает с мартингальными инкрементами; анализ сходимости через теорию мартингалов и предельные теоремы теории меры
**Байесовский вывод:** апостериорное распределение P(θ|X) - это условная вероятность, формализуемая через теорему Радона-Никодима

Предварительные знания

Abstract Measure Theory

Вероятностное пространство как пространство с мерой

Теория вероятностей - это теория меры, специализированная для μ(X) = 1. Каждое понятие теории вероятностей имеет точный аналог в теории меры. Это не просто аналогия - это буквальное соответствие.

**Вероятностное пространство (Ω, F, P):** - **Ω** - пространство элементарных исходов (аналог X в теории меры) - **F** - σ-алгебра событий (аналог σ-алгебры измеримых множеств) - **P** - вероятностная мера: P: F → [0,1], P(Ω) = 1 Все аксиомы вероятности - это аксиомы меры плюс условие нормировки P(Ω) = 1.

Теория меры	Теория вероятностей
Пространство с мерой (X, F, μ)	Вероятностное пространство (Ω, F, P)
Измеримое множество A ∈ F	Событие A ∈ F
μ(A) - мера множества	P(A) - вероятность события
μ(X) (произвольно)	P(Ω) = 1 (нормировка)
Измеримая функция f: X → ℝ	Случайная величина X: Ω → ℝ
∫ f dμ - интеграл Лебега	E[X] = ∫ X dP - математическое ожидание
f = g μ-п.в.	X = Y почти наверное (п.н.)

**Зачем это нужно?** Формальный подход позволяет работать с непрерывными, дискретными и смешанными распределениями в одном языке. E[X] = ∫ X dP одновременно означает Σ xᵢ pᵢ (дискретный случай) и ∫ x f(x) dx (непрерывный случай) - зависит от того, какова мера P.

Чем σ-алгебра событий F в вероятностном пространстве отличается от «всех подмножеств» Ω?

Случайные величины как измеримые функции

Случайная величина - это не «случайное число», а конкретная функция X: Ω → ℝ, которая является измеримой относительно F. Случайность возникает не в самой функции, а в том, какой элемент ω ∈ Ω «выбирает природа».

**Случайная величина:** измеримая функция X: (Ω, F) → (ℝ, B(ℝ)). **Распределение случайной величины X:** мера P_X на (ℝ, B(ℝ)), определяемая как P_X(B) = P(X ∈ B) = P({ω: X(ω) ∈ B}). P_X - это «образ» меры P под отображением X. Математическое ожидание E[f(X)] = ∫_ℝ f(x) dP_X(x) = ∫_Ω f(X(ω)) dP(ω).

**σ-алгебра как информация:** σ-алгебра, порождённая случайной величиной X, это σ(X) = X⁻¹(B(ℝ)) - множество всех событий, о которых можно узнать, наблюдая X. В ML это интерпретируется: наблюдая признаки X, мы «видим» только σ(X)-измеримые события.

Функция g(X) является σ(X)-измеримой тогда и только тогда, когда g = h ∘ X для некоторой борелевской функции h. Это означает: «всё, что можно сказать о g, определяется значением X». Именно так формализуется достаточная статистика в математической статистике.

σ-алгебра σ(X), порождённая случайной величиной X, содержит:

Условное математическое ожидание E[X|F]

Условное математическое ожидание E[X|G] - одно из самых тонких понятий теории вероятностей. Его строгое определение через теорему Радона-Никодима объясняет, почему E[X|Y] - это функция (а не число!), и почему проекция на L² правильно передаёт интуицию.

**Условное математическое ожидание E[X|G]:** пусть X ∈ L¹(Ω, F, P) и G ⊂ F - подσ-алгебра. Случайная величина Z = E[X|G] определяется как единственная (п.н.) G-измеримая случайная величина такая, что: ∫_A Z dP = ∫_A X dP для всех A ∈ G Это определение через теорему Радона-Никодима: Z = d(ν|_G)/d(P|_G), где ν(A) = ∫_A X dP.

**E[X|Y] как L²-проекция:** условное ожидание E[X|G] минимизирует E[(X − Z)²] по всем G-измеримым Z ∈ L². Это проекция X на замкнутое подпространство G-измеримых функций в L²(Ω, F, P). Именно поэтому условное ожидание «наилучшим образом предсказывает X по информации G».

Условное ожидание в ML: регрессионная функция E[Y|X=x] - это именно условное математическое ожидание. Нейронная сеть, минимизирующая MSE, аппроксимирует E[Y|X] - L²-проекцию Y на функции от X. Это не просто аналогия - это буквальное равенство.

E[X|G] - G-измеримая случайная величина. Что означает G-измеримость в вероятностном контексте?

Закон больших чисел и мартингалы

Строгое доказательство закона больших чисел использует теорему монотонной сходимости. Мартингалы - это последовательности случайных величин, формализующие «справедливую игру», и они напрямую связаны с условными ожиданиями.

**Мартингал:** последовательность случайных величин (Mₙ)_{n≥0} со своей фильтрацией (Fₙ)_{n≥0} называется мартингалом, если: 1. Mₙ ∈ L¹(P) для всех n 2. Mₙ является Fₙ-измеримой (адаптированность) 3. E[Mₙ₊₁ | Fₙ] = Mₙ п.н. (мартингальное свойство) Интуиция: «завтрашнее значение, учитывая всё известное сегодня, равно сегодняшнему».

**Мартингалы в SGD:** стохастический градиент g(θ, xᵢ) является несмещённой оценкой истинного градиента ∇L(θ), то есть E[g(θ, xᵢ)] = ∇L(θ). Шумовой член gᵢ − ∇L(θ) образует мартингальный инкремент. Анализ сходимости SGD опирается на теорию мартингалов.

Оптимальное прогнозирование: E[X|G] - наилучший (в смысле MSE) предиктор X по информации G. Это математическая основа для всей регрессии. Неравенство Дженсена: f(E[X|G]) ≤ E[f(X)|G] для выпуклой f - используется при доказательстве ELBO в VAE.

Последовательность (Mₙ) является мартингалом относительно (Fₙ). Это означает:

Ключевые идеи

**Вероятностное пространство (Ω,F,P)** = пространство с мерой с P(Ω)=1; случайная величина X = измеримая функция; E[X] = ∫X dP
**σ(X)** - σ-алгебра, порождённая X: события, определяемые наблюдением X; «информация от X»
**E[X|G]** - G-измеримая случайная величина, удовлетворяющая ∫_A E[X|G] dP = ∫_A X dP для всех A ∈ G; это L²-проекция
**Мартингалы:** E[Mₙ₊₁|Fₙ] = Mₙ; появляются в SGD, RL и байесовском обновлении

Связанные темы

Вероятность как теория меры связывает все предыдущие темы:

Абстрактная теория меры — Условное ожидание E[X|G] определяется через теорему Радона-Никодима
Теория меры в ML — KL-дивергенция, VAE, SGD - конкретные ML-приложения, рассмотренные через вероятностную теорию меры

Вопросы для размышления

Случайная величина X: Ω → ℝ - это конкретная функция, не «случайная». Где же случайность? Как это связано с тем, какую ω «выбирает природа»?
Нейронная сеть, обученная минимизировать MSE, аппроксимирует E[Y|X]. Что происходит, если минимизировать MAE? Какую функцию будет аппроксимировать сеть?
SGD использует несмещённую оценку градиента. Почему несмещённость важна именно с точки зрения теории мартингалов?

Связанные уроки

prob-01-intro