Теория меры
Сигма-алгебры и измеримые множества
Вероятность случайного числа из $[0,1]$ оказаться рациональным равна нулю - хотя рациональных чисел бесконечно много. Лебег в 1902 году разрушил интуицию Римана одним контрпримером: интеграл Римана не может посчитать длину множества рациональных чисел. Интеграл Лебега - может, и ответ: ноль. Бесконечно много точек, но нулевая мера. Это и есть теория меры - язык, на котором записана современная теория вероятностей, ожидание loss-функции нейросети и гауссовские процессы. Без σ-алгебр вероятность рассыпается в противоречия.
- **Нейросети и expectation:** loss-функция нейросети - это $\mathbb{E}[L(\theta)] = \int L(\theta, x) \, d\mu(x)$ по мере на данных. Лебеговский интеграл, а не риманновский - именно потому что данные могут иметь сингулярную структуру.
- **Теория вероятностей Колмогорова:** σ-алгебра событий определяет, какие вопросы о случайном эксперименте имеют смысл. Gaussian Processes в ML - это вероятностные меры на бесконечномерных функциональных пространствах.
- **Финансовая математика:** фильтрации (растущие σ-алгебры) моделируют поступление информации - что трейдер знает в момент $t$. Стохастические дифференциальные уравнения (диффузионные модели - DDPM, Stable Diffusion) строятся ровно на этом фундаменте.
- **Квантовая механика:** операторные алгебры (обобщение σ-алгебр) описывают наблюдаемые - величины, которые физически можно измерить. Вероятности квантовых исходов - меры на σ-алгебрах.
Sigma Algebra
Хочется измерить «длину» подмножеств числовой прямой - так, чтобы длина отрезка $[a,b]$ равнялась $b-a$ и не было противоречий. Наивная идея: измерять всё. Витали в 1905 году показал, что это невозможно - существуют подмножества $\mathbb{R}$, для которых любое присвоение длины ведёт к противоречию. Sigma-алгебра - это ответ: коллекция подмножеств, для которых измерение согласовано.
**Sigma-алгебра** (σ-алгебра) F над множеством X - это семейство подмножеств X, удовлетворяющее трём аксиомам: 1. **Пустое множество:** ∅ ∈ F 2. **Замкнутость относительно дополнений:** если A ∈ F, то X \ A ∈ F 3. **Замкнутость относительно счётных объединений:** если A₁, A₂, A₃, ... ∈ F, то ∪ᵢ Aᵢ ∈ F
Из трёх аксиом немедленно следует: $X \in F$ (так как $X = X \setminus \emptyset$, а $\emptyset \in F$ и F замкнута по дополнениям). И F замкнута по **счётным пересечениям** - по закону де Моргана: $\bigcap A_i = \left(\bigcup A_i^c\right)^c$. Структура самодостаточна: трёх аксиом достаточно, чтобы всё вывести.
Эмиль Борель и зарождение теории
В начале XX века Эмиль Борель и Анри Лебег столкнулись с проблемой: интеграл Римана не мог обработать многие важные функции. Борель ввёл понятие «измеримых множеств» в 1898 году, а Лебег в 1902 году построил полную теорию меры. Sigma-алгебры стали формальным фундаментом, на котором стоит вся современная теория вероятностей и интегрирования.
Почему именно **счётные** объединения? Если разрешить несчётные - σ-алгебра для многих пространств «схлопывается» до всех подмножеств. Тогда нельзя исключить множество Витали, и измерение становится противоречивым. Счётность - ровно та граница, которая сохраняет и гибкость, и непротиворечивость.
Какое из следующих семейств НЕ является σ-алгеброй над X = {1, 2, 3}?
Measurable
Sigma-алгебра $F$ задана. Теперь просто: множество $A$ называется **измеримым**, если $A \in F$. Пара $(X, F)$ - **измеримое пространство**. Добавить меру $\mu: F \to [0, \infty]$ - получится **пространство с мерой** $(X, F, \mu)$. Вероятностное пространство в теории Колмогорова - это ровно $(\Omega, \mathcal{F}, \mathbb{P})$.
**Измеримое пространство** - это пара (X, F), где X - множество, а F - σ-алгебра над X. Элементы F называются **измеримыми множествами**. Если дополнительно задана мера μ: F → [0, ∞], то тройка (X, F, μ) называется **пространством с мерой**.
Ключевой момент: **не все подмножества** $X$ должны быть измеримыми. Это не ограничение, а необходимость. Джузеппе Витали в 1905 году доказал: если попытаться присвоить «длину» абсолютно всем подмножествам $\mathbb{R}$ так, чтобы мера была инвариантна относительно сдвига и σ-аддитивна, - возникает неустранимое противоречие.
**Множество Витали** строится так: разбиваем [0, 1] на классы эквивалентности по отношению x ~ y ⟺ x - y ∈ ℚ. По аксиоме выбора берём по одному представителю из каждого класса. Получается множество V, для которого невозможно непротиворечиво определить длину: если λ(V) = 0, то λ(ℝ) = 0 (противоречие); если λ(V) > 0, то λ([0,2]) = ∞ (тоже противоречие).
| Свойство | Измеримое множество | Неизмеримое множество |
|---|---|---|
| Принадлежит F? | Да | Нет |
| Можно присвоить меру? | Да | Нет (противоречие) |
| Пример на ℝ | Любой интервал, открытое/замкнутое множество | Множество Витали |
| Требует аксиомы выбора? | Нет | Да (для построения) |
На практике неизмеримые множества - экзотика, требующая аксиомы выбора для построения. Все множества, встречающиеся в анализе, физике и ML, измеримы. Sigma-алгебра - не формальность, а точная граница между «хорошими» и «плохими» подмножествами, за которой рассыпается сама идея интеграла.
Почему не все подмножества ℝ являются измеримыми по Лебегу?
Borel
На практике работают с конкретной σ-алгеброй на $\mathbb{R}$ - **борелевской** $B(\mathbb{R})$. Это наименьшая σ-алгебра, содержащая все открытые множества. Борель ввёл её в 1898 году - за 4 года до того, как Лебег построил на ней теорию интегрирования. Два человека, одна революция.
**Борелевская σ-алгебра** B(ℝ) = σ(τ), где τ - топология на ℝ (совокупность всех открытых множеств). Это означает: B(ℝ) - наименьшая σ-алгебра, содержащая все открытые подмножества ℝ.
Что входит в $B(\mathbb{R})$? Начинают с открытых множеств и применяют аксиомы σ-алгебры: дополнения открытых - замкнутые; счётные объединения замкнутых ($F_\sigma$); их дополнения ($G_\delta$) и так далее. Иерархия уходит далеко - но покрывает абсолютно все множества, встречающиеся в анализе, вероятности и ML.
$B(\mathbb{R})$ - **строгое подмножество** σ-алгебры Лебег-измеримых множеств. Каждое борелевское измеримо по Лебегу - но не наоборот. Лебег-измеримых «больше»: добавляются подмножества борелевских множеств нулевой меры. Для ML это практически не важно - на практике всё борелевское.
| Тип множества | Пример | Борелевское? | Лебег-измеримое? |
|---|---|---|---|
| Открытый интервал | (0, 1) | Да | Да |
| Замкнутый отрезок | [0, 1] | Да | Да |
| Счётное множество | ℚ ∩ [0,1] | Да | Да |
| Канторово множество | C | Да (замкнутое) | Да |
| Подмножество C | Любое подмн. канторова мн. | Не обязательно | Да (мера 0) |
| Множество Витали | V | Нет | Нет |
В теории вероятностей $B(\mathbb{R})$ - основа всего. Когда говорят «случайная величина $X$ принимает значение в $B$» - имеют в виду борелевское $B$. Именно это гарантирует, что $\mathbb{P}(X \in B)$ корректно определена. Gaussian Process в ML - это вероятностная мера на функциональном пространстве; борелевская σ-алгебра там нужна на каждом шаге.
Борелевская σ-алгебра B(ℝ) - это:
Generating
$B(\mathbb{R})$ содержит несчётно много множеств - перечислить все невозможно. Но задать σ-алгебру через небольшой «зародыш» - можно. Такой зародыш называется **порождающим классом**: компактное семейство множеств, из которого σ-алгебра однозначно восстанавливается.
**Порождённая σ-алгебра** σ(C) для семейства множеств C - это наименьшая σ-алгебра, содержащая C. Она существует и единственна (как пересечение всех σ-алгебр, содержащих C). Семейство C называется **порождающим классом**.
Ключевой результат: $B(\mathbb{R})$ порождается многими разными классами. Не нужно перечислять все открытые множества - достаточно полулучей $(-\infty, a]$. Это не случайность: функция распределения $F(a) = \mathbb{P}(X \leq a)$ - это ровно значения меры на таких полулучах.
Зачем это нужно? Чтобы доказать, что мера обладает свойством P на всей $B(\mathbb{R})$, достаточно проверить P на порождающем классе - при стандартных условиях. Сотни страниц доказательств в теории вероятностей используют именно этот трюк. Теорема единственности продолжения меры - следствие.
В многомерном случае $B(\mathbb{R}^n)$ порождается прямоугольниками $(a_1,b_1) \times \ldots \times (a_n, b_n)$. Это основа совместных распределений случайных величин - и совместного распределения весов нейросети в байесовском ML. Sigma-алгебра отвечает: «что можно измерять». Порождающий класс: «как описать это компактно».
Все подмножества ℝ измеримы - σ-алгебра просто формальность для математиков
Существуют неизмеримые по Лебегу подмножества ℝ. Sigma-алгебра - не формальность, а необходимое ограничение для непротиворечивости меры.
Витали (1905): если мера на $\mathbb{R}$ трансляционно инвариантна и σ-аддитивна, она не может быть определена на всех подмножествах. Без σ-алгебры нельзя написать $\mathbb{E}[L(\theta)]$ как интеграл по данным - сама идея expectation loss рассыпается. Это не абстракция, это фундамент ML.
Какой из порождающих классов НЕ порождает борелевскую σ-алгебру B(ℝ)?
Ключевые идеи
- **Sigma-алгебра** F - семейство подмножеств, замкнутое относительно дополнений и счётных объединений. Три аксиомы определяют, какие множества можно измерять без противоречий
- **Измеримое множество** - элемент σ-алгебры. Не все подмножества $\mathbb{R}$ измеримы: множество Витали (1905) доказывает, что попытка измерить всё приводит к противоречию с аддитивностью
- **$B(\mathbb{R})$** - борелевская σ-алгебра, порождённая открытыми множествами. Содержит все «обычные» множества; B(ℝ) строго меньше σ-алгебры Лебег-измеримых множеств
- **Порождающий класс** - компактное описание σ-алгебры: B(ℝ) = σ({(-∞, a] : a ∈ ℝ}). Функция распределения CDF - это ровно эта система порождающих множеств
Связанные темы
Sigma-алгебры - фундамент для следующих тем:
- Мера Лебега — Конкретная мера, определённая на σ-алгебре Лебег-измеримых множеств
- Измеримые функции — Функции, совместимые с σ-алгебрами - прообраз борелевского множества измерим
Вопросы для размышления
- Почему в определении σ-алгебры используются именно счётные (а не конечные или произвольные) объединения?
- Если бы аксиома выбора была ложной, существовали бы неизмеримые множества?
- Как связана борелевская σ-алгебра с понятием «информации» в теории вероятностей?