Теория меры
Интеграл Лебега
1902 год. Анри Лебег, 29 лет, докторская диссертация. Новый способ измерять площадь под графиком - через меру, а не через разбиение. Через 20 лет весь математический анализ перестраивается. Через 100 лет - это фундамент ML. MCMC, policy gradient, диффузионные модели, Black-Scholes - всё требует интегрирования функций, которые могут быть разрывны в несчётно многих точках. Риманов интеграл не справляется. Лебег справляется.
- **Policy gradient в RL:** $\nabla_\theta \mathbb{E}[R(\tau)] = \mathbb{E}[R(\tau) \nabla_\theta \log \pi_\theta(\tau)]$ - дифференцирование под знаком интеграла Лебега; MCT обосновывает эту операцию строго
- **Importance sampling в MCMC:** переоценка вероятностей через производную одной меры по другой - это теорема Радона-Никодима, прямое следствие теории Лебега
- **Стохастический интеграл Ито:** обобщение Лебега для броуновского движения; фундамент Black-Scholes и всего современного финансового инжиниринга
- **MAE и Lasso:** минимизация средней абсолютной ошибки = минимизация $L^1$-нормы; регуляризация Lasso добавляет $L^1$-штраф, создавая разреженность через геометрию шара
- **Диффузионные модели (Stable Diffusion, DALL-E 3):** обратный процесс зашумления требует интегрирования по траекториям случайных процессов - интеграл Лебега по пространству мер
Предварительные знания
Лебег интегрирует по горизонтали, Риман - по вертикали
Функция Дирихле: $D(x) = 1$ если $x$ рационально, $D(x) = 0$ если $x$ иррационально. Выглядит безобидно. Интеграл Римана не существует - в любом разбиении отрезка каждый кусочек содержит и рациональные, и иррациональные точки, верхняя сумма Дарбу = 1, нижняя = 0. Расходятся навсегда. Интеграл Лебега вычисляется в одну строку: рациональные числа имеют меру нуль, иррациональные - меру 1. Ответ: 0.
**Ключевая разница:** Риман разбивает ось $x$ (область определения) на маленькие отрезки и суммирует прямоугольники. Лебег разбивает ось $y$ (область значений) на уровни и спрашивает: какова мера прообраза каждого уровня? Аналогия: подсчёт денег. Риман берёт монеты в том порядке, в котором они лежат, и складывает. Лебег сначала сортирует по номиналу, потом умножает номинал на количество. Результат одинаковый - но второй метод работает, когда монеты разложены хаотично.
Без интеграла Лебега нет строгих теорем о сходимости SGD. Нет MCMC. Нет диффузионных моделей. Стохастический интеграл Ито в формуле Блэка-Шоулза - обобщение Лебега для броуновского движения. Математическое ожидание в policy gradient $= \int L(\theta, \tau) \, d\tau$ - это интеграл Лебега по пространству траекторий. Importance sampling в Monte Carlo - теорема Радона-Никодима, производная одной меры по другой.
**Лебег 1902 - Ито 1944 - Black-Scholes 1973:** три десятилетия, три шага. Лебег строит интеграл для произвольных функций. Ито обобщает его для стохастических процессов. Блэк и Шоулз применяют к ценообразованию опционов. Теория меры - не академический экспонат, это инфраструктура, на которой стоят банки.
Чему равен интеграл Лебега функции Дирихле $D(x)$ по мере Лебега на $[0, 1]$?
Интеграл простых функций
Интеграл Лебега строится поэтапно: сначала для простых функций (конечное число значений), затем для неотрицательных (супремум по простым снизу), наконец для произвольных (разложение на положительную и отрицательную части). Первый шаг - самый прозрачный: взвешенная сумма значений, где веса - меры прообразов.
**Интеграл простой функции:** пусть $s = \sum_i a_i \mathbf{1}_{A_i}$ - простая неотрицательная функция на пространстве с мерой $(X, \mathcal{F}, \mu)$. Тогда: $$\int s \, d\mu = \sum_i a_i \cdot \mu(A_i)$$ По соглашению $0 \cdot \infty = 0$ (множество меры нуль не вносит вклада, даже если значение бесконечно).
Соглашение **$0 \cdot \infty = 0$** специфично для теории меры. Отражает физический смысл: функция, равная нулю на множестве бесконечной меры, не вносит вклад в интеграл. В расширенной числовой прямой форма $0 \cdot \infty$ неопределена - здесь принимается явное соглашение.
Простая функция $s = 4 \cdot \mathbf{1}_{A} + 0 \cdot \mathbf{1}_{B}$, где $\mu(A) = 3$ и $\mu(B) = \infty$. Чему равен $\int s \, d\mu$?
MCT: предельный переход под знаком интеграла
Для неотрицательной измеримой функции $f$ интеграл Лебега определяется как супремум интегралов всех простых функций, не превосходящих $f$. Это естественное продолжение: берётся наилучшая снизу аппроксимация. Ключевое следствие - теорема монотонной сходимости (MCT): при определённых условиях можно менять местами предел и интеграл.
**Теорема Беппо Леви (MCT):** если $0 \leq f_1 \leq f_2 \leq \ldots$ - неотрицательные измеримые функции и $f_n \to f$ поточечно, то: $$\lim_{n \to \infty} \int f_n \, d\mu = \int f \, d\mu$$ Можно менять местами предел и интеграл. Условие: монотонное возрастание последовательности. В ML: **$\mathbb{E}[\sum X_n] = \sum \mathbb{E}[X_n]$** для неотрицательных $X_n$ - прямое следствие MCT.
MCT - это почему в RL можно писать $\nabla_\theta \mathbb{E}_{\tau \sim \pi_\theta}[R(\tau)] = \mathbb{E}_{\tau \sim \pi_\theta}[R(\tau) \nabla_\theta \log \pi_\theta(\tau)]$. Дифференцирование входит под знак интеграла. Без теоремы о предельном переходе это операция без строгого обоснования - и policy gradient был бы эвристикой, а не теоремой.
Что гарантирует теорема монотонной сходимости (MCT)?
Пространство L1 и интегрируемость
Интеграл Лебега задаёт естественный класс «хорошо интегрируемых» функций - пространство $L^1$. Случайная величина $X$ имеет конечное математическое ожидание тогда и только тогда, когда $X \in L^1(\Omega, \mathcal{F}, \mathbb{P})$. Это не просто обозначение - это условие существования $\mathbb{E}[X]$.
**Пространство $L^1(\mu)$:** совокупность (классов эквивалентности) измеримых функций $f$ с конечной нормой: $$\|f\|_1 = \int |f| \, d\mu < \infty$$ Две функции отождествляются, если совпадают $\mu$-почти всюду. $L^1$ - полное нормированное пространство (банахово). Следствие теоремы Рисса-Фишера: $L^2$ тоже полно - и именно это делает его подходящим для пространства состояний в квантовой механике.
**Распределение Коши** имеет $\mathbb{E}[|X|] = \infty$ - оно не в $L^1$. Это не абстракция: выборочное среднее Коши-распределённых чисел не сходится к «среднему» (которого нет), а блуждает. SGD на функции потерь с тяжёлыми хвостами может вести себя именно так - без конечного первого момента гарантии сходимости ломаются.
**$L^1$ в ML:** функция абсолютных потерь $|y - \hat{y}|$ индуцирует $L^1$-норму на пространстве ошибок. MAE эквивалентна поиску медианы. Регуляризация Lasso добавляет $L^1$-штраф $\|w\|_1$, порождая разреженность через геометрию $L^1$-шара (острые углы совпадают с координатными осями).
Случайная величина $X$ имеет $\mathbb{E}[|X|] = \infty$. Что это означает с точки зрения $L^1$?
Ключевые идеи
- **Лебег vs Риман:** Риман разбивает ось $x$, Лебег разбивает ось $y$. Функция Дирихле: Риман не справляется, Лебег даёт 0
- **Интеграл простых функций** - взвешенная сумма значений по мерам прообразов. Соглашение $0 \cdot \infty = 0$
- **MCT (Беппо Леви):** для неотрицательных возрастающих $f_n \nearrow f$ можно менять предел и интеграл - ключ к policy gradient и вычислению градиентов в ML
- **$L^1(\mu)$:** $\mathbb{E}[X]$ существует тогда и только тогда, когда $X \in L^1(\mathbb{P})$. Коши и тяжёлые хвосты - примеры выхода за пределы $L^1$
Связанные темы
Интеграл Лебега - центральный объект всей теории меры:
- Измеримые функции — Интеграл Лебега определяется для измеримых функций; простые функции служат строительными блоками
- Теоремы о сходимости — MCT, DCT и лемма Фату - предельные теоремы для интеграла Лебега
- Пространства Lp — $L^1$ - первое из семейства $L^p$-пространств, определяемых через интеграл Лебега
Вопросы для размышления
- Почему соглашение $0 \cdot \infty = 0$ в теории меры естественно, хотя в обычной арифметике эта форма неопределённа?
- Функция $f(x) = \sin(x)/x$ не принадлежит $L^1(\mathbb{R})$, хотя несобственный интеграл $\int_0^\infty f(x) \, dx = \pi/2$ существует. Как это возможно?
- Policy gradient теорема требует дифференцирования под знаком интеграла. Какие условия на функцию потерь и политику нужны, чтобы эта операция была строго обоснована через MCT или DCT?
Связанные уроки
- mt-05 — MCT, DCT и лемма Фату - предельные теоремы Лебега
- mt-06 — Пространства L^p: L1 как первое из семейства
- mt-03 — Измеримые функции: база для построения интеграла
- prob-07-expectation — E[X] = интеграл Лебега по вероятностной мере
- calc-11-definite — Риман vs Лебег: два способа интегрировать