Теория меры

Теоремы о сходимости

Policy gradient theorem: $\nabla J(\theta) = \mathbb{E}[\nabla \log \pi_\theta(a|s) \cdot Q(s,a)]$. Можно ли вынести $\nabla_\theta$ под знак ожидания? Только если выполнены условия теоремы Лебега о доминированной сходимости. Вся теория RL - REINFORCE, PPO, SAC - опирается на этот обмен. Три теоремы этого урока - MCT, DCT, лемма Фату - дают точные условия когда это законно.

**Policy gradient (REINFORCE):** $\nabla_\theta \mathbb{E}_{\pi_\theta}[R] = \mathbb{E}_{\pi_\theta}[R \cdot \nabla \log \pi_\theta]$ - дифференцирование под знаком ожидания, оправданное DCT при наличии мажоранты для $\nabla \log \pi_\theta$
**EM-алгоритм и VAE:** ELBO монотонно растёт при каждом шаге - это структура MCT. Теорема гарантирует сходимость к локальному максимуму без дополнительных условий
**Закон больших чисел (строгий):** $(1/n) \sum X_i \to \mathbb{E}[X]$ почти наверное доказывается через MCT и лемму Фату применительно к случайным величинам
**Регуляризация как UI:** L2-регуляризация, gradient clipping, batch norm обеспечивают равностепенную интегрируемость, превращая теоретическую $L^1$-сходимость в алгоритмическую

Предварительные знания

Интеграл Лебега

Теорема о монотонной сходимости (MCT)

Нельзя просто менять местами предел и интеграл. Функция-ловушка: $f_n(x) = n \cdot \mathbf{1}_{[0, 1/n]}$. Каждая интегрируема. $\lim f_n = 0$ почти всюду. Но $\int f_n = 1$ для любого $n$. Бесконечность в одной точке убивает сходимость. Именно поэтому нужны условия - и три теоремы этого урока дают исчерпывающий ответ.

MCT (Беппо Леви) - самый чистый случай: функции неотрицательные и монотонно растут. Никаких тонкостей с убегающей массой.

**Теорема о монотонной сходимости (MCT):** если $f_n \geq 0$ измеримы и $f_n \uparrow f$ (монотонно растут почти всюду), то: $$\lim_{n \to \infty} \int f_n \, d\mu = \int f \, d\mu$$ Равенство - не неравенство. Монотонность исключает убегание массы. Интеграл предела = предел интегралов.

EM-алгоритм работает именно через MCT-структуру: нижняя граница ELBO монотонно растёт при каждом шаге E+M. Гарантия MCT: если нижняя оценка растёт монотонно и ограничена - она сходится. Именно поэтому EM сходится к локальному максимуму правдоподобия без дополнительных условий.

Теорема	Условие	Вывод	ML-применение
MCT (Беппо Леви)	$f_n \geq 0$, монотонно растут	$\lim \int f_n = \int f$ (равенство)	EM-алгоритм, сходимость ELBO
DCT (Лебег)	$\|f_n\| \leq g \in L^1$, $f_n \to f$ п.в.	$\lim \int f_n = \int f$ (равенство)	Policy gradient, дифф. под интегралом
Лемма Фату	$f_n \geq 0$	$\int \liminf f_n \leq \liminf \int f_n$	Доказательства сходимости SGD

Если $f_n \to f$ почти всюду, то $\int f_n \to \int f$ автоматически

Сходимость почти всюду не влечёт сходимость интегралов без дополнительных условий (монотонность или мажоранта).

Ловушка: $f_n = n \cdot \mathbf{1}_{[0,1/n]}$. Сходится к 0 почти всюду, но $\int f_n = 1$ для любого $n$. Масса 'концентрируется' в точке, которая сжимается к нулю.

Последовательность $f_n = \mathbf{1}_{[0,1/n]}$ на $[0,1]$ сходится к $f \equiv 0$. Верно ли что $\lim \int f_n = 0$?

Теорема Лебега о мажорируемой сходимости (DCT)

Policy gradient theorem: $\nabla J(\theta) = \mathbb{E}_{\pi_\theta}[\nabla \log \pi_\theta(a|s) \cdot Q(s,a)]$. Можно ли вынести $\nabla_\theta$ под знак ожидания? Только если выполнены условия DCT. Вся теория reinforcement learning опирается на этот обмен - и каждый раз неявно использует теорему Лебега.

**Теорема Лебега о доминированной сходимости (DCT):** пусть $f_n \to f$ почти всюду и существует $g \in L^1(\mu)$ такая, что $|f_n| \leq g$ п.в. для всех $n$. Тогда: 1. $f \in L^1(\mu)$ 2. $\lim_{n \to \infty} \int f_n \, d\mu = \int f \, d\mu$ 3. $\lim_{n \to \infty} \|f_n - f\|_1 = 0$ $g$ называется **мажорантой**. Условие $g \in L^1$ обязательно - без него теорема ложна.

**Дифференцирование под знаком интеграла** (правило Лейбница): если $F(\theta) = \int f(x, \theta) \, d\mu(x)$ и $|\partial f / \partial \theta| \leq g(x) \in L^1$, то $F'(\theta) = \int \partial f / \partial \theta \, d\mu(x)$. Доказательство: DCT применяется к разностным частным $(f(x, \theta+h) - f(x, \theta))/h$ при $h \to 0$.

**Ловушка без мажоранты:** $f_n(x) = n \cdot \mathbf{1}_{[0,1/n]}$. Сходится к 0 почти всюду. Но $\sup_n f_n(x) = +\infty$ при $x = 0$ - мажоранты в $L^1$ нет. $\int f_n = 1$ для всех $n$: предел интегралов не равен нулю. DCT без мажоранты не работает - всегда проверять.

Правило Лейбница (дифференцирование под интегралом) всегда законно для гладких функций

Нужна интегрируемая мажоранта для производной. Гладкость функции не гарантирует интегрируемость частной производной.

Policy gradient законен потому что политика $\pi_\theta$ обычно параметрируется так, что $|\nabla_\theta \log \pi_\theta|$ имеет интегрируемую мажоранту. В patological случаях (unbounded policy gradients) алгоритм может дивергировать.

$f_n(x) = n \cdot \mathbf{1}_{[0,1/n]}(x) \to 0$ почти всюду на $[0,1]$. Верно ли что $\lim \int f_n \, d\lambda = 0$?

Лемма Фату

Лемма Фату - самый слабый результат из трёх: только неравенство, только для неотрицательных функций. Но именно через неё доказываются и MCT, и DCT. Это нижний этаж всей предельной теории.

**Лемма Фату:** если $f_n \geq 0$ измеримы, то: $$\int \liminf_{n \to \infty} f_n \, d\mu \leq \liminf_{n \to \infty} \int f_n \, d\mu$$ Интуиция: масса может убегать (на бесконечность или концентрироваться в ускользающей точке), и тогда интеграл предела окажется строго меньше предела интегралов.

**Применение в доказательстве SGD сходимости.** Типичная схема: записать loss как интеграл, применить лемму Фату чтобы получить нижнее ограничение на $\liminf$ loss-а, затем показать что $\liminf = 0$. Например, в Robbins-Monro theorem: $\liminf_n \|\nabla L(\theta_n)\|^2 = 0$ почти наверное - доказывается именно через Фату.

**ELBO и лемма Фату:** Evidence Lower BOund в VAE - это $\mathbb{E}_q[\log p(x|z)] - KL(q||p)$. При оптимизации по $q$ (E-шаг) ELBO монотонно растёт. Лемма Фату гарантирует, что взятие нижнего предела по $q$ не завышает интеграл: $\int \liminf_q$ хорошо определено.

Лемма Фату менее важна, чем DCT, потому что даёт только неравенство

Лемма Фату - фундамент: через неё доказываются и MCT, и DCT. Неравенство в правильном направлении даёт нижнюю оценку, которой достаточно для большинства применений.

MCT доказывается как следствие Фату для монотонных последовательностей. DCT строится через Фату + обратную Фату. Нижний этаж несёт всё здание.

Для неотрицательных $f_n$ лемма Фату утверждает:

Равностепенная интегрируемость и теорема Витали

Когда $\mathbb{E}[X_n] \to \mathbb{E}[X]$? DCT даёт достаточное условие (мажоранта). Равностепенная интегрируемость (UI) - ровно необходимое и достаточное при сходимости по мере. Регуляризация в ML (L1/L2/weight decay) обеспечивает UI для семейства функций потерь.

**Равностепенная интегрируемость (UI):** семейство $\{f_n\}$ равностепенно интегрируемо, если: $$\lim_{M \to \infty} \sup_n \int_{|f_n| > M} |f_n| \, d\mu = 0$$ Интуиция: 'хвосты' всех $f_n$ одновременно малы при достаточно большом пороге $M$. Функции не могут одновременно 'убегать' на бесконечность. **Теорема Витали:** $f_n \xrightarrow{L^1} f$ тогда и только тогда, когда $f_n \to f$ по мере и $\{f_n\}$ равностепенно интегрируемо.

**Почему это важно для ML.** Сходимость весов нейросети в $L^1$ требует UI для семейства gradients. Без регуляризации gradients могут не быть UI - отсюда gradient explosion. Weight decay (L2), gradient clipping, batch normalization - все эти техники, помимо прочего, обеспечивают равностепенную интегрируемость, превращая теоретическую сходимость в алгоритмическую.

Gradient clipping и L2-регуляризация - только практические трюки стабилизации

Эти техники обеспечивают равностепенную интегрируемость градиентов, что теоретически гарантирует $L^1$-сходимость и законность предельных переходов.

Без UI нельзя гарантировать $\mathbb{E}[\nabla L_n] \to \mathbb{E}[\nabla L]$. Теорема Витали: $L^1$-сходимость эквивалентна сходимости по мере + UI. Регуляризация обеспечивает UI - это теоретическое обоснование практического результата.

Для правила Лейбница $\frac{d}{d\theta} \int f(x,\theta) \, d\mu = \int \frac{\partial f}{\partial \theta} \, d\mu$ необходимо:

Ключевые идеи

**Нельзя просто менять предел и интеграл:** $f_n = n \cdot \mathbf{1}_{[0,1/n]} \to 0$ п.в., но $\int f_n = 1$ - классическая ловушка
**MCT:** монотонный рост + неотрицательность дают равенство $\lim \int f_n = \int f$. Основа EM-алгоритма
**DCT:** мажоранта $g \in L^1$ + сходимость п.в. дают равенство. Основа policy gradient и правила Лейбница
**Лемма Фату:** только $f_n \geq 0$, только неравенство $\int \liminf f_n \leq \liminf \int f_n$. Нижний этаж всей теории - через неё доказываются MCT и DCT
**Равностепенная интегрируемость:** необходимое и достаточное условие для $L^1$-сходимости. Регуляризация в ML обеспечивает UI

Связанные темы

Предельные теоремы связывают интеграл Лебега с вероятностью и ML-оптимизацией:

Интеграл Лебега — MCT и DCT - главные инструменты работы с интегралом Лебега
Пространства Lp — Сходимость в $L^1$ - частный случай $L^p$; DCT доказывает полноту $L^1$
Мера и теория вероятностей — ЗБЧ и ЦПТ доказываются через предельные теоремы этого урока
Теория меры в ML — Policy gradient, ELBO, EM - прямые применения DCT и MCT в ML

Вопросы для размышления

В ловушке $f_n = n \cdot \mathbf{1}_{[0,1/n]}$ масса не убегает на бесконечность - она концентрируется в стягивающейся точке. Что это говорит о природе 'убегания массы' в лемме Фату?
В каких реальных ML-ситуациях условие DCT (мажоранта в $L^1$) может быть нарушено - и что это означает для алгоритма?
Лемма Фату даёт только неравенство. Означает ли строгое неравенство, что что-то 'теряется' при предельном переходе - и что именно?

Связанные уроки

mt-04 — DCT - инструмент работы с интегралом Лебега, нужна его конструкция
mt-06 — Сходимость в L1 - частный случай Lp; DCT доказывает полноту L1
mt-10 — Закон больших чисел и ЦПТ доказываются через MCT и лемму Фату
calc-01-sequences — Предельные теоремы - обобщение сходимости числовых последовательностей на функции
mt-11 — Policy gradient, ELBO, EM-алгоритм - прямые применения DCT в ML
stat-02-estimation