Теория меры
Теоремы о сходимости
Policy gradient theorem: $\nabla J(\theta) = \mathbb{E}[\nabla \log \pi_\theta(a|s) \cdot Q(s,a)]$. Можно ли вынести $\nabla_\theta$ под знак ожидания? Только если выполнены условия теоремы Лебега о доминированной сходимости. Вся теория RL - REINFORCE, PPO, SAC - опирается на этот обмен. Три теоремы этого урока - MCT, DCT, лемма Фату - дают точные условия когда это законно.
- **Policy gradient (REINFORCE):** $\nabla_\theta \mathbb{E}_{\pi_\theta}[R] = \mathbb{E}_{\pi_\theta}[R \cdot \nabla \log \pi_\theta]$ - дифференцирование под знаком ожидания, оправданное DCT при наличии мажоранты для $\nabla \log \pi_\theta$
- **EM-алгоритм и VAE:** ELBO монотонно растёт при каждом шаге - это структура MCT. Теорема гарантирует сходимость к локальному максимуму без дополнительных условий
- **Закон больших чисел (строгий):** $(1/n) \sum X_i \to \mathbb{E}[X]$ почти наверное доказывается через MCT и лемму Фату применительно к случайным величинам
- **Регуляризация как UI:** L2-регуляризация, gradient clipping, batch norm обеспечивают равностепенную интегрируемость, превращая теоретическую $L^1$-сходимость в алгоритмическую
Предварительные знания
Теорема о монотонной сходимости (MCT)
Нельзя просто менять местами предел и интеграл. Функция-ловушка: $f_n(x) = n \cdot \mathbf{1}_{[0, 1/n]}$. Каждая интегрируема. $\lim f_n = 0$ почти всюду. Но $\int f_n = 1$ для любого $n$. Бесконечность в одной точке убивает сходимость. Именно поэтому нужны условия - и три теоремы этого урока дают исчерпывающий ответ.
MCT (Беппо Леви) - самый чистый случай: функции неотрицательные и монотонно растут. Никаких тонкостей с убегающей массой.
**Теорема о монотонной сходимости (MCT):** если $f_n \geq 0$ измеримы и $f_n \uparrow f$ (монотонно растут почти всюду), то: $$\lim_{n \to \infty} \int f_n \, d\mu = \int f \, d\mu$$ Равенство - не неравенство. Монотонность исключает убегание массы. Интеграл предела = предел интегралов.
EM-алгоритм работает именно через MCT-структуру: нижняя граница ELBO монотонно растёт при каждом шаге E+M. Гарантия MCT: если нижняя оценка растёт монотонно и ограничена - она сходится. Именно поэтому EM сходится к локальному максимуму правдоподобия без дополнительных условий.
| Теорема | Условие | Вывод | ML-применение |
|---|---|---|---|
| MCT (Беппо Леви) | $f_n \geq 0$, монотонно растут | $\lim \int f_n = \int f$ (равенство) | EM-алгоритм, сходимость ELBO |
| DCT (Лебег) | $|f_n| \leq g \in L^1$, $f_n \to f$ п.в. | $\lim \int f_n = \int f$ (равенство) | Policy gradient, дифф. под интегралом |
| Лемма Фату | $f_n \geq 0$ | $\int \liminf f_n \leq \liminf \int f_n$ | Доказательства сходимости SGD |
Если $f_n \to f$ почти всюду, то $\int f_n \to \int f$ автоматически
Сходимость почти всюду не влечёт сходимость интегралов без дополнительных условий (монотонность или мажоранта).
Ловушка: $f_n = n \cdot \mathbf{1}_{[0,1/n]}$. Сходится к 0 почти всюду, но $\int f_n = 1$ для любого $n$. Масса 'концентрируется' в точке, которая сжимается к нулю.
Последовательность $f_n = \mathbf{1}_{[0,1/n]}$ на $[0,1]$ сходится к $f \equiv 0$. Верно ли что $\lim \int f_n = 0$?
Теорема Лебега о мажорируемой сходимости (DCT)
Policy gradient theorem: $\nabla J(\theta) = \mathbb{E}_{\pi_\theta}[\nabla \log \pi_\theta(a|s) \cdot Q(s,a)]$. Можно ли вынести $\nabla_\theta$ под знак ожидания? Только если выполнены условия DCT. Вся теория reinforcement learning опирается на этот обмен - и каждый раз неявно использует теорему Лебега.
**Теорема Лебега о доминированной сходимости (DCT):** пусть $f_n \to f$ почти всюду и существует $g \in L^1(\mu)$ такая, что $|f_n| \leq g$ п.в. для всех $n$. Тогда: 1. $f \in L^1(\mu)$ 2. $\lim_{n \to \infty} \int f_n \, d\mu = \int f \, d\mu$ 3. $\lim_{n \to \infty} \|f_n - f\|_1 = 0$ $g$ называется **мажорантой**. Условие $g \in L^1$ обязательно - без него теорема ложна.
**Дифференцирование под знаком интеграла** (правило Лейбница): если $F(\theta) = \int f(x, \theta) \, d\mu(x)$ и $|\partial f / \partial \theta| \leq g(x) \in L^1$, то $F'(\theta) = \int \partial f / \partial \theta \, d\mu(x)$. Доказательство: DCT применяется к разностным частным $(f(x, \theta+h) - f(x, \theta))/h$ при $h \to 0$.
**Ловушка без мажоранты:** $f_n(x) = n \cdot \mathbf{1}_{[0,1/n]}$. Сходится к 0 почти всюду. Но $\sup_n f_n(x) = +\infty$ при $x = 0$ - мажоранты в $L^1$ нет. $\int f_n = 1$ для всех $n$: предел интегралов не равен нулю. DCT без мажоранты не работает - всегда проверять.
Правило Лейбница (дифференцирование под интегралом) всегда законно для гладких функций
Нужна интегрируемая мажоранта для производной. Гладкость функции не гарантирует интегрируемость частной производной.
Policy gradient законен потому что политика $\pi_\theta$ обычно параметрируется так, что $|\nabla_\theta \log \pi_\theta|$ имеет интегрируемую мажоранту. В patological случаях (unbounded policy gradients) алгоритм может дивергировать.
$f_n(x) = n \cdot \mathbf{1}_{[0,1/n]}(x) \to 0$ почти всюду на $[0,1]$. Верно ли что $\lim \int f_n \, d\lambda = 0$?
Лемма Фату
Лемма Фату - самый слабый результат из трёх: только неравенство, только для неотрицательных функций. Но именно через неё доказываются и MCT, и DCT. Это нижний этаж всей предельной теории.
**Лемма Фату:** если $f_n \geq 0$ измеримы, то: $$\int \liminf_{n \to \infty} f_n \, d\mu \leq \liminf_{n \to \infty} \int f_n \, d\mu$$ Интуиция: масса может убегать (на бесконечность или концентрироваться в ускользающей точке), и тогда интеграл предела окажется строго меньше предела интегралов.
**Применение в доказательстве SGD сходимости.** Типичная схема: записать loss как интеграл, применить лемму Фату чтобы получить нижнее ограничение на $\liminf$ loss-а, затем показать что $\liminf = 0$. Например, в Robbins-Monro theorem: $\liminf_n \|\nabla L(\theta_n)\|^2 = 0$ почти наверное - доказывается именно через Фату.
**ELBO и лемма Фату:** Evidence Lower BOund в VAE - это $\mathbb{E}_q[\log p(x|z)] - KL(q||p)$. При оптимизации по $q$ (E-шаг) ELBO монотонно растёт. Лемма Фату гарантирует, что взятие нижнего предела по $q$ не завышает интеграл: $\int \liminf_q$ хорошо определено.
Лемма Фату менее важна, чем DCT, потому что даёт только неравенство
Лемма Фату - фундамент: через неё доказываются и MCT, и DCT. Неравенство в правильном направлении даёт нижнюю оценку, которой достаточно для большинства применений.
MCT доказывается как следствие Фату для монотонных последовательностей. DCT строится через Фату + обратную Фату. Нижний этаж несёт всё здание.
Для неотрицательных $f_n$ лемма Фату утверждает:
Равностепенная интегрируемость и теорема Витали
Когда $\mathbb{E}[X_n] \to \mathbb{E}[X]$? DCT даёт достаточное условие (мажоранта). Равностепенная интегрируемость (UI) - ровно необходимое и достаточное при сходимости по мере. Регуляризация в ML (L1/L2/weight decay) обеспечивает UI для семейства функций потерь.
**Равностепенная интегрируемость (UI):** семейство $\{f_n\}$ равностепенно интегрируемо, если: $$\lim_{M \to \infty} \sup_n \int_{|f_n| > M} |f_n| \, d\mu = 0$$ Интуиция: 'хвосты' всех $f_n$ одновременно малы при достаточно большом пороге $M$. Функции не могут одновременно 'убегать' на бесконечность. **Теорема Витали:** $f_n \xrightarrow{L^1} f$ тогда и только тогда, когда $f_n \to f$ по мере и $\{f_n\}$ равностепенно интегрируемо.
**Почему это важно для ML.** Сходимость весов нейросети в $L^1$ требует UI для семейства gradients. Без регуляризации gradients могут не быть UI - отсюда gradient explosion. Weight decay (L2), gradient clipping, batch normalization - все эти техники, помимо прочего, обеспечивают равностепенную интегрируемость, превращая теоретическую сходимость в алгоритмическую.
Gradient clipping и L2-регуляризация - только практические трюки стабилизации
Эти техники обеспечивают равностепенную интегрируемость градиентов, что теоретически гарантирует $L^1$-сходимость и законность предельных переходов.
Без UI нельзя гарантировать $\mathbb{E}[\nabla L_n] \to \mathbb{E}[\nabla L]$. Теорема Витали: $L^1$-сходимость эквивалентна сходимости по мере + UI. Регуляризация обеспечивает UI - это теоретическое обоснование практического результата.
Для правила Лейбница $\frac{d}{d\theta} \int f(x,\theta) \, d\mu = \int \frac{\partial f}{\partial \theta} \, d\mu$ необходимо:
Ключевые идеи
- **Нельзя просто менять предел и интеграл:** $f_n = n \cdot \mathbf{1}_{[0,1/n]} \to 0$ п.в., но $\int f_n = 1$ - классическая ловушка
- **MCT:** монотонный рост + неотрицательность дают равенство $\lim \int f_n = \int f$. Основа EM-алгоритма
- **DCT:** мажоранта $g \in L^1$ + сходимость п.в. дают равенство. Основа policy gradient и правила Лейбница
- **Лемма Фату:** только $f_n \geq 0$, только неравенство $\int \liminf f_n \leq \liminf \int f_n$. Нижний этаж всей теории - через неё доказываются MCT и DCT
- **Равностепенная интегрируемость:** необходимое и достаточное условие для $L^1$-сходимости. Регуляризация в ML обеспечивает UI
Связанные темы
Предельные теоремы связывают интеграл Лебега с вероятностью и ML-оптимизацией:
- Интеграл Лебега — MCT и DCT - главные инструменты работы с интегралом Лебега
- Пространства Lp — Сходимость в $L^1$ - частный случай $L^p$; DCT доказывает полноту $L^1$
- Мера и теория вероятностей — ЗБЧ и ЦПТ доказываются через предельные теоремы этого урока
- Теория меры в ML — Policy gradient, ELBO, EM - прямые применения DCT и MCT в ML
Вопросы для размышления
- В ловушке $f_n = n \cdot \mathbf{1}_{[0,1/n]}$ масса не убегает на бесконечность - она концентрируется в стягивающейся точке. Что это говорит о природе 'убегания массы' в лемме Фату?
- В каких реальных ML-ситуациях условие DCT (мажоранта в $L^1$) может быть нарушено - и что это означает для алгоритма?
- Лемма Фату даёт только неравенство. Означает ли строгое неравенство, что что-то 'теряется' при предельном переходе - и что именно?
Связанные уроки
- mt-04 — DCT - инструмент работы с интегралом Лебега, нужна его конструкция
- mt-06 — Сходимость в L1 - частный случай Lp; DCT доказывает полноту L1
- mt-10 — Закон больших чисел и ЦПТ доказываются через MCT и лемму Фату
- calc-01-sequences — Предельные теоремы - обобщение сходимости числовых последовательностей на функции
- mt-11 — Policy gradient, ELBO, EM-алгоритм - прямые применения DCT в ML
- stat-02-estimation