Теория меры

Теоремы сходимости и пространства Lp

Норма L1 в PyTorch и sklearn - это интеграл Лебега, а не Римана. Теорема о доминированной сходимости Лебега позволяет менять сумму и интеграл - именно это обосновывает корректность градиентного спуска при сходящихся весах нейросети.

ML регуляризация: L1-норма устойчива к выбросам, L2 - минимизирует дисперсию
Теория сигналов: ряды Фурье в L2 - полнота через теорему Лебега
Байесовский ML: гауссовские интегралы через MCT и DCT
Численные методы: Monte Carlo интегрирование через закон больших чисел в L1
Функциональный анализ: пространства Lp как основа теории операторов
Информационная теория: энтропия как интеграл Лебега по распределению

MCT и DCT - это то, почему в ML можно менять местами сумму и интеграл. Без DCT нет строгого обоснования gradient descent с сходящимися весами. Без MCT нет L2-теории рядов Фурье. Выбор нормы Lp - это не технический, а концептуальный выбор: L1 устойчива к выбросам, L2 минимизирует дисперсию, L∞ контролирует worst-case.

**О чём этот урок на самом деле:** когда можно переставить lim и ∫? Это не технический вопрос - это вопрос о том, какие гарантии нужны функции (доминирование или монотонность). Lp-нормы - это параметризованная шкала «нечувствительности к аномалиям».

Схема импликаций между видами сходимости

MCT и DCT: когда применять

Lp-нормы в ML: практический выбор

**L1-регуляризация (Lasso)**: штраф ‖w‖₁ = Σ|wᵢ|. Производная |w|' = sign(w) = ±1 - одинакова для малых и больших wᵢ. Результат: разреженные веса (многие wᵢ = 0 точно). **L2-регуляризация (Ridge)**: штраф ‖w‖₂² = Σwᵢ². Производная = 2wᵢ - большие веса штрафуются сильнее. Результат: малые, но не нулевые веса.

**Lp-нормы в ML-системах** Практические применения теорем сходимости • **MSE / MAE / Huber** (Функции потерь в нейросетях): MSE = L2 (чувствительна к выбросам, дифференцируема везде). MAE = L1 (устойчива, недифференцируема в 0). Huber: L2 для малых ошибок, L1 для больших. • **LASSO / Ridge / ElasticNet** (Регуляризация линейных моделей): L1: разреженность (feature selection). L2: малые веса (численная стабильность). ElasticNet: L1+L2. • **Wasserstein GAN** (Earth Mover Distance = L1 на пространстве мер): WGAN использует W1-расстояние (Wasserstein-1) вместо JS-дивергенции. Более стабильное обучение, нет mode collapse. Теоретически обоснован через Lp-теорию мер. • **BatchNorm / LayerNorm** (Нормировка по Lp): BatchNorm делит на L2-норму батча (std). RMSNorm делит на корень из L2-нормы активаций. Связь с гильбертовой структурой L2.

Иерархия сходимости: MCT, DCT и когда интеграл можно переставить с пределом

MSE - среднеквадратичная ошибка в ML - минимизирует L2-норму. MAE минимизирует L1. Это не случайный выбор: разные нормы задают разные типы сходимости. **Без теорем MCT и DCT нет Lp-теории, нет функционального анализа, нет строгого обоснования градиентного спуска**. Именно эти теоремы разрешают переставлять ∫ и lim.

**Как проверить применимость DCT:** (1) есть ли поточечная сходимость fₙ→f? (2) найти g: |fₙ(x)| ≤ g(x) для всех n и всех x, с ∫g dμ < ∞. Если g найдена - DCT работает. Если нет - интеграл предела может не совпадать с пределом интеграла.

Функции fₙ = n·1_{[0,1/n]} на [0,1]. В каком смысле fₙ → 0?

fₙ(x)→0 для каждого x>0 (п.в.) и по мере, но max fₙ = n→∞ (не равномерно), и ∫fₙ = 1 для всех n (не в L1 - масса убегает в точку 0).

Пространства Lp: норма, Гёльдер и ML-применения

Нейросети с функцией потерь MSE минимизируют L2-норму ошибки. Huber loss - гибрид L1 и L2. LASSO-регуляризация штрафует L1-норму весов (разреженность), Ridge - L2-норму (малые веса). **Выбор нормы Lp определяет, насколько алгоритм устойчив к выбросам**. L1 устойчива: один большой выброс имеет такой же вес, как много малых. L2 нет: квадрат большого выброса доминирует.

Какой показатель q сопряжён к p=4 (т.е. 1/p + 1/q = 1)?

Из 1/4 + 1/q = 1 следует 1/q = 3/4, q = 4/3. Неравенство Гёльдера: ∫|fg| ≤ ‖f‖₄·‖g‖_{4/3}.

Равномерная интегрируемость и теорема Витали

**Теорема Егорова**: на конечной мере сходимость п.в. «почти» равномерна. Точнее: для любого δ>0 есть E с μ(X\E)<δ, где fₙ→f равномерно на E. Это объясняет, почему численное интегрирование работает: можно игнорировать «плохое» множество меры δ. **Равномерная интегрируемость** - точное условие, при котором сходимость по мере влечёт L1-сходимость.

Теорема Егорова требует μ(X) < ∞. Какой пример показывает, что без этого условия теорема может не выполняться?

fₙ = 1_{[n,n+1]}→0 п.в. (каждая точка покрывается лишь конечно много раз). Для равномерной сходимости нужно выбросить все хвосты [n,n+1] - это множество бесконечной меры.

равномерная → Lp (p<∞) → по мере ↑ п.в. + доминирование → Lp (DCT) п.в. ⟵ по мере (с подпоследовательностью) NOT: п.в. ↛ Lp (контрпример: горб n·1_{[0,1/n]}) NOT: по мере ↛ п.в. (контрпример: бегущая волна) NOT: Lp ↛ п.в. (контрпример: бегущая волна с весами) На конечной мере: L2 → L1 (через Гёльдер с g=1)

Теорема	Условие	Вывод	Применение в ML
MCT	fₙ ↑ f, fₙ ≥ 0	∫fₙ → ∫f	Суммирование бесконечных рядов
DCT	\|fₙ\| ≤ g∈L1, fₙ→f п.в.	∫fₙ → ∫f	Градиент через интеграл - смена порядка
Витали	UI + fₙ→f по мере	‖fₙ-f‖₁→0	Сходимость эмпирических мер к истинной
Егоров	μ(X)<∞, fₙ→f п.в.	∀δ∃E: равн. на X\E	Численная квадратура на компакте

Упражнения

Почему при сходимости п.в. интеграл предела может не равняться пределу интегралов? Какое условие нужно добавить? — Горб: fₙ→0 п.в., но ∫fₙ=1 для всех n - масса убегает; DCT: нужна g∈L1 с |fₙ|≤g; g 'запирает' массу; UI: альтернативное условие через хвосты (теорема Витали); В ML: это оправдывает взятие lim под знаком интеграла при обучении
Чем L1-норма отличается от L2 с точки зрения устойчивости к выбросам? Объясните через формулу нормы. — L2: ошибка 10 даёт вклад 100; один выброс может доминировать; L1: ошибка 10 даёт вклад 10; линейная зависимость; Lasso = L1-штраф → нулевые веса (разреженность); Медиана = L1-минимизатор, среднее = L2-минимизатор

Ключевые идеи

MCT: fₙ↑f, fₙ≥0 → ∫fₙ→∫f; переставление lim и ∫ без условий (неотрицательные)
DCT: |fₙ|≤g∈L1, fₙ→f п.в. → ∫fₙ→∫f; g 'запирает' убегающую массу
Горб n·1_{[0,1/n]}: п.в. → 0, но ∫=1; нет доминирования - DCT неприменима
Lp-норма: ‖f‖_p = (∫|f|^p)^(1/p); Гёльдер: ∫|fg| ≤ ‖f‖_p·‖g‖_q, 1/p+1/q=1
L1 устойчива к выбросам; L2 минимизирует дисперсию; Lasso (L1) → разреженность
UI = обобщение DCT: семейство UI + сходимость по мере → L1-сходимость (теорема Витали)

Связанные темы

Теоремы сходимости - фундамент функционального анализа и ML-теории

Произведения мер и теорема Фубини — Фубини требует интегрируемости - это DCT-условие для двойных интегралов
Знаковые меры и теорема Радона-Никодима — Lp-двойственность (Lp)* = Lq связана с теоремой Радона-Никодима
Интеграл Лебега — MCT и DCT - главные теоремы о предельном переходе под знаком интеграла Лебега

Связанные уроки

prob-06-random-vars