Теория меры

Пространства Lp

Почему потери MSE и MAE ведут себя так по-разному? Почему L2-регуляризация (Ridge) не обнуляет коэффициенты, а L1 (Lasso) - обнуляет? Ответ кроется в геометрии пространств Lp: форма единичного шара полностью определяет поведение регуляризатора и форму решения.

**Регуляризация в ML:** L¹-штраф (Lasso) порождает разреженность из-за угловой геометрии L¹-шара; L²-штраф (Ridge) не обнуляет коэффициенты из-за гладкой геометрии L²-шара
**Обработка сигналов:** L² - пространство сигналов конечной энергии (теорема Парсеваля); L¹ - сигналы с конечной суммой модулей (абсолютно суммируемые ряды Фурье)
**Функциональный анализ нейросетей:** функциональные пространства гипотез для нейросетей описываются нормами типа Lp; они задают «сложность» класса функций

Предварительные знания

Convergence Theorems

Норма Lp и семейство пространств

Пространство L¹ - лишь первый член богатого семейства. Для каждого p ∈ [1, ∞] определяется своё пространство Lp с нормой, измеряющей «p-ую степень» размера функции. Это семейство охватывает практически все нормы, встречающиеся в ML.

**Норма Lp (1 ≤ p < ∞):** ‖f‖_p = (∫ |f|^p dμ)^{1/p} **Норма L∞ (существенный супремум):** ‖f‖_∞ = ess sup |f(x)| = inf { M : μ({|f| > M}) = 0 } **Пространство Lp(μ):** классы эквивалентности измеримых функций с ‖f‖_p < ∞, где f ~ g если f = g μ-п.в.

p	Норма	Геометрия единичного шара	Применение в ML
1	‖f‖₁ = ∫\|f\| dμ	L¹-шар (ромб в ℝ²)	MAE, Lasso, разреженность
2	‖f‖₂ = (∫f² dμ)^{1/2}	Евклидов шар (круг)	MSE, Ridge, нейросети
∞	‖f‖_∞ = ess sup\|f\|	Куб (L∞ = Chebyshev)	Робастная оптимизация
p > 2	‖f‖_p	«Супер-круг»	Редко, теория Lp
p < 1	‖f‖_p (не норма!)	Невыпуклый	Разреженность (не выпукло)

Особый случай: **L∞** - функции, ограниченные п.в. В нём важен факт, что ‖f‖_∞ = lim_{p→∞} ‖f‖_p (для функций с конечной мерой носителя). Пространство L² самое «удобное»: оно гильбертово (есть скалярное произведение ⟨f,g⟩ = ∫fg dμ), тогда как Lp при p ≠ 2 - только банахово.

Функция f ∈ L²([0,1]) (‖f‖₂ < ∞). Означает ли это, что f ∈ L¹([0,1])?

Неравенства Гёльдера и Минковского

Два фундаментальных неравенства теории Lp: **Гёльдер** позволяет оценить интеграл произведения, **Минковский** доказывает, что ‖·‖_p действительно является нормой (удовлетворяет неравенству треугольника).

**Неравенство Гёльдера:** если 1/p + 1/q = 1 (p и q называются **сопряжёнными**), то для f ∈ Lp и g ∈ Lq: ∫ |f · g| dμ ≤ ‖f‖_p · ‖g‖_q Частный случай p = q = 2: **неравенство Коши-Буняковского-Шварца** ∫|fg| dμ ≤ ‖f‖₂‖g‖₂. **Неравенство Минковского:** для f, g ∈ Lp: ‖f + g‖_p ≤ ‖f‖_p + ‖g‖_p Это неравенство треугольника - именно оно делает ‖·‖_p нормой.

**Применение в ML:** неравенство Гёльдера лежит в основе **регуляризации**. Для p=2 и q=2 оно говорит: ‖w·x‖₁ ≤ ‖w‖₂·‖x‖₂. Это означает, что выход линейного слоя ограничен произведением норм весов и входа - стандартное рассуждение для оценки обобщающей способности через normed-bounded hypothesis classes.

Сопряжённые пары (p, q) с 1/p + 1/q = 1 особенно важны: (1,∞), (2,2), (3,3/2), (4,4/3). В ML пара (1,∞) связывает L¹ (Lasso) с L∞-ограничениями на ошибку, а пара (2,2) - с Евклидовой геометрией нейросетей.

Для p=4 сопряжённый показатель q равен:

Полнота Lp: теорема Рисса-Фишера

Пространство называется **полным**, если любая фундаментальная (коши) последовательность в нём сходится к элементу того же пространства. Полнота - принципиальное свойство: без неё нельзя гарантировать, что алгоритмы оптимизации сходятся к решению в том же классе функций.

**Теорема Рисса-Фишера:** для любого 1 ≤ p ≤ ∞ пространство Lp(μ) **полно**. То есть: если ‖fₙ − fₘ‖_p → 0 при n,m → ∞ (фундаментальная последовательность), то существует f ∈ Lp(μ) такая, что ‖fₙ − f‖_p → 0. Следствие: Lp(μ) - **банахово пространство**. При p=2 - **гильбертово пространство** (полное со скалярным произведением).

Полнота L² гарантирует, что **итерационные методы оптимизации** (градиентный спуск, метод конъюгированных градиентов) в L²-пространстве сходятся к элементу того же пространства. Без полноты «предел» мог бы «выпасть» из класса, делая алгоритм бессмысленным.

**Классическая ловушка:** пространство Lp определяется через классы эквивалентности. «Функция» в Lp - это не конкретная функция, а класс функций, совпадающих почти всюду. Поэтому высказывание «f(x) = 0» некорректно: можно сказать только «f = 0 п.в.» или «‖f‖_p = 0».

Почему L²([0,1]) предпочтительнее C([0,1]) (непрерывных функций с той же L²-нормой) в функциональном анализе?

Включения Lp и геометрия норм в ML

Какова взаимосвязь между разными пространствами Lp? На пространствах с конечной мерой (как [0,1]) пространства Lp вкладываются одно в другое по убыванию: чем больше p, тем строже условие интегрируемости.

**Включения Lp на пространстве конечной меры:** если μ(X) < ∞ и 1 ≤ p ≤ q ≤ ∞, то: L^q(μ) ⊂ L^p(μ) и ‖f‖_p ≤ μ(X)^{1/p − 1/q} · ‖f‖_q В частности: L^∞ ⊂ ... ⊂ L² ⊂ L¹. **На бесконечной мере (например, λ на ℝ) включений нет:** можно найти функции в L¹\L² и в L²\L¹.

**Геометрия норм в ML:** единичные шары в ℝ² для разных p имеют очень разные формы. L¹-шар (ромб) имеет угловые точки на осях координат - именно в них достигается минимум при L¹-регуляризации, что и порождает разреженность весов. L²-шар (круг) - гладкий, что объясняет, почему Ridge не обнуляет коэффициенты.

На практике в глубоком обучении используется преимущественно L²-норма (MSE, weight decay). Однако L¹-норма критически важна в сжатии моделей и квантовании: она позволяет выявить и обнулить незначимые веса, уменьшая размер модели без потери качества.

На [0,1] с мерой Лебега: если f ∈ L³, то:

Ключевые идеи

**Норма Lp:** ‖f‖_p = (∫|f|^p dμ)^{1/p} для p∈[1,∞); ‖f‖_∞ = ess sup |f|; при p=2 получается гильбертово пространство
**Гёльдер:** ∫|fg| dμ ≤ ‖f‖_p · ‖g‖_q при 1/p+1/q=1; обобщение неравенства Коши-Шварца
**Минковский:** ‖f+g‖_p ≤ ‖f‖_p + ‖g‖_p - неравенство треугольника; **Рисс-Фишер:** Lp полно для всех 1≤p≤∞
**Включения:** на конечной мере L^∞ ⊂ ... ⊂ L² ⊂ L¹; на ℝ включений нет; L¹ и L² выбираются исходя из задачи

Связанные темы

Пространства Lp - центральный объект функционального анализа и ML:

Теоремы о сходимости — DCT доказывает, что Lp-сходимость совместима с интегралом Лебега
Двойственность и теорема Рисса — Двойственное к Lp пространство есть Lq при 1/p+1/q=1; теорема Рисса об этом
Мера и вероятность — Случайные величины с конечным p-м моментом - это элементы Lp(Ω,F,P)

Вопросы для размышления

Почему пространство L² особенно удобно в сравнении с другими Lp? Какие конкретные свойства (скалярное произведение, проекции, ортогональность) делают его привилегированным?
В задаче регрессии: когда стоит использовать L¹-потери (MAE), а когда L²-потери (MSE)? Как геометрия Lp влияет на робастность к выбросам?
Почему на ℝ нет включений между L¹ и L²? Придумайте функцию f ∈ L¹(ℝ)\L²(ℝ) и функцию g ∈ L²(ℝ)\L¹(ℝ).

Связанные уроки

top-04