Теория меры
Двойственность и теорема Рисса
Как нейросеть «видит» данные? Что такое SVM-ядро геометрически? Двойственная теория отвечает: каждое наблюдение - это функционал в пространстве гипотез, двойственная задача оптимизации ищет коэффициенты при этих функционалах, а RKHS делает это пространство конкретным и вычислимым.
- **SVM и метод ядра:** трюк с ядром - это работа в RKHS, где функционалы оценивания ограничены; двойственная задача SVM находит веса при опорных функционалах
- **Neural Tangent Kernel:** бесконечно широкие нейросети обучаются как методы ядра в RKHS, что даёт теоретические гарантии сходимости и обобщения
- **Байесовская оптимизация:** гауссовский процесс - это мера на пространстве функций, и его ядро порождает RKHS, в котором GP ищет оптимум
Предварительные знания
Двойственное пространство и ограниченные линейные функционалы
Каждое нормированное пространство X имеет **двойственное пространство** X* - множество всех ограниченных линейных функционалов на X. Понимание двойственности - ключ к интерпретации двойственных задач в оптимизации и к пониманию того, что такое «линейная модель» в бесконечномерном пространстве признаков.
**Ограниченный линейный функционал:** линейное отображение φ: X → ℝ называется ограниченным, если: ‖φ‖_{X*} = sup { |φ(f)| : ‖f‖_X ≤ 1 } < ∞ **Двойственное пространство X*** = { все ограниченные линейные функционалы на X } с нормой ‖φ‖_{X*}. X* всегда полно (банахово), даже если X не полно.
**Двойственная задача в оптимизации:** в SVM прямая задача (поиск гиперплоскости) переходит в двойственную (поиск опорных векторов). Это применение теории двойственных пространств: каждый опорный вектор соответствует функционалу в двойственном пространстве признаков.
Норма двойственного функционала ‖φ‖_{X*} = sup_{‖f‖≤1} |φ(f)| - это «чувствительность» функционала к единичным возмущениям функции. В ML это мера того, насколько прогноз модели чувствителен к изменению входных данных.
Функционал φ(f) = f(0) задан на L²([0,1]). Является ли он ограниченным?
Двойственное пространство Lp есть Lq
Главный результат о двойственности Lp-пространств: двойственное к Lp есть Lq, где 1/p + 1/q = 1. Это значит, что каждый ограниченный линейный функционал на Lp имеет «интегральное» представление через функцию из Lq.
**Теорема Рисса о представлении (для Lp):** пусть 1 ≤ p < ∞ и 1/p + 1/q = 1. Тогда: (Lp(μ))* ≅ Lq(μ) Более точно: для каждого φ ∈ (Lp)* существует единственная g ∈ Lq такая, что: φ(f) = ∫ f · g dμ для всех f ∈ Lp и ‖φ‖_{(Lp)*} = ‖g‖_q. **Исключение:** (L¹)* = L∞, но (L∞)* ≠ L¹ (двойственное к L∞ больше).
**Особый случай p=2:** L² самодвойственно! Двойственное к L² снова есть L². Это следствие того, что L² - гильбертово пространство: в нём скалярное произведение ⟨f,g⟩ = ∫fg dμ само является изоморфизмом с двойственным. Это принципиально отличает L² от других Lp.
**Применение в статистике:** в линейной регрессии оценка параметров методом наименьших квадратов (L²-задача) переходит в явную формулу β = (X^TX)^{-1}X^Ty. Это двойственный взгляд: прямая задача в пространстве параметров переходит в задачу в пространстве наблюдений.
Двойственное пространство к L³([0,1]) - это:
RKHS и воспроизводящие ядра
Теорема Рисса для L² имеет важное расширение: в специальных гильбертовых пространствах - **RKHS** (Reproducing Kernel Hilbert Space) - функционал «вычисления в точке» f ↦ f(x₀) становится ограниченным. Это делает RKHS идеальным пространством для теории машинного обучения.
**RKHS:** гильбертово пространство H функций f: X → ℝ называется воспроизводящим, если для каждого x ∈ X функционал оценивания φ_x: f ↦ f(x) ограничен на H. По теореме Рисса: существует **воспроизводящее ядро** k: X×X → ℝ такое, что: f(x) = ⟨f, k(x,·)⟩_H для всех f ∈ H, x ∈ X Функция k(x,·) - «двойственный объект» к точке x в H.
**Теорема о представителе:** оптимальное решение в RKHS при минимизации регуляризованного функционала ∑L(f(xᵢ), yᵢ) + λ‖f‖²_H имеет вид f* = Σᵢ αᵢ k(xᵢ, ·). Это обоснование трюка с ядром в SVM: вместо работы в бесконечномерном H достаточно решить конечномерную систему в пространстве обучающих точек.
RKHS - мост между теорией меры и практикой ML. Примеры: гауссово ядро порождает пространство бесконечно дифференцируемых функций; полиномиальное ядро - пространство полиномов; линейное ядро - обычное евклидово пространство. Выбор ядра = выбор пространства гипотез.
Почему функционал «значение в точке» f ↦ f(x₀) ограничен в RKHS, но не в L²?
Функциональный анализ нейросетей
Теория двойственных пространств активно применяется для понимания нейросетей. В частности, бесконечно широкие нейронные сети (Neural Tangent Kernel) связываются с RKHS, а регуляризация нейросетей интерпретируется через нормы в функциональных пространствах.
**Neural Tangent Kernel (NTK):** при ширине сети → ∞ и малой скорости обучения нейросеть ведёт себя как метод ядра в RKHS с ядром k_NTK(x,x') = E_θ[∇_θ f(x,θ) · ∇_θ f(x',θ)]. Обучение эквивалентно минимизации в этом RKHS.
**Норма Барона (Barron norm):** для однослойных нейросетей определена норма, которая управляет ёмкостью класса. Функции с малой нормой Барона хорошо аппроксимируются нейросетью за полиномиальное число нейронов независимо от размерности входа - это теоретическое обоснование «проклятия размерности» не работает для нейросетей в классе Барона.
Двойственное пространство в ML - это пространство «ценностей данных». В методе ядра каждая обучающая точка xᵢ даёт функционал k(xᵢ, ·), и двойственные переменные αᵢ - это их веса. Именно в этом смысле SVM находит «наиболее информативные» точки (опорные векторы).
Neural Tangent Kernel (NTK) связывает бесконечно широкие нейросети с:
Ключевые идеи
- **Двойственное пространство X*:** ограниченные линейные функционалы на X; двойственное к Lp есть Lq при 1/p+1/q=1; L² самодвойственно
- **Теорема Рисса для Lp:** каждый ограниченный функционал на Lp имеет вид φ(f) = ∫fg dμ для уникальной g ∈ Lq
- **RKHS:** гильбертово пространство, в котором функционалы оценивания ограничены; воспроизводящее ядро k реализует f(x) = ⟨f, k(x,·)⟩
- **Применения:** SVM (трюк с ядром), Neural Tangent Kernel, байесовская оптимизация, теорема о представителе
Связанные темы
Двойственность связывает пространства Lp с оптимизацией и ML:
- Пространства Lp — Двойственное к Lp есть Lq - это прямое следствие строения Lp-пространств
- Мера-произведение и теорема Фубини — Интегральное представление функционалов φ(f) = ∫fg dμ связано с теорией двойных интегралов
Вопросы для размышления
- Почему L² самодвойственно, а L¹ - нет? Что означает самодвойственность для геометрии пространства?
- В SVM двойственные переменные αᵢ интерпретируются как «важность» обучающих точек. Как это связано с понятием ограниченного функционала в двойственном пространстве?
- RKHS с гауссовым ядром содержит бесконечно дифференцируемые функции. Как это влияет на то, что нейросеть «может выучить» в рамках NTK-теории?