Функциональный анализ
Компактные операторы и ядра в ML
Ядерное сглаживание в machine learning - это компактный интегральный оператор. Теорема Мерсера гарантирует его SVD. Nyström approximation снижает O(n³) в Gaussian Processes до O(nk²), открывая GP для миллионов точек. Компактные операторы - математика за большинством kernel methods.
- **Kernel SVM (sklearn.svm.SVC):** матрица Грама K(xᵢ,xⱼ) - дискретный аналог компактного оператора ГШ. Dual формулировка SVM работает в RKHS.
- **GPyTorch (Gaussian Processes):** Nyström через Мерсер-разложение. Снижает O(n³) → O(nk²). Используется для surrogate models в Bayesian optimization.
- **Neural Tangent Kernel:** бесконечно широкие нейросети эквивалентны GP с ядром NTK = компактный оператор. Обучение = kernel regression в RKHS.
Компактные операторы: почти конечномерные
SVM с Gaussian-ядром обрабатывает 1M+ образцов в scikit-learn через kernel trick. Теорема Мерсера гарантирует, что Gaussian kernel допускает SVD-разложение в бесконечных размерностях. Gaussian Process в GPyTorch используется Google для Bayesian optimization гиперпараметров - это те же компактные операторы.
Оператор T: X → Y компактен, если образ каждого ограниченного множества **предкомпактен** (замыкание компактно). Эквивалентно: из любой ограниченной последовательности {xₙ} можно выбрать подпоследовательность, для которой {Txₙₖ} сходится. Компактные операторы - «почти конечномерные»: ведут себя как матрицы.
**Компактность в ML:** kernel матрица K(xᵢ, xⱼ) - дискретная версия компактного интегрального оператора. Low-rank approximation (nyström method) - замена компактного оператора оператором конечного ранга. В sklearn.kernel_approximation.Nystroem используется именно это.
Тождественный оператор I не компактен на l². Диагональный T(xₙ) = xₙ/n компактен. В чём принципиальное различие, если оба ограничены?
Компактность - это свойство 'сжимать' ограниченные множества в предкомпактные. Для I единичные векторы {eₙ} образуют ограниченное множество, но {Ieₙ} = {eₙ} не имеет сходящейся подпоследовательности (‖eₙ-eₘ‖=√2). Для T: λₙ=1/n → 0 обеспечивает, что хвосты образа стремятся к нулю.
Теорема Рисса-Шаудера: спектр компактного оператора
Спектр произвольного оператора может быть любым замкнутым множеством в C. Компактные операторы - исключение: их спектр почти как у матрицы, только бесконечного размера.
**Иерархия компактных операторов:** конечный ранг ⊂ ядерные (trace-class, Σσₙ < ∞) ⊂ Гильберта-Шмидта (Σσₙ² < ∞) ⊂ компактные. Kernel SVM матрица Грама - Гильберта-Шмидта. Нейросетевой NTK (Neural Tangent Kernel) - компактный оператор.
Компактный самосопряжённый T имеет счётный спектр {λₙ} с λₙ → 0. Как записывается T через собственные значения и собственные функции? Чем это похоже на SVD матрицы?
Спектральная теорема для компактных самосопряжённых операторов даёт разложение T = Σₙ λₙ ⟨·, eₙ⟩ eₙ - точный аналог SVD. В конечных измерениях это просто M = V Λ V^T для симметричной матрицы, где колонки V = собственные векторы, диагональ Λ = собственные значения.
Операторы Гильберта-Шмидта и теорема Мерсера
Оператор Гильберта-Шмидта (ГШ) - это компактный оператор с дополнительным условием: норма Фробениуса (обобщённая на бесконечные размерности) конечна. Все интегральные операторы с K ∈ L²(Ω×Ω) - операторы ГШ. Теорема Мерсера - их спектральная теорема.
**Gaussian Processes в PyTorch (GPyTorch):** ковариационный kernel K(x,y) = оператор ГШ. Предсказание GP = posterior conditional = инверсия kernel матрицы O(n³). Nyström approximation снижает до O(nk²) через усечённое Мерсер-разложение. Именно так реализован GPyTorch для больших данных.
Теорема Мерсера утверждает K(x,y) = Σλₙφₙ(x)φₙ(y). Объясните связь этого разложения с Nyström approximation в kernel ML.
Теорема Мерсера даёт канонический спектральный разложение K(x,y) = Σλₙφₙ(x)φₙ(y). Nyström приближает это разложение, выбирая k опорных точек и вычисляя φₙ на дискретной сетке. Это снижает сложность с O(n²) до O(nk), сохраняя аппроксимацию с ошибкой Σ_{n>k}λₙ².
Ключевые идеи
- **Компактный T**: ограниченные → предкомпактные. Эквивалентно: предел операторов конечного ранга. I не компактен.
- **Теорема Рисса-Шаудера**: σ(T)\{0} = σ_p(T)\{0}, спектр счётный, накапливается в 0. Кратности конечны.
- **Альтернатива Фредгольма**: (I-T)u=f разрешимо ↔ f ⊥ ker(I-T*). Бесконечномерная теорема Кронекера-Капелли.
- **Оператор ГШ**: ‖T‖²_HS = Σ‖Teₙ‖² = Tr(T*T) = Σσₙ². Интегральный оператор с K ∈ L² - оператор ГШ.
- **Теорема Мерсера**: K(x,y) = Σλₙφₙ(x)φₙ(y) - SVD ядра. Основа Nyström, kernel PCA, GP.
Связанные темы
Компактные операторы - мост между линейной алгеброй и бесконечномерным ML:
- Спектральная теория — Для компактных самосопряжённых: T = Σλₙ⟨·,eₙ⟩eₙ - полная спектральная теорема с ONB из собственных функций
- L² и пространства Лебега — Интегральные операторы с K ∈ L²(Ω×Ω) - операторы ГШ. Норма ‖T‖_HS = ‖K‖_{L²(Ω²)}
Вопросы для размышления
- Nyström approximation выбирает k опорных точек случайно или по importance sampling. Как теорема Мерсера объясняет, почему важно выбирать точки из областей высокой плотности данных?
- Neural Tangent Kernel бесконечно широких сетей - компактный оператор. Как это объясняет феномен double descent: почему переобученная сеть при достаточной ширине снова обобщает?
- Теорема Рисса-Шаудера говорит: спектр компактного оператора счётный. Для интегрального оператора с гладким ядром K ∈ C^∞ собственные значения убывают быстро. Как скорость убывания λₙ связана с гладкостью K?