Функциональный анализ

Компактные операторы и ядра в ML

Ядерное сглаживание в machine learning - это компактный интегральный оператор. Теорема Мерсера гарантирует его SVD. Nyström approximation снижает O(n³) в Gaussian Processes до O(nk²), открывая GP для миллионов точек. Компактные операторы - математика за большинством kernel methods.

**Kernel SVM (sklearn.svm.SVC):** матрица Грама K(xᵢ,xⱼ) - дискретный аналог компактного оператора ГШ. Dual формулировка SVM работает в RKHS.
**GPyTorch (Gaussian Processes):** Nyström через Мерсер-разложение. Снижает O(n³) → O(nk²). Используется для surrogate models в Bayesian optimization.
**Neural Tangent Kernel:** бесконечно широкие нейросети эквивалентны GP с ядром NTK = компактный оператор. Обучение = kernel regression в RKHS.

Компактные операторы: почти конечномерные

SVM с Gaussian-ядром обрабатывает 1M+ образцов в scikit-learn через kernel trick. Теорема Мерсера гарантирует, что Gaussian kernel допускает SVD-разложение в бесконечных размерностях. Gaussian Process в GPyTorch используется Google для Bayesian optimization гиперпараметров - это те же компактные операторы.

Оператор T: X → Y компактен, если образ каждого ограниченного множества **предкомпактен** (замыкание компактно). Эквивалентно: из любой ограниченной последовательности {xₙ} можно выбрать подпоследовательность, для которой {Txₙₖ} сходится. Компактные операторы - «почти конечномерные»: ведут себя как матрицы.

**Компактность в ML:** kernel матрица K(xᵢ, xⱼ) - дискретная версия компактного интегрального оператора. Low-rank approximation (nyström method) - замена компактного оператора оператором конечного ранга. В sklearn.kernel_approximation.Nystroem используется именно это.

Тождественный оператор I не компактен на l². Диагональный T(xₙ) = xₙ/n компактен. В чём принципиальное различие, если оба ограничены?

Компактность - это свойство 'сжимать' ограниченные множества в предкомпактные. Для I единичные векторы {eₙ} образуют ограниченное множество, но {Ieₙ} = {eₙ} не имеет сходящейся подпоследовательности (‖eₙ-eₘ‖=√2). Для T: λₙ=1/n → 0 обеспечивает, что хвосты образа стремятся к нулю.

Теорема Рисса-Шаудера: спектр компактного оператора

Спектр произвольного оператора может быть любым замкнутым множеством в C. Компактные операторы - исключение: их спектр почти как у матрицы, только бесконечного размера.

**Иерархия компактных операторов:** конечный ранг ⊂ ядерные (trace-class, Σσₙ < ∞) ⊂ Гильберта-Шмидта (Σσₙ² < ∞) ⊂ компактные. Kernel SVM матрица Грама - Гильберта-Шмидта. Нейросетевой NTK (Neural Tangent Kernel) - компактный оператор.

Компактный самосопряжённый T имеет счётный спектр {λₙ} с λₙ → 0. Как записывается T через собственные значения и собственные функции? Чем это похоже на SVD матрицы?

Спектральная теорема для компактных самосопряжённых операторов даёт разложение T = Σₙ λₙ ⟨·, eₙ⟩ eₙ - точный аналог SVD. В конечных измерениях это просто M = V Λ V^T для симметричной матрицы, где колонки V = собственные векторы, диагональ Λ = собственные значения.

Операторы Гильберта-Шмидта и теорема Мерсера

Оператор Гильберта-Шмидта (ГШ) - это компактный оператор с дополнительным условием: норма Фробениуса (обобщённая на бесконечные размерности) конечна. Все интегральные операторы с K ∈ L²(Ω×Ω) - операторы ГШ. Теорема Мерсера - их спектральная теорема.

**Gaussian Processes в PyTorch (GPyTorch):** ковариационный kernel K(x,y) = оператор ГШ. Предсказание GP = posterior conditional = инверсия kernel матрицы O(n³). Nyström approximation снижает до O(nk²) через усечённое Мерсер-разложение. Именно так реализован GPyTorch для больших данных.

Теорема Мерсера утверждает K(x,y) = Σλₙφₙ(x)φₙ(y). Объясните связь этого разложения с Nyström approximation в kernel ML.

Теорема Мерсера даёт канонический спектральный разложение K(x,y) = Σλₙφₙ(x)φₙ(y). Nyström приближает это разложение, выбирая k опорных точек и вычисляя φₙ на дискретной сетке. Это снижает сложность с O(n²) до O(nk), сохраняя аппроксимацию с ошибкой Σ_{n>k}λₙ².

Ключевые идеи

**Компактный T**: ограниченные → предкомпактные. Эквивалентно: предел операторов конечного ранга. I не компактен.
**Теорема Рисса-Шаудера**: σ(T)\{0} = σ_p(T)\{0}, спектр счётный, накапливается в 0. Кратности конечны.
**Альтернатива Фредгольма**: (I-T)u=f разрешимо ↔ f ⊥ ker(I-T*). Бесконечномерная теорема Кронекера-Капелли.
**Оператор ГШ**: ‖T‖²_HS = Σ‖Teₙ‖² = Tr(T*T) = Σσₙ². Интегральный оператор с K ∈ L² - оператор ГШ.
**Теорема Мерсера**: K(x,y) = Σλₙφₙ(x)φₙ(y) - SVD ядра. Основа Nyström, kernel PCA, GP.

Связанные темы

Компактные операторы - мост между линейной алгеброй и бесконечномерным ML:

Спектральная теория — Для компактных самосопряжённых: T = Σλₙ⟨·,eₙ⟩eₙ - полная спектральная теорема с ONB из собственных функций
L² и пространства Лебега — Интегральные операторы с K ∈ L²(Ω×Ω) - операторы ГШ. Норма ‖T‖_HS = ‖K‖_{L²(Ω²)}

Вопросы для размышления

Nyström approximation выбирает k опорных точек случайно или по importance sampling. Как теорема Мерсера объясняет, почему важно выбирать точки из областей высокой плотности данных?
Neural Tangent Kernel бесконечно широких сетей - компактный оператор. Как это объясняет феномен double descent: почему переобученная сеть при достаточной ширине снова обобщает?
Теорема Рисса-Шаудера говорит: спектр компактного оператора счётный. Для интегрального оператора с гладким ядром K ∈ C^∞ собственные значения убывают быстро. Как скорость убывания λₙ связана с гладкостью K?

Связанные уроки

la-13-eigenvectors

Компактные операторы: почти конечномерные

Теорема Рисса-Шаудера: спектр компактного оператора

Операторы Гильберта-Шмидта и теорема Мерсера

Теорема Мерсера утверждает K(x,y) = Σλₙφₙ(x)φₙ(y). Объясните связь этого разложения с Nyström approximation в kernel ML.

Ключевые идеи

**Компактный T**: ограниченные → предкомпактные. Эквивалентно: предел операторов конечного ранга. I не компактен.

**Теорема Рисса-Шаудера**: σ(T)\{0} = σ_p(T)\{0}, спектр счётный, накапливается в 0. Кратности конечны.

**Альтернатива Фредгольма**: (I-T)u=f разрешимо ↔ f ⊥ ker(I-T*). Бесконечномерная теорема Кронекера-Капелли.

**Оператор ГШ**: ‖T‖²_HS = Σ‖Teₙ‖² = Tr(T*T) = Σσₙ². Интегральный оператор с K ∈ L² - оператор ГШ.

**Теорема Мерсера**: K(x,y) = Σλₙφₙ(x)φₙ(y) - SVD ядра. Основа Nyström, kernel PCA, GP.