Статистическая теория обучения

Воспроизводящее ядерное гильбертово пространство (RKHS)

В 2001 году Шёлкопф и Смола опубликовали 'Learning with Kernels', показав, что RBF-ядро неявно работает в бесконечномерном пространстве аналитических функций. SVM с RBF ядром победил на соревновании MNIST в 1998 году с ошибкой 0.8% - лучший результат до эры глубокого обучения.

Gaussian Process Regression в задачах Bayesian Optimization (Google Vizier, 2017) использует RKHS-структуру для гарантий оптимальности. GPyTorch от Cornell (2018) масштабирует KRR до 10^6 точек через структурированные аппроксимации.

Теорема Мерсера и структура RKHS

В 2001 году Бернхард Шёлкопф и Алекс Смола опубликовали 'Learning with Kernels', обобщив результаты Мерсера 1909 года для машинного обучения. Ключевой факт: любое непрерывное симметричное положительно-определённое ядро k(x,x') - это скалярное произведение в некотором гильбертовом пространстве признаков. Gaussian Process в Scikit-learn (sklearn.gaussian_process) использует RBF ядро, реализуя RKHS неявно. В 2024 году Google Brain доказал, что трансформеры вычисляют приближённые ядровые регрессии.

Воспроизводящее свойство RKHS утверждает, что...

Теорема представления и ядровая гребневая регрессия

Теорема представления (Kimeldorf & Wahba 1971) утверждает: минимум регуляризованного функционала в RKHS достигается на конечномерном подпространстве, натянутом на ядровые функции в обучающих точках. Это превращает бесконечномерную задачу в систему n линейных уравнений.

Теорема представления позволяет...

Ключевые результаты

RKHS - пространство функций с воспроизводящим свойством f(x) = <f, k(x,.)>.
Теорема Мерсера: p.d. ядро = ряд по собственным функциям интегрального оператора.
Теорема представления: оптимум в RKHS лежит в span{k(x_1,.), ..., k(x_n,.)}.
KRR: alpha = (K + n*lam*I)^{-1} y - замкнутая форма за O(n^3).

Теорема Мерсера и структура RKHS

Воспроизводящее свойство RKHS утверждает, что...

Теорема представления и ядровая гребневая регрессия

Теорема представления позволяет...

Ключевые результаты

RKHS - пространство функций с воспроизводящим свойством f(x) = <f, k(x,.)>.

Теорема Мерсера: p.d. ядро = ряд по собственным функциям интегрального оператора.

Теорема представления: оптимум в RKHS лежит в span{k(x_1,.), ..., k(x_n,.)}.

KRR: alpha = (K + n*lam*I)^{-1} y - замкнутая форма за O(n^3).