Функциональный анализ

Функциональный анализ в машинном обучении

Почему ядровые методы SVM и нейронные сети-это одно и то же при правильных условиях? Почему переобученная нейросеть с нулевой ошибкой на обучении всё равно хорошо обобщается? Ответ-функциональный анализ: RKHS, теорема Мерсера и NTK.

**SVM и ядровые методы**: kernel trick реализует скалярное произведение в RKHS без явного вычисления φ(x); теорема Мерсера гарантирует, что любое п.о.п. ядро реализует скалярное произведение в некотором H
**Gaussian Processes**: GP-байесовский взгляд на RKHS; апостериорная средняя = ядровая регрессия, апостериорная дисперсия = неопределённость в RKHS
**Нейронные сети**: NTK объясняет почему overfit-нейросеть обобщается: она находит наименьшую по H-норме функцию через обучающие данные-минимальную норму интерполяцию

Предварительные знания

Functional Analysis in PDEs

RKHS-пространства воспроизводящего ядра

**RKHS** (Reproducing Kernel Hilbert Space): гильбертово пространство H функций на X с воспроизводящим ядром k: X × X → ℝ. Свойства: k(·, x) ∈ H для каждого x ∈ X, и f(x) = ⟨f, k(·, x)⟩_H (воспроизводящее свойство). Ядро k симметрично и положительно-определённо.

**Теорема Рисса для RKHS**: функционал вычисления в точке δ_x(f) = f(x) ограничен на H тогда и только тогда, когда H-RKHS. Норма: ||δ_x||_{H*} = √k(x,x). Примеры ядер: k(x,y) = xᵀy (линейное), k(x,y) = exp(-||x-y||²/2σ²) (RBF/гауссово), k(x,y) = (1 + xᵀy)^d (полиномиальное).

Что означает воспроизводящее свойство ядра k: f(x) = ⟨f, k(·, x)⟩_H?

Теорема Мерсера

**Теорема Мерсера**: если k-непрерывное симметричное положительно-полуопределённое ядро на компакте X, то оно разлагается в ряд k(x,y) = Σᵢ λᵢ φᵢ(x) φᵢ(y), где λᵢ > 0-собственные значения, φᵢ-ортонормированные собственные функции оператора T_k f(x) = ∫ k(x,y) f(y) dy. Ряд сходится абсолютно и равномерно.

**Связь с SVD**: теорема Мерсера-аналог SVD для ядровых матриц. Для дискретного множества X = {x₁,...,xₙ}: матрица Грама K_ij = k(xᵢ, xⱼ) = V Λ Vᵀ (SVD). Отображение в признаковое пространство: φ: x ↦ (√λ₁ φ₁(x), √λ₂ φ₂(x), ...)-RKHS изоморфно пространству l².

Что гарантирует теорема Мерсера для положительно-определённого ядра k(x,y)?

Нейронный тангенциальный ядерный процесс (NTK)

**Neural Tangent Kernel (NTK)**: для нейронной сети f(x; θ) с параметрами θ определяем K_NTK(x, x') = ⟨∂f/∂θ(x), ∂f/∂θ(x')⟩. В пределе бесконечной ширины (width → ∞) NTK замораживается при обучении: K_NTK(x,x') = const. Обучение бесконечно широкой сети = ядровая регрессия с NTK.

**Теорема (Яхаги, 2018)**: при обучении gradient descent с learning rate η "бесконечной" нейронной сети (width → ∞): обучающая потеря экспоненциально убывает как exp(-η·λ_min(K_NTK)·t), где λ_min-наименьшее собственное значение NTK. Глобальная сходимость гарантирована при λ_min(K_NTK) > 0.

Практические следствия NTK: 1. "Переобученная" нейросеть с нулевой потерей на обучении-это ядровая интерполяция с NTK. 2. Обобщение = спектр NTK: если λ_min мало-сеть плохо обобщается (underfitting в некоторых направлениях). 3. Архитектурный дизайн влияет на спектр NTK, что объясняет эффективность BatchNorm, Skip connections.

Нейронные сети-"чёрные ящики" без математической теории

В пределе бесконечной ширины нейронные сети точно описываются функциональным анализом: RKHS с NTK как ядром, гауссовские процессы (бесконечные сети = GP), спектр NTK объясняет обобщающую способность

NTK-теория объясняет загадку "двойного спуска"-почему переобученные нейросети обобщаются хорошо: они находят минимальную по RKHS-норме интерполяцию (аналог ridge regression с λ → 0)

Что происходит с NTK в пределе бесконечной ширины нейронной сети?

Ключевые идеи

**RKHS**: гильбертово пространство с воспроизводящим ядром k; воспроизводящее свойство f(x) = ⟨f, k(·,x)⟩_H; ядровая регрессия = минимальная по ||f||_H интерполяция
**Теорема Мерсера**: k(x,y) = Σ λᵢ φᵢ(x)φᵢ(y); ядро = скалярное произведение в пространстве признаков Φ(x); аналог SVD для ядровых матриц
**NTK**: K_NTK(x,x') = ⟨∂f/∂θ(x), ∂f/∂θ(x')⟩; при width → ∞ замерзает; обучение = ядровая регрессия; λ_min(NTK) определяет скорость сходимости

Связанные темы

Функциональный анализ объединяет теорию ML:

ФА в ДЧП (МКЭ) — Аналогия: МКЭ ищет решение в V_h ⊂ H^1_0 (пространство Соболева); ядровая регрессия ищет решение в RKHS; обе задачи = минимальная норма проекция
ФА на собеседовании — NTK, RKHS и теорема Мерсера-популярные темы на исследовательских интервью в ML-командах

Вопросы для размышления

Ядровая регрессия с RBF ядром и GP с тем же ядром дают одинаковые предсказания (апостериорная средняя). Это случайность или следствие общей математики RKHS?
NTK замораживается в пределе бесконечной ширины. Что происходит при конечной ширине-как FeatureNTK и NTK-CK описывают эволюцию ядра в процессе обучения?
Теорема Мерсера требует положительно-полуопределённого ядра. Какие ядра НЕ являются п.о.п. и что это означает для SVM?

Связанные уроки

la-34-la-in-dl