Функциональный анализ

Гильбертовы пространства

Банах и Гильберт спорили о правильном обобщении евклидова пространства на бесконечное число измерений. Победили оба: Банах описал $L^p$-нормы (MSE и MAE живут здесь), Гильберт - скалярные произведения (ядра в SVM, attention в трансформерах, квантовые состояния). Разница между ними - одна операция: dot product.

**Kernel methods в ML:** SVM с RBF-ядром работает в бесконечномерном гильбертовом пространстве (RKHS). Gaussian process регрессия - Prior над функциями в том же пространстве. Kernel trick = скалярное произведение в L2-пространстве без явного вычисления бесконечномерных векторов.
**Attention в трансформерах:** Scores = Q @ K^T / sqrt(d_k) - матрица скалярных произведений. Теорема Рисса объясняет, почему любую разумную функцию релевантности можно выразить как dot product: это фундаментальный факт гильбертовой геометрии.
**Ряды Фурье и сжатие:** разложение f(x) = sum c_n e^(inx) - проекция функции на ортонормированный базис в L²[0,2π]. JPEG (DCT), MP3 (MDCT), сжатие данных - всё это теорема о проекции на конечномерные подпространства гильбертова пространства.
**Метод наименьших квадратов:** оптимальная линейная регрессия - ортогональная проекция вектора наблюдений на column space матрицы признаков. Геометрически это теорема о проекции в R^n.

Предварительные знания

Нормированные пространства

Скалярное произведение и гильбертово пространство

SVM с RBF-ядром работает в бесконечномерном пространстве. Не метафора - буквально. Kernel trick вычисляет скалярное произведение в пространстве с бесконечным числом измерений за константное время. И это пространство - гильбертово.

Норма (предыдущий урок) даёт «размер» вектора, но не углы между ними. Полная геометрия - с перпендикулярами, проекциями, расстояниями до подпространств - требует более богатой структуры: **скалярного произведения**.

Функция <·,·>: V × V → F (где F = R или C), удовлетворяющая трём аксиомам: 1. <x,x> >= 0, причём <x,x> = 0 только при x = 0 (положительная определённость) 2. <αx+βy, z> = α<x,z> + β<y,z> (линейность по первому аргументу) 3. <x,y> = сопр(<y,x>) (эрмитова симметрия) Автоматически порождает норму: ||x|| = sqrt(<x,x>).

Скалярное произведение автоматически порождает норму: $\|x\| = \sqrt{\langle x, x \rangle}$. Каждое пространство со скалярным произведением - нормированное. Но не наоборот: не каждая норма порождается скалярным произведением. Проверить можно через **тождество параллелограмма**: $\|x+y\|^2 + \|x-y\|^2 = 2(\|x\|^2 + \|y\|^2)$. L2-норма удовлетворяет, L1 и L∞ - нет. Именно поэтому L2 занимает особое место в ML: MSE как loss функция, L2-регуляризация, евклидово расстояние в embeddings - всё это геометрия гильбертова пространства.

Полное пространство со скалярным произведением. Банахово пространство, норма которого порождена скалярным произведением.

Давид Гильберт и Джон фон Нейман

Давид Гильберт исследовал пространства l² и L² при решении интегральных уравнений (1904-1910). Само название «гильбертово пространство» предложил Джон фон Нейман в 1929 году - он же разработал строгую теорию, применив её к математическим основаниям квантовой механики. Гильберт работал с конкретными уравнениями; фон Нейман поднял это до уровня абстрактной структуры.

Гильбертово пространство - «самое геометричное» из бесконечномерных. В нём работают все интуиции евклидовой геометрии: перпендикуляры, проекции, теорема Пифагора. $L^2[0,1]$ - функции на отрезке с конечной квадратичной интегрируемостью - гильбертово. Как и $\ell^2$ - последовательности с конечной суммой квадратов. Именно в $\ell^2$ живёт «бесконечномерный» образ, в который SVM неявно отображает точки через ядро.

Какое утверждение о связи нормы и скалярного произведения верно?

Ортогональность и базисы Фурье

Два вектора **ортогональны**, если $\langle x, y \rangle = 0$. В $\mathbb{R}^2$ это угол 90° - интуитивно. В $L^2[0, 2\pi]$ это означает $\int_0^{2\pi} f(x)\overline{g(x)}\, dx = 0$ - функции «не коррелируют» на отрезке. Синус и косинус ортогональны именно в этом смысле.

**Ортонормированная система** $\{e_1, e_2, \ldots\}$ - набор попарно ортогональных единичных векторов: $\langle e_i, e_j \rangle = \delta_{ij}$. В $L^2[0, 2\pi]$ семейство $\{e^{inx}/\sqrt{2\pi}\}_{n \in \mathbb{Z}}$ - ортонормированный базис. Разложение по нему - ряд Фурье. Signal processing, сжатие изображений (JPEG), аудио (MP3) - всё это разложение по ортонормированному базису в пространстве $L^2$.

**Процесс Грама-Шмидта** превращает любой линейно независимый набор в ортонормированный: из каждого нового вектора вычитаются проекции на уже построенные базисные, результат нормируется. Именно так QR-разложение матриц строит ортогональный фактор Q - и именно этот процесс лежит в основе численно стабильных алгоритмов обращения матриц и МНК.

В задачах обработки сигналов ортонормированный базис $\{e^{inx}/\sqrt{2\pi}\}$ в $L^2[0, 2\pi]$ - это базис Фурье. Коэффициенты $c_n = \langle f, e_n \rangle$ - компоненты функции в этом базисе. Быстрое преобразование Фурье (FFT) вычисляет все коэффициенты за $O(n \log n)$ вместо $O(n^2)$. JPEG использует дискретное косинусное преобразование - тот же принцип, адаптированный под вещественный случай.

Что делает процесс Грама-Шмидта?

Теорема о проекции: ближайший сосед без перебора

В школе перпендикуляр из точки на прямую - это «ближайшая точка прямой». Гильбертово пространство обобщает этот факт до произвольных бесконечномерных подпространств. Это не просто геометрическая красота: метод наименьших квадратов, PCA, аппроксимация функций, наилучшее линейное предсказание в статистике - все сводятся к одной теореме.

Пусть M - замкнутое подпространство гильбертова пространства H, x ∈ H. Тогда существует единственный элемент m₀ ∈ M такой, что: ||x - m₀|| = inf{||x - m|| : m ∈ M} При этом (x - m₀) перпендикулярен M: <x - m₀, m> = 0 для всех m ∈ M.

Из теоремы следует **ортогональное разложение**: $H = M \oplus M^{\perp}$. Каждый элемент единственным образом раскладывается в сумму проекции на $M$ и проекции на $M^{\perp}$. В задаче МНК $M$ - пространство линейных предсказаний $\{X\beta : \beta \in \mathbb{R}^p\}$, а проекция наблюдений $y$ на $M$ - это $\hat{y} = X(X^TX)^{-1}X^Ty$.

Важный тонкий момент: теорема требует **полноты** H и **замкнутости** M. В неполном пространстве или для незамкнутого подпространства ближайшая точка может не существовать - «дыра» окажется ровно там, где должна быть проекция. Это не академический каприз: именно поэтому в задачах оптимизации мы работаем в $L^2$, а не в пространстве многочленов с $L^2$-нормой (которое неполно).

Что гарантирует теорема о проекции?

Теорема Рисса: почему attention считается через dot product

1907 год. Фридьеш Рисс доказывает теорему, которая спустя сто лет объяснит архитектурный выбор в трансформерах. Attention score между токенами - это скалярное произведение запроса и ключа. Почему именно скалярное произведение, а не произвольная функция сходства? Теорема Рисса даёт ответ: в гильбертовом пространстве любой разумный (непрерывный линейный) способ «измерить» вектор числом - это и есть скалярное произведение с каким-то фиксированным вектором.

Линейное отображение f: H → F (числа). Ограниченный (непрерывный) линейный функционал удовлетворяет |f(x)| <= C * ||x|| для некоторой константы C.

Для каждого непрерывного линейного функционала f на гильбертовом пространстве H существует единственный элемент y ∈ H такой, что: f(x) = <x, y> для всех x ∈ H При этом ||f|| = ||y||. Следствие: H* изоморфно H. Пространство самодвойственно.

Суть: пространство функционалов $H^*$ изоморфно самому $H$. Каждый способ «измерить» вектор числом (линейно и непрерывно) сводится к скалярному произведению с фиксированным вектором. Именно поэтому dual $L^2$ - это снова $L^2$. И именно это делает attention математически обоснованным: query-вектор $q_i$ - это «представитель функционала», который измеряет релевантность каждого ключа $k_j$ через $\langle q_i, k_j \rangle$.

Доказательство опирается на теорему о проекции. Если $f \neq 0$, рассматривается ядро $\ker(f)$ - замкнутое подпространство коразмерности 1. Берётся вектор $z \perp \ker(f)$, $z \neq 0$, строится $y = \overline{f(z)}/\|z\|^2 \cdot z$. Проверка: $f(x) = \langle x, y \rangle$ для всех $x$. Единственность - из того, что $\langle x, y_1 - y_2 \rangle = 0$ для всех $x$ влечёт $y_1 = y_2$.

Теорема Рисса **не работает** в произвольном банаховом пространстве. В $\ell^1$ двойственное пространство $(\ell^1)^* = \ell^\infty$ - совсем не $\ell^1$. В $L^1$ двойственное $L^\infty$ - тоже другое. Только скалярное произведение делает пространство самодвойственным. В квантовой механике теорема обосновывает нотацию Дирака: каждому кет-вектору $|\psi\rangle$ соответствует бра $\langle\psi|$, и скобка $\langle\phi|\psi\rangle$ - скалярное произведение.

L² - единственное гильбертово пространство

Гильбертовых пространств много: l², L²[a,b], пространства Соболева H^s, пространства Харди H², пространство Фока в квантовой теории поля, и RKHS - пространство функций, в котором работают SVM с ядром.

RKHS (Reproducing Kernel Hilbert Space) - ключевой пример: для каждого положительно определённого ядра k(x,y) (гауссово, полиномиальное, sinc) существует гильбертово пространство функций, где k(·,x) служит элементом. Kernel trick SVM = скалярное произведение в этом пространстве, вычисленное без явного построения бесконечномерного вектора.

Что утверждает теорема Рисса о представлении?

Ключевые идеи

**Скалярное произведение** $\langle x, y \rangle$ добавляет углы и геометрию к банахову пространству. Гильбертово = полное + скалярное произведение. Тождество параллелограмма проверяет, порождается ли норма скалярным произведением.
**Ортогональность** $\langle x, y \rangle = 0$ - обобщение перпендикулярности. Процесс Грама-Шмидта строит ОНБ. Ряд Фурье = разложение по ортонормированному базису $L^2$.
**Теорема о проекции:** для замкнутого подпространства M существует единственная ближайшая точка m₀, и остаток (x - m₀) перпендикулярен M. МНК, PCA и Фурье-аппроксимация - все сводятся к этой теореме.
**Теорема Рисса:** $H^* \cong H$. Каждый непрерывный линейный функционал = скалярное произведение с фиксированным вектором. Attention score = реализация этого принципа в трансформерах. Kernel trick SVM = скалярное произведение в RKHS.

Связанные темы

Гильбертовы пространства - мост между абстрактной геометрией и приложениями:

Нормированные пространства — Гильбертово пространство - частный случай банахова: норма порождена скалярным произведением
Линейные операторы — Сопряжённый оператор определяется через скалярное произведение: <Ax, y> = <x, A*y>

Вопросы для размышления

Теорема Рисса: H* изоморфно H. Почему для l^1 это ломается, а для l^2 - нет? Что принципиального добавляет скалярное произведение?
Kernel trick в SVM работает в бесконечномерном гильбертовом пространстве. Что именно гарантирует теорема Рисса о том, что скалярное произведение в этом пространстве вычислимо через ядро k(x,y)?
Attention score = скалярное произведение q и k, нормированное на sqrt(d_k). Какой геометрический смысл имеет нормировка? Связана ли она с тождеством параллелограмма?

Связанные уроки

fa-01 — Норма и полнота - фундамент перед скалярным произведением
fa-03 — Сопряжённые операторы и спектральная теория строятся на гильбертовой геометрии
la-02-dot-product — Конечномерный прообраз скалярного произведения в R^n
prob-19-brownian — Броуновское движение живёт в L2 - гильбертовом пространстве траекторий
fa-20-fixed-point — Теорема Банаха о неподвижной точке - сестра теоремы Рисса по духу