Функциональный анализ
Гильбертовы пространства
Банах и Гильберт спорили о правильном обобщении евклидова пространства на бесконечное число измерений. Победили оба: Банах описал $L^p$-нормы (MSE и MAE живут здесь), Гильберт - скалярные произведения (ядра в SVM, attention в трансформерах, квантовые состояния). Разница между ними - одна операция: dot product.
- **Kernel methods в ML:** SVM с RBF-ядром работает в бесконечномерном гильбертовом пространстве (RKHS). Gaussian process регрессия - Prior над функциями в том же пространстве. Kernel trick = скалярное произведение в L2-пространстве без явного вычисления бесконечномерных векторов.
- **Attention в трансформерах:** Scores = Q @ K^T / sqrt(d_k) - матрица скалярных произведений. Теорема Рисса объясняет, почему любую разумную функцию релевантности можно выразить как dot product: это фундаментальный факт гильбертовой геометрии.
- **Ряды Фурье и сжатие:** разложение f(x) = sum c_n e^(inx) - проекция функции на ортонормированный базис в L²[0,2π]. JPEG (DCT), MP3 (MDCT), сжатие данных - всё это теорема о проекции на конечномерные подпространства гильбертова пространства.
- **Метод наименьших квадратов:** оптимальная линейная регрессия - ортогональная проекция вектора наблюдений на column space матрицы признаков. Геометрически это теорема о проекции в R^n.
Предварительные знания
Скалярное произведение и гильбертово пространство
SVM с RBF-ядром работает в бесконечномерном пространстве. Не метафора - буквально. Kernel trick вычисляет скалярное произведение в пространстве с бесконечным числом измерений за константное время. И это пространство - гильбертово.
Норма (предыдущий урок) даёт «размер» вектора, но не углы между ними. Полная геометрия - с перпендикулярами, проекциями, расстояниями до подпространств - требует более богатой структуры: **скалярного произведения**.
Функция <·,·>: V × V → F (где F = R или C), удовлетворяющая трём аксиомам: 1. <x,x> >= 0, причём <x,x> = 0 только при x = 0 (положительная определённость) 2. <αx+βy, z> = α<x,z> + β<y,z> (линейность по первому аргументу) 3. <x,y> = сопр(<y,x>) (эрмитова симметрия) Автоматически порождает норму: ||x|| = sqrt(<x,x>).
Скалярное произведение автоматически порождает норму: $\|x\| = \sqrt{\langle x, x \rangle}$. Каждое пространство со скалярным произведением - нормированное. Но не наоборот: не каждая норма порождается скалярным произведением. Проверить можно через **тождество параллелограмма**: $\|x+y\|^2 + \|x-y\|^2 = 2(\|x\|^2 + \|y\|^2)$. L2-норма удовлетворяет, L1 и L∞ - нет. Именно поэтому L2 занимает особое место в ML: MSE как loss функция, L2-регуляризация, евклидово расстояние в embeddings - всё это геометрия гильбертова пространства.
Полное пространство со скалярным произведением. Банахово пространство, норма которого порождена скалярным произведением.
Давид Гильберт и Джон фон Нейман
Давид Гильберт исследовал пространства l² и L² при решении интегральных уравнений (1904-1910). Само название «гильбертово пространство» предложил Джон фон Нейман в 1929 году - он же разработал строгую теорию, применив её к математическим основаниям квантовой механики. Гильберт работал с конкретными уравнениями; фон Нейман поднял это до уровня абстрактной структуры.
Гильбертово пространство - «самое геометричное» из бесконечномерных. В нём работают все интуиции евклидовой геометрии: перпендикуляры, проекции, теорема Пифагора. $L^2[0,1]$ - функции на отрезке с конечной квадратичной интегрируемостью - гильбертово. Как и $\ell^2$ - последовательности с конечной суммой квадратов. Именно в $\ell^2$ живёт «бесконечномерный» образ, в который SVM неявно отображает точки через ядро.
Какое утверждение о связи нормы и скалярного произведения верно?
Ортогональность и базисы Фурье
Два вектора **ортогональны**, если $\langle x, y \rangle = 0$. В $\mathbb{R}^2$ это угол 90° - интуитивно. В $L^2[0, 2\pi]$ это означает $\int_0^{2\pi} f(x)\overline{g(x)}\, dx = 0$ - функции «не коррелируют» на отрезке. Синус и косинус ортогональны именно в этом смысле.
**Ортонормированная система** $\{e_1, e_2, \ldots\}$ - набор попарно ортогональных единичных векторов: $\langle e_i, e_j \rangle = \delta_{ij}$. В $L^2[0, 2\pi]$ семейство $\{e^{inx}/\sqrt{2\pi}\}_{n \in \mathbb{Z}}$ - ортонормированный базис. Разложение по нему - ряд Фурье. Signal processing, сжатие изображений (JPEG), аудио (MP3) - всё это разложение по ортонормированному базису в пространстве $L^2$.
**Процесс Грама-Шмидта** превращает любой линейно независимый набор в ортонормированный: из каждого нового вектора вычитаются проекции на уже построенные базисные, результат нормируется. Именно так QR-разложение матриц строит ортогональный фактор Q - и именно этот процесс лежит в основе численно стабильных алгоритмов обращения матриц и МНК.
В задачах обработки сигналов ортонормированный базис $\{e^{inx}/\sqrt{2\pi}\}$ в $L^2[0, 2\pi]$ - это базис Фурье. Коэффициенты $c_n = \langle f, e_n \rangle$ - компоненты функции в этом базисе. Быстрое преобразование Фурье (FFT) вычисляет все коэффициенты за $O(n \log n)$ вместо $O(n^2)$. JPEG использует дискретное косинусное преобразование - тот же принцип, адаптированный под вещественный случай.
Что делает процесс Грама-Шмидта?
Теорема о проекции: ближайший сосед без перебора
В школе перпендикуляр из точки на прямую - это «ближайшая точка прямой». Гильбертово пространство обобщает этот факт до произвольных бесконечномерных подпространств. Это не просто геометрическая красота: метод наименьших квадратов, PCA, аппроксимация функций, наилучшее линейное предсказание в статистике - все сводятся к одной теореме.
Пусть M - замкнутое подпространство гильбертова пространства H, x ∈ H. Тогда существует единственный элемент m₀ ∈ M такой, что: ||x - m₀|| = inf{||x - m|| : m ∈ M} При этом (x - m₀) перпендикулярен M: <x - m₀, m> = 0 для всех m ∈ M.
Из теоремы следует **ортогональное разложение**: $H = M \oplus M^{\perp}$. Каждый элемент единственным образом раскладывается в сумму проекции на $M$ и проекции на $M^{\perp}$. В задаче МНК $M$ - пространство линейных предсказаний $\{X\beta : \beta \in \mathbb{R}^p\}$, а проекция наблюдений $y$ на $M$ - это $\hat{y} = X(X^TX)^{-1}X^Ty$.
Важный тонкий момент: теорема требует **полноты** H и **замкнутости** M. В неполном пространстве или для незамкнутого подпространства ближайшая точка может не существовать - «дыра» окажется ровно там, где должна быть проекция. Это не академический каприз: именно поэтому в задачах оптимизации мы работаем в $L^2$, а не в пространстве многочленов с $L^2$-нормой (которое неполно).
Что гарантирует теорема о проекции?
Теорема Рисса: почему attention считается через dot product
1907 год. Фридьеш Рисс доказывает теорему, которая спустя сто лет объяснит архитектурный выбор в трансформерах. Attention score между токенами - это скалярное произведение запроса и ключа. Почему именно скалярное произведение, а не произвольная функция сходства? Теорема Рисса даёт ответ: в гильбертовом пространстве любой разумный (непрерывный линейный) способ «измерить» вектор числом - это и есть скалярное произведение с каким-то фиксированным вектором.
Линейное отображение f: H → F (числа). Ограниченный (непрерывный) линейный функционал удовлетворяет |f(x)| <= C * ||x|| для некоторой константы C.
Для каждого непрерывного линейного функционала f на гильбертовом пространстве H существует единственный элемент y ∈ H такой, что: f(x) = <x, y> для всех x ∈ H При этом ||f|| = ||y||. Следствие: H* изоморфно H. Пространство самодвойственно.
Суть: пространство функционалов $H^*$ изоморфно самому $H$. Каждый способ «измерить» вектор числом (линейно и непрерывно) сводится к скалярному произведению с фиксированным вектором. Именно поэтому dual $L^2$ - это снова $L^2$. И именно это делает attention математически обоснованным: query-вектор $q_i$ - это «представитель функционала», который измеряет релевантность каждого ключа $k_j$ через $\langle q_i, k_j \rangle$.
Доказательство опирается на теорему о проекции. Если $f \neq 0$, рассматривается ядро $\ker(f)$ - замкнутое подпространство коразмерности 1. Берётся вектор $z \perp \ker(f)$, $z \neq 0$, строится $y = \overline{f(z)}/\|z\|^2 \cdot z$. Проверка: $f(x) = \langle x, y \rangle$ для всех $x$. Единственность - из того, что $\langle x, y_1 - y_2 \rangle = 0$ для всех $x$ влечёт $y_1 = y_2$.
Теорема Рисса **не работает** в произвольном банаховом пространстве. В $\ell^1$ двойственное пространство $(\ell^1)^* = \ell^\infty$ - совсем не $\ell^1$. В $L^1$ двойственное $L^\infty$ - тоже другое. Только скалярное произведение делает пространство самодвойственным. В квантовой механике теорема обосновывает нотацию Дирака: каждому кет-вектору $|\psi\rangle$ соответствует бра $\langle\psi|$, и скобка $\langle\phi|\psi\rangle$ - скалярное произведение.
L² - единственное гильбертово пространство
Гильбертовых пространств много: l², L²[a,b], пространства Соболева H^s, пространства Харди H², пространство Фока в квантовой теории поля, и RKHS - пространство функций, в котором работают SVM с ядром.
RKHS (Reproducing Kernel Hilbert Space) - ключевой пример: для каждого положительно определённого ядра k(x,y) (гауссово, полиномиальное, sinc) существует гильбертово пространство функций, где k(·,x) служит элементом. Kernel trick SVM = скалярное произведение в этом пространстве, вычисленное без явного построения бесконечномерного вектора.
Что утверждает теорема Рисса о представлении?
Ключевые идеи
- **Скалярное произведение** $\langle x, y \rangle$ добавляет углы и геометрию к банахову пространству. Гильбертово = полное + скалярное произведение. Тождество параллелограмма проверяет, порождается ли норма скалярным произведением.
- **Ортогональность** $\langle x, y \rangle = 0$ - обобщение перпендикулярности. Процесс Грама-Шмидта строит ОНБ. Ряд Фурье = разложение по ортонормированному базису $L^2$.
- **Теорема о проекции:** для замкнутого подпространства M существует единственная ближайшая точка m₀, и остаток (x - m₀) перпендикулярен M. МНК, PCA и Фурье-аппроксимация - все сводятся к этой теореме.
- **Теорема Рисса:** $H^* \cong H$. Каждый непрерывный линейный функционал = скалярное произведение с фиксированным вектором. Attention score = реализация этого принципа в трансформерах. Kernel trick SVM = скалярное произведение в RKHS.
Связанные темы
Гильбертовы пространства - мост между абстрактной геометрией и приложениями:
- Нормированные пространства — Гильбертово пространство - частный случай банахова: норма порождена скалярным произведением
- Линейные операторы — Сопряжённый оператор определяется через скалярное произведение: <Ax, y> = <x, A*y>
Вопросы для размышления
- Теорема Рисса: H* изоморфно H. Почему для l^1 это ломается, а для l^2 - нет? Что принципиального добавляет скалярное произведение?
- Kernel trick в SVM работает в бесконечномерном гильбертовом пространстве. Что именно гарантирует теорема Рисса о том, что скалярное произведение в этом пространстве вычислимо через ядро k(x,y)?
- Attention score = скалярное произведение q и k, нормированное на sqrt(d_k). Какой геометрический смысл имеет нормировка? Связана ли она с тождеством параллелограмма?
Связанные уроки
- fa-01 — Норма и полнота - фундамент перед скалярным произведением
- fa-03 — Сопряжённые операторы и спектральная теория строятся на гильбертовой геометрии
- la-02-dot-product — Конечномерный прообраз скалярного произведения в R^n
- prob-19-brownian — Броуновское движение живёт в L2 - гильбертовом пространстве траекторий
- fa-20-fixed-point — Теорема Банаха о неподвижной точке - сестра теоремы Рисса по духу