Функциональный анализ

Линейные операторы

Матрица весов нейросети - это линейный оператор $\mathbb{R}^n \to \mathbb{R}^m$. Сингулярные значения этой матрицы (спектр $T^*T$) определяют: насколько быстро распространяется градиент (vanishing/exploding), нужна ли нормализация, насколько стабилен fine-tuning. Спектральная норма $\|W\|_2 = \sigma_{\max}$ - именно то, что контролирует spectral normalization в StyleGAN.

**Spectral normalization (Miyato 2018)**: контроль $\|W\|_2$ для Lipschitz-условия в WGAN/StyleGAN - прямое применение нормы ограниченного оператора
**LoRA и PCA**: rank-$r$ аппроксимация весов работает потому, что веса близки к компактному оператору; nuclear norm minimization (Netflix Prize) эксплуатирует теорему Рисса-Шаудера
**Self-attention**: $\text{softmax}(QK^T/\sqrt{d})V$ - оператор в пространстве последовательностей; при конечном контексте компактен, спектральные свойства $QK^T$ определяют паттерны внимания

Предварительные знания

Гильбертовы пространства

Ограниченные операторы

Матрица весов нейросети - это линейный оператор $\mathbb{R}^n \to \mathbb{R}^m$. Сингулярные значения этой матрицы (спектр $T^*T$) определяют всё: насколько быстро распространяется градиент (vanishing/exploding), нужна ли нормализация, насколько стабилен fine-tuning. Spectral normalization в StyleGAN контролирует $\|W\|_2 = \sigma_{\max}$ - именно норму оператора. Это не эвристика, это теорема.

В конечномерном случае каждый линейный оператор задаётся матрицей и автоматически непрерывен. В бесконечномерных пространствах всё иначе: оператор может быть линейным и разрывным одновременно. Нужен контроль - **ограниченность**.

Линейный оператор $T: X \to Y$ называется ограниченным, если $\exists C > 0$ такое, что $\|Tx\| \leq C\|x\|$ для всех $x \in X$. Норма оператора: $\|T\| = \sup_{x \neq 0} \frac{\|Tx\|}{\|x\|} = \sup_{\|x\| = 1} \|Tx\|$

Ключевой факт: для линейных операторов ограниченность и непрерывность - одно и то же. Если оператор непрерывен хоть в одной точке - он непрерывен везде. Это уникальное свойство линейности: нарушение в нуле немедленно распространяется на всё пространство.

Существуют ли неограниченные линейные операторы? Да. Оператор дифференцирования $d/dx$ на $C[0,1]$ - классический пример: функции $f_n(x) = \sin(nx)/n$ имеют $\|f_n\| = 1/n \to 0$, но $\|f_n'\| = \|\cos(nx)\| = 1$. Норма не убывает, хотя входы идут к нулю. Такие операторы критичны в теории дифференциальных уравнений и квантовой механике, но требуют отдельного аккуратного обращения.

Чему равна норма линейного оператора T?

Компактные операторы

PCA - это компактный оператор в действии. Проекция на подпространство первых $r$ главных компонент имеет конечный ранг, переводит ограниченные множества в предкомпактные, её ненулевые собственные значения (дисперсии вдоль компонент) изолированы и затухают. LoRA аппроксимирует веса нейросети матрицей $W = W_0 + AB$ с $\text{rank}(AB) = r \ll n$ - потому что настоящие веса близки к компактному оператору и хорошо аппроксимируются низкоранговым возмущением.

Линейный оператор $T: X \to Y$ называется компактным, если для любого ограниченного множества $B \subset X$ замыкание $\overline{T(B)}$ компактно в $Y$. Эквивалентно: из любой ограниченной последовательности $\{x_n\}$ можно извлечь подпоследовательность, на которой $\{Tx_n\}$ сходится.

Классический пример - интегральный оператор $(Tf)(x) = \int K(x,t)f(t)\,dt$ с непрерывным ядром $K$. Теорема Арцела-Асколи гарантирует компактность на $C[a,b]$. Ядро сглаживает: бесконечномерный шар входных функций сжимается в предкомпактное семейство выходных. Self-attention в трансформерах при конечном контексте - дискретный аналог того же явления.

Почему компактные операторы так ценны? Их спектральная теория воспроизводит конечномерную: ненулевые собственные значения изолированы, имеют конечную кратность и накапливаются только к нулю. Это теорема Рисса-Шаудера - мост между линейной алгеброй и бесконечномерным анализом. Nuclear norm minimization в matrix completion (задача типа Netflix Prize) эксплуатирует именно этот факт: минимизация ядерной нормы $\|W\|_* = \sum \sigma_i$ поощряет низкоранговые, почти компактные решения.

Тождественный оператор $I$ на бесконечномерном пространстве НЕ компактен: последовательность стандартных базисных векторов $\{e_n\}$ в $\ell^2$ ограничена, но $\|e_n - e_m\| = \sqrt{2}$ для всех $n \neq m$ - ни одна подпоследовательность не сходится. Это фундаментальное отличие бесконечномерного мира от конечномерного.

Какое утверждение о компактных операторах верно?

Спектр и сопряжённый оператор

Spectral normalization в StyleGAN и WGAN-GP контролирует $\|W\|_2 = \sigma_{\max}(W)$ - наибольшее сингулярное значение. А $\sigma_{\max}(W) = \sqrt{\lambda_{\max}(W^*W)}$ - квадратный корень из наибольшего собственного значения оператора $W^*W$. Это прямое вхождение теории спектра и сопряжённого оператора в продакшн-код генеративных моделей.

$\sigma(T) = \{\lambda \in \mathbb{C} : \text{оператор } (T - \lambda I) \text{ не имеет ограниченного обратного}\}$ Три части спектра: - Точечный $\sigma_p(T)$: $Tx = \lambda x$ имеет ненулевое решение (собственные значения) - Непрерывный $\sigma_c(T)$: $(T-\lambda I)^{-1}$ существует, но неограничен; образ плотен - Остаточный $\sigma_r(T)$: образ $(T-\lambda I)$ не плотен

Почему "спектр"

Гильберт ввёл термин по аналогии с оптическим спектром атома: собственные значения самосопряжённого оператора Гамильтониана - это энергетические уровни, буквально линии в спектре излучения. Математическая абстракция 1906 года оказалась точной моделью физики, открытой экспериментально в 1913 году Бором.

Для ограниченного оператора $T: H \to H$ сопряжённый $T^*: H \to H$ определяется условием $\langle Tx, y \rangle = \langle x, T^*y \rangle$ для всех $x, y \in H$. Типы операторов и их спектры: - Самосопряжённый ($T^* = T$): $\sigma(T) \subset \mathbb{R}$ - Унитарный ($T^*T = TT^* = I$): $\sigma(T) \subset \{|\lambda| = 1\}$ - Нормальный ($T^*T = TT^*$): диагонализируем спектральной теоремой - Положительный ($T = T^*$, $\langle Tx,x \rangle \geq 0$): $\sigma(T) \subset [0, +\infty)$

Спектральная теорема для компактных самосопряжённых операторов: $H$ имеет ортонормированный базис $\{e_n\}$ из собственных векторов $T$, и $T = \sum_n \lambda_n \langle \cdot, e_n \rangle e_n$. Это бесконечномерная диагонализация. PCA - её конечномерное приближение: берём первые $r$ собственных векторов ковариационного оператора и проектируем. LoRA делает то же самое с весами: $\Delta W = AB$, где $A \in \mathbb{R}^{m \times r}$, $B \in \mathbb{R}^{r \times n}$, и $r$ выбирается исходя из спектрального разложения.

Спектр оператора - это то же самое, что множество его собственных значений

Спектр = точечный + непрерывный + остаточный. Собственные значения - только точечная часть.

Оператор правого сдвига $S$ в $\ell^2$ не имеет ни одного собственного значения (уравнение $Se = \lambda e$ не имеет ненулевых решений), но $\sigma(S)$ - весь замкнутый единичный диск. В конечномерном случае спектр всегда совпадает с точечным - именно поэтому матрицы создают ложную интуицию.

Что такое спектр оператора T?

Ключевые идеи

**Ограниченность = непрерывность** для линейных операторов; $\|T\| = \sigma_{\max}$ для матриц - то, что контролирует spectral normalization
**Компактные операторы** - "почти конечномерные": образ единичного шара предкомпактен; ненулевые собственные значения изолированы и затухают - основа LoRA и PCA
**Спектр** $\sigma(T)$ строго шире множества собственных значений: включает непрерывный и остаточный компоненты, невозможные у матриц
**Сопряжённый** $T^*$: $\langle Tx, y \rangle = \langle x, T^*y \rangle$; самосопряжённые операторы диагонализируемы с вещественным спектром - бесконечномерная замена диагонализации матриц

Связанные темы

Теория операторов - ядро функционального анализа, с прямыми выходами в ML:

Гильбертовы пространства — Скалярное произведение конструирует сопряжённый через теорему Рисса
Нормированные пространства — B(X,Y) само нормированное пространство с операторной нормой
Спектральная теория — Полная спектральная теорема для нормальных операторов

Вопросы для размышления

Spectral normalization делит каждую матрицу $W$ на $\sigma_{\max}(W)$ после каждого шага обучения. Почему именно это гарантирует Lipschitz-условие через всю сеть?
Оператор правого сдвига в $\ell^2$ не имеет собственных значений, но его спектр - весь единичный диск. Как это возможно? Что происходит с непрерывным спектром?
LoRA заменяет $\Delta W$ матрицей ранга $r$. Почему это работает? Какое свойство настоящих весов нейросети это эксплуатирует?

Связанные уроки

fa-02 — Гильбертова геометрия - фундамент для сопряжённых операторов
fa-04 — Хан-Банах строится на теории ограниченных функционалов
fa-06 — Полная спектральная теория продолжает тему спектра оператора
fa-11 — Прямое применение компактных операторов к kernel methods и PCA
la-02-dot-product — Матрица в R^n - конечномерный прообраз линейного оператора
la-13-linear-maps