Функциональный анализ

L² и пространства Лебега: бесконечномерная геометрия сигналов

L²[0,1] - это Гильбертово пространство бесконечной размерности. Фурье-разложение - ортогональный базис в L². Каждый MP3-файл, каждая квантовомеханическая волновая функция, каждый kernel в SVM - это точка в L². Понять L² = понять математику половины современного ML.

**MP3/AAC:** дискретное косинусное преобразование (DCT) - вариант FFT. Ряд Фурье + тождество Парсеваля: храним только значимые коэффициенты. 10:1 сжатие при почти неслышимых потерях.
**Gaussian Processes (sklearn, GPyTorch):** ядро = скалярное произведение в RKHS (бесконечномерный L²). Kernel ridge regression = проекция в RKHS.
**Quantum computing:** волновая функция ψ ∈ L²(R³), ‖ψ‖₂ = 1. Вся квантовая механика - это линейная алгебра в L².

L² - бесконечномерное гильбертово пространство

Пространство L²[0,1] - это Гильбертово пространство **бесконечной размерности**. Фурье-разложение - ортогональный базис в этом пространстве. Каждый сигнал, каждая квантовомеханическая волновая функция, каждый kernel в machine learning - это точка в L².

Начнём с Lp-пространств: для p ≥ 1 пространство Lp(Ω) - пополнение (completion) измеримых функций по норме ‖f‖_p. L² самое особенное: при p = 2 норма происходит из скалярного произведения, и L² становится гильбертовым пространством.

**ML-применение:** квантовые волновые функции ψ ∈ L²(R³), нормированные так что ‖ψ‖₂ = 1. Kernel SVM: функция ядра K(x,y) = ⟨φ(x), φ(y)⟩_H в бесконечномерном RKHS - это скалярное произведение L²-типа. Neural network feature maps f: R^n → L².

Почему L² - единственное из Lp-пространств, обладающее геометрией (понятием угла между функциями)? В чём принципиальное отличие от L¹?

Скалярное произведение в гильбертовом пространстве - это именно то, что порождает геометрию: ортогональность, проекции, углы. Только при p=2 поляризационное тождество ‖f+g‖² - ‖f-g‖² = 4⟨f,g⟩ определяет скалярное произведение через норму.

Ряды Фурье: ортогональный базис в L²

Ряд Фурье - разложение функции f ∈ L²[0,2π] по ортонормированному базису {eⁱⁿˣ/√(2π)}. Это не просто удобный приём - это единственный ортогональный базис L² из тригонометрических функций. FFT (Fast Fourier Transform) - алгоритм быстрого вычисления, используемый в каждом смартфоне, MP3-плеере и связном модуле.

**Гиббсов феномен:** у скачков ряд Фурье не сходится равномерно - возникает «звон» ~9% высоты скачка, не исчезающий при N→∞. Решение: wavelet-разложение (другой ортогональный базис L²) - используется в JPEG-2000 вместо DCT.

Почему ряд Фурье гладкой функции f ∈ C∞ сходится быстро (cₙ убывают быстро), а ряд функции с разрывами - медленно?

Интегрирование по частям k раз в ⟨f, eⁱⁿˣ⟩ = ∫f(x)e^{-inx}dx переносит производные на гладкую экспоненту и даёт фактор (1/in)^k. Граничные члены при разрывах не исчезают, что ограничивает убывание коэффициентов лишь O(1/n).

Тождество Парсеваля: энергия сохраняется

Тождество Парсеваля - самое красивое равенство в теории сигналов: полная энергия сигнала в временной области равна сумме квадратов амплитуд всех гармоник. Это теорема Пифагора для бесконечномерного пространства.

**ML-применение: WaveNet (DeepMind).** Генерация аудио (Google Assistant, текст-в-речь) - нейросеть в частотной области. Тождество Парсеваля гарантирует: обучение в L²-норме по коэффициентам Фурье эквивалентно обучению по временному сигналу - можно выбрать удобное представление.

Тождество Парсеваля утверждает, что преобразование Фурье сохраняет L²-норму. Что это означает для оператора FFT как линейного преобразования?

Тождество Парсеваля ‖f‖²_{L²} = 2π·Σ|cₙ|² выражает унитарность оператора Фурье с нормировочным множителем 1/√2π. Унитарность означает F*F = I - преобразование сохраняет все геометрические характеристики (длины, углы) пространства L².

L² в машинном обучении: RKHS и ядра

Reproducing Kernel Hilbert Space (RKHS) - гильбертово пространство функций с ядром воспроизведения. Это основа kernel methods в ML: SVM, Gaussian Processes, kernel PCA. Теорема Мерсера связывает ядра с L²-пространствами.

Ядро K(x,y) = ⟨φ(x), φ(y)⟩_H - скалярное произведение в некотором гильбертовом пространстве H. Kernel trick: работаем со скалярными произведениями, не вычисляя φ(x) явно (может быть бесконечномерным).

**Теорема Мерсера:** симметричное непрерывное PSD-ядро K(x,y) разлагается в ряд K(x,y) = Σₙ λₙ φₙ(x)φₙ(y), где φₙ - ортонормальные функции (собственные функции интегрального оператора T_K), λₙ ≥ 0. Это разложение в L² - мост между ядрами и спектральной теорией.

В Gaussian Process регрессии функция прогноза f*(x) = K(x, X_train)·(K_train + σ²I)^{-1}·y. Как L²-интерпретация объясняет, почему предсказание «плавное» рядом с обучающими точками?

Gaussian kernel k(x,y) = exp(-‖x-y‖²/2l²) порождает RKHS, где все функции бесконечно дифференцируемы. Posterior GP минимизирует ‖f‖²_H (штраф за негладкость) при интерполяции обучающих данных, что гарантирует гладкость предсказания.

Ключевые идеи

**Lp(Ω)**: пополнение по норме ‖f‖_p = (∫|f|^p)^{1/p}. L² особенный: норма из скалярного произведения ⟨f,g⟩ = ∫fg
**Теорема Рисса-Фишера**: L² полно - предел Коши-последовательностей остаётся в L²
**Ряды Фурье**: f = Σcₙeⁱⁿˣ, cₙ = ⟨f, eⁱⁿˣ⟩. Ортогональный базис {eⁱⁿˣ/√(2π)} в L²[0,2π]
**Тождество Парсеваля**: ‖f‖₂² = 2π·Σ|cₙ|² - энергия сохраняется при преобразовании Фурье
**RKHS**: K(x,y) = ⟨φ(x),φ(y)⟩_H - kernel trick как скалярное произведение в (бесконечномерном) L²-пространстве
**Теорема Мерсера**: K(x,y) = Σλₙφₙ(x)φₙ(y) - спектральное разложение ядра через L²-базис

Связанные темы

L²-пространства - основа спектральной теории и ядерных методов:

Спектральная теория — Оператор Лапласа -Δ диагонализируется в L² через базис Фурье: спектральная теорема = обобщение Фурье
Компактные операторы — Интегральные операторы с ядром K ∈ L²(Ω×Ω) - операторы Гильберта-Шмидта; теорема Мерсера через их спектр

Вопросы для размышления

Преобразование Фурье - унитарный оператор L² → l². Что это значит для численного анализа: почему лучше обрабатывать сигнал в частотной, а не временной области?
Kernel SVM в RKHS с гауссовым ядром ищет разделяющую гиперплоскость в бесконечномерном пространстве. Почему это не ведёт к переобучению при правильной регуляризации?
Тождество Парсеваля говорит: ‖f‖₂² = Σ|cₙ|². Как это используется в сжатии сигналов (MP3, JPEG) для выбора того, какие коэффициенты можно выбросить?

Связанные уроки

mt-01