Функциональный анализ
L² и пространства Лебега: бесконечномерная геометрия сигналов
L²[0,1] - это Гильбертово пространство бесконечной размерности. Фурье-разложение - ортогональный базис в L². Каждый MP3-файл, каждая квантовомеханическая волновая функция, каждый kernel в SVM - это точка в L². Понять L² = понять математику половины современного ML.
- **MP3/AAC:** дискретное косинусное преобразование (DCT) - вариант FFT. Ряд Фурье + тождество Парсеваля: храним только значимые коэффициенты. 10:1 сжатие при почти неслышимых потерях.
- **Gaussian Processes (sklearn, GPyTorch):** ядро = скалярное произведение в RKHS (бесконечномерный L²). Kernel ridge regression = проекция в RKHS.
- **Quantum computing:** волновая функция ψ ∈ L²(R³), ‖ψ‖₂ = 1. Вся квантовая механика - это линейная алгебра в L².
L² - бесконечномерное гильбертово пространство
Пространство L²[0,1] - это Гильбертово пространство **бесконечной размерности**. Фурье-разложение - ортогональный базис в этом пространстве. Каждый сигнал, каждая квантовомеханическая волновая функция, каждый kernel в machine learning - это точка в L².
Начнём с Lp-пространств: для p ≥ 1 пространство Lp(Ω) - пополнение (completion) измеримых функций по норме ‖f‖_p. L² самое особенное: при p = 2 норма происходит из скалярного произведения, и L² становится гильбертовым пространством.
**ML-применение:** квантовые волновые функции ψ ∈ L²(R³), нормированные так что ‖ψ‖₂ = 1. Kernel SVM: функция ядра K(x,y) = ⟨φ(x), φ(y)⟩_H в бесконечномерном RKHS - это скалярное произведение L²-типа. Neural network feature maps f: R^n → L².
Почему L² - единственное из Lp-пространств, обладающее геометрией (понятием угла между функциями)? В чём принципиальное отличие от L¹?
Скалярное произведение в гильбертовом пространстве - это именно то, что порождает геометрию: ортогональность, проекции, углы. Только при p=2 поляризационное тождество ‖f+g‖² - ‖f-g‖² = 4⟨f,g⟩ определяет скалярное произведение через норму.
Ряды Фурье: ортогональный базис в L²
Ряд Фурье - разложение функции f ∈ L²[0,2π] по ортонормированному базису {eⁱⁿˣ/√(2π)}. Это не просто удобный приём - это единственный ортогональный базис L² из тригонометрических функций. FFT (Fast Fourier Transform) - алгоритм быстрого вычисления, используемый в каждом смартфоне, MP3-плеере и связном модуле.
**Гиббсов феномен:** у скачков ряд Фурье не сходится равномерно - возникает «звон» ~9% высоты скачка, не исчезающий при N→∞. Решение: wavelet-разложение (другой ортогональный базис L²) - используется в JPEG-2000 вместо DCT.
Почему ряд Фурье гладкой функции f ∈ C∞ сходится быстро (cₙ убывают быстро), а ряд функции с разрывами - медленно?
Интегрирование по частям k раз в ⟨f, eⁱⁿˣ⟩ = ∫f(x)e^{-inx}dx переносит производные на гладкую экспоненту и даёт фактор (1/in)^k. Граничные члены при разрывах не исчезают, что ограничивает убывание коэффициентов лишь O(1/n).
Тождество Парсеваля: энергия сохраняется
Тождество Парсеваля - самое красивое равенство в теории сигналов: полная энергия сигнала в временной области равна сумме квадратов амплитуд всех гармоник. Это теорема Пифагора для бесконечномерного пространства.
**ML-применение: WaveNet (DeepMind).** Генерация аудио (Google Assistant, текст-в-речь) - нейросеть в частотной области. Тождество Парсеваля гарантирует: обучение в L²-норме по коэффициентам Фурье эквивалентно обучению по временному сигналу - можно выбрать удобное представление.
Тождество Парсеваля утверждает, что преобразование Фурье сохраняет L²-норму. Что это означает для оператора FFT как линейного преобразования?
Тождество Парсеваля ‖f‖²_{L²} = 2π·Σ|cₙ|² выражает унитарность оператора Фурье с нормировочным множителем 1/√2π. Унитарность означает F*F = I - преобразование сохраняет все геометрические характеристики (длины, углы) пространства L².
L² в машинном обучении: RKHS и ядра
Reproducing Kernel Hilbert Space (RKHS) - гильбертово пространство функций с ядром воспроизведения. Это основа kernel methods в ML: SVM, Gaussian Processes, kernel PCA. Теорема Мерсера связывает ядра с L²-пространствами.
Ядро K(x,y) = ⟨φ(x), φ(y)⟩_H - скалярное произведение в некотором гильбертовом пространстве H. Kernel trick: работаем со скалярными произведениями, не вычисляя φ(x) явно (может быть бесконечномерным).
**Теорема Мерсера:** симметричное непрерывное PSD-ядро K(x,y) разлагается в ряд K(x,y) = Σₙ λₙ φₙ(x)φₙ(y), где φₙ - ортонормальные функции (собственные функции интегрального оператора T_K), λₙ ≥ 0. Это разложение в L² - мост между ядрами и спектральной теорией.
В Gaussian Process регрессии функция прогноза f*(x) = K(x, X_train)·(K_train + σ²I)^{-1}·y. Как L²-интерпретация объясняет, почему предсказание «плавное» рядом с обучающими точками?
Gaussian kernel k(x,y) = exp(-‖x-y‖²/2l²) порождает RKHS, где все функции бесконечно дифференцируемы. Posterior GP минимизирует ‖f‖²_H (штраф за негладкость) при интерполяции обучающих данных, что гарантирует гладкость предсказания.
Ключевые идеи
- **Lp(Ω)**: пополнение по норме ‖f‖_p = (∫|f|^p)^{1/p}. L² особенный: норма из скалярного произведения ⟨f,g⟩ = ∫fg
- **Теорема Рисса-Фишера**: L² полно - предел Коши-последовательностей остаётся в L²
- **Ряды Фурье**: f = Σcₙeⁱⁿˣ, cₙ = ⟨f, eⁱⁿˣ⟩. Ортогональный базис {eⁱⁿˣ/√(2π)} в L²[0,2π]
- **Тождество Парсеваля**: ‖f‖₂² = 2π·Σ|cₙ|² - энергия сохраняется при преобразовании Фурье
- **RKHS**: K(x,y) = ⟨φ(x),φ(y)⟩_H - kernel trick как скалярное произведение в (бесконечномерном) L²-пространстве
- **Теорема Мерсера**: K(x,y) = Σλₙφₙ(x)φₙ(y) - спектральное разложение ядра через L²-базис
Связанные темы
L²-пространства - основа спектральной теории и ядерных методов:
- Спектральная теория — Оператор Лапласа -Δ диагонализируется в L² через базис Фурье: спектральная теорема = обобщение Фурье
- Компактные операторы — Интегральные операторы с ядром K ∈ L²(Ω×Ω) - операторы Гильберта-Шмидта; теорема Мерсера через их спектр
Вопросы для размышления
- Преобразование Фурье - унитарный оператор L² → l². Что это значит для численного анализа: почему лучше обрабатывать сигнал в частотной, а не временной области?
- Kernel SVM в RKHS с гауссовым ядром ищет разделяющую гиперплоскость в бесконечномерном пространстве. Почему это не ведёт к переобучению при правильной регуляризации?
- Тождество Парсеваля говорит: ‖f‖₂² = Σ|cₙ|². Как это используется в сжатии сигналов (MP3, JPEG) для выбора того, какие коэффициенты можно выбросить?