Функциональный анализ
Функциональный анализ на собеседовании
Весь курс функционального анализа пройден. Пришло время применить это на практике - на техническом интервью в команды, где математика ML - это не опциональное дополнение, а обязательное требование.
- **Исследовательское интервью (DeepMind/Google Brain)**: "Докажите, что ядровая регрессия с гауссовым ядром находит минимальную по RKHS-норме интерполяцию" - прямое применение теории RKHS
- **Инженерное интервью (Meta AI)**: "Почему Adam лучше SGD? Объясните через матрицу Фишера" - информационная геометрия + ФА
- **ML-scientist (OpenAI)**: "Что NTK говорит о границах двойного спуска в overparameterized моделях?" - NTK + спектральная теория
Предварительные знания
Вопросы про банаховы пространства
На интервью в ML-командах (Google Brain, DeepMind, OpenAI) регулярно спрашивают про функциональный анализ. Первый кластер: **банаховы пространства и двойственность**.
**Частый вопрос**: "Зачем нужна теорема Хана-Банаха в оптимизации?" Системный ответ: 1. Разделение выпуклых множеств - условия ККТ. 2. ||x|| = sup{|f(x)| : ||f||≤1} - двойственная норма. 3. SVM: оптимальная гиперплоскость = теорема о разделении. 4. Двойственность в LP/QP = Хана-Банаха для конусов.
Ловушка на интервью: "В чём разница между слабой и сильной сходимостью?" Правильный ответ: сильная - xₙ → x в норме (||xₙ - x|| → 0). Слабая - f(xₙ) → f(x) для всех f ∈ X*. В бесконечномерных пространствах слабая не влечёт сильную (пример: e_n ⇀ 0 в l^2, но ||e_n|| = 1).
В l^2 последовательность стандартных базисных векторов e_n = (0,...,0,1,0,...) слабо сходится к 0. Означает ли это, что ||e_n - 0|| → 0?
Вопросы про спектральную теорию
Второй кластер: **спектральная теория и операторы**. Любимые вопросы: "Что такое спектральный радиус?", "Почему собственные значения самосопряжённого оператора вещественны?", "Как связаны PCA и спектральная теорема?"
**Системный ответ про PCA и спектральную теорему**: ковариационная матрица C = X^T X/n - симметричная положительно-полуопределённая (самосопряжённый оператор). По спектральной теореме C = V Λ V^T. Главные компоненты = столбцы V (ортогональные собственные векторы). Дисперсия в каждом направлении = собственное значение λᵢ. Low-rank аппроксимация = усечение по k наибольшим λ.
**Вопрос о связи спектра и PageRank**: матрица переходов P (стохастическая) имеет λ₁ = 1 (ведущее с.з.). Стационарное распределение π - собственный вектор: Pπ = π. Метод степенных итераций сходится со скоростью |λ₂/λ₁| = |λ₂| (спектральный зазор). Чем меньше |λ₂|, тем быстрее сходимость.
Для матрицы ковариаций C = X^T X/n: почему все собственные значения неотрицательны?
Вопросы про RKHS и NTK
Третий кластер: **RKHS, ядровые методы, NTK**. Эти вопросы - признак действительно глубокого исследовательского интервью.
**Вопрос: "Что такое kernel trick и почему он работает?"** Ответ: kernel trick использует теорему Мерсера - положительно-определённое ядро k(x,y) = ⟨φ(x), φ(y)⟩_H в некотором RKHS H. Вместо явного вычисления φ(x) (возможно бесконечномерного) вычисляем только k(x,y). SVM в RKHS = SVM в исходном пространстве с ядром - воспроизводящее свойство гарантирует корректность.
**Вопрос про NTK**: "Что NTK говорит об обобщении нейронных сетей?" Ответ: при width → ∞ нейросеть находит минимальную по RKHS-норме (с ядром NTK) функцию через обучающие данные. Обобщение определяется спектром NTK: λ_min(K_NTK) > 0 ⟺ глобальная сходимость. Большие собственные значения = хорошо "покрытые" направления входного пространства.
Функциональный анализ на собеседовании нужен только математикам-теоретикам
Глубокое знание ФА отличает ML-инженера от ML-исследователя: RKHS объясняет ядровые методы, спектральная теорема - PCA/SVD/GPs, теоремы Банаха - устойчивость алгоритмов
Ведущие ML-исследователи (Schölkopf, Vapnik, Jordan) строили методы на базе ФА - понимание основ открывает путь к созданию новых алгоритмов, а не только использованию существующих
В чём суть kernel trick для ядрового SVM?
Ключевые идеи
- **Банахово пространство на интервью**: теорема Хана-Банаха - SVM и ККТ; двойственные нормы ||x||_p через sup; слабая сходимость ≠ сильная (пример: e_n в l^2)
- **Спектральная теория на интервью**: PCA = спектральное разложение C = V Λ V^T; PageRank сходится со скоростью |λ₂|; самосопряжённый => вещественный спектр
- **RKHS/NTK на интервью**: kernel trick = воспроизводящее свойство RKHS; Мерсер гарантирует φ(x); NTK замерзает при width → ∞; overfit = минимальная RKHS-норма интерполяция
Связанные темы
Финальный урок объединяет весь курс функционального анализа:
- Теорема Хана-Банаха — Основа двойственности и условий оптимальности - ключ к вопросам про SVM и выпуклую оптимизацию
- Функциональный анализ в ML — RKHS, NTK и теорема Мерсера - центр исследовательских вопросов на интервью
Вопросы для размышления
- Если интервьюер спрашивает "Докажите, что функция принадлежит H^1(0,1)" - как структурировать ответ за 3 минуты, используя слабые производные и неравенство Пуанкаре?
- Вопрос на whiteboard: "Нарисуйте, как NTK связан с Gaussian Process и ядровой регрессией". Как объяснить все три концепции как одну математику?
- "Почему методы Рунге-Кутты 4-го порядка устойчивы?" - ответьте через принцип равномерной ограниченности (теорема Банаха-Штейнгауса) и спектральный радиус матрицы итераций.