Дифференциальная геометрия

Дифференциальная геометрия на собеседовании

Финал курса по дифференциальной геометрии достигнут. Теперь предстоит самое практичное: научиться рассказывать об этих идеях на техническом интервью так, чтобы интервьюер из Google Brain кивнул и сказал "это именно то, что нам нужно".

**Исследовательское интервью в DeepMind**: "Объясните, как кривизна Риччи связана с перемешиванием информации в GNN"-вопрос напрямую про Ollivier-Ricci кривизну рёбер
**Инженерное интервью в Meta AI**: "Реализуйте шаг градиентного спуска на многообразии Штифеля"-прямое применение римановой оптимизации
**Системный дизайн в Google**: "Как встроить иерархические отношения в рекомендательную систему?" - ответ: гиперболические эмбеддинги Пуанкаре

Предварительные знания

Differential Geometry in Machine Learning

Вопросы про кривизну и метрику

На интервью в ML-исследовательских командах (Google Brain, DeepMind, Meta AI) регулярно спрашивают про геометрические основы. Первый кластер вопросов: **кривизна, метрика, тензоры**.

**Частый вопрос**: "Что такое тензор Риччи и при чём тут нейросети?" Ответ: Ricci curvature Ric(X,X) = Σᵢ K(X, eᵢ)-усреднение секционных кривизн. В графовых нейросетях кривизна рёбер Ollivier-Ricci = 1 - W₁(μₓ, μᵧ)/d(x,y) предсказывает узкие места (bottlenecks) графа.

**Вопрос про первую фундаментальную форму**: "Как изометрия связана с метрическим тензором?" Ответ: отображение f: M → N-изометрия, если f*g_N = g_M (пулбэк метрики сохраняется). Это означает сохранение всех длин и углов. Теорема Гаусса: гауссова кривизна K-изометрический инвариант (intrinsic), хотя средняя кривизна H-нет.

Шпаргалка для интервью: K = κ₁κ₂ (гауссова), H = (κ₁+κ₂)/2 (средняя). K > 0-эллиптическая точка (сфера), K < 0-гиперболическая (седло), K = 0-параболическая (цилиндр). Теорема Гаусса-Бонне: ∫∫_M K dA = 2πχ(M)-глобальная связь геометрии и топологии.

Почему кривизна Олливье-Риччи ребра в графе может быть отрицательной?

Вопросы про оптимизацию на многообразиях

Второй кластер вопросов: **риманова оптимизация и информационная геометрия**. Часто спрашивают: "Чем риманов градиент отличается от евклидового?" и "Что такое естественный градиент?"

**Структура ответа про риманов градиент**: 1. Евклидов градиент ∇f ∈ ℝⁿ-вектор в объемлющем пространстве. 2. Риманов градиент grad_M f = проекция ∇f на касательное пространство TₓM. 3. Шаг: x ← expₓ(-α · grad_M f)-экспоненциальное отображение возвращает на M. 4. Для группы SO(n): expₓ(V) = x · expm(xᵀV) где expm-матричная экспонента.

**Вопрос про матрицу Фишера**: "Почему Adam работает лучше SGD?" Продвинутый ответ: Adam аппроксимирует натуральный градиент. Матрица Фишера F_ij = E[∂log p/∂θᵢ · ∂log p/∂θⱼ]-метрический тензор на многообразии распределений. Натуральный градиент: θ ← θ - α·F⁻¹∇L. Adam вычисляет m_t/√v_t ≈ F⁻¹∇L, где v_t ≈ диагональ F.

Ловушка на интервью: "Является ли Adam натуральным градиентом?" Правильный ответ: "Adam-диагональное приближение натурального градиента через эмпирическую матрицу Фишера. Точный натуральный градиент требует O(n²) памяти; KFAC-более точное блочно-диагональное приближение."

Зачем при шаге градиентного спуска на сфере нужно проецировать градиент на касательное пространство?

Вопросы про топологию и TDA

Третий кластер: **топологический анализ данных (TDA)**. Вопрос: "Что такое персистентная гомология и зачем она нужна в ML?" Ответ: персистентная гомология отслеживает топологические особенности (связные компоненты, петли, полости) при изменении масштаба-это фильтрация Vietoris-Rips комплекса.

**Персистентная диаграмма**: набор точек (bᵢ, dᵢ)-"рождение" и "смерть" топологического признака. Долго живущие признаки (dᵢ - bᵢ большое)-истинные топологические особенности данных. Короткоживущие-шум. Применение: классификация молекул, анализ активаций нейросетей, детекция аномалий.

**Вопрос про числа Бетти**: "Что такое числа Бетти и как они связаны с характеристикой Эйлера?" Ответ: βₖ = dim(H_k(M))-ранг k-й группы гомологий. β₀ = число связных компонент, β₁ = число "петель", β₂ = число "полостей". Характеристика Эйлера: χ = Σ(-1)ᵏ βₖ = V - E + F (для полиэдров).

Системный ответ на вопрос "Где в ML используется топология?": 1. TDA для анализа структуры данных (gudhi, ripser) 2. Топологические потери (topological loss) для обучения с топологическими ограничениями 3. Числа Черна в топологических изоляторах и квантовом ML 4. Эйлерова характеристика для анализа 3D-мешей.

Топологический анализ данных-академическая экзотика без практических применений в ML

TDA используется в drug discovery (топология молекул), нейронауках (персистентные диаграммы активаций), анализе временных рядов (циклические паттерны через H1) и обучении с ограничениями (topological loss)

Топологические признаки инвариантны к деформациям и шуму-это делает их устойчивее к adversarial примерам и распределительным сдвигам, чем традиционные геометрические признаки

Что означает, что признак в персистентной диаграмме имеет большое время жизни (dᵢ - bᵢ) >> 0?

Ключевые идеи

**Кривизна на интервью**: Ollivier-Ricci кривизна рёбер графа = 1 - W₁(μᵤ, μᵥ)/d(u,v); отрицательная кривизна → bottleneck; K = κ₁κ₂ и ∫∫K dA = 2πχ-обязательно знать
**Оптимизация на интервью**: риманов градиент = проекция на TₓM + шаг через exp-отображение; Adam ≈ диагональный натуральный градиент; KFAC-блочная аппроксимация матрицы Фишера
**TDA на интервью**: персистентная гомология = числа Бетти при всех масштабах фильтрации; долгоживущие признаки = реальная топология; χ = β₀ - β₁ + β₂ = V - E + F

Связанные темы

Этот урок объединяет весь курс дифференциальной геометрии:

Теорема Гаусса-Бонне — Числа Бетти и χ = 2πχ-центральное соединение геометрии и топологии, часто спрашиваемое на интервью
Риманов тензор и кривизна — Кривизна Риччи-основа для Ollivier-Ricci кривизны в графах и анализа оптимизационных ландшафтов
Дифференциальная геометрия в ML — Практические инструменты (geoopt, KFAC, HGCN)-прямое применение рассмотренных методов

Вопросы для размышления

Как объяснить связь между теоремой Гаусса-Бонне и инвариантностью топологических потерь при обучении нейросети за 2 минуты на доске?
Интервьюер спрашивает: "Почему гиперболические эмбеддинги не используются повсеместно вместо word2vec?" Какой ответ корректен с учётом численной нестабильности и сложности реализации?
При проектировании системы рекомендаций для иерархического каталога (категории → подкатегории → товары) какой геометрический подход предпочтительнее - гиперболические эмбеддинги, риманова оптимизация на SPD или другой вариант?

Связанные уроки

la-13-eigenvectors