Топология

Топология в ML и Data Science

Обычный градиентный спуск «не знает» о геометрии пространства параметров. Если параметры - ортогональные матрицы, ротации или ковариационные матрицы, евклидов шаг может вывести их за пределы допустимого множества. Риманова оптимизация «следует» геометрии и работает там, где обычный SGD ломается.

**UMAP в промышленности:** снижение размерности эмбеддингов для поиска, рекомендаций, визуализации; сохраняет кластерную структуру лучше PCA/t-SNE
**Ортогональные RNN:** Stiefel-оптимизация решает проблему взрывного/затухающего градиента без gradient clipping
**Poincaré Embeddings (Nickel, Kiela 2017):** иерархические эмбеддинги знаний в H^n; 82% MRR на WordNet при dim=5 vs 35% у евклидовых

Предварительные знания

Topological Data Analysis

Риманова оптимизация

Многие задачи ML имеют ограничения, определяющие многообразия. **Риманова оптимизация** минимизирует f(θ) при θ ∈ M (гладкое многообразие). Шаг алгоритма: 1. вычислить риманов градиент rgrad_θ f (проекция евклидова градиента на T_θ M) 2. сделать шаг по геодезической 3. вернуться на M (ретракция).

Многообразие M	Задача ML	Алгоритм
Stiefel St(n,k): W^T W=I	Ортогональные веса RNN	Geotorch, geoopt
Grassmann Gr(n,k)	Подпространства признаков	RSGD на Grassmann
SPD(n): сим. пол. опред.	Ковариац. матрицы (BCI)	Геодезическая интерполяция
Гиперб. пространство H^n	Иерархические эмбеддинги	Poincare embeddings
SO(n): вращения	3D позы, SLAM	Lie group SGD

**Библиотеки:** geomstats (Python) - полный набор: SO(n), S^n, Grassmann, SPD, гиперболическое пространство; интеграция с PyTorch/TF. geoopt - оптимизаторы на многообразиях для PyTorch. mcTorch - многообразия для классической ML. **Когда использовать:** когда параметры должны быть ортогональными, на единичной сфере, в конусе SPD.

Почему для обучения RNN с ортогональными весами (на Stiefel) нужна риманова оптимизация, а не проекция после обычного SGD?

Топологическая регуляризация

**Топологическая регуляризация** добавляет к функции потерь штраф, контролирующий топологию данных или скрытых представлений. Персистентные гомологии используются для вычисления «топологической ошибки»: разница между диаграммами персистентности целевой топологии и выхода модели.

**Практические применения топологической регуляризации:** 1. Авто-энкодеры: штраф за «дырки» в латентном пространстве → более плавная интерполяция. 2. GAN: контроль топологии синтезируемых изображений. 3. Обнаружение аномалий: аномалии нарушают топологию нормального распределения. 4. Класс 2019-2023: bibliothecary TopoAE, топологическая VAE.

Зачем добавлять топологический штраф в VAE (вариационный авто-энкодер)?

UMAP: геометрия и топология

**UMAP (Uniform Manifold Approximation and Projection)** - метод снижения размерности, основанный на предположении, что данные лежат на многообразии с однородной мерой. В отличие от t-SNE, UMAP имеет строгое теоретическое обоснование через нечёткие симплициальные множества и оптимизацию топологического расстояния.

**Ключевые параметры UMAP:** n_neighbors (k в KNN-графе: мало → локальная структура, много → глобальная), min_dist (сжатие в проекции: мало → плотные кластеры, много → однородное распределение). **Теоретическая основа:** UMAP строит нечёткий симплициальный граф и оптимизирует его топологическое расстояние до целевого low-dim комплекса.

Почему UMAP лучше сохраняет топологию данных, чем PCA?

Геометрия эмбеддингов: гиперболические пространства

**Гипотеза многообразия (manifold hypothesis):** реальные высокоразмерные данные (тексты, изображения) концентрируются вблизи низкоразмерного многообразия в высокоразмерном пространстве. Это объясняет, почему методы снижения размерности работают и почему нейронные сети могут обобщаться.

**Когда использовать разные геометрии:** Евклидова R^n - для плоских, невыраженно иерархических данных. Гиперболическая H^n - для деревьев, таксономий, графов с иерархией (WordNet, FileSystems, social networks). Сферическая S^n - для данных с угловыми расстояниями (документы, изображения со знаками нормировки). Риманновы многообразия общего вида - для физических конфигурационных пространств, SPD-матриц.

Почему гиперболические эмбеддинги (Poincaré) лучше евклидовых для WordNet?

Ключевые идеи

**Риманова оптимизация:** градиент на T_θ M + геодезический шаг + ретракция; St(n,k), Gr(n,k), SPD(n) - важные многообразия в ML
**Топологическая регуляризация:** штраф за нежелательные β₁ в латентных представлениях; TopoAE, TopVAE
**UMAP:** нечёткие симплициальные множества; сохраняет нелинейную топологию; лучше PCA для кластерных структур
**Геометрия эмбеддингов:** евклидова (плоская), гиперболическая (иерархии), сферическая (угловые); выбор зависит от структуры данных

Связанные темы

Топология и геометрия пронизывают современный ML:

Многообразия — Manifold hypothesis: данные лежат на многообразии; Riemannian optimization требует знания геометрии M
TDA — Персистентные гомологии используются для топологической регуляризации и анализа нейросетей

Вопросы для размышления

Почему параметрическое UMAP (обучает нейросеть-энкодер) лучше обычного для новых данных? Какие топологические гарантии теряются при параметризации?
SPD-матрицы - риманово многообразие. Почему naive average (Σ₁+Σ₂)/2 ковариационных матриц может не принадлежать SPD? Что такое геодезическое среднее?
Manifold hypothesis: если данные лежат на d-мерном многообразии в R^n, как это влияет на sample complexity обучения? При каких условиях hypothesis верна?

Связанные уроки

Риманова оптимизация

Многообразие M

Задача ML

Алгоритм

Stiefel St(n,k): W^T W=I

Ортогональные веса RNN

Geotorch, geoopt

Grassmann Gr(n,k)

Подпространства признаков

RSGD на Grassmann

SPD(n): сим. пол. опред.

Ковариац. матрицы (BCI)

Геодезическая интерполяция

Гиперб. пространство H^n

Иерархические эмбеддинги

Poincare embeddings

SO(n): вращения

3D позы, SLAM

Lie group SGD

Топологическая регуляризация

Зачем добавлять топологический штраф в VAE (вариационный авто-энкодер)?

UMAP: геометрия и топология

Почему UMAP лучше сохраняет топологию данных, чем PCA?

Геометрия эмбеддингов: гиперболические пространства

Почему гиперболические эмбеддинги (Poincaré) лучше евклидовых для WordNet?

Ключевые идеи

**Риманова оптимизация:** градиент на T_θ M + геодезический шаг + ретракция; St(n,k), Gr(n,k), SPD(n) - важные многообразия в ML

**Топологическая регуляризация:** штраф за нежелательные β₁ в латентных представлениях; TopoAE, TopVAE

**UMAP:** нечёткие симплициальные множества; сохраняет нелинейную топологию; лучше PCA для кластерных структур

**Геометрия эмбеддингов:** евклидова (плоская), гиперболическая (иерархии), сферическая (угловые); выбор зависит от структуры данных