Топология

Топология в ML и Data Science

Обычный градиентный спуск «не знает» о геометрии пространства параметров. Если параметры - ортогональные матрицы, ротации или ковариационные матрицы, евклидов шаг может вывести их за пределы допустимого множества. Риманова оптимизация «следует» геометрии и работает там, где обычный SGD ломается.

  • **UMAP в промышленности:** снижение размерности эмбеддингов для поиска, рекомендаций, визуализации; сохраняет кластерную структуру лучше PCA/t-SNE
  • **Ортогональные RNN:** Stiefel-оптимизация решает проблему взрывного/затухающего градиента без gradient clipping
  • **Poincaré Embeddings (Nickel, Kiela 2017):** иерархические эмбеддинги знаний в H^n; 82% MRR на WordNet при dim=5 vs 35% у евклидовых

Предварительные знания

  • Topological Data Analysis

Риманова оптимизация

Многие задачи ML имеют ограничения, определяющие многообразия. **Риманова оптимизация** минимизирует f(θ) при θ ∈ M (гладкое многообразие). Шаг алгоритма: 1. вычислить риманов градиент rgrad_θ f (проекция евклидова градиента на T_θ M) 2. сделать шаг по геодезической 3. вернуться на M (ретракция).

Многообразие MЗадача MLАлгоритм
Stiefel St(n,k): W^T W=IОртогональные веса RNNGeotorch, geoopt
Grassmann Gr(n,k)Подпространства признаковRSGD на Grassmann
SPD(n): сим. пол. опред.Ковариац. матрицы (BCI)Геодезическая интерполяция
Гиперб. пространство H^nИерархические эмбеддингиPoincare embeddings
SO(n): вращения3D позы, SLAMLie group SGD

**Библиотеки:** geomstats (Python) - полный набор: SO(n), S^n, Grassmann, SPD, гиперболическое пространство; интеграция с PyTorch/TF. geoopt - оптимизаторы на многообразиях для PyTorch. mcTorch - многообразия для классической ML. **Когда использовать:** когда параметры должны быть ортогональными, на единичной сфере, в конусе SPD.

Почему для обучения RNN с ортогональными весами (на Stiefel) нужна риманова оптимизация, а не проекция после обычного SGD?

Топологическая регуляризация

**Топологическая регуляризация** добавляет к функции потерь штраф, контролирующий топологию данных или скрытых представлений. Персистентные гомологии используются для вычисления «топологической ошибки»: разница между диаграммами персистентности целевой топологии и выхода модели.

**Практические применения топологической регуляризации:** 1. Авто-энкодеры: штраф за «дырки» в латентном пространстве → более плавная интерполяция. 2. GAN: контроль топологии синтезируемых изображений. 3. Обнаружение аномалий: аномалии нарушают топологию нормального распределения. 4. Класс 2019-2023: bibliothecary TopoAE, топологическая VAE.

Зачем добавлять топологический штраф в VAE (вариационный авто-энкодер)?

UMAP: геометрия и топология

**UMAP (Uniform Manifold Approximation and Projection)** - метод снижения размерности, основанный на предположении, что данные лежат на многообразии с однородной мерой. В отличие от t-SNE, UMAP имеет строгое теоретическое обоснование через нечёткие симплициальные множества и оптимизацию топологического расстояния.

**Ключевые параметры UMAP:** n_neighbors (k в KNN-графе: мало → локальная структура, много → глобальная), min_dist (сжатие в проекции: мало → плотные кластеры, много → однородное распределение). **Теоретическая основа:** UMAP строит нечёткий симплициальный граф и оптимизирует его топологическое расстояние до целевого low-dim комплекса.

Почему UMAP лучше сохраняет топологию данных, чем PCA?

Геометрия эмбеддингов: гиперболические пространства

**Гипотеза многообразия (manifold hypothesis):** реальные высокоразмерные данные (тексты, изображения) концентрируются вблизи низкоразмерного многообразия в высокоразмерном пространстве. Это объясняет, почему методы снижения размерности работают и почему нейронные сети могут обобщаться.

**Когда использовать разные геометрии:** Евклидова R^n - для плоских, невыраженно иерархических данных. Гиперболическая H^n - для деревьев, таксономий, графов с иерархией (WordNet, FileSystems, social networks). Сферическая S^n - для данных с угловыми расстояниями (документы, изображения со знаками нормировки). Риманновы многообразия общего вида - для физических конфигурационных пространств, SPD-матриц.

Почему гиперболические эмбеддинги (Poincaré) лучше евклидовых для WordNet?

Ключевые идеи

  • **Риманова оптимизация:** градиент на T_θ M + геодезический шаг + ретракция; St(n,k), Gr(n,k), SPD(n) - важные многообразия в ML
  • **Топологическая регуляризация:** штраф за нежелательные β₁ в латентных представлениях; TopoAE, TopVAE
  • **UMAP:** нечёткие симплициальные множества; сохраняет нелинейную топологию; лучше PCA для кластерных структур
  • **Геометрия эмбеддингов:** евклидова (плоская), гиперболическая (иерархии), сферическая (угловые); выбор зависит от структуры данных

Связанные темы

Топология и геометрия пронизывают современный ML:

  • Многообразия — Manifold hypothesis: данные лежат на многообразии; Riemannian optimization требует знания геометрии M
  • TDA — Персистентные гомологии используются для топологической регуляризации и анализа нейросетей

Вопросы для размышления

  • Почему параметрическое UMAP (обучает нейросеть-энкодер) лучше обычного для новых данных? Какие топологические гарантии теряются при параметризации?
  • SPD-матрицы - риманово многообразие. Почему naive average (Σ₁+Σ₂)/2 ковариационных матриц может не принадлежать SPD? Что такое геодезическое среднее?
  • Manifold hypothesis: если данные лежат на d-мерном многообразии в R^n, как это влияет на sample complexity обучения? При каких условиях hypothesis верна?

Связанные уроки

  • ml-19-pca
  • aie-09-embeddings
Топология в ML и Data Science

0

1

Войти