Информационная геометрия

Персистентная гомология для данных

Кластеризация и PCA ищут выпуклые кластеры и линейные структуры - и не замечают петли, тоннели, полости. Топологический анализ данных через персистентные гомологии фиксирует именно эти структуры, причём устойчиво к шуму: теорема стабильности гарантирует, что малые возмущения данных дают малые изменения топологических инвариантов.

  • Новый подтип рака молочной железы (Ayasdi, 2013): персистентные гомологии геномных данных выявили подтип с 100% выживаемостью, пропущенный стандартными методами кластеризации
  • Топология нейросетей: персистентные гомологии пространства весов коррелируют с обобщающей способностью и устойчивостью к состязательным атакам
  • Ripser (2016): вычисляет персистентные гомологии облака 10000 точек в R^{100} за 2 секунды; используется в структурной биоинформатике для анализа конформационных пространств белков
  • Финансовые временные ряды: топологические черты диаграммы персистентности меняются при переходах между рыночными режимами - опережающий индикатор кризисов

Предварительные знания

  • Гомологии симплициальных комплексов
  • Числа Бетти
  • Расстояние Хаусдорфа
  • Геометрия глубокого обучения
  • Топология и многообразия

Персистентные гомологии и диаграммы персистентности

Персистентные гомологии отслеживают топологические черты облака точек при изменении масштаба. Строится фильтрация - возрастающая последовательность симплициальных комплексов K_0 ⊂ K_1 ⊂ ... ⊂ K_n. Топологические черты (компоненты связности, циклы, полости) 'рождаются' при радиусе b и 'умирают' при d > b. Пара (b, d) - точка диаграммы персистентности. Персистентность pers = d − b: большая - реальная структура, малая - шум.

Расстояние Вассерштейна W_p(D_1, D_2)^p = inf_γ Σ_{p∈D_1} ||p − γ(p)||^p_∞ - альтернатива боттлнек-расстоянию. Более чувствительно к малым чертам. Дифференцируемо почти всюду, что позволяет использовать его как функцию потерь в задачах топологически-регуляризованного обучения.

Что означает точка диаграммы персистентности далеко от диагонали?

Персистентность pers = d − b измеряет диапазон масштабов, в котором черта существует. Большое значение: черта присутствует при многих масштабах - реальная структура данных (цикл, компонента). Малое (точка у диагонали): шум или случайный артефакт. Теорема стабильности гарантирует, что это разделение устойчиво к малым возмущениям данных.

Топологические признаки в машинном обучении

Для применения TDA в ML необходимо превратить диаграммы персистентности в векторы. Три основных подхода: персистентный ландшафт (L² функция), персистентный образ (persistent image, 2D гистограмма), и топологические потери (Wasserstein-regularized). Каждый сохраняет разные аспекты топологической информации и обеспечивает разную степень дифференцируемости для оптимизации.

Gudhi, Ripser, Giotto-TDA - Python-библиотеки для TDA. Ripser вычисляет персистентные гомологии H₀ и H₁ для 10000 точек в R^{100} за секунды, используя матрицу разреженных расстояний. Giotto-TDA интегрируется с scikit-learn и PyTorch, обеспечивая сквозное дифференцируемое обучение с топологическими признаками.

Barcode - альтернативное представление диаграммы персистентности: каждая черта (b, d) отображается как отрезок [b, d] на числовой прямой. Barcode Н₀ (компоненты) показывает, как точки сливаются в кластеры при увеличении t - это иерархическая кластеризация. Barcode H₁ (циклы) - топологические «петли» в данных. Barcode H₂ (полости) - замкнутые поверхности. Суммарная информация barcodeов полностью определяет диаграмму персистентности.

Зачем использовать персистентный образ вместо самой диаграммы персистентности в ML-пайплайне?

Диаграмма персистентности - мультимножество точек (b_i, d_i). Нельзя напрямую подать в SVM или нейросеть. Персистентный образ (и ландшафт) - векторизации в L² или R^n, где работают стандартные ML-методы. Потеря информации при векторизации компенсируется сохранением устойчивости к шуму (теорема стабильности).

Теория Морса и связь с персистентными гомологиями

Теория Морса изучает связь между критическими точками гладких функций и топологией многообразий. Персистентные гомологии - вычислительное расширение теории Морса на дискретные данные. Для гладкой функции f: M → R персистентность пары критических точек (p_birth, p_death) равна разности критических значений |f(p_death) − f(p_birth)|. Это связывает геометрию функций с топологией пространства.

Discrete Morse theory (Форман, 1998) переносит теорию Морса на клеточные комплексы. Это вычислительный инструмент для редукции симплициальных комплексов: количество «критических» симплексов в дискретной теории Морса = числа Бетти (для минимальных комплексов). Ripser использует дискретную теорию Морса для ускорения вычислений персистентных гомологий на больших данных.

Как теорема упрощения Морса связана с шумоподавлением в TDA?

Теорема упрощения Морса: если пара критических точек (рождение, смерть) имеет персистентность < ε, то функцию можно локально деформировать, отменив эту пару, - функция меняется на O(ε), а существенная топология сохраняется. Это формализует интуицию: малая персистентность = шум. Topological denoising основан именно на итеративном применении этой теоремы.

Связи с другими темами

Персистентные гомологии соединяют алгебраическую топологию с прикладной математикой и машинным обучением.

  • Алгебраическая топология — Связанная тема
  • Метрические пространства — Связанная тема
  • ML: векторизация признаков — Связанная тема
  • Теория Морса — Связанная тема

Итоги

  • Фильтрация Rips(X, t): симплициальный комплекс из попарных расстояний, монотонно растущий по t
  • Диаграмма персистентности: точки (b_i, d_i) выше диагонали; pers = d_i − b_i - длина жизни черты
  • Далеко от диагонали = долгоживущая топологическая черта (реальная структура); у диагонали = шум
  • Теорема стабильности: d_B(Dgm(f), Dgm(g)) ≤ ||f − g||_∞ - устойчивость к возмущениям
  • Персистентный ландшафт λ_k(t) ∈ L²: векторизация диаграмм для статистики и ML
Персистентная гомология для данных

0

1

Войти