Информационная геометрия
Персистентная гомология для данных
Кластеризация и PCA ищут выпуклые кластеры и линейные структуры - и не замечают петли, тоннели, полости. Топологический анализ данных через персистентные гомологии фиксирует именно эти структуры, причём устойчиво к шуму: теорема стабильности гарантирует, что малые возмущения данных дают малые изменения топологических инвариантов.
- Новый подтип рака молочной железы (Ayasdi, 2013): персистентные гомологии геномных данных выявили подтип с 100% выживаемостью, пропущенный стандартными методами кластеризации
- Топология нейросетей: персистентные гомологии пространства весов коррелируют с обобщающей способностью и устойчивостью к состязательным атакам
- Ripser (2016): вычисляет персистентные гомологии облака 10000 точек в R^{100} за 2 секунды; используется в структурной биоинформатике для анализа конформационных пространств белков
- Финансовые временные ряды: топологические черты диаграммы персистентности меняются при переходах между рыночными режимами - опережающий индикатор кризисов
Предварительные знания
- Гомологии симплициальных комплексов
- Числа Бетти
- Расстояние Хаусдорфа
Персистентные гомологии и диаграммы персистентности
Персистентные гомологии отслеживают топологические черты облака точек при изменении масштаба. Строится фильтрация - возрастающая последовательность симплициальных комплексов K_0 ⊂ K_1 ⊂ ... ⊂ K_n. Топологические черты (компоненты связности, циклы, полости) 'рождаются' при радиусе b и 'умирают' при d > b. Пара (b, d) - точка диаграммы персистентности. Персистентность pers = d − b: большая - реальная структура, малая - шум.
Расстояние Вассерштейна W_p(D_1, D_2)^p = inf_γ Σ_{p∈D_1} ||p − γ(p)||^p_∞ - альтернатива боттлнек-расстоянию. Более чувствительно к малым чертам. Дифференцируемо почти всюду, что позволяет использовать его как функцию потерь в задачах топологически-регуляризованного обучения.
Что означает точка диаграммы персистентности далеко от диагонали?
Персистентность pers = d − b измеряет диапазон масштабов, в котором черта существует. Большое значение: черта присутствует при многих масштабах - реальная структура данных (цикл, компонента). Малое (точка у диагонали): шум или случайный артефакт. Теорема стабильности гарантирует, что это разделение устойчиво к малым возмущениям данных.
Топологические признаки в машинном обучении
Для применения TDA в ML необходимо превратить диаграммы персистентности в векторы. Три основных подхода: персистентный ландшафт (L² функция), персистентный образ (persistent image, 2D гистограмма), и топологические потери (Wasserstein-regularized). Каждый сохраняет разные аспекты топологической информации и обеспечивает разную степень дифференцируемости для оптимизации.
Gudhi, Ripser, Giotto-TDA - Python-библиотеки для TDA. Ripser вычисляет персистентные гомологии H₀ и H₁ для 10000 точек в R^{100} за секунды, используя матрицу разреженных расстояний. Giotto-TDA интегрируется с scikit-learn и PyTorch, обеспечивая сквозное дифференцируемое обучение с топологическими признаками.
Barcode - альтернативное представление диаграммы персистентности: каждая черта (b, d) отображается как отрезок [b, d] на числовой прямой. Barcode Н₀ (компоненты) показывает, как точки сливаются в кластеры при увеличении t - это иерархическая кластеризация. Barcode H₁ (циклы) - топологические «петли» в данных. Barcode H₂ (полости) - замкнутые поверхности. Суммарная информация barcodeов полностью определяет диаграмму персистентности.
Зачем использовать персистентный образ вместо самой диаграммы персистентности в ML-пайплайне?
Диаграмма персистентности - мультимножество точек (b_i, d_i). Нельзя напрямую подать в SVM или нейросеть. Персистентный образ (и ландшафт) - векторизации в L² или R^n, где работают стандартные ML-методы. Потеря информации при векторизации компенсируется сохранением устойчивости к шуму (теорема стабильности).
Теория Морса и связь с персистентными гомологиями
Теория Морса изучает связь между критическими точками гладких функций и топологией многообразий. Персистентные гомологии - вычислительное расширение теории Морса на дискретные данные. Для гладкой функции f: M → R персистентность пары критических точек (p_birth, p_death) равна разности критических значений |f(p_death) − f(p_birth)|. Это связывает геометрию функций с топологией пространства.
Discrete Morse theory (Форман, 1998) переносит теорию Морса на клеточные комплексы. Это вычислительный инструмент для редукции симплициальных комплексов: количество «критических» симплексов в дискретной теории Морса = числа Бетти (для минимальных комплексов). Ripser использует дискретную теорию Морса для ускорения вычислений персистентных гомологий на больших данных.
Как теорема упрощения Морса связана с шумоподавлением в TDA?
Теорема упрощения Морса: если пара критических точек (рождение, смерть) имеет персистентность < ε, то функцию можно локально деформировать, отменив эту пару, - функция меняется на O(ε), а существенная топология сохраняется. Это формализует интуицию: малая персистентность = шум. Topological denoising основан именно на итеративном применении этой теоремы.
Связи с другими темами
Персистентные гомологии соединяют алгебраическую топологию с прикладной математикой и машинным обучением.
- Алгебраическая топология — Связанная тема
- Метрические пространства — Связанная тема
- ML: векторизация признаков — Связанная тема
- Теория Морса — Связанная тема
Итоги
- Фильтрация Rips(X, t): симплициальный комплекс из попарных расстояний, монотонно растущий по t
- Диаграмма персистентности: точки (b_i, d_i) выше диагонали; pers = d_i − b_i - длина жизни черты
- Далеко от диагонали = долгоживущая топологическая черта (реальная структура); у диагонали = шум
- Теорема стабильности: d_B(Dgm(f), Dgm(g)) ≤ ||f − g||_∞ - устойчивость к возмущениям
- Персистентный ландшафт λ_k(t) ∈ L²: векторизация диаграмм для статистики и ML