Топология

Topological Data Analysis

2007 год: Gunnar Carlsson опубликовал статью «Topology and Data» в Bulletin of the AMS - и заложил основу целого направления. К 2020-му персистентные гомологии вошли в пайплайны FDA-одобренных анализов рака: топологический штрихкод молекулы точнее предсказывал связывание лиганда, чем классические дескрипторы. Геометрия данных оказалась важнее их статистики.

**Разработка лекарств:** форма связывающего кармашка белка определяется персистентными гомологиями; Gudhi/Ripser в пайплайнах drug discovery
**Нейронаука:** решётчатые нейроны (place cells) гиппокампа кодируют пространство; TDA обнаруживает топологические инварианты нейральных кодов
**Компьютерное зрение:** Mapper на выходах нейронных сетей показывает структуру латентного пространства; TDA как инструмент объяснимого AI

Предварительные знания

de Rham Cohomology

Комплекс Вьеториса-Рипса

**Комплекс Вьеториса-Рипса VR(X, ε)** - симплициальный комплекс, построенный на облаке точек X: вершины = точки из X, симплекс [x₀, ..., xₖ] добавляется тогда и только тогда, когда d(xᵢ, xⱼ) ≤ ε для всех пар i, j. При ε = 0 - только вершины; при ε → ∞ - полный симплекс.

Выбор параметра ε - главная проблема: слишком маленький ε - граф разваливается на изолированные вершины; слишком большой - всё схлопывается в один симплекс. **Персистентные гомологии** решают эту проблему: мы строим VR для ВСЕХ значений ε и отслеживаем, когда рождаются и умирают топологические особенности.

Для облака точек на окружности S¹ с параметром ε = «правильный масштаб» - что мы ожидаем увидеть в числах Бетти?

Персистентные гомологии

**Персистентные гомологии** изучают, как группы гомологий Hₙ(VR(X, ε)) изменяются при увеличении ε. Каждый топологический признак «рождается» при некотором значении ε_birth и «умирает» при ε_death. Пара (ε_birth, ε_death) - **персистентная пара**. Длинноживущие признаки - сигнал; короткоживущие - шум.

**Диаграмма персистентности** (persistence diagram) - множество точек (b, d) в R² для каждой персистентной пары (рождение, смерть). Точки далеко от диагонали (b = d) соответствуют значимым топологическим признакам. Точки на диагонали - шум. **Штрихкод** (barcode) - альтернативное представление: горизонтальные отрезки [b, d].

На диаграмме персистентности точки (b, d) далеко от диагонали - что они означают?

Алгоритм Mapper и расстояние Вассерштейна

**Алгоритм Mapper** (Singh, Mémoli, Carlsson 2007) строит «топологический скелет» данных. Шаги: 1. Выбрать «фильтрацию» f: X → R (например, проекция на первую главную компоненту). 2. Покрыть образ f набором перекрывающихся интервалов. 3. Для каждого интервала кластеризовать прообраз. 4. Соединить кластеры, если они пересекаются.

**Расстояние Вассерштейна** между двумя диаграммами персистентности - метрика, устойчивая к малым возмущениям данных. W_p(D₁, D₂) = inf_{γ: D₁→D₂} (Σ ||p - γ(p)||_∞^p)^{1/p}, где inf берётся по всем биекциям (с учётом диагонали как «мусорника»). Это позволяет сравнивать топологические формы разных наборов данных.

**Библиотеки TDA:** Gudhi (Python, C++) - полный набор инструментов: VR, α-комплексы, кубические гомологии, Mapper, расстояния. Ripser (C++/Python) - быстрое вычисление персистентных гомологий. scikit-tda - интеграция с scikit-learn. Применения: анализ формы молекул (DrugDiscovery), обнаружение петель в нейронных данных, кластеризация материалов.

Расстояние Вассерштейна между двумя диаграммами персистентности мало - что это означает?

Применения TDA

TDA нашёл применение в самых разных областях. **Биомедицина:** анализ формы опухолей (персистентные гомологии различают злокачественные и доброкачественные), структура белковых молекул (β₁ определяет «карманы» для препаратов). **Нейронаука:** петли в нейронных данных кодируют пространственные карты (hippocampal place cells).

Область	TDA инструмент	Что обнаруживается
Медицина	Персист. гомологии изображений	Форма опухоли, β₁ в микроструктуре
Нейронаука	VR на spike trains	Решётчатые нейроны, топология пространства
Финансы	Персист. гомологии временных рядов	Петли рыночных циклов, структура волатильности
Материаловедение	Cubical homology	Поры в материале, β₂ = замкнутые полости
NLP	Персист. гомологии word embeddings	Семантические кластеры, циклы аналогий
CV	Mapper на выходах CNN	Структура латентного пространства

Почему H₁ (персистентные 1D дыры) полезны для анализа молекул?

Ключевые идеи

**VR(X, ε):** симплексы из точек расстояния ≤ ε; мост от облака точек к топологии
**Персистентные гомологии:** (birth, death) для каждой дыры при изменении ε; устойчивы к шуму
**Диаграммы персистентности:** точки далеко от диагонали = значимые признаки, близко = шум
**Mapper:** «топологический скелет» данных через фильтрацию + кластеризацию; Wasserstein = метрика на диаграммах

Связанные темы

TDA соединяет чистую топологию с реальными данными:

Гомологии — Персистентные гомологии = параметрическая версия симплициальных гомологий
Топология в ML — TDA применяется в ML как feature engineering, регуляризация и анализ нейросетей

Вопросы для размышления

Стабильность персистентных гомологий: если возмутить данные на ε, как изменится диаграмма персистентности? Что гарантирует теорема стабильности?
Альтернатива VR - α-комплексы (Delaunay). Каковы их преимущества по памяти и времени? Когда VR предпочтительнее?
Как применить TDA к временному ряду (например, биржевому индексу)? Какую фильтрацию и какой комплекс использовать?

Связанные уроки

ml-19-pca

Комплекс Вьеториса-Рипса

Персистентные гомологии

На диаграмме персистентности точки (b, d) далеко от диагонали - что они означают?

Алгоритм Mapper и расстояние Вассерштейна

Расстояние Вассерштейна между двумя диаграммами персистентности мало - что это означает?

Применения TDA

Область

TDA инструмент

Что обнаруживается

Медицина

Персист. гомологии изображений

Форма опухоли, β₁ в микроструктуре

Нейронаука

VR на spike trains

Решётчатые нейроны, топология пространства

Финансы

Персист. гомологии временных рядов

Петли рыночных циклов, структура волатильности

Материаловедение

Cubical homology

Поры в материале, β₂ = замкнутые полости

NLP

Персист. гомологии word embeddings

Семантические кластеры, циклы аналогий

Mapper на выходах CNN

Структура латентного пространства

Почему H₁ (персистентные 1D дыры) полезны для анализа молекул?

Ключевые идеи

**VR(X, ε):** симплексы из точек расстояния ≤ ε; мост от облака точек к топологии

**Персистентные гомологии:** (birth, death) для каждой дыры при изменении ε; устойчивы к шуму

**Диаграммы персистентности:** точки далеко от диагонали = значимые признаки, близко = шум

**Mapper:** «топологический скелет» данных через фильтрацию + кластеризацию; Wasserstein = метрика на диаграммах