Топология

Topological Data Analysis

2007 год: Gunnar Carlsson опубликовал статью «Topology and Data» в Bulletin of the AMS - и заложил основу целого направления. К 2020-му персистентные гомологии вошли в пайплайны FDA-одобренных анализов рака: топологический штрихкод молекулы точнее предсказывал связывание лиганда, чем классические дескрипторы. Геометрия данных оказалась важнее их статистики.

  • **Разработка лекарств:** форма связывающего кармашка белка определяется персистентными гомологиями; Gudhi/Ripser в пайплайнах drug discovery
  • **Нейронаука:** решётчатые нейроны (place cells) гиппокампа кодируют пространство; TDA обнаруживает топологические инварианты нейральных кодов
  • **Компьютерное зрение:** Mapper на выходах нейронных сетей показывает структуру латентного пространства; TDA как инструмент объяснимого AI

Предварительные знания

  • de Rham Cohomology

Комплекс Вьеториса-Рипса

**Комплекс Вьеториса-Рипса VR(X, ε)** - симплициальный комплекс, построенный на облаке точек X: вершины = точки из X, симплекс [x₀, ..., xₖ] добавляется тогда и только тогда, когда d(xᵢ, xⱼ) ≤ ε для всех пар i, j. При ε = 0 - только вершины; при ε → ∞ - полный симплекс.

Выбор параметра ε - главная проблема: слишком маленький ε - граф разваливается на изолированные вершины; слишком большой - всё схлопывается в один симплекс. **Персистентные гомологии** решают эту проблему: мы строим VR для ВСЕХ значений ε и отслеживаем, когда рождаются и умирают топологические особенности.

Для облака точек на окружности S¹ с параметром ε = «правильный масштаб» - что мы ожидаем увидеть в числах Бетти?

Персистентные гомологии

**Персистентные гомологии** изучают, как группы гомологий Hₙ(VR(X, ε)) изменяются при увеличении ε. Каждый топологический признак «рождается» при некотором значении ε_birth и «умирает» при ε_death. Пара (ε_birth, ε_death) - **персистентная пара**. Длинноживущие признаки - сигнал; короткоживущие - шум.

**Диаграмма персистентности** (persistence diagram) - множество точек (b, d) в R² для каждой персистентной пары (рождение, смерть). Точки далеко от диагонали (b = d) соответствуют значимым топологическим признакам. Точки на диагонали - шум. **Штрихкод** (barcode) - альтернативное представление: горизонтальные отрезки [b, d].

На диаграмме персистентности точки (b, d) далеко от диагонали - что они означают?

Алгоритм Mapper и расстояние Вассерштейна

**Алгоритм Mapper** (Singh, Mémoli, Carlsson 2007) строит «топологический скелет» данных. Шаги: 1. Выбрать «фильтрацию» f: X → R (например, проекция на первую главную компоненту). 2. Покрыть образ f набором перекрывающихся интервалов. 3. Для каждого интервала кластеризовать прообраз. 4. Соединить кластеры, если они пересекаются.

**Расстояние Вассерштейна** между двумя диаграммами персистентности - метрика, устойчивая к малым возмущениям данных. W_p(D₁, D₂) = inf_{γ: D₁→D₂} (Σ ||p - γ(p)||_∞^p)^{1/p}, где inf берётся по всем биекциям (с учётом диагонали как «мусорника»). Это позволяет сравнивать топологические формы разных наборов данных.

**Библиотеки TDA:** Gudhi (Python, C++) - полный набор инструментов: VR, α-комплексы, кубические гомологии, Mapper, расстояния. Ripser (C++/Python) - быстрое вычисление персистентных гомологий. scikit-tda - интеграция с scikit-learn. Применения: анализ формы молекул (DrugDiscovery), обнаружение петель в нейронных данных, кластеризация материалов.

Расстояние Вассерштейна между двумя диаграммами персистентности мало - что это означает?

Применения TDA

TDA нашёл применение в самых разных областях. **Биомедицина:** анализ формы опухолей (персистентные гомологии различают злокачественные и доброкачественные), структура белковых молекул (β₁ определяет «карманы» для препаратов). **Нейронаука:** петли в нейронных данных кодируют пространственные карты (hippocampal place cells).

ОбластьTDA инструментЧто обнаруживается
МедицинаПерсист. гомологии изображенийФорма опухоли, β₁ в микроструктуре
НейронаукаVR на spike trainsРешётчатые нейроны, топология пространства
ФинансыПерсист. гомологии временных рядовПетли рыночных циклов, структура волатильности
МатериаловедениеCubical homologyПоры в материале, β₂ = замкнутые полости
NLPПерсист. гомологии word embeddingsСемантические кластеры, циклы аналогий
CVMapper на выходах CNNСтруктура латентного пространства

Почему H₁ (персистентные 1D дыры) полезны для анализа молекул?

Ключевые идеи

  • **VR(X, ε):** симплексы из точек расстояния ≤ ε; мост от облака точек к топологии
  • **Персистентные гомологии:** (birth, death) для каждой дыры при изменении ε; устойчивы к шуму
  • **Диаграммы персистентности:** точки далеко от диагонали = значимые признаки, близко = шум
  • **Mapper:** «топологический скелет» данных через фильтрацию + кластеризацию; Wasserstein = метрика на диаграммах

Связанные темы

TDA соединяет чистую топологию с реальными данными:

  • Гомологии — Персистентные гомологии = параметрическая версия симплициальных гомологий
  • Топология в ML — TDA применяется в ML как feature engineering, регуляризация и анализ нейросетей

Вопросы для размышления

  • Стабильность персистентных гомологий: если возмутить данные на ε, как изменится диаграмма персистентности? Что гарантирует теорема стабильности?
  • Альтернатива VR - α-комплексы (Delaunay). Каковы их преимущества по памяти и времени? Когда VR предпочтительнее?
  • Как применить TDA к временному ряду (например, биржевому индексу)? Какую фильтрацию и какой комплекс использовать?

Связанные уроки

  • ml-19-pca
Topological Data Analysis

0

1

Войти