Топология

Алгоритм Mapper

Цели урока

  • Освоить алгоритм Mapper: фильтрирующая функция, покрытие, кластеризация, нервный комплекс
  • Понять нервную лемму как теоретическое обоснование Mapper
  • Научиться интерпретировать граф Mapper и выбирать гиперпараметры
  • Изучить применения Mapper в биомедицине, финансах и нейронауках

Предварительные знания

  • Персистентная гомология (продвинутая)
  • Топологический анализ данных
  • Кластерный анализ
  • Персистентная гомология (продвинутая)
  • Топологический анализ данных (TDA)

Как превратить миллион точек в читаемую карту, которая сохраняет топологию данных? Mapper строит граф, где каждый узел - кластер точек, а рёбра показывают, как кластеры перекрываются.

  • Онкология: Ayasdi выявила подтип рака c5 с помощью Mapper на геномных данных 271 пациента
  • Нейронауки: топологическая карта нейронных активаций мозга при разных стимулах
  • Финансы: обнаружение рыночных режимов (нормальный рынок vs кризис) через Mapper на временных рядах
  • Иммунология: Mapper пространства T-клеточных рецепторов выявил редкие подтипы иммунных клеток

От Gurney до Ayasdi

Гуннар Карлссон, Вин де Сильва и Афра Зомородян создали математические основы TDA в 2000-е годы. Пол Сейнь, Садхана и Карлссон опубликовали Mapper в 2007 году на конференции Eurographics. В 2008 году команда основала компанию Ayasdi для коммерциализации TDA. Первый громкий результат - открытие подтипа рака c5 в 2011 году в журнале Science Translational Medicine. К 2020-м KeplerMapper, Giotto-TDA и Gudhi стали стандартными open-source инструментами.

Алгоритм Mapper и топологическая визуализация

Пол Сейнь, Викрам Садхана и Гуннар Карлссон в 2007 году (Eurographics Symposium) предложили алгоритм Mapper. Компания Ayasdi применила его в 2011 году к данным ДНК рака молочной железы (n=271), выявив ранее неизвестный подтип c5 с улучшенным прогнозом.

Как параметр перекрытия (overlap) влияет на граф Mapper?

Верно. Без перекрытия получаем изолированные вершины. Высокое перекрытие объединяет далёкие кластеры.

Нервная лемма и теоретические основы

Нервная лемма - теоретическое обоснование Mapper. Если все пересечения открытых множеств покрытия стягиваемы, нервный комплекс гомотопически эквивалентен объединению. Mapper эксплуатирует именно это: кластеры как приближения стягиваемых компонент.

Mapper для финансовых временных рядов

Топологическое обнаружение рыночных режимов

Для временного ряда цен акций строим скользящее окно: каждый день - вектор из последних 30 доходностей. Фильтрирующая функция - волатильность (стандартное отклонение). Mapper выявляет два режима: низкая волатильность (нормальный рынок) и высокая (кризис). Граф Mapper показывает переходы между режимами как рёбра.

Параметр MapperМалое значениеБольшое значение
Число интерваловГрубая топология, мало вершинДетальная топология, много вершин
Перекрытие %Мало рёбер, фрагментацияМного рёбер, слияние компонент
eps кластеризацииМного мелких кластеровМало крупных кластеров

Что гарантирует нервная лемма для алгоритма Mapper?

Верно. Если пересечения прообразов стягиваемы (что обеспечивается достаточным перекрытием), нерв = гомотопический тип данных.

Применения Mapper в науке о данных

Mapper - не просто алгоритм, а парадигма. Он превращает облако точек в граф, который можно визуализировать, анализировать и интерпретировать. Ключевой инструмент - цветовая кодировка вершин по клиническим переменным, что позволяет находить статистически значимые подгруппы.

Интерпретация графа Mapper: ветки графа = потенциальные подгруппы. Петли = нелинейная вариабельность. Изолированные компоненты = аномальные кластеры. Цветовая кодировка вершин по внешнему признаку (выживаемость, тип клетки) позволяет находить биологически значимые паттерны.

Что означает петля в графе Mapper?

Верно. Петля в графе = H1-класс нерва покрытия = нелинейная структура в данных (градиент, цикл изменений).

Связи с другими темами

Mapper объединяет топологическую теорию с практическим анализом высокоразмерных данных.

  • Машинное обучение без учителя — Связанная тема
  • Геномика и биоинформатика — Связанная тема
  • Визуализация данных — Связанная тема
  • Топологические квантовые поля — Связанная тема

Итоги

  • Mapper: f: X -> R^k (фильтр), U_alpha (покрытие f(X)), кластеризация прообразов, нервный граф
  • Три гиперпараметра: n_intervals (разрешение), overlap (перекрытие), eps (кластеризация)
  • Нервная лемма: Nerve(U) ~ union U_alpha при стягиваемых пересечениях
  • Петли в графе = H1-черты данных; ветки = потенциальные подгруппы
  • Применения: онкология (подтип c5), нейронауки (карта активаций), финансы (рыночные режимы)
  • KeplerMapper - Python реализация с sklearn-совместимыми кластеризаторами и d3.js визуализацией

Вопросы для размышления

  • Почему выбор фильтрирующей функции f критически важен для интерпретации графа Mapper?
  • Как нервная лемма обосновывает то, что граф Mapper отражает реальную топологию данных?
  • В чём принципиальное отличие Mapper от стандартных методов кластеризации (k-means, DBSCAN)?

Связанные уроки

  • top-28 — Теорема устойчивости и персистентные модули обосновывают Mapper
  • top-27 — Персистентные гомологии - основной инструмент TDA перед Mapper
  • top-23 — Нервная лемма использует гомологию покрытий для обоснования Mapper
  • aa-14-representations
Алгоритм Mapper

0

1

Войти