Топология
Алгоритм Mapper
Цели урока
- Освоить алгоритм Mapper: фильтрирующая функция, покрытие, кластеризация, нервный комплекс
- Понять нервную лемму как теоретическое обоснование Mapper
- Научиться интерпретировать граф Mapper и выбирать гиперпараметры
- Изучить применения Mapper в биомедицине, финансах и нейронауках
Предварительные знания
- Персистентная гомология (продвинутая)
- Топологический анализ данных
- Кластерный анализ
Как превратить миллион точек в читаемую карту, которая сохраняет топологию данных? Mapper строит граф, где каждый узел - кластер точек, а рёбра показывают, как кластеры перекрываются.
- Онкология: Ayasdi выявила подтип рака c5 с помощью Mapper на геномных данных 271 пациента
- Нейронауки: топологическая карта нейронных активаций мозга при разных стимулах
- Финансы: обнаружение рыночных режимов (нормальный рынок vs кризис) через Mapper на временных рядах
- Иммунология: Mapper пространства T-клеточных рецепторов выявил редкие подтипы иммунных клеток
От Gurney до Ayasdi
Гуннар Карлссон, Вин де Сильва и Афра Зомородян создали математические основы TDA в 2000-е годы. Пол Сейнь, Садхана и Карлссон опубликовали Mapper в 2007 году на конференции Eurographics. В 2008 году команда основала компанию Ayasdi для коммерциализации TDA. Первый громкий результат - открытие подтипа рака c5 в 2011 году в журнале Science Translational Medicine. К 2020-м KeplerMapper, Giotto-TDA и Gudhi стали стандартными open-source инструментами.
Алгоритм Mapper и топологическая визуализация
Пол Сейнь, Викрам Садхана и Гуннар Карлссон в 2007 году (Eurographics Symposium) предложили алгоритм Mapper. Компания Ayasdi применила его в 2011 году к данным ДНК рака молочной железы (n=271), выявив ранее неизвестный подтип c5 с улучшенным прогнозом.
Как параметр перекрытия (overlap) влияет на граф Mapper?
Верно. Без перекрытия получаем изолированные вершины. Высокое перекрытие объединяет далёкие кластеры.
Нервная лемма и теоретические основы
Нервная лемма - теоретическое обоснование Mapper. Если все пересечения открытых множеств покрытия стягиваемы, нервный комплекс гомотопически эквивалентен объединению. Mapper эксплуатирует именно это: кластеры как приближения стягиваемых компонент.
Mapper для финансовых временных рядов
Топологическое обнаружение рыночных режимов
Для временного ряда цен акций строим скользящее окно: каждый день - вектор из последних 30 доходностей. Фильтрирующая функция - волатильность (стандартное отклонение). Mapper выявляет два режима: низкая волатильность (нормальный рынок) и высокая (кризис). Граф Mapper показывает переходы между режимами как рёбра.
| Параметр Mapper | Малое значение | Большое значение |
|---|---|---|
| Число интервалов | Грубая топология, мало вершин | Детальная топология, много вершин |
| Перекрытие % | Мало рёбер, фрагментация | Много рёбер, слияние компонент |
| eps кластеризации | Много мелких кластеров | Мало крупных кластеров |
Что гарантирует нервная лемма для алгоритма Mapper?
Верно. Если пересечения прообразов стягиваемы (что обеспечивается достаточным перекрытием), нерв = гомотопический тип данных.
Применения Mapper в науке о данных
Mapper - не просто алгоритм, а парадигма. Он превращает облако точек в граф, который можно визуализировать, анализировать и интерпретировать. Ключевой инструмент - цветовая кодировка вершин по клиническим переменным, что позволяет находить статистически значимые подгруппы.
Интерпретация графа Mapper: ветки графа = потенциальные подгруппы. Петли = нелинейная вариабельность. Изолированные компоненты = аномальные кластеры. Цветовая кодировка вершин по внешнему признаку (выживаемость, тип клетки) позволяет находить биологически значимые паттерны.
Что означает петля в графе Mapper?
Верно. Петля в графе = H1-класс нерва покрытия = нелинейная структура в данных (градиент, цикл изменений).
Связи с другими темами
Mapper объединяет топологическую теорию с практическим анализом высокоразмерных данных.
- Машинное обучение без учителя — Связанная тема
- Геномика и биоинформатика — Связанная тема
- Визуализация данных — Связанная тема
- Топологические квантовые поля — Связанная тема
Итоги
- Mapper: f: X -> R^k (фильтр), U_alpha (покрытие f(X)), кластеризация прообразов, нервный граф
- Три гиперпараметра: n_intervals (разрешение), overlap (перекрытие), eps (кластеризация)
- Нервная лемма: Nerve(U) ~ union U_alpha при стягиваемых пересечениях
- Петли в графе = H1-черты данных; ветки = потенциальные подгруппы
- Применения: онкология (подтип c5), нейронауки (карта активаций), финансы (рыночные режимы)
- KeplerMapper - Python реализация с sklearn-совместимыми кластеризаторами и d3.js визуализацией
Вопросы для размышления
- Почему выбор фильтрирующей функции f критически важен для интерпретации графа Mapper?
- Как нервная лемма обосновывает то, что граф Mapper отражает реальную топологию данных?
- В чём принципиальное отличие Mapper от стандартных методов кластеризации (k-means, DBSCAN)?
Связанные уроки
- top-28 — Теорема устойчивости и персистентные модули обосновывают Mapper
- top-27 — Персистентные гомологии - основной инструмент TDA перед Mapper
- top-23 — Нервная лемма использует гомологию покрытий для обоснования Mapper
- aa-14-representations