Топология

Топологический анализ данных (TDA)

Цели урока

  • Понять конструкцию персистентных гомологий через фильтрацию Vietoris-Rips
  • Научиться читать диаграммы персистентности и штрих-коды
  • Освоить теорему устойчивости и метрики на пространстве диаграмм
  • Разобраться с интеграцией персистентной топологии в нейросетевые архитектуры

Предварительные знания

  • Группы гомологий
  • Симплициальные комплексы
  • Основы метрических пространств
  • Группы гомологий

Как обнаружить «дырки» в облаке данных из миллиона точек - не визуально, а алгоритмически? Персистентная гомология превращает этот вопрос в вычисление, которое работает за секунды.

  • Биоинформатика: Ayasdi обнаружила новый подтип рака через персистентные диаграммы геномных данных
  • Нейронауки: топологическая структура нейронных активаций мозга анализируется через PD
  • Материалы: пористость и структура металлических стёкол описывается через H0 и H1 атомных позиций
  • Машинное обучение: PersLay интегрирует персистентные диаграммы в граф-нейросети для молекул

От гомологий к анализу данных

Герберт Эдельсбруннер и Джон Херер в 2002 году ввели термин «персистентная гомология» и доказали первые алгоритмические теоремы. Афра Зомородян и Карлссон в 2004 году доказали теорему о декомпозиции персистентных модулей. Коэн-Штайнер, Эдельсбруннер и Херер в 2007 году доказали теорему устойчивости. С 2010-х TDA стала промышленным инструментом: Ripser, Gudhi, Giotto-TDA.

TDA и персистентные гомологии

Компания Ayasdi в 2008 году использовала персистентную гомологию для анализа геномных данных рака молочной железы, выявив новый подтип опухоли c5. Стандарт персистентных гомологий реализован в Ripser (2016) - обрабатывает 10000 точек за секунды.

Расстояние Вассерштейна между диаграммами персистентности устойчиво: малые возмущения данных дают близкие диаграммы (теорема устойчивости Коэн-Штайнера, 2007). Именно это делает TDA применимым к зашумлённым реальным данным.

Что означает долгоживущая точка в диаграмме персистентности H1?

Верно. Точка (b,d) в PD_1 с большой персистентностью d-b означает, что петля существует от масштаба b до d.

Фильтрации и штрих-коды

Штрих-код - это «ДНК» топологической структуры данных. Длинные штрихи - реальные дыры и петли. Короткие - шум. Биоинформатика использует штрих-коды для сравнения белковых структур: расстояние Вассерштейна между штрих-кодами - метрика похожести двух молекул.

Сравнение белков через персистентность

Применение в структурной биоинформатике

Два белка имеют похожую функцию, если их 3D-структуры топологически схожи. Вычисляем PD_1 (петли) для каждого белка из атомных координат. Расстояние Вассерштейна между диаграммами - мера топологического сходства. Этот подход устойчив к конформационным изменениям (малые движения = малое изменение диаграммы).

Что гарантирует теорема устойчивости персистентной гомологии?

Верно: d_B(PD(f), PD(g)) <= ||f-g||_inf - ключевое неравенство для применимости к зашумлённым данным.

Персистентность в нейросетях: PersLay

2019 год. Команда Google Brain интегрирует персистентную гомологию в граф-нейросети. Задача - распознавание молекул по топологическим особенностям структуры. Персистентные диаграммы некоммутативны с дифференцированием - задача встраивания их в нейросети нетривиальна.

Главное препятствие к дифференцированию - диаграмма персистентности не является функцией фиксированного размера. При изменении данных число точек меняется. PersLay обходит это через суммирование по всем точкам с весовой функцией.

Почему прямое использование диаграмм персистентности в нейросетях затруднено?

Верно. PersLay, persistence images и другие методы решают именно эту проблему - преобразование диаграммы в вектор фиксированного размера.

Связи с другими темами

TDA объединяет алгебраическую топологию, алгоритмическую геометрию и машинное обучение.

  • Машинное обучение — Связанная тема
  • Биоинформатика — Связанная тема
  • Нейронауки — Связанная тема
  • Материаловедение — Связанная тема

Итоги

  • Фильтрация Rips(X,eps): симплициальный комплекс по порогу расстояния eps
  • Персистентная диаграмма PD_k: мультимножество пар (рождение, смерть) k-мерных гомологических классов
  • Штрих-код B_k = {[eps_b, eps_d)}: эквивалентное представление в виде интервалов
  • Теорема устойчивости: d_B(PD(f), PD(g)) <= ||f-g||_inf - устойчивость к шуму
  • PersLay: дифференцируемый слой f(D) = sum w(b,d)*phi(b,d) для встраивания диаграмм в нейросети
  • Persistence Image: сглаженная версия диаграммы через гауссово ядро

Вопросы для размышления

  • Почему персистентные диаграммы устойчивы к шуму, но не к глобальным деформациям данных?
  • Как выбор метрики (Rips vs Cech vs Alpha) влияет на персистентные диаграммы?
  • Какие топологические черты данных лучше всего обнаруживает H0, H1, H2 - и когда нужно смотреть на все три?

Связанные уроки

  • top-26-k-theory — K-теория и расслоения - фундамент для модулей персистентности
  • top-28 — Продвинутая персистентная гомология строится на базе TDA
  • top-23 — Группы гомологий - строительный блок персистентных диаграмм
  • calc-25-green-theorem
Топологический анализ данных (TDA)

0

1

Войти