Топология

Топологический анализ данных (TDA)

Цели урока

Понять конструкцию персистентных гомологий через фильтрацию Vietoris-Rips
Научиться читать диаграммы персистентности и штрих-коды
Освоить теорему устойчивости и метрики на пространстве диаграмм
Разобраться с интеграцией персистентной топологии в нейросетевые архитектуры

Предварительные знания

Группы гомологий
Симплициальные комплексы
Основы метрических пространств

Группы гомологий

Как обнаружить «дырки» в облаке данных из миллиона точек - не визуально, а алгоритмически? Персистентная гомология превращает этот вопрос в вычисление, которое работает за секунды.

Биоинформатика: Ayasdi обнаружила новый подтип рака через персистентные диаграммы геномных данных
Нейронауки: топологическая структура нейронных активаций мозга анализируется через PD
Материалы: пористость и структура металлических стёкол описывается через H0 и H1 атомных позиций
Машинное обучение: PersLay интегрирует персистентные диаграммы в граф-нейросети для молекул

От гомологий к анализу данных

Герберт Эдельсбруннер и Джон Херер в 2002 году ввели термин «персистентная гомология» и доказали первые алгоритмические теоремы. Афра Зомородян и Карлссон в 2004 году доказали теорему о декомпозиции персистентных модулей. Коэн-Штайнер, Эдельсбруннер и Херер в 2007 году доказали теорему устойчивости. С 2010-х TDA стала промышленным инструментом: Ripser, Gudhi, Giotto-TDA.

TDA и персистентные гомологии

Компания Ayasdi в 2008 году использовала персистентную гомологию для анализа геномных данных рака молочной железы, выявив новый подтип опухоли c5. Стандарт персистентных гомологий реализован в Ripser (2016) - обрабатывает 10000 точек за секунды.

Расстояние Вассерштейна между диаграммами персистентности устойчиво: малые возмущения данных дают близкие диаграммы (теорема устойчивости Коэн-Штайнера, 2007). Именно это делает TDA применимым к зашумлённым реальным данным.

Что означает долгоживущая точка в диаграмме персистентности H1?

Верно. Точка (b,d) в PD_1 с большой персистентностью d-b означает, что петля существует от масштаба b до d.

Фильтрации и штрих-коды

Штрих-код - это «ДНК» топологической структуры данных. Длинные штрихи - реальные дыры и петли. Короткие - шум. Биоинформатика использует штрих-коды для сравнения белковых структур: расстояние Вассерштейна между штрих-кодами - метрика похожести двух молекул.

Сравнение белков через персистентность

Применение в структурной биоинформатике

Два белка имеют похожую функцию, если их 3D-структуры топологически схожи. Вычисляем PD_1 (петли) для каждого белка из атомных координат. Расстояние Вассерштейна между диаграммами - мера топологического сходства. Этот подход устойчив к конформационным изменениям (малые движения = малое изменение диаграммы).

Что гарантирует теорема устойчивости персистентной гомологии?

Верно: d_B(PD(f), PD(g)) <= ||f-g||_inf - ключевое неравенство для применимости к зашумлённым данным.

Персистентность в нейросетях: PersLay

2019 год. Команда Google Brain интегрирует персистентную гомологию в граф-нейросети. Задача - распознавание молекул по топологическим особенностям структуры. Персистентные диаграммы некоммутативны с дифференцированием - задача встраивания их в нейросети нетривиальна.

Главное препятствие к дифференцированию - диаграмма персистентности не является функцией фиксированного размера. При изменении данных число точек меняется. PersLay обходит это через суммирование по всем точкам с весовой функцией.

Почему прямое использование диаграмм персистентности в нейросетях затруднено?

Верно. PersLay, persistence images и другие методы решают именно эту проблему - преобразование диаграммы в вектор фиксированного размера.

Связи с другими темами

TDA объединяет алгебраическую топологию, алгоритмическую геометрию и машинное обучение.

Машинное обучение — Связанная тема
Биоинформатика — Связанная тема
Нейронауки — Связанная тема
Материаловедение — Связанная тема

Итоги

Фильтрация Rips(X,eps): симплициальный комплекс по порогу расстояния eps
Персистентная диаграмма PD_k: мультимножество пар (рождение, смерть) k-мерных гомологических классов
Штрих-код B_k = {[eps_b, eps_d)}: эквивалентное представление в виде интервалов
Теорема устойчивости: d_B(PD(f), PD(g)) <= ||f-g||_inf - устойчивость к шуму
PersLay: дифференцируемый слой f(D) = sum w(b,d)*phi(b,d) для встраивания диаграмм в нейросети
Persistence Image: сглаженная версия диаграммы через гауссово ядро

Вопросы для размышления

Почему персистентные диаграммы устойчивы к шуму, но не к глобальным деформациям данных?
Как выбор метрики (Rips vs Cech vs Alpha) влияет на персистентные диаграммы?
Какие топологические черты данных лучше всего обнаруживает H0, H1, H2 - и когда нужно смотреть на все три?

Связанные уроки

top-26-k-theory — K-теория и расслоения - фундамент для модулей персистентности
top-28 — Продвинутая персистентная гомология строится на базе TDA
top-23 — Группы гомологий - строительный блок персистентных диаграмм
calc-25-green-theorem

Цели урока

Понять конструкцию персистентных гомологий через фильтрацию Vietoris-Rips

Научиться читать диаграммы персистентности и штрих-коды

Освоить теорему устойчивости и метрики на пространстве диаграмм

Разобраться с интеграцией персистентной топологии в нейросетевые архитектуры

TDA и персистентные гомологии

Что означает долгоживущая точка в диаграмме персистентности H1?

Верно. Точка (b,d) в PD_1 с большой персистентностью d-b означает, что петля существует от масштаба b до d.

Фильтрации и штрих-коды

Сравнение белков через персистентность

Применение в структурной биоинформатике

Что гарантирует теорема устойчивости персистентной гомологии?

Верно: d_B(PD(f), PD(g)) <= ||f-g||_inf - ключевое неравенство для применимости к зашумлённым данным.

Персистентность в нейросетях: PersLay

Почему прямое использование диаграмм персистентности в нейросетях затруднено?

Итоги

Фильтрация Rips(X,eps): симплициальный комплекс по порогу расстояния eps

Персистентная диаграмма PD_k: мультимножество пар (рождение, смерть) k-мерных гомологических классов

Штрих-код B_k = {[eps_b, eps_d)}: эквивалентное представление в виде интервалов

Теорема устойчивости: d_B(PD(f), PD(g)) <= ||f-g||_inf - устойчивость к шуму

PersLay: дифференцируемый слой f(D) = sum w(b,d)*phi(b,d) для встраивания диаграмм в нейросети

Persistence Image: сглаженная версия диаграммы через гауссово ядро

Связанные уроки

top-26-k-theory — K-теория и расслоения - фундамент для модулей персистентности

top-28 — Продвинутая персистентная гомология строится на базе TDA

top-23 — Группы гомологий - строительный блок персистентных диаграмм

calc-25-green-theorem