Топология
Топологический анализ данных (TDA)
Цели урока
- Понять конструкцию персистентных гомологий через фильтрацию Vietoris-Rips
- Научиться читать диаграммы персистентности и штрих-коды
- Освоить теорему устойчивости и метрики на пространстве диаграмм
- Разобраться с интеграцией персистентной топологии в нейросетевые архитектуры
Предварительные знания
- Группы гомологий
- Симплициальные комплексы
- Основы метрических пространств
Как обнаружить «дырки» в облаке данных из миллиона точек - не визуально, а алгоритмически? Персистентная гомология превращает этот вопрос в вычисление, которое работает за секунды.
- Биоинформатика: Ayasdi обнаружила новый подтип рака через персистентные диаграммы геномных данных
- Нейронауки: топологическая структура нейронных активаций мозга анализируется через PD
- Материалы: пористость и структура металлических стёкол описывается через H0 и H1 атомных позиций
- Машинное обучение: PersLay интегрирует персистентные диаграммы в граф-нейросети для молекул
От гомологий к анализу данных
Герберт Эдельсбруннер и Джон Херер в 2002 году ввели термин «персистентная гомология» и доказали первые алгоритмические теоремы. Афра Зомородян и Карлссон в 2004 году доказали теорему о декомпозиции персистентных модулей. Коэн-Штайнер, Эдельсбруннер и Херер в 2007 году доказали теорему устойчивости. С 2010-х TDA стала промышленным инструментом: Ripser, Gudhi, Giotto-TDA.
TDA и персистентные гомологии
Компания Ayasdi в 2008 году использовала персистентную гомологию для анализа геномных данных рака молочной железы, выявив новый подтип опухоли c5. Стандарт персистентных гомологий реализован в Ripser (2016) - обрабатывает 10000 точек за секунды.
Расстояние Вассерштейна между диаграммами персистентности устойчиво: малые возмущения данных дают близкие диаграммы (теорема устойчивости Коэн-Штайнера, 2007). Именно это делает TDA применимым к зашумлённым реальным данным.
Что означает долгоживущая точка в диаграмме персистентности H1?
Верно. Точка (b,d) в PD_1 с большой персистентностью d-b означает, что петля существует от масштаба b до d.
Фильтрации и штрих-коды
Штрих-код - это «ДНК» топологической структуры данных. Длинные штрихи - реальные дыры и петли. Короткие - шум. Биоинформатика использует штрих-коды для сравнения белковых структур: расстояние Вассерштейна между штрих-кодами - метрика похожести двух молекул.
Сравнение белков через персистентность
Применение в структурной биоинформатике
Два белка имеют похожую функцию, если их 3D-структуры топологически схожи. Вычисляем PD_1 (петли) для каждого белка из атомных координат. Расстояние Вассерштейна между диаграммами - мера топологического сходства. Этот подход устойчив к конформационным изменениям (малые движения = малое изменение диаграммы).
Что гарантирует теорема устойчивости персистентной гомологии?
Верно: d_B(PD(f), PD(g)) <= ||f-g||_inf - ключевое неравенство для применимости к зашумлённым данным.
Персистентность в нейросетях: PersLay
2019 год. Команда Google Brain интегрирует персистентную гомологию в граф-нейросети. Задача - распознавание молекул по топологическим особенностям структуры. Персистентные диаграммы некоммутативны с дифференцированием - задача встраивания их в нейросети нетривиальна.
Главное препятствие к дифференцированию - диаграмма персистентности не является функцией фиксированного размера. При изменении данных число точек меняется. PersLay обходит это через суммирование по всем точкам с весовой функцией.
Почему прямое использование диаграмм персистентности в нейросетях затруднено?
Верно. PersLay, persistence images и другие методы решают именно эту проблему - преобразование диаграммы в вектор фиксированного размера.
Связи с другими темами
TDA объединяет алгебраическую топологию, алгоритмическую геометрию и машинное обучение.
- Машинное обучение — Связанная тема
- Биоинформатика — Связанная тема
- Нейронауки — Связанная тема
- Материаловедение — Связанная тема
Итоги
- Фильтрация Rips(X,eps): симплициальный комплекс по порогу расстояния eps
- Персистентная диаграмма PD_k: мультимножество пар (рождение, смерть) k-мерных гомологических классов
- Штрих-код B_k = {[eps_b, eps_d)}: эквивалентное представление в виде интервалов
- Теорема устойчивости: d_B(PD(f), PD(g)) <= ||f-g||_inf - устойчивость к шуму
- PersLay: дифференцируемый слой f(D) = sum w(b,d)*phi(b,d) для встраивания диаграмм в нейросети
- Persistence Image: сглаженная версия диаграммы через гауссово ядро
Вопросы для размышления
- Почему персистентные диаграммы устойчивы к шуму, но не к глобальным деформациям данных?
- Как выбор метрики (Rips vs Cech vs Alpha) влияет на персистентные диаграммы?
- Какие топологические черты данных лучше всего обнаруживает H0, H1, H2 - и когда нужно смотреть на все три?
Связанные уроки
- top-26-k-theory — K-теория и расслоения - фундамент для модулей персистентности
- top-28 — Продвинутая персистентная гомология строится на базе TDA
- top-23 — Группы гомологий - строительный блок персистентных диаграмм
- calc-25-green-theorem