Топология

TDA в нейросетях: топология активаций и интерпретируемость

Цели урока

Понять, как активации нейросети образуют облако точек для TDA
Связать Betti числа активаций с числом классов и геометрией представлений
Изучить топологию loss landscape и её связь с обобщением
Освоить анализ decision boundary через persistence
Применить TDA для интерпретируемости и pruning

Предварительные знания

Vietoris-Rips комплекс и persistent homology
Базовое понимание нейросетей (слои, активации, loss)
Линейная алгебра и градиентный спуск
Mapper алгоритм для визуализации топологии

Сеть на MNIST достигла 99.7%. Что она внутри представляет? TDA увидела: каждый класс - петля в активациях. Чёрный ящик стал серым.

**Computer vision**: интерпретация CNN через топологию свёрточных активаций (Rieck et al. 2019)
**NLP**: понимание BERT и GPT через Mapper attention patterns (Rathore et al. 2019)
**Model compression**: topological pruning нейросетей через persistence фильтров
**Adversarial defense**: топологическая характеризация robustness регионов входного пространства

TDA встречает Deep Learning

Первое строгое применение TDA к пониманию нейросетей сделано Rieck и др. (2019) в статье Neural Persistence: A Complexity Measure for Deep Neural Networks Using Algebraic Topology. Эта статья ввела neural persistence как меру сложности. Gabrielsson и Carlsson (2019) ввели топологическую регуляризацию для нейросетей через дифференцируемую persistence. Связь между топологией loss landscape и обобщением изучена в серии работ 2018-2020 годов. Neural Collapse (Papyan и др., 2020) выявил универсальную топологическую структуру признаков последнего слоя. Сегодня topological machine learning - признанное подполе с воркшопами на NeurIPS и ICML.

Топология пространств активаций

Свёрточная нейросеть для классификации цифр достигает точности 99.7% на MNIST. Но как именно выглядит её внутреннее представление? В 2017 году Clique Community Persistence была применена к паттернам активаций нейросети. Результат: сеть научилась разделять классы цифр, создавая топологические дыры - каждый класс соответствует петле в активационном многообразии. Когда сеть ошибается на adversarial examples, эта топология ломается. Активации имеют измеримую, интерпретируемую топологию.

Активация слоя l на входе x - это вектор a_l(x) в R^{n_l}. Для датасета X = {x_1, ..., x_N} активации образуют облако точек в R^{n_l}. К нему применима TDA - Vietoris-Rips persistence, Mapper, Betti числа.

MNIST через TDA

Что показывают persistence diagrams глубокой сети

Сеть из 5 слоёв обучена на MNIST. На входном слое: одна большая H_0 компонента (картинки пикселей плотно заполнены). На последнем слое до softmax: ровно 10 H_0 компонент, соответствующих 10 цифрам. В промежуточных слоях постепенный переход - сеть учится разделять классы через топологические преобразования. H_1 bars соответствуют непрерывным изменениям внутри класса (наклон цифры, толщина штриха).

Сравнение persistence diagrams двух слоёв через bottleneck distance показывает, насколько они информационно разные. Если близкие слои имеют почти идентичные PDs - они избыточны и один можно убрать. Это форма топологической компрессии модели.

ML применения: диагностика репрезентаций - сравнение persistence diagrams определяет, что разные слои действительно учатся разному; топологическая компрессия моделей - убираем слои с близкими топологиями; обнаружение memorization vs generalization через сложность PDs (memorized models имеют более сложные PDs).

Что показывает Betti число beta_0 активационного облака последнего слоя?

В хорошо обученной классификационной сети beta_0 на последних слоях стремится к числу классов: каждый класс - отдельная компонента.

Топология loss landscape

Функция потерь L: R^p -> R (где p - число параметров) имеет топологию. У нейросетей loss landscape содержит много локальных минимумов и седловых точек. Sublevel sets {theta : L(theta) <= c} меняют топологию при убывании c. Эта топология напрямую связана с обучаемостью сети и обобщающей способностью.

Neural Collapse (Papyan и др., 2020): при сходимости признаки последнего слоя коллапсируют к simplex ETF - симметричной конфигурации, известной как equiangular tight frame. Это топологически очень специфическая структура - максимальная симметрия с минимальной размерностью.

Flat vs sharp минимумы

Топологическая интерпретация обобщения

Hochreiter и Schmidhuber (1997) и затем Keskar (2017): flat минимумы обобщают лучше, чем sharp. Топологически: flat минимум имеет sublevel set с простой топологией (топологический шар) около минимума. Sharp минимум - сложная топология (узкая долина с множеством седловых точек). Random slice через loss landscape визуализирует это: вычисляем persistence 2D среза.

Полное вычисление persistence loss landscape для сети с миллиардом параметров невозможно. Используют случайные срезы (2D или 3D проекции) или специальные параметризации (linear interpolation между минимумами разных runs).

Простая топология locale минимума связана с лучшими PAC-Bayes generalization bounds: малое effective measure окрестности минимума означает меньшую model complexity по PAC-Bayes - значит, лучшее обобщение.

ML применения: сравнение архитектур через топологию их loss landscape - flatter (топологически проще) минимумы дают лучшее обобщение; mode connectivity (Garipov и др., 2018) - минимумы нейросетей часто связаны путями постоянной потери, что отражается в топологии sublevel sets; topology-aware optimizers, штрафующие за сложные конфигурации гессиана.

Какая связь между топологией минимума loss и обобщением?

Flat минимумы имеют простую локальную топологию и связаны с лучшими PAC-Bayes bounds, что согласуется с эмпирическими наблюдениями.

Betti числа decision boundary

Для обученного бинарного классификатора с decision boundary B = {x : f(x) = 0}, топология B отражает сложность выученной функции. H_0(B): число компонент связности границы (сколько раздельных областей классификатор создаёт). H_1(B): петли в границе (циклические паттерны решений). Высокие Betti числа означают сложную, потенциально переобученную границу.

Линейный классификатор имеет гиперплоскую границу - стягиваема, все Betti числа равны 0 кроме beta_0 = 1. Нейросеть на XOR имеет более сложную границу с несколькими компонентами. Глубокие сети могут создавать границы с тысячами компонент и петель.

Сложность decision boundary

Как Betti числа отражают переобучение

Обучили MLP на 2D данных с гауссовским шумом. На train_acc 95% (хорошее обобщение): boundary имеет beta_0 = 2 (две раздельные области), beta_1 = 1 (одна замкнутая петля). На train_acc 100% (переобучение): boundary становится фрактальной, beta_0 = 47 (47 крошечных островов класса), beta_1 = 89. Топология границы количественно показывает, сколько модель переобучилась.

Gabrielsson и Carlsson (2019) предложили TopoReg: добавить штраф за высокие Betti числа decision boundary к loss функции. На практике это требует дифференцируемой аппроксимации persistence через soft assignment. Результат: сети, регуляризованные топологически, переобучаются меньше при малых датасетах.

Точное вычисление Betti чисел decision boundary в высокоразмерном входном пространстве дорого. Стандартный приём: проекция или sampling - выбирают 2D или 3D подпространство (через PCA или важные признаки) и вычисляют persistence границы в нём. Это приблизительная, но computationally tractable метрика.

ML применения: topological complexity regularization (TopoReg) - штрафуем высокие beta_0 и beta_1 границы во время обучения; ранний stop по росту топологической сложности - если Betti числа границы начинают расти, сеть переобучается; сравнение архитектур через сложность их decision boundaries на одинаковых датасетах.

Какая беттi число у decision boundary линейного классификатора?

Гиперплоскость стягиваема и связна, поэтому имеет ровно одну компоненту и нет петель.

TDA для интерпретируемости: что учат сети

Mapper, применённый к активационному пространству поздних слоёв, выявляет, как сеть организует представления. Rathore и др. (2019) исследовали трансформеры через TDA - mapper graph показал кластеры активаций, соответствующие синтаксическим ролям токенов. Это инструмент для понимания того, что именно сеть закодировала в своих внутренних состояниях.

Применения для интерпретируемости: персистентная гомология определяет, какие признаки сеть считает информативными (длинные H_0 bars - устойчивые кластеры в активациях); mapper graph показывает иерархическую структуру представлений (классы, подклассы, аномалии); H_1 петли часто соответствуют непрерывным факторам вариации (ориентация в видении, тональность в audio).

Transformer attention через TDA

Топологический анализ attention patterns

Берём BERT, прогоняем 1000 предложений, собираем матрицы attention каждого слоя. Применяем mapper к attention vectors. Результат: кластеры соответствуют синтаксическим ролям (subject, verb, object); петли в H_1 - циклическим конструкциям (relative clauses, parenthetical asides). Это даёт интерпретируемую визуализацию того, что обычно считают black-box моделями.

Persistent homology для прунинга нейросетей: фильтры с короткой persistence в активационном пространстве - кандидаты на удаление. Они не вносят topologically значимого вклада в представления. Метод даёт сжатие 30-50% без потери точности на стандартных бенчмарках.

Adversarial example - вход, переводящий точку из одной топологической области в другую без пересечения настоящего topological separator (мы пересекаем decision boundary без изменения настоящего класса). TDA для adversarial robustness: характеризация плотности топологически устойчивых регионов входного пространства - input-space-aware certification.

ML применения: TDA-based explanation of failure modes - выявить топологическую область input space, где модель ошибается; topological data augmentation - генерация новых тренировочных точек, сохраняющих топологическую структуру (полезно для редких классов); neural architecture search guided by TDA - выбираем архитектуру, чья функция предсказания имеет правильную topological complexity для задачи.

Что показывает Mapper, применённый к attention vectors трансформера?

Mapper создаёт граф, узлы которого - кластеры схожих activation patterns, рёбра - топологические связи. На attention это даёт интерпретируемые представления синтаксиса.

Куда это ведёт

TDA в нейросетях - связующее звено между классической топологией и современным ML. Это открывает путь к интерпретируемым моделям, theoretically grounded регуляризации и principled neural architecture search.

Witness complexes — Связанная тема
TDA для time series — Связанная тема
Persistent homology — Связанная тема
Vietoris-Rips — Связанная тема

Ключевые идеи

Активации нейросети образуют облако точек, к которому применима TDA
Betti число beta_0 поздних слоёв приближённо равно числу классов
H_1 петли в активациях соответствуют непрерывным факторам вариации
Loss landscape имеет топологию sublevel sets, меняющуюся с уровнем c
Flat (топологически простые) минимумы обобщают лучше, чем sharp
Decision boundary с высокими Betti числами указывает на переобучение
Topological regularization (TopoReg) штрафует сложность границы во время обучения
Mapper на activation patterns даёт интерпретируемую визуализацию того, что учит сеть

Вопросы для размышления

Почему Betti числа активаций последнего слоя приближаются к числу классов только в хорошо обученной сети?
Какие топологические свойства loss landscape делают architecture поддающейся обучению?
Как избежать комбинаторного взрыва при вычислении decision boundary в высокой размерности?
Какую структуру даёт Neural Collapse и почему она оптимальна?
Может ли differentiable persistence заменить cross-entropy для классификации?

Связанные уроки

top-28 — Rips комплекс - инструмент анализа активаций
top-32 — Persistent homology - база топологического анализа
top-35 — Witness нужны для больших активационных облаков
top-36 — Активации можно анализировать как time series
fa-10