Топология
Теория Морса: вершины, перевалы и дырки пространства
Ayasdi использовала теорию Морса и persistent homology для обнаружения нового подтипа рака груди в данных, которые классические методы кластеризации пропустили. Loss landscape нейросетей - это тоже пространство Морса: перевалы и минимумы определяют обучаемость.
- Ayasdi TDA: обнаружение подтипов рака через persistent homology облаков точек
- Loss landscape нейросетей: Morse theory для понимания острых и пологих минимумов
- Медицинская томография: сегментация органов через level sets и Reeb graph
- AlphaFold: энергетический ландшафт белка как воронка Морса к native structure
- Gudhi и Ripser: библиотеки persistent homology для ML feature engineering
- 3D mesh simplification: Morse decomposition для упрощения полигональных моделей
Loss landscape нейросети - это Морс-теория
Landscape функции потерь нейросети имеет критические точки: локальные минимумы (хорошие решения), сёдла (plateaus, где застревает SGD), локальные максимумы. Теория Морса говорит: число и тип критических точек определяют топологию пространства параметров. TDA (Topological Data Analysis) использует ту же идею для анализа данных.
Функция Морса f: M -> R на гладком многообразии: все критические точки (df = 0) невырожденные (det Hess f ≠ 0). **Индекс Морса λ(p)** = число отрицательных собственных значений гессиана в критической точке p = «число направлений убывания».
Нейросетевые landscapes: для overparameterized сетей (параметров >> данных) почти все критические точки - сёдла или плоские минимумы, а не острые минимумы. SGD избегает острых минимумов (плохая generalization) - это связано с распределением индексов критических точек.
f(x,y,z) = x² − y² + z². Каков индекс Морса в точке (0,0,0)?
Hess f = diag(2, −2, 2). Собственные значения: 2, −2, 2. Одно отрицательное → индекс Морса λ = 1. Геометрически: седло - функция убывает вдоль y, возрастает вдоль x и z.
Лемма Морса: каждая критическая точка приклеивает ручку
**Лемма Морса**: вблизи невырожденной критической точки индекса λ существуют координаты, в которых f = f(p) - x₁² - ... - xλ² + xλ₊₁² + ... + xₙ². Это «стандартная форма» - полная информация о локальной структуре.
**Ключевое следствие**: при прохождении через критическое значение с индексом λ к подуровневому множеству M^{c-ε} приклеивается **λ-ручка** Dλ × Dⁿ⁻λ. Топология меняется контролируемым образом.
S² строится из 0-ручки (минимум) и 2-ручки (максимум). Почему нет 1-ручки (седла)?
Неравенства Морса: c₁ ≥ b₁ = 0. Если добавить 1-ручку (c₁ = 1), нужна и 2-ручка убить возникший цикл → получим тор T². Для S² с b = (1,0,1): 1 минимум + 0 сёдел + 1 максимум, χ = 1−0+1 = 2 = χ(S²). Согласованно.
Persistent homology: Морс-теория для данных
**Неравенства Морса**: cλ ≥ bλ (число критических точек индекса λ >= λ-е число Бетти). Тождество Эйлера (точное): Σ(-1)λcλ = χ(M). Это связывает анализ (критические точки) с топологией (гомологии).
**Persistent homology** = Морс-теория для облаков точек. Фильтрация: ε-шары вокруг точек растут. При каждом ε происходит событие типа «критической точки» - рождение или смерть топологической особенности. **Persistence diagram** показывает, какие топологические признаки «долгоживущие» (сигнал) vs «короткоживущие» (шум).
TDA (Topological Data Analysis) в ML: компания Ayasdi использует persistent homology для анализа медицинских данных, нашла новый подтип рака груди. Scikit-TDA, Gudhi, Ripser - Python-библиотеки. Persistence diagram = набор точек (birth, death) для каждой топологической особенности.
Persistence diagram: точка (0.1, 3.5) для 0-цикла. Что это означает?
Рождение = eps, при котором изолированная точка «присоединяется» к кластеру; смерть = eps слияния с большим кластером. Persistence 3.4 >> типичный шум (обычно <0.5). Это долгоживущий кластер - реальная структура в данных. Шум даёт короткие интервалы (birth ≈ death).
- **TDA (Topological Data Analysis)** (Persistent homology для облаков точек): Ayasdi: обнаружение подтипов рака через TDA. Scikit-TDA, Gudhi, Ripser. Persistence diagrams и Betti numbers как признаки для ML. Применения: нейровизуализация, молекулярная биология.
- **Neural network landscapes** (Критические точки функции потерь): Li et al. (2018): визуализация loss landscape через случайные сечения. Goodfellow: overparameterized сети имеют мало острых минимумов. Ganguli: Morse theory для понимания обучаемости.
- **3D Shape Analysis** (Reeb graph и level sets): Reeb graph функции высоты кодирует топологию 3D-объекта. Медицинская томография: сегментация органов через уровни. Машинное 3D-моделирование: Morse decomposition для mesh simplification.
- **Protein folding** (Energy landscape): Folding энергетический ландшафт белка - Морс-функция на конфигурационном пространстве. Воронка: один глобальный минимум (native structure). Kinetics определяется высотой сёдел (энергетических барьеров).
Упражнения
- Объясните интуицию: почему количество критических точек индекса λ ограничено снизу числом Бетти bλ? — λ-ручка либо рождает новый λ-цикл (вклад в Hλ), либо убивает (λ-1)-цикл (вклад в Hλ-1). Минимально нужно bλ ручек чтобы породить bλ независимых циклов
Ключевые идеи
- Индекс Морса λ(p) = число отрицательных с.з. Hess(f)(p): минимум=0, седло=1,..,максимум=n
- Лемма Морса: f ≈ -x₁²-...-xλ² + xλ₊₁²+...+xₙ² (стандартная форма)
- Присоединение λ-ручки: новая компонента (λ=0), петля (λ=1), убийство цикла (λ=2)
- Неравенства Морса: cλ >= bλ; тождество Эйлера: Σ(-1)λcλ = χ(M)
- Persistent homology: фильтрация как параметрическая Морс-теория для данных
- Persistence = death - birth: долгоживущие особенности = топологический сигнал
Связанные темы
Теория Морса объединяет анализ, топологию и data science.
- Гомологии — Комплекс Морса вычисляет те же гомологии что и сингулярный комплекс
- Расслоения — Функционал действия на петлевом пространстве: бесконечномерная Морс-теория (Floer)