Топология
Связность и компактность
2023 год. Команда Ayasdi анализирует данные о раке груди - тысячи пациентов, сотни параметров. Классические методы кластеризации ничего не нашли. Тогда применяют TDA: строят Vietoris-Rips комплекс, смотрят как меняются связные компоненты при разных масштабах - persistent homology. Результат: новый подтип опухоли с высокой выживаемостью, невидимый для k-means и PCA. Математический фундамент этого открытия - связность и компактность. H_0 гомология - это количество связных компонент. Компактность гарантирует, что алгоритм завершится. Абстракции работают.
- **TDA / Giotto-TDA** - persistent homology на медицинских и геномных данных: связные компоненты (H_0) и циклы (H_1) как топологические признаки; компактность конечного облака точек гарантирует конечность баркода
- **Manifold hypothesis (UMAP, t-SNE)** - данные лежат на компактном линейно связном многообразии в R^n; локальная связность используется для построения fuzzy topological structure
- **Extreme value theorem в ML** - если область поиска гиперпараметров компактна (замкнута и ограничена), минимум loss существует; именно поэтому learning rate schedule часто работает на замкнутых интервалах
Предварительные знания
Связность
2023 год. Компания Ayasdi применяет Topological Data Analysis к медицинским данным и находит подтип рака груди, который не поймали классические методы. Инструмент - persistent homology: берут облако точек, строят Vietoris-Rips комплекс, следят как меняются связные компоненты при разных масштабах. H_0 гомология - это буквально количество связных компонент. Вся машинерия начинается с одного определения.
Пространство **связно**, если его нельзя разбить на два непустых открытых множества. Формально: X связно, если единственные подмножества, одновременно открытые и замкнутые (clopen) - это пустое и X целиком. Третьего не дано.
**Три равносильных определения связности:** 1. X не является объединением двух непустых непересекающихся открытых множеств. 2. Единственные clopen подмножества - пустое и X. 3. Каждая непрерывная функция f: X -> {0, 1} с дискретной топологией - константа.
Ключевое следствие, работающее во всей математике: **непрерывный образ связного пространства связен**. Если f: X -> Y непрерывна и X связно, то f(X) связно в Y. Отсюда немедленно - теорема о промежуточном значении: непрерывная функция на [a,b] принимает все промежуточные значения. В TDA: если данные лежат на связном многообразии, их проекция через UMAP тоже связна.
| Пространство | Связно? | Почему |
|---|---|---|
| R | Да | Интервалы - единственные связные подмножества R |
| [0,1] | Да | Интервал |
| (0,1) union (2,3) | Нет | Два непересекающихся открытых интервала |
| Q (рациональные) | Нет | Q = (Q ∩ (-∞, √2)) ∪ (Q ∩ (√2, +∞)) |
| R^n | Да | Любые две точки соединяются отрезком |
Q (рациональные числа) с индуцированной из R топологией:
Линейная связность
Hypothesis manifold в ML гласит: данные (изображения, текст, аудио) лежат не в R^40000, а на компактном многообразии размерности 50-100. UMAP и t-SNE этим пользуются: они предполагают, что многообразие **линейно связно** - между любыми двумя точками данных есть непрерывный путь по поверхности. Это строже чем просто связность.
**Path-connected => connected** (всегда). **Connected => path-connected** (не всегда!). Контрпример: topologist's sine curve - связное, но не линейно связное пространство. Одна из самых контринтуитивных конструкций в анализе.
Для многообразий (открытые подмножества R^n, поверхности) связность и линейная связность совпадают. Patological примеры вроде topologist's sine curve в ML не встречаются. Но именно поэтому manifold hypothesis корректно работает: реальные данные лежат на многообразиях, а не на конструкциях из теоретической топологии.
| Свойство | Определение | Статус |
|---|---|---|
| Связное | Нет разбиения на два непустых открытых | Слабее path-connected |
| Линейно связное | Между любыми двумя точками есть путь gamma: [0,1] -> X | Path-connected => connected |
| Локально связное | Каждая точка имеет связные окрестности | Не следует из связности |
| Просто связное | Path-connected + каждая петля стягиваема | Строже path-connected |
Topologist's sine curve связна, но не линейно связна. Почему нет пути из (0,0) к (1, sin 1)?
Компактность
Вот что происходит в Giotto-TDA при анализе медицинских данных: строят Vietoris-Rips комплекс для облака из тысяч точек, затем увеличивают радиус от 0 до максимума. На каждом шаге алгоритм гарантированно завершается. Причина - компактность: конечное облако точек дает компактный комплекс, у которого **каждое открытое покрытие имеет конечное подпокрытие**. Без этого свойства баркод персистентности был бы бесконечным.
**Открытое покрытие** X - набор открытых множеств {U_alpha}, объединение которых содержит X. **Компактность**: для ЛЮБОГО открытого покрытия существует конечное подсемейство U_1, ..., U_n, уже покрывающее X. Это квантор по всем покрытиям, не по одному конкретному.
Отсюда - теорема Вейерштрасса: непрерывная функция на компакте достигает максимума и минимума. В ML это называют extreme value theorem - если область поиска параметров компактна, минимум loss гарантированно существует. Именно поэтому задачи оптимизации часто формулируют на замкнутых ограниченных областях, а не на всём R^n.
| Пространство | Компактно? | Почему |
|---|---|---|
| [0, 1] | Да | Гейне-Борель: замкнутое + ограниченное в R |
| (0, 1) | Нет | Покрытие {(1/n, 1)} не имеет конечного подпокрытия |
| R | Нет | Покрытие {(-n, n)} не имеет конечного подпокрытия |
| S^n (n-сфера) | Да | Замкнутое ограниченное подмножество R^{n+1} |
| Z (дискретная) | Нет | Бесконечно много одноточечных открытых - нет конечного подпокрытия |
| {1,...,n} (конечное) | Да | Любое конечное пространство компактно |
(0, 1) не компактно. Какое покрытие не имеет конечного подпокрытия?
Теорема Гейне-Бореля и непрерывные отображения
Определение через покрытия абстрактно. Для R^n есть практический критерий - **теорема Гейне-Бореля**: подмножество R^n компактно тогда и только тогда, когда оно **замкнуто И ограничено**. Это рабочий инструмент: проверить замкнутость и ограниченность на порядок легче, чем перебирать все покрытия.
**Гейне-Борель работает ТОЛЬКО в R^n!** В общем метрическом пространстве замкнутость + ограниченность не влечёт компактность. Пример: R с метрикой d(x,y) = min(|x-y|, 1) - всё пространство ограничено (диаметр = 1) и замкнуто, но НЕ компактно. Бесконечность может прятаться в топологии, а не в расстоянии.
Два главных следствия для отображений. Первое: **непрерывный образ связного пространства связен** - так доказывается теорема Больцано об промежуточном значении. Второе: **непрерывный образ компактного пространства компактен** - из этого сразу следует теорема Вейерштрасса. Оба факта работают потому что непрерывные отображения сохраняют топологические свойства.
| Свойство | Следствие компактности |
|---|---|
| Теорема Вейерштрасса | Непрерывная f на компакте достигает max и min |
| Больцано-Вейерштрасса | Каждая последовательность имеет сходящуюся подпоследовательность |
| Лемма Лебега | Для каждого открытого покрытия есть число Лебега delta > 0 |
| Компакт в хаусдорфовом | Компактное подмножество замкнуто |
| Непрерывная биекция из компакта | Автоматически гомеоморфизм (в хаусдорфово) |
Связное пространство = линейно связное (path-connected)
Path-connected всегда влечёт connected, но не наоборот. Topologist's sine curve - связное, но не линейно связное пространство. Кривая sin(1/x) подходит к отрезку {0}×[-1,1], обеспечивая связность замыкания, но непрерывный путь из (0,0) к точке на графике невозможен.
Связность - нельзя разрезать на два открытых. Path-connected - между точками есть непрерывная кривая. Первое слабее: пространство может быть неразрезаемым, но при этом настолько извилистым, что путь проложить нельзя.
Множество {1, 1/2, 1/3, 1/4, ...} в R (без нуля) - компактно?
Ключевые идеи
- **Связность**: нельзя разбить на два непустых открытых; непрерывный образ связного связен - отсюда теорема о промежуточном значении
- **Path-connected**: между любыми двумя точками есть путь; строже связности (topologist's sine curve - контрпример); manifold hypothesis предполагает path-connectedness
- **Компактность**: каждое открытое покрытие имеет конечное подпокрытие; гарантирует max/min (Вейерштрасс), сходимость подпоследовательностей (Больцано), конечность алгоритмов TDA
- **Гейне-Борель**: в R^n компактность = замкнутость + ограниченность; в общих пространствах не работает
Связанные темы
Связность и компактность - главные инварианты для различения пространств:
- Непрерывность и гомеоморфизм — Связность и компактность сохраняются при гомеоморфизмах - инструмент различения пространств
- Топологические пространства — Связность и компактность определяются через открытые множества
- Метрические пространства — В метрических пространствах компактность = последовательностная компактность
- Фундаментальная группа — Связность - необходимое условие для непростой фундаментальной группы
Вопросы для размышления
- Почему теорема Гейне-Бореля не работает для произвольных метрических пространств? Постройте контрпример с метрикой d(x,y) = min(|x-y|, 1).
- Множество Кантора - замкнутое подмножество [0,1]. Оно компактно? Связно? Линейно связно? Обоснуйте каждый ответ.
- Persistent homology (Giotto-TDA) строит баркод на конечном облаке точек. Почему компактность гарантирует, что баркод содержит конечное число интервалов?
Связанные уроки
- top-02 — Открытые множества и гомеоморфизмы - язык всей теории связности
- top-04 — Метрические пространства дают геометрический смысл компактности
- top-05 — Фундаментальная группа считает дыры в связных пространствах
- fa-01 — Компактные операторы в Банаховых пространствах - прямое обобщение
- calc-01-sequences — Последовательностная компактность - Больцано-Вейерштрасс в действии
- calc-15-convergence
- calc-14-improper