Топология

Связность и компактность

2023 год. Команда Ayasdi анализирует данные о раке груди - тысячи пациентов, сотни параметров. Классические методы кластеризации ничего не нашли. Тогда применяют TDA: строят Vietoris-Rips комплекс, смотрят как меняются связные компоненты при разных масштабах - persistent homology. Результат: новый подтип опухоли с высокой выживаемостью, невидимый для k-means и PCA. Математический фундамент этого открытия - связность и компактность. H_0 гомология - это количество связных компонент. Компактность гарантирует, что алгоритм завершится. Абстракции работают.

**TDA / Giotto-TDA** - persistent homology на медицинских и геномных данных: связные компоненты (H_0) и циклы (H_1) как топологические признаки; компактность конечного облака точек гарантирует конечность баркода
**Manifold hypothesis (UMAP, t-SNE)** - данные лежат на компактном линейно связном многообразии в R^n; локальная связность используется для построения fuzzy topological structure
**Extreme value theorem в ML** - если область поиска гиперпараметров компактна (замкнута и ограничена), минимум loss существует; именно поэтому learning rate schedule часто работает на замкнутых интервалах

Предварительные знания

Непрерывность и гомеоморфизм

Связность

2023 год. Компания Ayasdi применяет Topological Data Analysis к медицинским данным и находит подтип рака груди, который не поймали классические методы. Инструмент - persistent homology: берут облако точек, строят Vietoris-Rips комплекс, следят как меняются связные компоненты при разных масштабах. H_0 гомология - это буквально количество связных компонент. Вся машинерия начинается с одного определения.

Пространство **связно**, если его нельзя разбить на два непустых открытых множества. Формально: X связно, если единственные подмножества, одновременно открытые и замкнутые (clopen) - это пустое и X целиком. Третьего не дано.

**Три равносильных определения связности:** 1. X не является объединением двух непустых непересекающихся открытых множеств. 2. Единственные clopen подмножества - пустое и X. 3. Каждая непрерывная функция f: X -> {0, 1} с дискретной топологией - константа.

Ключевое следствие, работающее во всей математике: **непрерывный образ связного пространства связен**. Если f: X -> Y непрерывна и X связно, то f(X) связно в Y. Отсюда немедленно - теорема о промежуточном значении: непрерывная функция на [a,b] принимает все промежуточные значения. В TDA: если данные лежат на связном многообразии, их проекция через UMAP тоже связна.

Пространство	Связно?	Почему
R	Да	Интервалы - единственные связные подмножества R
[0,1]	Да	Интервал
(0,1) union (2,3)	Нет	Два непересекающихся открытых интервала
Q (рациональные)	Нет	Q = (Q ∩ (-∞, √2)) ∪ (Q ∩ (√2, +∞))
R^n	Да	Любые две точки соединяются отрезком

Q (рациональные числа) с индуцированной из R топологией:

Линейная связность

Hypothesis manifold в ML гласит: данные (изображения, текст, аудио) лежат не в R^40000, а на компактном многообразии размерности 50-100. UMAP и t-SNE этим пользуются: они предполагают, что многообразие **линейно связно** - между любыми двумя точками данных есть непрерывный путь по поверхности. Это строже чем просто связность.

**Path-connected => connected** (всегда). **Connected => path-connected** (не всегда!). Контрпример: topologist's sine curve - связное, но не линейно связное пространство. Одна из самых контринтуитивных конструкций в анализе.

Для многообразий (открытые подмножества R^n, поверхности) связность и линейная связность совпадают. Patological примеры вроде topologist's sine curve в ML не встречаются. Но именно поэтому manifold hypothesis корректно работает: реальные данные лежат на многообразиях, а не на конструкциях из теоретической топологии.

Свойство	Определение	Статус
Связное	Нет разбиения на два непустых открытых	Слабее path-connected
Линейно связное	Между любыми двумя точками есть путь gamma: [0,1] -> X	Path-connected => connected
Локально связное	Каждая точка имеет связные окрестности	Не следует из связности
Просто связное	Path-connected + каждая петля стягиваема	Строже path-connected

Topologist's sine curve связна, но не линейно связна. Почему нет пути из (0,0) к (1, sin 1)?

Компактность

Вот что происходит в Giotto-TDA при анализе медицинских данных: строят Vietoris-Rips комплекс для облака из тысяч точек, затем увеличивают радиус от 0 до максимума. На каждом шаге алгоритм гарантированно завершается. Причина - компактность: конечное облако точек дает компактный комплекс, у которого **каждое открытое покрытие имеет конечное подпокрытие**. Без этого свойства баркод персистентности был бы бесконечным.

**Открытое покрытие** X - набор открытых множеств {U_alpha}, объединение которых содержит X. **Компактность**: для ЛЮБОГО открытого покрытия существует конечное подсемейство U_1, ..., U_n, уже покрывающее X. Это квантор по всем покрытиям, не по одному конкретному.

Отсюда - теорема Вейерштрасса: непрерывная функция на компакте достигает максимума и минимума. В ML это называют extreme value theorem - если область поиска параметров компактна, минимум loss гарантированно существует. Именно поэтому задачи оптимизации часто формулируют на замкнутых ограниченных областях, а не на всём R^n.

Пространство	Компактно?	Почему
[0, 1]	Да	Гейне-Борель: замкнутое + ограниченное в R
(0, 1)	Нет	Покрытие {(1/n, 1)} не имеет конечного подпокрытия
R	Нет	Покрытие {(-n, n)} не имеет конечного подпокрытия
S^n (n-сфера)	Да	Замкнутое ограниченное подмножество R^{n+1}
Z (дискретная)	Нет	Бесконечно много одноточечных открытых - нет конечного подпокрытия
{1,...,n} (конечное)	Да	Любое конечное пространство компактно

(0, 1) не компактно. Какое покрытие не имеет конечного подпокрытия?

Теорема Гейне-Бореля и непрерывные отображения

Определение через покрытия абстрактно. Для R^n есть практический критерий - **теорема Гейне-Бореля**: подмножество R^n компактно тогда и только тогда, когда оно **замкнуто И ограничено**. Это рабочий инструмент: проверить замкнутость и ограниченность на порядок легче, чем перебирать все покрытия.

**Гейне-Борель работает ТОЛЬКО в R^n!** В общем метрическом пространстве замкнутость + ограниченность не влечёт компактность. Пример: R с метрикой d(x,y) = min(|x-y|, 1) - всё пространство ограничено (диаметр = 1) и замкнуто, но НЕ компактно. Бесконечность может прятаться в топологии, а не в расстоянии.

Два главных следствия для отображений. Первое: **непрерывный образ связного пространства связен** - так доказывается теорема Больцано об промежуточном значении. Второе: **непрерывный образ компактного пространства компактен** - из этого сразу следует теорема Вейерштрасса. Оба факта работают потому что непрерывные отображения сохраняют топологические свойства.

Свойство	Следствие компактности
Теорема Вейерштрасса	Непрерывная f на компакте достигает max и min
Больцано-Вейерштрасса	Каждая последовательность имеет сходящуюся подпоследовательность
Лемма Лебега	Для каждого открытого покрытия есть число Лебега delta > 0
Компакт в хаусдорфовом	Компактное подмножество замкнуто
Непрерывная биекция из компакта	Автоматически гомеоморфизм (в хаусдорфово)

Связное пространство = линейно связное (path-connected)

Path-connected всегда влечёт connected, но не наоборот. Topologist's sine curve - связное, но не линейно связное пространство. Кривая sin(1/x) подходит к отрезку {0}×[-1,1], обеспечивая связность замыкания, но непрерывный путь из (0,0) к точке на графике невозможен.

Связность - нельзя разрезать на два открытых. Path-connected - между точками есть непрерывная кривая. Первое слабее: пространство может быть неразрезаемым, но при этом настолько извилистым, что путь проложить нельзя.

Множество {1, 1/2, 1/3, 1/4, ...} в R (без нуля) - компактно?

Ключевые идеи

**Связность**: нельзя разбить на два непустых открытых; непрерывный образ связного связен - отсюда теорема о промежуточном значении
**Path-connected**: между любыми двумя точками есть путь; строже связности (topologist's sine curve - контрпример); manifold hypothesis предполагает path-connectedness
**Компактность**: каждое открытое покрытие имеет конечное подпокрытие; гарантирует max/min (Вейерштрасс), сходимость подпоследовательностей (Больцано), конечность алгоритмов TDA
**Гейне-Борель**: в R^n компактность = замкнутость + ограниченность; в общих пространствах не работает

Связанные темы

Связность и компактность - главные инварианты для различения пространств:

Непрерывность и гомеоморфизм — Связность и компактность сохраняются при гомеоморфизмах - инструмент различения пространств
Топологические пространства — Связность и компактность определяются через открытые множества
Метрические пространства — В метрических пространствах компактность = последовательностная компактность
Фундаментальная группа — Связность - необходимое условие для непростой фундаментальной группы

Вопросы для размышления

Почему теорема Гейне-Бореля не работает для произвольных метрических пространств? Постройте контрпример с метрикой d(x,y) = min(|x-y|, 1).
Множество Кантора - замкнутое подмножество [0,1]. Оно компактно? Связно? Линейно связно? Обоснуйте каждый ответ.
Persistent homology (Giotto-TDA) строит баркод на конечном облаке точек. Почему компактность гарантирует, что баркод содержит конечное число интервалов?

Связанные уроки

top-02 — Открытые множества и гомеоморфизмы - язык всей теории связности
top-04 — Метрические пространства дают геометрический смысл компактности
top-05 — Фундаментальная группа считает дыры в связных пространствах
fa-01 — Компактные операторы в Банаховых пространствах - прямое обобщение
calc-01-sequences — Последовательностная компактность - Больцано-Вейерштрасс в действии
calc-15-convergence
calc-14-improper