Топология

Связность и компактность

2023 год. Команда Ayasdi анализирует данные о раке груди - тысячи пациентов, сотни параметров. Классические методы кластеризации ничего не нашли. Тогда применяют TDA: строят Vietoris-Rips комплекс, смотрят как меняются связные компоненты при разных масштабах - persistent homology. Результат: новый подтип опухоли с высокой выживаемостью, невидимый для k-means и PCA. Математический фундамент этого открытия - связность и компактность. H_0 гомология - это количество связных компонент. Компактность гарантирует, что алгоритм завершится. Абстракции работают.

  • **TDA / Giotto-TDA** - persistent homology на медицинских и геномных данных: связные компоненты (H_0) и циклы (H_1) как топологические признаки; компактность конечного облака точек гарантирует конечность баркода
  • **Manifold hypothesis (UMAP, t-SNE)** - данные лежат на компактном линейно связном многообразии в R^n; локальная связность используется для построения fuzzy topological structure
  • **Extreme value theorem в ML** - если область поиска гиперпараметров компактна (замкнута и ограничена), минимум loss существует; именно поэтому learning rate schedule часто работает на замкнутых интервалах

Предварительные знания

  • Непрерывность и гомеоморфизм

Связность

2023 год. Компания Ayasdi применяет Topological Data Analysis к медицинским данным и находит подтип рака груди, который не поймали классические методы. Инструмент - persistent homology: берут облако точек, строят Vietoris-Rips комплекс, следят как меняются связные компоненты при разных масштабах. H_0 гомология - это буквально количество связных компонент. Вся машинерия начинается с одного определения.

Пространство **связно**, если его нельзя разбить на два непустых открытых множества. Формально: X связно, если единственные подмножества, одновременно открытые и замкнутые (clopen) - это пустое и X целиком. Третьего не дано.

**Три равносильных определения связности:** 1. X не является объединением двух непустых непересекающихся открытых множеств. 2. Единственные clopen подмножества - пустое и X. 3. Каждая непрерывная функция f: X -> {0, 1} с дискретной топологией - константа.

Ключевое следствие, работающее во всей математике: **непрерывный образ связного пространства связен**. Если f: X -> Y непрерывна и X связно, то f(X) связно в Y. Отсюда немедленно - теорема о промежуточном значении: непрерывная функция на [a,b] принимает все промежуточные значения. В TDA: если данные лежат на связном многообразии, их проекция через UMAP тоже связна.

ПространствоСвязно?Почему
RДаИнтервалы - единственные связные подмножества R
[0,1]ДаИнтервал
(0,1) union (2,3)НетДва непересекающихся открытых интервала
Q (рациональные)НетQ = (Q ∩ (-∞, √2)) ∪ (Q ∩ (√2, +∞))
R^nДаЛюбые две точки соединяются отрезком

Q (рациональные числа) с индуцированной из R топологией:

Линейная связность

Hypothesis manifold в ML гласит: данные (изображения, текст, аудио) лежат не в R^40000, а на компактном многообразии размерности 50-100. UMAP и t-SNE этим пользуются: они предполагают, что многообразие **линейно связно** - между любыми двумя точками данных есть непрерывный путь по поверхности. Это строже чем просто связность.

**Path-connected => connected** (всегда). **Connected => path-connected** (не всегда!). Контрпример: topologist's sine curve - связное, но не линейно связное пространство. Одна из самых контринтуитивных конструкций в анализе.

Для многообразий (открытые подмножества R^n, поверхности) связность и линейная связность совпадают. Patological примеры вроде topologist's sine curve в ML не встречаются. Но именно поэтому manifold hypothesis корректно работает: реальные данные лежат на многообразиях, а не на конструкциях из теоретической топологии.

СвойствоОпределениеСтатус
СвязноеНет разбиения на два непустых открытыхСлабее path-connected
Линейно связноеМежду любыми двумя точками есть путь gamma: [0,1] -> XPath-connected => connected
Локально связноеКаждая точка имеет связные окрестностиНе следует из связности
Просто связноеPath-connected + каждая петля стягиваемаСтроже path-connected

Topologist's sine curve связна, но не линейно связна. Почему нет пути из (0,0) к (1, sin 1)?

Компактность

Вот что происходит в Giotto-TDA при анализе медицинских данных: строят Vietoris-Rips комплекс для облака из тысяч точек, затем увеличивают радиус от 0 до максимума. На каждом шаге алгоритм гарантированно завершается. Причина - компактность: конечное облако точек дает компактный комплекс, у которого **каждое открытое покрытие имеет конечное подпокрытие**. Без этого свойства баркод персистентности был бы бесконечным.

**Открытое покрытие** X - набор открытых множеств {U_alpha}, объединение которых содержит X. **Компактность**: для ЛЮБОГО открытого покрытия существует конечное подсемейство U_1, ..., U_n, уже покрывающее X. Это квантор по всем покрытиям, не по одному конкретному.

Отсюда - теорема Вейерштрасса: непрерывная функция на компакте достигает максимума и минимума. В ML это называют extreme value theorem - если область поиска параметров компактна, минимум loss гарантированно существует. Именно поэтому задачи оптимизации часто формулируют на замкнутых ограниченных областях, а не на всём R^n.

ПространствоКомпактно?Почему
[0, 1]ДаГейне-Борель: замкнутое + ограниченное в R
(0, 1)НетПокрытие {(1/n, 1)} не имеет конечного подпокрытия
RНетПокрытие {(-n, n)} не имеет конечного подпокрытия
S^n (n-сфера)ДаЗамкнутое ограниченное подмножество R^{n+1}
Z (дискретная)НетБесконечно много одноточечных открытых - нет конечного подпокрытия
{1,...,n} (конечное)ДаЛюбое конечное пространство компактно

(0, 1) не компактно. Какое покрытие не имеет конечного подпокрытия?

Теорема Гейне-Бореля и непрерывные отображения

Определение через покрытия абстрактно. Для R^n есть практический критерий - **теорема Гейне-Бореля**: подмножество R^n компактно тогда и только тогда, когда оно **замкнуто И ограничено**. Это рабочий инструмент: проверить замкнутость и ограниченность на порядок легче, чем перебирать все покрытия.

**Гейне-Борель работает ТОЛЬКО в R^n!** В общем метрическом пространстве замкнутость + ограниченность не влечёт компактность. Пример: R с метрикой d(x,y) = min(|x-y|, 1) - всё пространство ограничено (диаметр = 1) и замкнуто, но НЕ компактно. Бесконечность может прятаться в топологии, а не в расстоянии.

Два главных следствия для отображений. Первое: **непрерывный образ связного пространства связен** - так доказывается теорема Больцано об промежуточном значении. Второе: **непрерывный образ компактного пространства компактен** - из этого сразу следует теорема Вейерштрасса. Оба факта работают потому что непрерывные отображения сохраняют топологические свойства.

СвойствоСледствие компактности
Теорема ВейерштрассаНепрерывная f на компакте достигает max и min
Больцано-ВейерштрассаКаждая последовательность имеет сходящуюся подпоследовательность
Лемма ЛебегаДля каждого открытого покрытия есть число Лебега delta > 0
Компакт в хаусдорфовомКомпактное подмножество замкнуто
Непрерывная биекция из компактаАвтоматически гомеоморфизм (в хаусдорфово)

Связное пространство = линейно связное (path-connected)

Path-connected всегда влечёт connected, но не наоборот. Topologist's sine curve - связное, но не линейно связное пространство. Кривая sin(1/x) подходит к отрезку {0}×[-1,1], обеспечивая связность замыкания, но непрерывный путь из (0,0) к точке на графике невозможен.

Связность - нельзя разрезать на два открытых. Path-connected - между точками есть непрерывная кривая. Первое слабее: пространство может быть неразрезаемым, но при этом настолько извилистым, что путь проложить нельзя.

Множество {1, 1/2, 1/3, 1/4, ...} в R (без нуля) - компактно?

Ключевые идеи

  • **Связность**: нельзя разбить на два непустых открытых; непрерывный образ связного связен - отсюда теорема о промежуточном значении
  • **Path-connected**: между любыми двумя точками есть путь; строже связности (topologist's sine curve - контрпример); manifold hypothesis предполагает path-connectedness
  • **Компактность**: каждое открытое покрытие имеет конечное подпокрытие; гарантирует max/min (Вейерштрасс), сходимость подпоследовательностей (Больцано), конечность алгоритмов TDA
  • **Гейне-Борель**: в R^n компактность = замкнутость + ограниченность; в общих пространствах не работает

Связанные темы

Связность и компактность - главные инварианты для различения пространств:

  • Непрерывность и гомеоморфизм — Связность и компактность сохраняются при гомеоморфизмах - инструмент различения пространств
  • Топологические пространства — Связность и компактность определяются через открытые множества
  • Метрические пространства — В метрических пространствах компактность = последовательностная компактность
  • Фундаментальная группа — Связность - необходимое условие для непростой фундаментальной группы

Вопросы для размышления

  • Почему теорема Гейне-Бореля не работает для произвольных метрических пространств? Постройте контрпример с метрикой d(x,y) = min(|x-y|, 1).
  • Множество Кантора - замкнутое подмножество [0,1]. Оно компактно? Связно? Линейно связно? Обоснуйте каждый ответ.
  • Persistent homology (Giotto-TDA) строит баркод на конечном облаке точек. Почему компактность гарантирует, что баркод содержит конечное число интервалов?

Связанные уроки

  • top-02 — Открытые множества и гомеоморфизмы - язык всей теории связности
  • top-04 — Метрические пространства дают геометрический смысл компактности
  • top-05 — Фундаментальная группа считает дыры в связных пространствах
  • fa-01 — Компактные операторы в Банаховых пространствах - прямое обобщение
  • calc-01-sequences — Последовательностная компактность - Больцано-Вейерштрасс в действии
  • calc-15-convergence
  • calc-14-improper
Связность и компактность

0

1

Войти