Топология
Непрерывность и гомеоморфизм
2018 год. McInnes, Healy, Melville публикуют UMAP - алгоритм, который визуализирует 100 000 точек в 2D за секунды. В первой строке аннотации: *'the theoretical foundations are in algebraic topology'*. UMAP ищет гомеоморфизм между топологической структурой данных и плоскостью. Normalizing flows - генеративные модели за стохастическими речевыми синтезаторами и высокочастотными трейдерскими системами - суть гомеоморфизмы между распределениями. Это не метафора. Это определение.
- **Normalizing flows (RealNVP, Glow, NICE):** гомеоморфизм между гауссианом и сложным распределением - основа обратимых генеративных моделей в синтезе речи (WaveGlow) и оценке плотности
- **UMAP и t-SNE:** сохранение топологической структуры данных при проекции в 2D - гипотеза многообразия в действии; StyleGAN строит 512-мерное W-пространство как карту многообразия изображений лиц
- **Topological Data Analysis (TDA):** персистентная гомология фиксирует инварианты (компоненты, петли, полости) в данных - применяется в геномике (кластеры рака), нейронауках и анализе молекулярных структур
Непрерывность
Normalizing flows - класс генеративных моделей, лежащих в основе RealNVP и Glow, - обязаны работать только потому, что умеют строить непрерывные биективные отображения между распределениями. Их мат. основа определяется одной фразой: **f: X -> Y непрерывна, если прообраз каждого открытого множества открыт**. Никаких epsilon и delta. Никакой метрики. Просто открытые множества.
**f^{-1}(V) = {x in X : f(x) in V}** - прообраз множества V. Непрерывность через прообразы эквивалентна epsilon-delta для метрических пространств, но работает для ЛЮБЫХ топологических пространств - даже там, где понятие расстояния не определено.
Следствие, которое разрушает интуицию: если X имеет дискретную топологию, то любая функция из X непрерывна - все подмножества уже открыты, проверять нечего. Если Y имеет тривиальную топологию, та же картина - прообразы пустого и всего Y всегда открыты. Непрерывность - свойство пары (пространство, топология), не одной функции.
| Ситуация | Непрерывна ли f? | Почему |
|---|---|---|
| X дискретная, Y любая | Всегда | Все подмножества X открыты |
| X любая, Y тривиальная | Всегда | Только пустое и Y нужно проверять |
| X тривиальная, Y дискретная | Только константа | f^{-1}({y}) должно быть пустым или X |
| Обе стандартные на R | epsilon-delta | Совпадает с привычным определением |
Функция f: R -> R, f(x) = 1 при x >= 0 и f(x) = 0 при x < 0. Почему она разрывна в точке 0?
Гомеоморфизм
2018 год. Статья McInnes, Healy, Melville - «UMAP: Uniform Manifold Approximation and Projection». В аннотации буквально написано: *"The theoretical foundations are in algebraic topology"*. UMAP строит fuzzy topological structure данных и ищет гомеоморфное отображение этой структуры в 2D. Гомеоморфизм - не абстракция. Это алгоритм, которым визуализируют 100 000 точек за секунды.
**Гомеоморфизм = топологический изоморфизм.** Биекция f: X -> Y, где f и f^{-1} непрерывны. Эквивалентно: f - непрерывная биекция, переводящая открытые множества в открытые (open map). Запись: X ≅ Y.
Normalizing flows ARE homeomorphisms. RealNVP, Glow, NICE - каждая такая модель строит гомеоморфизм f: R^n -> R^n между простым распределением (гауссиан) и сложным (данные). Обратимость - не техническое требование реализации. Это определение. Без f^{-1} нет вычисления правдоподобия, нет обучения.
Критичная ловушка: непрерывная биекция - не обязательно гомеоморфизм. Нужна непрерывность обратной. Классический контрпример: f: [0, 2pi) -> S^1, f(t) = (cos t, sin t). Непрерывна и биективна. Но f^{-1} разрывна в точке (1, 0) - точки чуть ниже имеют прообраз ~2pi, точки чуть выше - ~0. Разрыв.
| X | Y | Гомеоморфны? | Почему |
|---|---|---|---|
| (0,1) | R | Да | f(x) = tan(pi(x-1/2)) |
| [0,1] | (0,1) | Нет | [0,1] компактен, (0,1) нет |
| S^1 (окружность) | [0,1] | Нет | S^1 без точки ≅ R, [0,1] без точки - два куска |
| Кофейная чашка | Тор (бублик) | Да | Обе поверхности рода 1 |
| Сфера S^2 | Тор T^2 | Нет | Род 0 vs род 1 |
f: [0, 2pi) -> S^1, f(t) = (cos t, sin t) - непрерывная биекция. Почему это НЕ гомеоморфизм?
Топологические инварианты
Топологический инвариант - свойство, сохраняющееся при любом гомеоморфизме. Если у двух пространств инвариант различается - они точно не гомеоморфны. Это единственный способ доказать несуществование гомеоморфизма без перебора всех возможных отображений. Именно так персистентная гомология (TDA) находит структуру в данных: фиксирует инварианты при изменении масштаба.
**Основные топологические инварианты:** 1. **Связность** - пространство одним куском? 2. **Компактность** - конечное подпокрытие? 3. **Род** (genus) - число «дырок» в поверхности. 4. **Фундаментальная группа** - алгебраическая структура петель. 5. **Число компонент связности.** 6. **Эйлерова характеристика** chi = V - E + F.
Инвариант - односторонний инструмент. Совпадение инварианта не доказывает гомеоморфность. Полного инварианта, различающего все пространства, не существует - это фундаментальный результат. В TDA это означает: персистентная гомология находит одни инварианты (компоненты, петли, полости), но не различает пространства с одинаковыми диаграммами персистентности.
| Пространство | Компактно? | Связно? | chi | pi_1 |
|---|---|---|---|---|
| [0,1] | Да | Да | н/п | Тривиальная |
| (0,1) | Нет | Да | н/п | Тривиальная |
| S^1 (окружность) | Да | Да | 0 | Z |
| S^2 (сфера) | Да | Да | 2 | Тривиальная |
| T^2 (тор) | Да | Да | 0 | Z x Z |
| Бутылка Клейна | Да | Да | 0 | Z semidirect Z |
R и R^2 не гомеоморфны. Какой инвариант доказывает это проще всего?
Классические примеры
Гипотеза многообразия в ML гласит: натуральные изображения - не случайные точки в 200×200=40 000-мерном пространстве. Они лежат на многообразии размерности порядка 50-100. StyleGAN это использует: 512-мерное W-пространство - карта этого многообразия. t-SNE и UMAP проецируют многообразие в 2D, сохраняя топологическую структуру. Понять, почему это работает, значит понять гомеоморфизмы на практике.
(0, 1) гомеоморфно R - парадоксальный факт. Ограниченный интервал топологически «такой же», как бесконечная прямая. Гомеоморфизм f(x) = tan(pi(x - 1/2)) непрерывно растягивает (0,1) на всю R. Длина и ограниченность не являются топологическими свойствами - они метрические. Топология о них не знает.
**Не топологические свойства:** длина, площадь, кривизна, ограниченность. **Топологические свойства:** связность, компактность, число дырок (род), число компонент, фундаментальная группа. Топология - «резиновая геометрия»: разрешены любые непрерывные растяжения и сжатия, но не разрывы и склейки.
| Пример | Неожиданность | Ключевой инвариант |
|---|---|---|
| (0,1) ≅ R | Ограниченное ≅ неограниченное | Оба связны, некомпактны |
| Чашка ≅ тор | Визуально разные, но одна дырка | Род = 1 |
| [0,1] ≇ S^1 | Оба компактны, но разная pi_1 | pi_1([0,1]) = 0, pi_1(S^1) = Z |
| R ≇ R^2 | Оба некомпактны, связны | R\{pt}: 2 компоненты; R^2\{pt}: 1 |
| S^2 ≇ T^2 | Оба компактны, связны | chi=2 vs chi=0 |
Теорема классификации поверхностей (начало XX века): каждая компактная связная поверхность гомеоморфна либо сфере с g ручками (ориентируемая, род g), либо сфере с k cross-caps (неориентируемая). Полная классификация двумерных пространств. Для многообразий размерности 3 и выше аналогичная задача оказалась на порядки сложнее - гипотеза Пуанкаре была открытой проблемой 100 лет.
Непрерывная биекция = гомеоморфизм
Гомеоморфизм требует непрерывности И биекции, И непрерывности обратной функции. Контрпример: f: [0, 2pi) -> S^1, f(t) = (cos t, sin t) - непрерывная биекция, но f^{-1} разрывна в (1, 0)
В компактных хаусдорфовых пространствах непрерывная биекция автоматически гомеоморфизм. Но если область не компактна (как [0, 2pi)), это не работает. Normalizing flows строят обратимые отображения именно через ограничения архитектуры (coupling layers, autoregressive transforms), а не просто через обучение биекции
Почему S^1 (окружность) и [0,1] (отрезок) не гомеоморфны, хотя оба компактны и связны?
Ключевые идеи
- **Непрерывность** в топологии: прообраз каждого открытого множества открыт - никакой метрики, только открытые множества
- **Гомеоморфизм** = биективная непрерывная функция с непрерывной обратной; X ≅ Y означает топологическую неотличимость
- Непрерывная биекция ≠ гомеоморфизм: нужна непрерывность обратной (контрпример: $f: [0, 2\pi) \to S^1$)
- **Топологические инварианты** (связность, компактность, chi, pi_1) сохраняются при гомеоморфизме - единственный способ доказать несуществование гомеоморфизма
- **Normalizing flows** - это гомеоморфизмы; **UMAP** ищет гомеоморфизм данных в 2D; **TDA** работает с инвариантами
Связанные темы
Гомеоморфизм - центральное понятие топологии:
- Топологические пространства — Открытые множества - язык определения непрерывности и гомеоморфизма
- Связность и компактность — Главные топологические инварианты, используемые для различения пространств
- Фундаментальная группа — Алгебраический инвариант - следующий уровень после компактности и связности
- Метрические пространства — Среда где непрерывность наглядна и совпадает с epsilon-delta
Вопросы для размышления
- Почему в топологии длина и площадь не имеют значения? Для каких задач они всё-таки важны?
- Normalizing flows строят гомеоморфизмы между распределениями. Почему важна непрерывность обратного отображения - что ломается без неё?
- Теорема классификации полностью описывает компактные поверхности. Почему аналогичная задача для 3-многообразий заняла ещё 100 лет (гипотеза Пуанкаре)?
Связанные уроки
- top-01 — Открытые множества - язык определения непрерывности
- top-03 — Связность и компактность - главные инварианты после гомеоморфизма
- top-05 — Фундаментальная группа - следующий уровень инвариантов
- la-15-svd — SVD сохраняет метрическую структуру - аналог гомеоморфизма в линейной алгебре
- top-04 — Метрические пространства - среда где непрерывность наглядна
- calc-05-continuity
- calc-03-limits-intro