Геометрия
Гиперболическая геометрия
Эшер рисовал гиперболическую плоскость в «Circle Limit III». Та же геометрия - в Poincare Embeddings, которые встраивают WordNet в 2D лучше, чем word2vec в 200D. Гиперболическое пространство «умеет» хранить иерархии - потому что его объём, как и число узлов дерева, растёт экспоненциально.
- Poincare Embeddings (FAIR 2017): таксономия WordNet в 2D гиперболическом vs word2vec в 200D евклидовом - гиперболическое выигрывает
- Hyperbolic Graph Neural Networks: иерархические графы знаний (Freebase, WordNet) с меньшими потерями
- Специальная теория относительности: пространство относительных скоростей - гиперболическое (формула сложения скоростей Эйнштейна)
5-й постулат и три геометрии
Эшер рисовал «Circle Limit III» в 1959 году: одинаковые рыбы, которые кажутся меньше к краю. В гиперболическом пространстве они одинакового размера - это его геометрия искажает наше восприятие. Та же геометрия сегодня лежит в основе Poincare Embeddings - метода встраивания иерархий в ML, который бьёт word2vec при меньшем числе измерений.
2000 лет математики пытались доказать 5-й постулат Евклида через остальные четыре. В XIX веке Гаусс, Лобачевский и Бойяи независимо поняли: это невозможно. Можно построить непротиворечивую геометрию, где через точку вне прямой проходит бесконечно много «параллельных».
| Свойство | Евклидова | Сферическая | Гиперболическая |
|---|---|---|---|
| Кривизна | 0 | > 0 | < 0 |
| Сумма углов треугольника | = 180° | > 180° | < 180° |
| Параллельные через точку | ровно 1 | 0 | бесконечно много |
| Объём шара радиуса r | ~r^3 | меньше | растёт экспоненциально |
Ключевой факт про гиперболическое пространство: объём шара радиуса r растёт экспоненциально - как 2^r, а не как r^3. Именно поэтому деревья (иерархии) - у которых число вершин тоже удваивается с каждым уровнем - «естественно живут» в гиперболическом пространстве.
Чему равна сумма углов треугольника в гиперболической геометрии, и как она связана с площадью треугольника?
Диск Пуанкаре: метрика и геодезические
Диск Пуанкаре: всё гиперболическое пространство помещается в открытый единичный круг D = {(x,y): x^2+y^2 < 1}. Граница круга - «бесконечность». Расстояния к границе неограниченно растут, поэтому рыбы Эшера на краю не меньше - они на «бесконечном» расстоянии от центра.
Геодезические в диске Пуанкаре - это не прямые линии, а дуги окружностей, перпендикулярных граничной окружности, плюс диаметры диска. Через любые две точки внутри диска проходит ровно одна геодезическая. Через точку P вне геодезической l проходит бесконечно много геодезических, не пересекающих l - это и есть «бесконечно много параллельных».
Модель Пуанкаре конформна: углы между кривыми в диске равны «настоящим» гиперболическим углам. Именно поэтому мозаики Эшера выглядят «правильными»: все рыбы имеют одинаковые углы при вершинах, хотя их евклидовы размеры уменьшаются к краю.
Как выглядят геодезические (прямые) в диске Пуанкаре? Назовите два типа.
Гиперболическое расстояние: формула и числа
Расстояние от центра диска до точки x на расстоянии |x| вычисляется по формуле d(0, x) = 2 * arctanh(|x|). Это растёт медленно вблизи 0 и стремится к бесконечности при |x| -> 1.
При |x| = 0.9 евклидово расстояние 0.9, гиперболическое 2.94 - в 3.3 раза больше. При |x| = 0.999 евклидово 0.999, гиперболическое 7.6 - в 7.6 раза больше. Расстояния к границе растут намного быстрее, чем кажется.
Точка находится на евклидовом расстоянии 0.5 от центра диска Пуанкаре. Чему равно гиперболическое расстояние? Используйте d(0,x) = 2*arctanh(|x|).
Poincare Embeddings: иерархии в гиперболическом пространстве
Nickel & Kiela (Facebook AI Research, 2017): встраивание иерархических данных в диск Пуанкаре. Идея: дерево с коэффициентом ветвления 2 имеет 2^d вершин на глубине d - объём растёт экспоненциально. Гиперболическое пространство тоже экспоненциально «расширяется» с радиусом. Поэтому иерархии естественно вкладываются туда.
Результат: таксономия WordNet (117 000 слов, иерархия гиперонимов) в 2-мерном гиперболическом пространстве даёт лучшее качество, чем word2vec в 200-мерном евклидовом. В 2D всё помещается - потому что экспоненциальный рост объёма диска Пуанкаре точно соответствует росту дерева.
Гиперболические нейронные сети (Ganea et al. 2018) расширяют идею на полноценные слои: гиперболическое умножение на матрицу, гиперболическая softmax. Применяются для встраивания графов знаний, биологических онтологий, иерархий в NLP.
Почему корневые узлы дерева в Poincare Embeddings размещаются близко к центру диска, а листья - у границы?
Ключевые идеи
- Гиперболическая геометрия: кривизна < 0, сумма углов треугольника < 180°, бесконечно много параллельных
- Диск Пуанкаре: метрика ds^2 = 4(dx^2+dy^2)/(1-x^2-y^2)^2; граница = бесконечность
- Геодезические = дуги окружностей, перпендикулярных границе, + диаметры
- Расстояние: d(0,x) = 2*arctanh(|x|) - растёт к бесконечности у границы
- Объём гиперболического шара растёт экспоненциально с радиусом - как число вершин дерева
- Poincare Embeddings: иерархии в 2D гиперболическом пространстве точнее евклидового в 200D
Связанные темы
Гиперболическая геометрия опирается на инверсию и связана с ML:
- Инверсия и стереографическая проекция — Модель Пуанкаре строится через инверсии в граничной окружности
- Фракталы — Мозаики гиперболической плоскости - пример фрактальной симметрии
- Информационная геометрия — Пространство вероятностных распределений тоже риманново многообразие с кривизной
Вопросы для размышления
- Если иерархия WordNet встраивается в 2D гиперболическом пространстве лучше, чем в 200D евклидовом, какие ещё типы данных выиграют от гиперболических эмбеддингов?
- Как связана невозможность начертить карту Земли без искажений с тем, что сферическая геометрия имеет положительную кривизну?
- Почему в гиперболическом пространстве «параллельных» бесконечно много - можно ли визуализировать это на модели Пуанкаре?