Дифференциальная геометрия

Поверхности: первая фундаментальная форма

Poincare embeddings (Nickel & Kiela, NeurIPS 2017): вся иерархия WordNet - 82 000 слов и отношений - вложена в гиперболический диск размерностью 2 с точностью 87%. Евклидово пространство размерностью 200 даёт лишь 32%. Разница не в архитектуре - в метрике. Гиперболическое пространство растёт экспоненциально от центра, как дерево. Метрика $ds^2 = (dx^2 + dy^2)/y^2$ - это и есть первая фундаментальная форма гиперболической плоскости.

  • **Poincare embeddings:** гиперболическая метрика сжимает иерархии WordNet в 2D; метрический тензор $g_{ij} = \delta_{ij}/y^2$ задаёт эту геометрию
  • **SAM optimizer (Google, 2021):** шарпнесс минимума = кривизна окрестности в метрике пространства параметров; плоские минимумы обобщают лучше
  • **NeRF и 3D-рендеринг:** интегрирование по поверхностям с мерой $\sqrt{EG-F^2}\,du\,dv$ - основа корректного volume rendering
  • **GPS-навигация:** расстояния на поверхности Земли = геодезические в метрике сферы $ds^2 = R^2(d\theta^2 + \sin^2\theta\,d\phi^2)$

Параметрические поверхности

StyleGAN генерирует лица, перемещаясь по латентному пространству - многообразию, вложенному в $\mathbb{R}^{512}$. Каждая точка этого многообразия - изображение. Интерполяция между лицами - кривая на поверхности. Математическая поверхность - это именно то, что описывает такие объекты.

**Параметрическая поверхность** - вектор-функция двух переменных: $\mathbf{r}(u, v) = (x(u,v), y(u,v), z(u,v))$. Параметры $(u, v)$ задают «координатную карту» на поверхности. Кривая - 1D нить; поверхность - 2D ткань, натянутая в объёмном пространстве.

Частные производные $\mathbf{r}_u = \partial\mathbf{r}/\partial u$ и $\mathbf{r}_v = \partial\mathbf{r}/\partial v$ - касательные векторы к параметрическим линиям. Они образуют **касательную плоскость** к поверхности в данной точке. В ML: касательное пространство к многообразию данных - это пространство, в котором локально работают линейные модели.

Поверхностьr(u, v)Топология
Сфера(sin(theta)*cos(phi), sin(theta)*sin(phi), cos(theta))Замкнутая, ориентируемая
Тор((R+r*cos(v))*cos(u), (R+r*cos(v))*sin(u), r*sin(v))Замкнутая, ориентируемая
Цилиндр(cos(u), sin(u), v)Открытая
Гиперболический параболоид(u, v, u^2 - v^2)Открытая, седло
Лист МёбиусаНеориентируемый!Односторонняя

**Регулярная поверхность:** $\mathbf{r}_u \times \mathbf{r}_v \neq 0$ везде. Это значит, что касательная плоскость определена в каждой точке. Особые точки (нормаль обнуляется) - вершина конуса, полюса сферы при стандартной параметризации.

Для цилиндра r(u,v) = (cos(u), sin(u), v) что представляют линии u = const?

Первая фундаментальная форма

Poincare embeddings (Nickel & Kiela, NeurIPS 2017): иерархия WordNet с 82 000 отношений вложена в гиперболический диск размерностью 2 с точностью 87% - против 32% у евклидова пространства с 200 измерениями. Гиперболическая плоскость растёт экспоненциально от центра - как дерево. Это не метафора; это следствие метрики $ds^2 = (dx^2 + dy^2)/y^2$. Первая фундаментальная форма задаёт именно такие метрики.

**Первая фундаментальная форма (I)** - квадратичная форма для измерения расстояний на поверхности: $ds^2 = E\,du^2 + 2F\,du\,dv + G\,dv^2$, где $E = \mathbf{r}_u \cdot \mathbf{r}_u$, $F = \mathbf{r}_u \cdot \mathbf{r}_v$, $G = \mathbf{r}_v \cdot \mathbf{r}_v$. Три числа. Вся внутренняя геометрия поверхности.

Коэффициенты $E, F, G$ - элементы **метрического тензора** $g_{ij}$. Матрица $\begin{pmatrix} E & F \\ F & G \end{pmatrix}$ положительно определена для регулярной поверхности. Она перекодирует евклидово скалярное произведение в локальные координаты $(u, v)$.

ПоверхностьEFG
Плоскость (x=u, y=v)101
Сфера R (theta, phi)R^20R^2*sin^2(theta)
Цилиндр R (u, v)R^201
Гиперб. плоскость (x, y>0)1/y^201/y^2
Поверхность вращения1+f'^20f^2

$F = 0$ означает, что координатные линии ортогональны. Гиперболическая плоскость ($E = G = 1/y^2$, $F = 0$) растёт экспоненциально быстро при $y \to 0$ - именно поэтому в ней умещается вся иерархия WordNet за 2 координаты, а евклидовой плоскости не хватает и 200.

Для плоскости в декартовых координатах: E = 1, F = 0, G = 1. Что означает ds^2?

Метрический тензор и геодезические

SAM (Sharpness-Aware Minimization, Google, 2021) явно минимизирует кривизну окрестности минимума функции потерь. Flat minima обобщают лучше острых - это эмпирический факт, подтверждённый на ImageNet. Но что такое «кривизна потерь» математически? Это второй дифференциал - и он зависит от метрики пространства параметров. Метрический тензор задаёт эту метрику.

**Метрический тензор** $g_{ij}$ обобщает понятие расстояния на искривлённые пространства любой размерности: $ds^2 = g_{ij}\,du^i\,du^j$ (суммирование по повторяющимся индексам). Для поверхности в $\mathbb{R}^3$: матрица $2 \times 2$ с элементами $E, F, G$. В общей теории относительности: тензор $4 \times 4$, описывающий гравитацию.

**Геодезические** - кратчайшие пути на поверхности. На сфере - дуги больших окружностей. На гиперболической плоскости - полуокружности с центром на оси $x$. В латентном пространстве StyleGAN геодезическая между двумя лицами - это «правильная» интерполяция, не прямолинейная.

**Изометрия** - отображение, сохраняющее метрику. Цилиндр и плоскость изометричны: лист бумаги свёртывается в цилиндр без растяжений. Сфера и плоскость - нет: любая карта мира искажает расстояния или площади. В этом суть теоремы Гаусса о неизменности кривизны (Theorema Egregium).

Бернхард Риман (1854)

В лекции «О гипотезах, лежащих в основании геометрии» Риман предложил описывать произвольные искривлённые пространства через метрический тензор $g_{ij}$. Лекцию читали за несколько часов - но она перевернула математику. Через 60 лет Эйнштейн использовал риманову геометрию для общей теории относительности. Через 160 лет - её применяют для оптимизации нейросетей (натуральный градиент, информационная геометрия).

Цилиндр (E=1, F=0, G=1) и плоскость (E=1, F=0, G=1) имеют одинаковую метрику. Что это означает?

Площадь поверхности

NeRF хранит сцену как функцию $(x, y, z, \theta, \phi) \to$ (цвет, плотность). Рендеринг требует интегрирования по поверхностям в 3D. Формула площади поверхности - именно тот инструмент, который делает этот интеграл корректным на произвольно изогнутых объектах.

**Площадь** элемента поверхности: $dA = |\mathbf{r}_u \times \mathbf{r}_v|\,du\,dv = \sqrt{EG - F^2}\,du\,dv$. Множитель $\sqrt{EG - F^2} = \sqrt{\det g}$ - площадь параллелограмма, натянутого на касательные векторы. Полная площадь: $A = \iint \sqrt{EG - F^2}\,du\,dv$.

Поверхностьsqrt(EG-F^2)Полная площадь
Сфера RR^2*sin(theta)4*pi*R^2
Цилиндр R, высота hR2*pi*R*h
Тор (R, r)r*(R + r*cos(v))4*pi^2*R*r
Гиперб. плоскость1/y^2Бесконечна (кривизна K=-1)
Плоскость1Зависит от области

$\sqrt{EG - F^2} = |\mathbf{r}_u \times \mathbf{r}_v|$ - двумерный аналог $|\mathbf{r}'(t)|$ для кривых. Для кривой: касательный вектор даёт скорость, его длина - элемент длины. Для поверхности: два касательных вектора задают параллелограмм, его площадь - элемент площади.

Первая фундаментальная форма - полная информация о **внутренней геометрии**: расстояния, углы, площади. Всё, что двумерное существо на поверхности может измерить, не зная о третьем измерении. Что нельзя узнать из первой формы - как поверхность изогнута в пространстве. Для этого нужна вторая фундаментальная форма.

Первая фундаментальная форма описывает форму поверхности

Первая форма описывает внутреннюю метрику (расстояния, углы, площади). Цилиндр и плоскость имеют одинаковую первую форму, но разную форму в пространстве.

Название вводит в заблуждение. «Форма» (shape) поверхности - её вид в пространстве. «Первая фундаментальная форма» - квадратичная форма $ds^2 = E\,du^2 + 2F\,du\,dv + G\,dv^2$, описывающая внутреннюю метрику. Это различие фундаментально: в ML многообразие данных изучается через внутреннюю метрику (форма облака), а не через его вложение в пространство признаков.

Площадь сферы 4*pi*R^2. При удвоении радиуса площадь:

Ключевые идеи

  • **$\mathbf{r}(u,v)$** - параметрическая поверхность; $\mathbf{r}_u$, $\mathbf{r}_v$ - касательные векторы, их произведение - нормаль
  • **Первая форма:** $ds^2 = E\,du^2 + 2F\,du\,dv + G\,dv^2$ - линейка для измерения расстояний; гиперболическая плоскость Пуанкаре - пример непростой метрики
  • **Метрический тензор** $g_{ij}$ - обобщение на пространства любой размерности; Риман 1854, Эйнштейн 1915, Fisher metric 1945, натуральный градиент 1998
  • **Площадь:** $A = \iint \sqrt{EG - F^2}\,du\,dv$ - интеграл масштабного фактора $\sqrt{\det g}$
  • **Изометрия:** совпадение первых форм. Цилиндр изометричен плоскости (K=0), сфера - нет (K=1/R^2)

Связанные темы

Первая форма - внутренняя геометрия поверхности:

  • Кривые в пространстве — Длина кривой на поверхности вычисляется через первую форму
  • Вторая фундаментальная форма — Добавляет внешнюю геометрию: как поверхность изогнута в пространстве
  • Метрика Фишера — Та же конструкция на пространстве распределений вместо поверхностей
  • Натуральный градиент — Оптимизация в риманновой метрике - практика метрического тензора

Вопросы для размышления

  • Почему невозможно создать идеальную карту Земли без искажений? Как это связано с тем, что сфера не изометрична плоскости?
  • Метрика Пуанкаре: при $y \to 0$ расстояния стремятся к бесконечности. Как это обеспечивает, что гиперболическое пространство вмещает экспоненциально больше точек, чем евклидово?
  • SAM minimizes sharpness - кривизну окрестности минимума. Если пространство параметров снабдить метрикой Фишера, как изменится понятие 'sharp minimum'?

Связанные уроки

  • dg-01 — Параметрические кривые и касательные векторы - фундамент урока
  • dg-03 — Вторая форма строится поверх первой, добавляя кривизну в пространстве
  • ig-02-fisher-metric — Метрика Фишера - риманова метрика на пространстве распределений
  • la-02-dot-product — Скалярное произведение задаёт компоненты E, F, G метрического тензора
  • ig-07-natural-gradient — Натуральный градиент - это градиент в риманновой метрике на многообразии
  • calc-18-partial
  • la-04-matrix-ops
Поверхности: первая фундаментальная форма

0

1

Войти