Дифференциальная геометрия

Поверхности: первая фундаментальная форма

Poincare embeddings (Nickel & Kiela, NeurIPS 2017): вся иерархия WordNet - 82 000 слов и отношений - вложена в гиперболический диск размерностью 2 с точностью 87%. Евклидово пространство размерностью 200 даёт лишь 32%. Разница не в архитектуре - в метрике. Гиперболическое пространство растёт экспоненциально от центра, как дерево. Метрика $ds^2 = (dx^2 + dy^2)/y^2$ - это и есть первая фундаментальная форма гиперболической плоскости.

**Poincare embeddings:** гиперболическая метрика сжимает иерархии WordNet в 2D; метрический тензор $g_{ij} = \delta_{ij}/y^2$ задаёт эту геометрию
**SAM optimizer (Google, 2021):** шарпнесс минимума = кривизна окрестности в метрике пространства параметров; плоские минимумы обобщают лучше
**NeRF и 3D-рендеринг:** интегрирование по поверхностям с мерой $\sqrt{EG-F^2}\,du\,dv$ - основа корректного volume rendering
**GPS-навигация:** расстояния на поверхности Земли = геодезические в метрике сферы $ds^2 = R^2(d\theta^2 + \sin^2\theta\,d\phi^2)$

Параметрические поверхности

StyleGAN генерирует лица, перемещаясь по латентному пространству - многообразию, вложенному в $\mathbb{R}^{512}$. Каждая точка этого многообразия - изображение. Интерполяция между лицами - кривая на поверхности. Математическая поверхность - это именно то, что описывает такие объекты.

**Параметрическая поверхность** - вектор-функция двух переменных: $\mathbf{r}(u, v) = (x(u,v), y(u,v), z(u,v))$. Параметры $(u, v)$ задают «координатную карту» на поверхности. Кривая - 1D нить; поверхность - 2D ткань, натянутая в объёмном пространстве.

Частные производные $\mathbf{r}_u = \partial\mathbf{r}/\partial u$ и $\mathbf{r}_v = \partial\mathbf{r}/\partial v$ - касательные векторы к параметрическим линиям. Они образуют **касательную плоскость** к поверхности в данной точке. В ML: касательное пространство к многообразию данных - это пространство, в котором локально работают линейные модели.

Поверхность	r(u, v)	Топология
Сфера	(sin(theta)cos(phi), sin(theta)sin(phi), cos(theta))	Замкнутая, ориентируемая
Тор	((R+rcos(v))cos(u), (R+rcos(v))sin(u), r*sin(v))	Замкнутая, ориентируемая
Цилиндр	(cos(u), sin(u), v)	Открытая
Гиперболический параболоид	(u, v, u^2 - v^2)	Открытая, седло
Лист Мёбиуса	Неориентируемый!	Односторонняя

**Регулярная поверхность:** $\mathbf{r}_u \times \mathbf{r}_v \neq 0$ везде. Это значит, что касательная плоскость определена в каждой точке. Особые точки (нормаль обнуляется) - вершина конуса, полюса сферы при стандартной параметризации.

Для цилиндра r(u,v) = (cos(u), sin(u), v) что представляют линии u = const?

Первая фундаментальная форма

Poincare embeddings (Nickel & Kiela, NeurIPS 2017): иерархия WordNet с 82 000 отношений вложена в гиперболический диск размерностью 2 с точностью 87% - против 32% у евклидова пространства с 200 измерениями. Гиперболическая плоскость растёт экспоненциально от центра - как дерево. Это не метафора; это следствие метрики $ds^2 = (dx^2 + dy^2)/y^2$. Первая фундаментальная форма задаёт именно такие метрики.

**Первая фундаментальная форма (I)** - квадратичная форма для измерения расстояний на поверхности: $ds^2 = E\,du^2 + 2F\,du\,dv + G\,dv^2$, где $E = \mathbf{r}_u \cdot \mathbf{r}_u$, $F = \mathbf{r}_u \cdot \mathbf{r}_v$, $G = \mathbf{r}_v \cdot \mathbf{r}_v$. Три числа. Вся внутренняя геометрия поверхности.

Коэффициенты $E, F, G$ - элементы **метрического тензора** $g_{ij}$. Матрица $\begin{pmatrix} E & F \\ F & G \end{pmatrix}$ положительно определена для регулярной поверхности. Она перекодирует евклидово скалярное произведение в локальные координаты $(u, v)$.

Поверхность	E	G
Плоскость (x=u, y=v)	1	1
Сфера R (theta, phi)	R^2	R^2*sin^2(theta)
Цилиндр R (u, v)	R^2	1
Гиперб. плоскость (x, y>0)	1/y^2	1/y^2
Поверхность вращения	1+f'^2	f^2

$F = 0$ означает, что координатные линии ортогональны. Гиперболическая плоскость ($E = G = 1/y^2$, $F = 0$) растёт экспоненциально быстро при $y \to 0$ - именно поэтому в ней умещается вся иерархия WordNet за 2 координаты, а евклидовой плоскости не хватает и 200.

Для плоскости в декартовых координатах: E = 1, F = 0, G = 1. Что означает ds^2?

Метрический тензор и геодезические

SAM (Sharpness-Aware Minimization, Google, 2021) явно минимизирует кривизну окрестности минимума функции потерь. Flat minima обобщают лучше острых - это эмпирический факт, подтверждённый на ImageNet. Но что такое «кривизна потерь» математически? Это второй дифференциал - и он зависит от метрики пространства параметров. Метрический тензор задаёт эту метрику.

**Метрический тензор** $g_{ij}$ обобщает понятие расстояния на искривлённые пространства любой размерности: $ds^2 = g_{ij}\,du^i\,du^j$ (суммирование по повторяющимся индексам). Для поверхности в $\mathbb{R}^3$: матрица $2 \times 2$ с элементами $E, F, G$. В общей теории относительности: тензор $4 \times 4$, описывающий гравитацию.

**Геодезические** - кратчайшие пути на поверхности. На сфере - дуги больших окружностей. На гиперболической плоскости - полуокружности с центром на оси $x$. В латентном пространстве StyleGAN геодезическая между двумя лицами - это «правильная» интерполяция, не прямолинейная.

**Изометрия** - отображение, сохраняющее метрику. Цилиндр и плоскость изометричны: лист бумаги свёртывается в цилиндр без растяжений. Сфера и плоскость - нет: любая карта мира искажает расстояния или площади. В этом суть теоремы Гаусса о неизменности кривизны (Theorema Egregium).

Бернхард Риман (1854)

В лекции «О гипотезах, лежащих в основании геометрии» Риман предложил описывать произвольные искривлённые пространства через метрический тензор $g_{ij}$. Лекцию читали за несколько часов - но она перевернула математику. Через 60 лет Эйнштейн использовал риманову геометрию для общей теории относительности. Через 160 лет - её применяют для оптимизации нейросетей (натуральный градиент, информационная геометрия).

Цилиндр (E=1, F=0, G=1) и плоскость (E=1, F=0, G=1) имеют одинаковую метрику. Что это означает?

Площадь поверхности

NeRF хранит сцену как функцию $(x, y, z, \theta, \phi) \to$ (цвет, плотность). Рендеринг требует интегрирования по поверхностям в 3D. Формула площади поверхности - именно тот инструмент, который делает этот интеграл корректным на произвольно изогнутых объектах.

**Площадь** элемента поверхности: $dA = |\mathbf{r}_u \times \mathbf{r}_v|\,du\,dv = \sqrt{EG - F^2}\,du\,dv$. Множитель $\sqrt{EG - F^2} = \sqrt{\det g}$ - площадь параллелограмма, натянутого на касательные векторы. Полная площадь: $A = \iint \sqrt{EG - F^2}\,du\,dv$.

Поверхность	sqrt(EG-F^2)	Полная площадь
Сфера R	R^2*sin(theta)	4piR^2
Цилиндр R, высота h	R	2piR*h
Тор (R, r)	r(R + rcos(v))	4pi^2R*r
Гиперб. плоскость	1/y^2	Бесконечна (кривизна K=-1)
Плоскость	1	Зависит от области

$\sqrt{EG - F^2} = |\mathbf{r}_u \times \mathbf{r}_v|$ - двумерный аналог $|\mathbf{r}'(t)|$ для кривых. Для кривой: касательный вектор даёт скорость, его длина - элемент длины. Для поверхности: два касательных вектора задают параллелограмм, его площадь - элемент площади.

Первая фундаментальная форма - полная информация о **внутренней геометрии**: расстояния, углы, площади. Всё, что двумерное существо на поверхности может измерить, не зная о третьем измерении. Что нельзя узнать из первой формы - как поверхность изогнута в пространстве. Для этого нужна вторая фундаментальная форма.

Первая фундаментальная форма описывает форму поверхности

Первая форма описывает внутреннюю метрику (расстояния, углы, площади). Цилиндр и плоскость имеют одинаковую первую форму, но разную форму в пространстве.

Название вводит в заблуждение. «Форма» (shape) поверхности - её вид в пространстве. «Первая фундаментальная форма» - квадратичная форма $ds^2 = E\,du^2 + 2F\,du\,dv + G\,dv^2$, описывающая внутреннюю метрику. Это различие фундаментально: в ML многообразие данных изучается через внутреннюю метрику (форма облака), а не через его вложение в пространство признаков.

Площадь сферы 4*pi*R^2. При удвоении радиуса площадь:

Ключевые идеи

**$\mathbf{r}(u,v)$** - параметрическая поверхность; $\mathbf{r}_u$, $\mathbf{r}_v$ - касательные векторы, их произведение - нормаль
**Первая форма:** $ds^2 = E\,du^2 + 2F\,du\,dv + G\,dv^2$ - линейка для измерения расстояний; гиперболическая плоскость Пуанкаре - пример непростой метрики
**Метрический тензор** $g_{ij}$ - обобщение на пространства любой размерности; Риман 1854, Эйнштейн 1915, Fisher metric 1945, натуральный градиент 1998
**Площадь:** $A = \iint \sqrt{EG - F^2}\,du\,dv$ - интеграл масштабного фактора $\sqrt{\det g}$
**Изометрия:** совпадение первых форм. Цилиндр изометричен плоскости (K=0), сфера - нет (K=1/R^2)

Связанные темы

Первая форма - внутренняя геометрия поверхности:

Кривые в пространстве — Длина кривой на поверхности вычисляется через первую форму
Вторая фундаментальная форма — Добавляет внешнюю геометрию: как поверхность изогнута в пространстве
Метрика Фишера — Та же конструкция на пространстве распределений вместо поверхностей
Натуральный градиент — Оптимизация в риманновой метрике - практика метрического тензора

Вопросы для размышления

Почему невозможно создать идеальную карту Земли без искажений? Как это связано с тем, что сфера не изометрична плоскости?
Метрика Пуанкаре: при $y \to 0$ расстояния стремятся к бесконечности. Как это обеспечивает, что гиперболическое пространство вмещает экспоненциально больше точек, чем евклидово?
SAM minimizes sharpness - кривизну окрестности минимума. Если пространство параметров снабдить метрикой Фишера, как изменится понятие 'sharp minimum'?

Связанные уроки

dg-01 — Параметрические кривые и касательные векторы - фундамент урока
dg-03 — Вторая форма строится поверх первой, добавляя кривизну в пространстве
ig-02-fisher-metric — Метрика Фишера - риманова метрика на пространстве распределений
la-02-dot-product — Скалярное произведение задаёт компоненты E, F, G метрического тензора
ig-07-natural-gradient — Натуральный градиент - это градиент в риманновой метрике на многообразии
calc-18-partial
la-04-matrix-ops