Дифференциальная геометрия

Группы Ли и алгебры Ли

Робот-манипулятор ориентирует захват в 3D-пространстве через группу вращений $SO(3)$. SLAM (одновременная локализация и картографирование) оптимизирует позы камеры на группе $SE(3)$. Интерполяция ориентаций дрона, обучение экивариантных нейросетей - всё требует алгебры Ли и логарифмических карт.

Робототехника: планирование траектории в пространстве конфигураций $SE(3)$
Компьютерное зрение: SLAM и поворот камеры через $SO(3)$-оптимизацию
Авиация: quaternion-интерполяция ориентации самолёта (SLERP)
Физика: группы симметрий в стандартной модели частиц ($SU(2)$, $SU(3)$)
ML: экивариантные нейросети для молекулярных структур (SE(3)-трансформер)

Цели урока

Работать с группами $SO(3)$ и $SE(3)$ как многообразиями: экспоненциальная и логарифмическая карты
Вычислять поворот через формулу Родригеса и понимать алгебру Ли $\mathfrak{so}(3)$
Применять формулу Бейкера-Кэмпбелла-Хаусдорфа для оптимизации на группах Ли

Предварительные знания

Линейные преобразования и ортогональные матрицы
Экспонента матрицы и её свойства
Касательное пространство к многообразию

Группа $SO(3)$ и алгебра Ли $\mathfrak{so}(3)$

$SO(3) = \{R \in \mathbb{R}^{3\times 3}: R^T R = I, \det R = 1\}$ - 3D-многообразие размерности 3. Алгебра Ли $\mathfrak{so}(3)$ - касательное пространство в единице: кососимметричные матрицы $[\omega]_\times$ ($[\omega]_\times^T = -[\omega]_\times$). Изоморфизм $\mathbb{R}^3 \to \mathfrak{so}(3)$: вектор $\omega = (\omega_1, \omega_2, \omega_3)^T \leftrightarrow [\omega]_\times = \begin{pmatrix} 0 & -\omega_3 & \omega_2 \\ \omega_3 & 0 & -\omega_1 \\ -\omega_2 & \omega_1 & 0 \end{pmatrix}$.

BCH и оптимизация на группах Ли

Формула Бейкера-Кэмпбелла-Хаусдорфа: $\exp(A)\exp(B) = \exp(A + B + \frac{1}{2}[A,B] + \ldots)$. При малых возмущениях первые члены дают линеаризацию на алгебре Ли. Алгоритм Гаусса-Ньютона на $SO(3)$: возмущение $\delta\phi \in \mathfrak{so}(3)$, шаг $R \leftarrow R \cdot \exp([\delta\phi]_\times)$, градиент через якобиан правого ретракта.

Группы Ли: симметрия + дифференцируемость

Каждый поворот дрона DJI описывается элементом группы SO(3). Управление полётом - это кривая на многообразии SO(3), и навигация по ней требует понимания геометрии группы. ROS (Robot Operating System) хранит ориентации как элементы SO(3) и интерполирует их через алгебру Ли.

Группа Ли - это одновременно группа и гладкое многообразие, причём умножение и взятие обратного - гладкие отображения. Не просто «группа с топологией» - именно гладкость (бесконечная дифференцируемость) делает возможным дифференциальное исчисление на группе.

Группа	Dim	Описание	Применение в ML/robotics
SO(2)	1	Вращения плоскости	2D robotics, image rotation
SO(3)	3	Вращения пространства	Дроны, ориентация, PointNet++
SE(3)	6	Вращения + трансляции	SLAM, protein structure (AlphaFold)
SU(2)	3	Кватернионы единичной нормы	Анимация, интерполяция поворотов
GL(n)	n^2	Невырожденные матрицы	Нормирующие потоки (coupling layers)

Почему dim SO(3) = 3, если матрица 3x3 имеет 9 элементов?

Матрица вращения 3x3 имеет 9 элементов, но условие R^T R = I накладывает 6 независимых ограничений (симметричная матрица). Оставшиеся 9-6=3 параметра - три угла поворота.

Алгебра Ли: касательное пространство в единице

Алгебра Ли g группы G - это касательное пространство T_e G в единичном элементе e, снабжённое скобкой Ли [X,Y] = XY - YX. Физически: элементы алгебры Ли - бесконечно малые движения (угловые скорости для SO(3)), а элементы группы - конечные движения (повороты).

so(3) = {A: A^T = -A} - кососимметричные матрицы 3x3. Три независимых элемента (над главной диагональю). Физический смысл: бесконечно малый поворот вокруг оси omega на угол ||omega||*dt.

Что физически означает элемент алгебры Ли so(3)?

Алгебра Ли so(3) - касательное пространство к SO(3) в единице. Её элементы - кососимметричные матрицы, физически представляющие мгновенные угловые скорости. Действие матрицы на вектор совпадает с векторным произведением: Omega*v = omega x v.

Экспоненциальное отображение и формула Родрига

exp: g -> G переводит угловую скорость (алгебра Ли) в матрицу поворота (группа Ли). Формула Родрига - замкнутая форма для SO(3): бесконечный ряд матричной экспоненты схлопывается в три слагаемых. Именно это используется в NeRF, 3D Gaussian Splatting и любом 3D-ML для параметризации поворотов.

В NeRF (Neural Radiance Fields): позы камер параметризуются через se(3) - 6D вектор. exp: se(3) -> SE(3) даёт матрицу 4x4. Оптимизация через градиентный спуск прямо на многообразии SE(3) - это Lie group optimization (used in COLMAP, ORB-SLAM3).

Каков exp(0) in SO(3) и что физически означает нулевой элемент so(3)?

Матричная экспонента нулевой матрицы всегда равна единичной: exp(0) = I. В контексте SO(3) это нулевой поворот (тождественное преобразование), соответствующий нулевой угловой скорости - покою.

BCH-формула и приложения в оптимизации

Baker-Campbell-Hausdorff: log(exp(X)*exp(Y)) = X + Y + [X,Y]/2 + [X,[X,Y]]/12 - ... Для малых X,Y: exp(X)*exp(Y) ~ exp(X+Y+[X,Y]/2). Это основа Lie group optimization: оптимизация не в R^n, а прямо на группе Ли.

Присоединённое представление Ad_g(X) = g*X*g^{-1} и его дифференциал ad_X(Y) = [X,Y]. В robotics: преобразование угловых скоростей между системами координат. В ML: Equivariant Networks (SE(3)-Transformers от Fabian Fuchs, DeepMind 2020) используют группы Ли для инвариантности к поворотам.

Почему для оптимизации на SO(3) нельзя делать R_new = R - lr*grad, а нужно R_new = exp(-lr*omega)*R?

SO(3) - нелинейное многообразие, не замкнутое относительно сложения матриц. R минус любая ненулевая матрица нарушит ортогональность и det=1. Обновление exp(-lr*omega)*R использует групповое умножение, которое сохраняет принадлежность SO(3).

Формула Родригеса

$R = \exp([\omega]_\times) = I + \sin\theta [\hat\omega]_\times + (1-\cos\theta)[\hat\omega]_\times^2$, где $\theta = |\omega|$, $\hat\omega = \omega/\theta$. Это поворот на угол $\theta$ вокруг оси $\hat\omega$. Логарифм: $\log(R) = [\omega]_\times$ с $\theta = \arccos\frac{\mathrm{tr}(R)-1}{2}$.

Итоги

$SO(3)$ - 3D-многообразие; $\mathfrak{so}(3)$ - кососимметричные матрицы (касательное пространство в $I$)
Формула Родригеса: $\exp([\omega]_\times) = I + \sin\theta[\hat\omega]_\times + (1-\cos\theta)[\hat\omega]_\times^2$
Оптимизация на группах Ли: возмущение в $\mathfrak{so}(3)$, обновление через $\exp$, линеаризация через BCH

Связь с другими темами

Группы Ли - основа для описания симметрий в физике (стандартная модель: $SU(3) \times SU(2) \times U(1)$) и для экивариантных нейросетей. $SE(3) = SO(3) \ltimes \mathbb{R}^3$ (полупрямое произведение) описывает твёрдые тела; те же методы применяются в SLAM и визуальной одометрии.

Связанные темы — развивает

Вопросы для размышления

Почему нельзя использовать углы Эйлера для оптимизации ориентаций? Что такое gimbal lock и как BCH-подход его избегает?
Формула Родригеса не работает при $\theta = \pi$. Почему это особая точка и как её обходить?
SE(3)-трансформер использует экивариантность к вращениям для молекулярных структур. Как это математически формализуется?

Связанные уроки

aa-01-groups-intro