Дифференциальная геометрия
Группы Ли и алгебры Ли
Робот-манипулятор ориентирует захват в 3D-пространстве через группу вращений $SO(3)$. SLAM (одновременная локализация и картографирование) оптимизирует позы камеры на группе $SE(3)$. Интерполяция ориентаций дрона, обучение экивариантных нейросетей - всё требует алгебры Ли и логарифмических карт.
- Робототехника: планирование траектории в пространстве конфигураций $SE(3)$
- Компьютерное зрение: SLAM и поворот камеры через $SO(3)$-оптимизацию
- Авиация: quaternion-интерполяция ориентации самолёта (SLERP)
- Физика: группы симметрий в стандартной модели частиц ($SU(2)$, $SU(3)$)
- ML: экивариантные нейросети для молекулярных структур (SE(3)-трансформер)
Цели урока
- Работать с группами $SO(3)$ и $SE(3)$ как многообразиями: экспоненциальная и логарифмическая карты
- Вычислять поворот через формулу Родригеса и понимать алгебру Ли $\mathfrak{so}(3)$
- Применять формулу Бейкера-Кэмпбелла-Хаусдорфа для оптимизации на группах Ли
Предварительные знания
- Линейные преобразования и ортогональные матрицы
- Экспонента матрицы и её свойства
- Касательное пространство к многообразию
Группа $SO(3)$ и алгебра Ли $\mathfrak{so}(3)$
$SO(3) = \{R \in \mathbb{R}^{3\times 3}: R^T R = I, \det R = 1\}$ - 3D-многообразие размерности 3. Алгебра Ли $\mathfrak{so}(3)$ - касательное пространство в единице: кососимметричные матрицы $[\omega]_\times$ ($[\omega]_\times^T = -[\omega]_\times$). Изоморфизм $\mathbb{R}^3 \to \mathfrak{so}(3)$: вектор $\omega = (\omega_1, \omega_2, \omega_3)^T \leftrightarrow [\omega]_\times = \begin{pmatrix} 0 & -\omega_3 & \omega_2 \\ \omega_3 & 0 & -\omega_1 \\ -\omega_2 & \omega_1 & 0 \end{pmatrix}$.
BCH и оптимизация на группах Ли
Формула Бейкера-Кэмпбелла-Хаусдорфа: $\exp(A)\exp(B) = \exp(A + B + \frac{1}{2}[A,B] + \ldots)$. При малых возмущениях первые члены дают линеаризацию на алгебре Ли. Алгоритм Гаусса-Ньютона на $SO(3)$: возмущение $\delta\phi \in \mathfrak{so}(3)$, шаг $R \leftarrow R \cdot \exp([\delta\phi]_\times)$, градиент через якобиан правого ретракта.
Группы Ли: симметрия + дифференцируемость
Каждый поворот дрона DJI описывается элементом группы SO(3). Управление полётом - это кривая на многообразии SO(3), и навигация по ней требует понимания геометрии группы. ROS (Robot Operating System) хранит ориентации как элементы SO(3) и интерполирует их через алгебру Ли.
Группа Ли - это одновременно группа и гладкое многообразие, причём умножение и взятие обратного - гладкие отображения. Не просто «группа с топологией» - именно гладкость (бесконечная дифференцируемость) делает возможным дифференциальное исчисление на группе.
| Группа | Dim | Описание | Применение в ML/robotics |
|---|---|---|---|
| SO(2) | 1 | Вращения плоскости | 2D robotics, image rotation |
| SO(3) | 3 | Вращения пространства | Дроны, ориентация, PointNet++ |
| SE(3) | 6 | Вращения + трансляции | SLAM, protein structure (AlphaFold) |
| SU(2) | 3 | Кватернионы единичной нормы | Анимация, интерполяция поворотов |
| GL(n) | n^2 | Невырожденные матрицы | Нормирующие потоки (coupling layers) |
Почему dim SO(3) = 3, если матрица 3x3 имеет 9 элементов?
Матрица вращения 3x3 имеет 9 элементов, но условие R^T R = I накладывает 6 независимых ограничений (симметричная матрица). Оставшиеся 9-6=3 параметра - три угла поворота.
Алгебра Ли: касательное пространство в единице
Алгебра Ли g группы G - это касательное пространство T_e G в единичном элементе e, снабжённое скобкой Ли [X,Y] = XY - YX. Физически: элементы алгебры Ли - бесконечно малые движения (угловые скорости для SO(3)), а элементы группы - конечные движения (повороты).
so(3) = {A: A^T = -A} - кососимметричные матрицы 3x3. Три независимых элемента (над главной диагональю). Физический смысл: бесконечно малый поворот вокруг оси omega на угол ||omega||*dt.
Что физически означает элемент алгебры Ли so(3)?
Алгебра Ли so(3) - касательное пространство к SO(3) в единице. Её элементы - кососимметричные матрицы, физически представляющие мгновенные угловые скорости. Действие матрицы на вектор совпадает с векторным произведением: Omega*v = omega x v.
Экспоненциальное отображение и формула Родрига
exp: g -> G переводит угловую скорость (алгебра Ли) в матрицу поворота (группа Ли). Формула Родрига - замкнутая форма для SO(3): бесконечный ряд матричной экспоненты схлопывается в три слагаемых. Именно это используется в NeRF, 3D Gaussian Splatting и любом 3D-ML для параметризации поворотов.
В NeRF (Neural Radiance Fields): позы камер параметризуются через se(3) - 6D вектор. exp: se(3) -> SE(3) даёт матрицу 4x4. Оптимизация через градиентный спуск прямо на многообразии SE(3) - это Lie group optimization (used in COLMAP, ORB-SLAM3).
Каков exp(0) in SO(3) и что физически означает нулевой элемент so(3)?
Матричная экспонента нулевой матрицы всегда равна единичной: exp(0) = I. В контексте SO(3) это нулевой поворот (тождественное преобразование), соответствующий нулевой угловой скорости - покою.
BCH-формула и приложения в оптимизации
Baker-Campbell-Hausdorff: log(exp(X)*exp(Y)) = X + Y + [X,Y]/2 + [X,[X,Y]]/12 - ... Для малых X,Y: exp(X)*exp(Y) ~ exp(X+Y+[X,Y]/2). Это основа Lie group optimization: оптимизация не в R^n, а прямо на группе Ли.
Присоединённое представление Ad_g(X) = g*X*g^{-1} и его дифференциал ad_X(Y) = [X,Y]. В robotics: преобразование угловых скоростей между системами координат. В ML: Equivariant Networks (SE(3)-Transformers от Fabian Fuchs, DeepMind 2020) используют группы Ли для инвариантности к поворотам.
Почему для оптимизации на SO(3) нельзя делать R_new = R - lr*grad, а нужно R_new = exp(-lr*omega)*R?
SO(3) - нелинейное многообразие, не замкнутое относительно сложения матриц. R минус любая ненулевая матрица нарушит ортогональность и det=1. Обновление exp(-lr*omega)*R использует групповое умножение, которое сохраняет принадлежность SO(3).
Формула Родригеса
$R = \exp([\omega]_\times) = I + \sin\theta [\hat\omega]_\times + (1-\cos\theta)[\hat\omega]_\times^2$, где $\theta = |\omega|$, $\hat\omega = \omega/\theta$. Это поворот на угол $\theta$ вокруг оси $\hat\omega$. Логарифм: $\log(R) = [\omega]_\times$ с $\theta = \arccos\frac{\mathrm{tr}(R)-1}{2}$.
Итоги
- $SO(3)$ - 3D-многообразие; $\mathfrak{so}(3)$ - кососимметричные матрицы (касательное пространство в $I$)
- Формула Родригеса: $\exp([\omega]_\times) = I + \sin\theta[\hat\omega]_\times + (1-\cos\theta)[\hat\omega]_\times^2$
- Оптимизация на группах Ли: возмущение в $\mathfrak{so}(3)$, обновление через $\exp$, линеаризация через BCH
Связь с другими темами
Группы Ли - основа для описания симметрий в физике (стандартная модель: $SU(3) \times SU(2) \times U(1)$) и для экивариантных нейросетей. $SE(3) = SO(3) \ltimes \mathbb{R}^3$ (полупрямое произведение) описывает твёрдые тела; те же методы применяются в SLAM и визуальной одометрии.
- Связанные темы — развивает
Вопросы для размышления
- Почему нельзя использовать углы Эйлера для оптимизации ориентаций? Что такое gimbal lock и как BCH-подход его избегает?
- Формула Родригеса не работает при $\theta = \pi$. Почему это особая точка и как её обходить?
- SE(3)-трансформер использует экивариантность к вращениям для молекулярных структур. Как это математически формализуется?