Дифференциальные уравнения
Системы ОДУ
2018 год. Neural ODE (Chen et al., NeurIPS). Авторы заменили дискретные слои ResNet на непрерывную динамику: $dh/dt = f(h, t, \theta)$. Параметры - это правая часть ОДУ, forward pass - решение системы. Это не аналогия: ResNet - буквально метод Эйлера для системы ОДУ с шагом 1. Чтобы понять Neural ODE, нужно понять системы ОДУ. Чтобы понять устойчивость обучения - нужно понять собственные значения.
- **Neural ODE (Chen 2018):** ResNet = дискретный Euler solver для dx/dt = f(x,t). Adjoint method - обратное ОДУ для градиентов, O(1) памяти вместо O(L)
- **SIR-модель эпидемий:** система трёх ОДУ, R_0 определяется собственным значением линеаризации. Если Re(lambda) > 0 - пандемия растёт
- **Kalman filter (Tesla Autopilot, GPS):** линейная стохастическая система ОДУ, ковариации через матричную экспоненту, устойчивость - спектральный критерий
Предварительные знания
Система dx/dt = Ax и матричная экспонента
2018 год. NeurIPS, Монреаль. Tian Qi Chen показывает: ResNet - это не архитектура. Это метод Эйлера для системы ОДУ $dh/dt = f(h, t, \theta)$ с шагом $\Delta t = 1$. Дискретные слои - приближение непрерывной динамики. Параметры сети - правая часть уравнения. Forward pass - численное решение.
Система $\mathbf{x}'(t) = A\mathbf{x}(t)$ - это обобщение скалярного $x' = ax$ на векторный случай. Вектор $\mathbf{x}(t)$ описывает состояние: позиция плюс скорость маятника, концентрации реагентов, скрытые состояния нейронной сети. Матрица $A$ - законы взаимодействия компонент.
Решение по аналогии со скалярным: $\mathbf{x}(t) = e^{At}\mathbf{x}_0$. **Матричная экспонента** определяется рядом Тейлора: $e^{At} = I + At + \frac{(At)^2}{2!} + \frac{(At)^3}{3!} + \ldots$ Это не скаляр - это матрица, каждый элемент которой зависит от $t$. Вся информация о поведении системы закодирована в спектре матрицы $A$.
Вычислять $e^{At}$ напрямую через ряд неэффективно. Если $A$ диагонализуема ($A = PDP^{-1}$), то $e^{At} = Pe^{Dt}P^{-1}$, где $e^{Dt}$ - диагональная матрица с $e^{\lambda_i t}$ на диагонали. Каждое собственное значение даёт свою моду $c_i e^{\lambda_i t} \mathbf{v}_i$ - и они не пересекаются.
**Adjoint method** - способ вычисления градиентов через Neural ODE без хранения всех промежуточных состояний. Вместо backprop через шаги Эйлера решается сопряжённое ОДУ назад по времени. Та же матричная экспонента, только транспонированная и с обратным знаком времени. Экономия памяти: $O(1)$ вместо $O(L)$ для $L$ слоёв.
| Метод вычисления $e^{At}$ | Когда работает | Сложность |
|---|---|---|
| Диагонализация $A = PDP^{-1}$ | A имеет n лин. нез. собств. векторов | $O(n^3)$ |
| Жорданова форма | Всегда | $O(n^3)$, числ. неустойчиво |
| Паде (scipy.expm) | Всегда | $O(n^3)$, устойчиво |
| Ряд Тейлора (усечённый) | Малые $\|A\|$ | $O(kn^3)$ для k членов |
Матрица $A = \text{diag}(2, -3)$. Чему равно $e^{At}$?
Фазовые портреты: карта судьбы системы
Эпидемиологи 2020 года не решали SIR-модель аналитически - они смотрели на фазовый портрет. Система $S' = -\beta SI$, $I' = \beta SI - \gamma I$, $R' = \gamma I$ нелинейна, но линеаризация вблизи равновесия даёт матрицу $A$ и фазовый портрет, который немедленно говорит: пандемия затухает или взрывается.
**Фазовый портрет** - визуализация всех траекторий системы на плоскости состояний $(x_1, x_2)$. Не нужно решать уравнение - достаточно знать собственные значения $A$. Они дают четыре принципиально разных сценария.
| Тип | Собственные значения | Поведение траекторий |
|---|---|---|
| Устойчивый узел (sink) | $\lambda_1 < \lambda_2 < 0$ (вещ.) | Все стремятся к 0, быстро вдоль $v_1$ |
| Неустойчивый узел (source) | $0 < \lambda_1 < \lambda_2$ (вещ.) | Все убегают от 0 |
| Седло (saddle) | $\lambda_1 < 0 < \lambda_2$ | Притяжение вдоль $v_1$, отталкивание вдоль $v_2$ |
| Устойчивая спираль (spiral sink) | $\text{Re}(\lambda) < 0$, $\text{Im}(\lambda) \neq 0$ | Спирали, сходящиеся к 0 |
| Центр (center) | $\text{Re}(\lambda) = 0$, $\text{Im}(\lambda) \neq 0$ | Замкнутые эллипсы вокруг 0 |
| Неустойчивая спираль (spiral source) | $\text{Re}(\lambda) > 0$, $\text{Im}(\lambda) \neq 0$ | Спирали, уходящие от 0 |
Лотка-Вольтерра (хищник-жертва): линеаризация вблизи равновесия даёт чисто мнимые $\lambda = \pm i\omega$ - центр. В нелинейной системе это означает квазипериодические колебания. Добавление смертности хищников сдвигает $\text{Re}(\lambda) < 0$ - спираль, затухание. Один параметр меняет тип - и судьбу экосистемы.
**Собственные векторы задают направления.** В узле: траектории асимптотически параллельны собственному вектору медленной моды (с наименьшим $|\text{Re}(\lambda)|$). В седле: собственные векторы - оси притяжения и отталкивания. Фазовый портрет буквально рисует эти оси.
Матрица $A$ имеет собственные значения $\lambda = -1 \pm 3i$. Какой фазовый портрет?
Устойчивость: Re(lambda) < 0 - закон жизни систем
Kalman filter - оптимальный оценщик состояния линейной системы ОДУ с гауссовским шумом. Внутри него: линейная система $\mathbf{x}' = F\mathbf{x} + \mathbf{w}$, матричная экспонента $e^{Ft}$, ковариационная матрица через уравнение Риккати. Tesla Autopilot решает эту систему сто раз в секунду - оценивая позицию автомобиля по данным лидара, камер и GPS. Устойчивость Kalman filter = все $\text{Re}(\lambda_i) < 0$ для $F$.
**Критерий устойчивости** системы $\mathbf{x}' = A\mathbf{x}$: система асимптотически устойчива тогда и только тогда, когда $\text{Re}(\lambda_i) < 0$ для всех собственных значений. Один $\text{Re}(\lambda) > 0$ - и система расходится, независимо от остальных.
| Критерий | Условие | Поведение |
|---|---|---|
| Асимптотически устойчива | Все $\text{Re}(\lambda) < 0$ | $\mathbf{x}(t) \to 0$ экспоненциально |
| Маргинальная (Ляпунов) | Все $\text{Re}(\lambda) \leq 0$, есть $\text{Re} = 0$ | $\|\mathbf{x}(t)\|$ ограничена |
| Неустойчива | Есть $\text{Re}(\lambda) > 0$ | $\|\mathbf{x}(t)\| \to \infty$ |
| Скорость сходимости | $\max \text{Re}(\lambda)$ (spectral abscissa) | Чем левее спектр, тем быстрее |
Ляпунов, 1892
Александр Ляпунов в диссертации 1892 года заложил два столпа. Первый: для нелинейной системы $\mathbf{x}' = f(\mathbf{x})$ устойчивость вблизи равновесия $\mathbf{x}^*$ определяется линеаризацией - матрицей Якоби $A = Df(\mathbf{x}^*)$. Это **теорема о первом приближении**. Второй: метод функций Ляпунова - глобальный критерий устойчивости без собственных значений. Оба инструмента живут в Neural ODE: adjoint-устойчивость и анализ Lyapunov exponents для нелинейных сетей.
Для 2x2 систем есть быстрый критерий без вычисления собственных значений: $\text{trace}(A) < 0$ и $\det(A) > 0$ гарантируют оба $\text{Re}(\lambda) < 0$. Это **trace-determinant diagram** - карта всех типов фазовых портретов на плоскости $( \text{tr}(A), \det(A))$.
Собственные значения матрицы системы ОДУ всегда вещественные
Комплексные собственные значения $\alpha \pm \beta i$ - норма, не исключение. Они описывают спирали и колебания.
Характеристический полином вещественной матрицы имеет вещественные коэффициенты - поэтому комплексные корни приходят сопряжёнными парами $\alpha \pm \beta i$. Мнимая часть $\beta$ задаёт частоту колебаний, вещественная $\alpha$ - скорость роста или затухания. Большинство физических систем (маятники, цепи, волны, Neural ODE) - колебательные.
Система имеет собственные значения $\lambda = \{-10, -0.01, 0.5\}$. Что происходит при $t \to \infty$?
Ключевые идеи
- **x' = Ax** решается через матричную экспоненту: $x(t) = e^{At}x_0$. ResNet - дискретная аппроксимация этого решения
- **Фазовый портрет** - визуальная карта поведения: спирали (комплексные lambda), узлы (вещественные), сёдла (разные знаки)
- **Re(lambda):** < 0 - затухание, > 0 - рост, = 0 - колебания. Im(lambda): != 0 - вращение/спираль
- **Устойчивость:** все Re(lambda) < 0 - система выживает. Один Re > 0 - катастрофа. Спектр всё решает
Связанные темы
Системы ОДУ - мост между скалярным анализом и динамикой сложных систем:
- ОДУ второго порядка — Любое ОДУ n-го порядка сводится к системе n уравнений 1-го порядка
- ОДУ первого порядка — Скалярное ОДУ - частный случай системы размерности 1
- Динамические системы — Нелинейные системы, аттракторы, хаос - следующий уровень
Вопросы для размышления
- Neural ODE устойчива если Re(lambda) < 0 для якобиана f. Это именно то что проверяют в stability analysis нелинейных сетей - через Lyapunov exponents. Что происходит с обучением когда спектр уходит в правую полуплоскость?
- Система x' = Ax с A = [[0, 1], [-1, 0]] имеет lambda = +-i (центр). Добавляется малое трение: A -> [[0, 1], [-1, -eps]]. Как меняется фазовый портрет и что это значит для устойчивости?
- SIR-модель - нелинейная система. Линеаризация вблизи равновесия (S*, 0, R*) даёт R_0 через собственное значение. Когда линеаризация даёт правильный ответ о глобальном поведении, а когда - только локальный?
Связанные уроки
- de-02 — ОДУ 2-го порядка эквивалентно системе двух ОДУ 1-го
- de-01 — Скалярное ОДУ - частный случай системы размерности 1
- dyn-01 — Фазовые портреты и аттракторы - прямое продолжение темы
- nm-01 — Численное решение систем ОДУ - Euler, RK4, adjoint
- la-13-eigenvectors