Дифференциальные уравнения

Системы ОДУ

2018 год. Neural ODE (Chen et al., NeurIPS). Авторы заменили дискретные слои ResNet на непрерывную динамику: $dh/dt = f(h, t, \theta)$. Параметры - это правая часть ОДУ, forward pass - решение системы. Это не аналогия: ResNet - буквально метод Эйлера для системы ОДУ с шагом 1. Чтобы понять Neural ODE, нужно понять системы ОДУ. Чтобы понять устойчивость обучения - нужно понять собственные значения.

**Neural ODE (Chen 2018):** ResNet = дискретный Euler solver для dx/dt = f(x,t). Adjoint method - обратное ОДУ для градиентов, O(1) памяти вместо O(L)
**SIR-модель эпидемий:** система трёх ОДУ, R_0 определяется собственным значением линеаризации. Если Re(lambda) > 0 - пандемия растёт
**Kalman filter (Tesla Autopilot, GPS):** линейная стохастическая система ОДУ, ковариации через матричную экспоненту, устойчивость - спектральный критерий

Предварительные знания

ОДУ второго порядка

Система dx/dt = Ax и матричная экспонента

2018 год. NeurIPS, Монреаль. Tian Qi Chen показывает: ResNet - это не архитектура. Это метод Эйлера для системы ОДУ $dh/dt = f(h, t, \theta)$ с шагом $\Delta t = 1$. Дискретные слои - приближение непрерывной динамики. Параметры сети - правая часть уравнения. Forward pass - численное решение.

Система $\mathbf{x}'(t) = A\mathbf{x}(t)$ - это обобщение скалярного $x' = ax$ на векторный случай. Вектор $\mathbf{x}(t)$ описывает состояние: позиция плюс скорость маятника, концентрации реагентов, скрытые состояния нейронной сети. Матрица $A$ - законы взаимодействия компонент.

Решение по аналогии со скалярным: $\mathbf{x}(t) = e^{At}\mathbf{x}_0$. **Матричная экспонента** определяется рядом Тейлора: $e^{At} = I + At + \frac{(At)^2}{2!} + \frac{(At)^3}{3!} + \ldots$ Это не скаляр - это матрица, каждый элемент которой зависит от $t$. Вся информация о поведении системы закодирована в спектре матрицы $A$.

Вычислять $e^{At}$ напрямую через ряд неэффективно. Если $A$ диагонализуема ($A = PDP^{-1}$), то $e^{At} = Pe^{Dt}P^{-1}$, где $e^{Dt}$ - диагональная матрица с $e^{\lambda_i t}$ на диагонали. Каждое собственное значение даёт свою моду $c_i e^{\lambda_i t} \mathbf{v}_i$ - и они не пересекаются.

**Adjoint method** - способ вычисления градиентов через Neural ODE без хранения всех промежуточных состояний. Вместо backprop через шаги Эйлера решается сопряжённое ОДУ назад по времени. Та же матричная экспонента, только транспонированная и с обратным знаком времени. Экономия памяти: $O(1)$ вместо $O(L)$ для $L$ слоёв.

Метод вычисления $e^{At}$	Когда работает	Сложность
Диагонализация $A = PDP^{-1}$	A имеет n лин. нез. собств. векторов	$O(n^3)$
Жорданова форма	Всегда	$O(n^3)$, числ. неустойчиво
Паде (scipy.expm)	Всегда	$O(n^3)$, устойчиво
Ряд Тейлора (усечённый)	Малые $\\|A\\|$	$O(kn^3)$ для k членов

Матрица $A = \text{diag}(2, -3)$. Чему равно $e^{At}$?

Фазовые портреты: карта судьбы системы

Эпидемиологи 2020 года не решали SIR-модель аналитически - они смотрели на фазовый портрет. Система $S' = -\beta SI$, $I' = \beta SI - \gamma I$, $R' = \gamma I$ нелинейна, но линеаризация вблизи равновесия даёт матрицу $A$ и фазовый портрет, который немедленно говорит: пандемия затухает или взрывается.

**Фазовый портрет** - визуализация всех траекторий системы на плоскости состояний $(x_1, x_2)$. Не нужно решать уравнение - достаточно знать собственные значения $A$. Они дают четыре принципиально разных сценария.

Тип	Собственные значения	Поведение траекторий
Устойчивый узел (sink)	$\lambda_1 < \lambda_2 < 0$ (вещ.)	Все стремятся к 0, быстро вдоль $v_1$
Неустойчивый узел (source)	$0 < \lambda_1 < \lambda_2$ (вещ.)	Все убегают от 0
Седло (saddle)	$\lambda_1 < 0 < \lambda_2$	Притяжение вдоль $v_1$, отталкивание вдоль $v_2$
Устойчивая спираль (spiral sink)	$\text{Re}(\lambda) < 0$, $\text{Im}(\lambda) \neq 0$	Спирали, сходящиеся к 0
Центр (center)	$\text{Re}(\lambda) = 0$, $\text{Im}(\lambda) \neq 0$	Замкнутые эллипсы вокруг 0
Неустойчивая спираль (spiral source)	$\text{Re}(\lambda) > 0$, $\text{Im}(\lambda) \neq 0$	Спирали, уходящие от 0

Лотка-Вольтерра (хищник-жертва): линеаризация вблизи равновесия даёт чисто мнимые $\lambda = \pm i\omega$ - центр. В нелинейной системе это означает квазипериодические колебания. Добавление смертности хищников сдвигает $\text{Re}(\lambda) < 0$ - спираль, затухание. Один параметр меняет тип - и судьбу экосистемы.

**Собственные векторы задают направления.** В узле: траектории асимптотически параллельны собственному вектору медленной моды (с наименьшим $|\text{Re}(\lambda)|$). В седле: собственные векторы - оси притяжения и отталкивания. Фазовый портрет буквально рисует эти оси.

Матрица $A$ имеет собственные значения $\lambda = -1 \pm 3i$. Какой фазовый портрет?

Устойчивость: Re(lambda) < 0 - закон жизни систем

Kalman filter - оптимальный оценщик состояния линейной системы ОДУ с гауссовским шумом. Внутри него: линейная система $\mathbf{x}' = F\mathbf{x} + \mathbf{w}$, матричная экспонента $e^{Ft}$, ковариационная матрица через уравнение Риккати. Tesla Autopilot решает эту систему сто раз в секунду - оценивая позицию автомобиля по данным лидара, камер и GPS. Устойчивость Kalman filter = все $\text{Re}(\lambda_i) < 0$ для $F$.

**Критерий устойчивости** системы $\mathbf{x}' = A\mathbf{x}$: система асимптотически устойчива тогда и только тогда, когда $\text{Re}(\lambda_i) < 0$ для всех собственных значений. Один $\text{Re}(\lambda) > 0$ - и система расходится, независимо от остальных.

Критерий	Условие	Поведение
Асимптотически устойчива	Все $\text{Re}(\lambda) < 0$	$\mathbf{x}(t) \to 0$ экспоненциально
Маргинальная (Ляпунов)	Все $\text{Re}(\lambda) \leq 0$, есть $\text{Re} = 0$	$\\|\mathbf{x}(t)\\|$ ограничена
Неустойчива	Есть $\text{Re}(\lambda) > 0$	$\\|\mathbf{x}(t)\\| \to \infty$
Скорость сходимости	$\max \text{Re}(\lambda)$ (spectral abscissa)	Чем левее спектр, тем быстрее

Ляпунов, 1892

Александр Ляпунов в диссертации 1892 года заложил два столпа. Первый: для нелинейной системы $\mathbf{x}' = f(\mathbf{x})$ устойчивость вблизи равновесия $\mathbf{x}^*$ определяется линеаризацией - матрицей Якоби $A = Df(\mathbf{x}^*)$. Это **теорема о первом приближении**. Второй: метод функций Ляпунова - глобальный критерий устойчивости без собственных значений. Оба инструмента живут в Neural ODE: adjoint-устойчивость и анализ Lyapunov exponents для нелинейных сетей.

Для 2x2 систем есть быстрый критерий без вычисления собственных значений: $\text{trace}(A) < 0$ и $\det(A) > 0$ гарантируют оба $\text{Re}(\lambda) < 0$. Это **trace-determinant diagram** - карта всех типов фазовых портретов на плоскости $( \text{tr}(A), \det(A))$.

Собственные значения матрицы системы ОДУ всегда вещественные

Комплексные собственные значения $\alpha \pm \beta i$ - норма, не исключение. Они описывают спирали и колебания.

Характеристический полином вещественной матрицы имеет вещественные коэффициенты - поэтому комплексные корни приходят сопряжёнными парами $\alpha \pm \beta i$. Мнимая часть $\beta$ задаёт частоту колебаний, вещественная $\alpha$ - скорость роста или затухания. Большинство физических систем (маятники, цепи, волны, Neural ODE) - колебательные.

Система имеет собственные значения $\lambda = \{-10, -0.01, 0.5\}$. Что происходит при $t \to \infty$?

Ключевые идеи

**x' = Ax** решается через матричную экспоненту: $x(t) = e^{At}x_0$. ResNet - дискретная аппроксимация этого решения
**Фазовый портрет** - визуальная карта поведения: спирали (комплексные lambda), узлы (вещественные), сёдла (разные знаки)
**Re(lambda):** < 0 - затухание, > 0 - рост, = 0 - колебания. Im(lambda): != 0 - вращение/спираль
**Устойчивость:** все Re(lambda) < 0 - система выживает. Один Re > 0 - катастрофа. Спектр всё решает

Связанные темы

Системы ОДУ - мост между скалярным анализом и динамикой сложных систем:

ОДУ второго порядка — Любое ОДУ n-го порядка сводится к системе n уравнений 1-го порядка
ОДУ первого порядка — Скалярное ОДУ - частный случай системы размерности 1
Динамические системы — Нелинейные системы, аттракторы, хаос - следующий уровень

Вопросы для размышления

Neural ODE устойчива если Re(lambda) < 0 для якобиана f. Это именно то что проверяют в stability analysis нелинейных сетей - через Lyapunov exponents. Что происходит с обучением когда спектр уходит в правую полуплоскость?
Система x' = Ax с A = [[0, 1], [-1, 0]] имеет lambda = +-i (центр). Добавляется малое трение: A -> [[0, 1], [-1, -eps]]. Как меняется фазовый портрет и что это значит для устойчивости?
SIR-модель - нелинейная система. Линеаризация вблизи равновесия (S*, 0, R*) даёт R_0 через собственное значение. Когда линеаризация даёт правильный ответ о глобальном поведении, а когда - только локальный?

Связанные уроки

de-02 — ОДУ 2-го порядка эквивалентно системе двух ОДУ 1-го
de-01 — Скалярное ОДУ - частный случай системы размерности 1
dyn-01 — Фазовые портреты и аттракторы - прямое продолжение темы
nm-01 — Численное решение систем ОДУ - Euler, RK4, adjoint
la-13-eigenvectors