Динамические системы

Dynamical Systems в ML

В 2024 году Нобелевская премия по физике ушла Хопфилду и Хинтону. Комитет специально упомянул связь с физикой. Neural ODE, Hamiltonian NN, Lagrangian NN - архитектуры, сохраняющие физические законы сохранения, сейчас активно применяются в научном ML (SciML). Граница между физикой и ML растворяется.

**SciML (Scientific ML):** нейронные ОДУ для моделирования физических систем - от белков до турбулентности; в 100× быстрее классических симуляторов
**Управление:** резервуарные вычисления в edge AI - маленькие ESN работают на микроконтроллерах для real-time предсказания временных рядов
**Архитектуры 2024:** Mamba (selective state spaces), xLSTM - рекуррентные архитектуры с явным контролем устойчивости динамики

Предварительные знания

Neurodynamics

Neural Ode

**ResNet x_{k+1} = x_k + f(x_k, θ_k) - это метод Эйлера для ОДУ dh/dt = f(h, t, θ).** При бесконечном числе слоёв с бесконечно малым шагом ResNet превращается в Neural ODE - непрерывную динамику в пространстве признаков. Это открывает новые возможности: адаптивные интеграторы, нормализующие потоки, O(1) памяти при обучении.

**Neural ODE (Chen et al., 2018):** скрытое состояние эволюционирует как ОДУ: **dh/dt = f_θ(h, t)**. Прямой проход: числовое интегрирование (RK45, Dormand-Prince). Обратный проход: метод сопряжённых переменных (adjoint method): **da/dt = −aᵀ ∂f/∂h**, исключая хранение промежуточных состояний - O(1) памяти. Градиент по параметрам: **dL/dθ = −∫ aᵀ ∂f/∂θ dt**.

Архитектура	Аналог в динамических системах	Преимущество
ResNet	Метод Эйлера dh/dt = f(h)	Простота
Neural ODE	Непрерывное ОДУ с адаптивным шагом	O(1) памяти, плавность
Continuous NF	Уравнение непрерывности плотности	Точная вероятность
Latent ODE	ОДУ в латентном пространстве	Нерегулярные временные ряды

Chen et al., NeurIPS 2018

Рики Чэнь, Юлия Рубанова, Брэндон Амос и Давид Дюбрюль получили Outstanding Paper Award на NeurIPS 2018 за Neural ODE. Ключевая идея - использовать черноящичный ODE-solver вместо явного backprop: как решать обратную задачу не зная «шагов» прямого прохода. Adjoint method, независимо переоткрытый для ML, был известен в оптимальном управлении с 1960-х (Понтрягин, Брайсон).

Главное преимущество Neural ODE перед ResNet с точки зрения вычислений:

Reservoir

**Зачем обучать все веса нейросети, если можно обучить только последний слой?** Reservoir computing (эхо-сетевые вычисления): большая случайная рекуррентная сеть («резервуар») фиксирована, обучается только выходной слой. Это работает благодаря хаотическому резервуару, который «разворачивает» входной сигнал в богатое пространство признаков.

**Echo State Network (ESN, Яэгер 2001):** резервуар - случайная рекуррентная сеть: **h[t] = (1−α)h[t−1] + α·f(W_in·u[t] + W·h[t−1])**, где u - вход, h - состояние резервуара, W - случайная матрица. Выход: **y[t] = W_out·h[t]** (только W_out обучается линейной регрессией). Ключевое условие: **спектральный радиус ρ(W) < 1** (эхо-свойство, echo state property).

Условие	Значение ρ(W)	Динамика резервуара
Слишком малый	ρ ≪ 1	Быстрое забывание входа - плохая память
Оптимальный	ρ ≈ 0.9	Хорошая «кратковременная» память
На краю хаоса	ρ ≈ 1	Максимальная вычислительная мощность
Хаотический	ρ > 1	Нестабильность - echo state property нарушена

Для Echo State Network необходимо, чтобы спектральный радиус матрицы резервуара ρ(W) < 1. Что нарушается при ρ ≥ 1?

Stability Training

**Vanishing and exploding gradients - это вопрос устойчивости динамической системы.** При обратном распространении через L слоёв градиент умножается на якобианы слоёв L раз. Если собственные значения якобиана < 1 - градиент затухает, если > 1 - взрывается. Это точно то же, что показатели Ляпунова в нелинейной динамике.

**Устойчивость обучения:** при обратном распространении: **∂L/∂h[0] = (∂L/∂h[L]) · J_L · J_{L-1} · ... · J_1**, где Jₖ = ∂h[k]/∂h[k-1] - якобиан слоя k. Если σ₁ = spectral norm(J) < 1 - vanishing gradient. Если σ₁ > 1 - exploding gradient. **Условие изометрии:** ||Jh|| = ||h|| для всех h - градиент сохраняет норму через все слои.

Техника	Механизм	Связь с динамическими системами
ReLU активация	Производная ∈ {0, 1} - нет затухания	Нейтральная устойчивость при x > 0
Batch Normalization	Нормализует активации к N(0,1)	Стабилизация якобиана
Gradient Clipping	Обрезает норму градиента	Предотвращение exploding gradient
Skip connections	Добавляет путь с J ≈ I	Аттрактор с λ ≈ 0 (нейтральный)

Почему сигмоидная активация вызывает vanishing gradient в глубоких сетях?

Dynamical Isometry

**Идеальная нейросеть при инициализации - это изометрия.** Если все единственные значения якобиана равны 1, то градиент и сигнал распространяются через сеть без искажений. Это состояние называется «динамической изометрией», и правильная инициализация его обеспечивает - отсюда практика инициализации Glorot, He и ортогональной инициализации.

**Динамическая изометрия (Saxe et al., 2014):** условие, при котором все единственные значения якобиана ∂h[L]/∂h[0] равны 1. Для линейных сетей достигается ортогональной инициализацией. Для нелинейных (ReLU, tanh) - специальными вариантами. Главный инструмент: **теория случайных матриц** - спектр произведения W_L·W_{L-1}·...·W_1 при конкретных распределениях.

Инициализация	Распределение весов	Принцип
Xavier/Glorot	U[−√(6/(n_in+n_out)), +√(6/(n_in+n_out))]	Var[h] = Var[x] для tanh
He	N(0, 2/n_in)	Var[h] = Var[x] для ReLU
Ортогональная	QR(Normal(0,1))	Сингулярные значения = 1
LSUV	Адаптивная ортогон.	Дисперсия выхода каждого слоя = 1

Saxe et al., ICLR 2014

Эндрю Сакс, Джеймс МакКлелланд и Сурья Ганголи в 2014 году ввели понятие «динамической изометрии» и показали, что ортогональная инициализация позволяет обучать линейные сети глубиной 1000+ слоёв. Их теоретический анализ через теорию случайных матриц предсказал, что правильная инициализация критически важна - позже это подтвердилось на практике с BatchNorm и residual connections.

Проблемы обучения нейросетей (vanishing gradient, exploding gradient) - это инженерные проблемы, решаемые «трюками»

Vanishing/exploding gradient - это вопрос устойчивости динамической системы: показатели Ляпунова произведения якобианов. Решения (ReLU, BatchNorm, skip connections, ортогональная инициализация) имеют строгое математическое обоснование через теорию динамических систем и случайных матриц.

Backprop через L слоёв - это вычисление производной отображения f^L = f∘f∘...∘f. Нестабильность этого произведения - прямой аналог показателей Ляпунова для итерированного отображения. BatchNorm нормирует состояние - аналог «сброса» в центр аттрактора. ResNet добавляет I к якобиану - гарантируя λ_min ≥ 1.

Динамическая изометрия достигается, когда все сингулярные значения якобиана ∂h[L]/∂h[0] равны 1. Что это означает для обучения?

Ключевые идеи

**Neural ODE:** ResNet = метод Эйлера; непрерывный предел - dh/dt = f_θ(h,t); adjoint method даёт O(1) памяти при обратном проходе
**Reservoir computing (ESN):** случайная рекуррентная сеть + линейный выход; spectral radius ρ < 1 гарантирует echo state property
**Vanishing/exploding gradient = показатели Ляпунова** произведения якобианов; ReLU, BatchNorm, skip connections - решения через динамику
**Динамическая изометрия:** ортогональная инициализация даёт ||J|| = 1 - идеальное условие для обучения глубоких сетей

Связанные темы

ML и динамические системы - это одно и то же:

Нейродинамика — Биологические нейронные сети - прообраз ML моделей; Hopfield → современные Hopfield Networks
Хаос и странные аттракторы — Взрывной градиент = положительный показатель Ляпунова; gradient clipping ограничивает расхождение
Гамильтоновы системы — Hamiltonian NN - нейросеть с симплектической структурой; сохраняет энергию точно

Вопросы для размышления

Transformer архитектура - это тоже динамическая система? Какое уравнение описывает attention mechanism как итерацию? (Подсказка: mean-field iteration)
Если нейросеть - это динамическая система, то переобучение - это что? Потеря обобщающей способности можно трактовать как... что именно в терминах динамики?
Reservoir computing не обучает рекуррентные веса. Каков теоретический предел выразительности ESN по сравнению с полностью обученным RNN?

Связанные уроки