Динамические системы
Dynamical Systems в ML
В 2024 году Нобелевская премия по физике ушла Хопфилду и Хинтону. Комитет специально упомянул связь с физикой. Neural ODE, Hamiltonian NN, Lagrangian NN - архитектуры, сохраняющие физические законы сохранения, сейчас активно применяются в научном ML (SciML). Граница между физикой и ML растворяется.
- **SciML (Scientific ML):** нейронные ОДУ для моделирования физических систем - от белков до турбулентности; в 100× быстрее классических симуляторов
- **Управление:** резервуарные вычисления в edge AI - маленькие ESN работают на микроконтроллерах для real-time предсказания временных рядов
- **Архитектуры 2024:** Mamba (selective state spaces), xLSTM - рекуррентные архитектуры с явным контролем устойчивости динамики
Предварительные знания
Neural Ode
**ResNet x_{k+1} = x_k + f(x_k, θ_k) - это метод Эйлера для ОДУ dh/dt = f(h, t, θ).** При бесконечном числе слоёв с бесконечно малым шагом ResNet превращается в Neural ODE - непрерывную динамику в пространстве признаков. Это открывает новые возможности: адаптивные интеграторы, нормализующие потоки, O(1) памяти при обучении.
**Neural ODE (Chen et al., 2018):** скрытое состояние эволюционирует как ОДУ: **dh/dt = f_θ(h, t)**. Прямой проход: числовое интегрирование (RK45, Dormand-Prince). Обратный проход: метод сопряжённых переменных (adjoint method): **da/dt = −aᵀ ∂f/∂h**, исключая хранение промежуточных состояний - O(1) памяти. Градиент по параметрам: **dL/dθ = −∫ aᵀ ∂f/∂θ dt**.
| Архитектура | Аналог в динамических системах | Преимущество |
|---|---|---|
| ResNet | Метод Эйлера dh/dt = f(h) | Простота |
| Neural ODE | Непрерывное ОДУ с адаптивным шагом | O(1) памяти, плавность |
| Continuous NF | Уравнение непрерывности плотности | Точная вероятность |
| Latent ODE | ОДУ в латентном пространстве | Нерегулярные временные ряды |
Chen et al., NeurIPS 2018
Рики Чэнь, Юлия Рубанова, Брэндон Амос и Давид Дюбрюль получили Outstanding Paper Award на NeurIPS 2018 за Neural ODE. Ключевая идея - использовать черноящичный ODE-solver вместо явного backprop: как решать обратную задачу не зная «шагов» прямого прохода. Adjoint method, независимо переоткрытый для ML, был известен в оптимальном управлении с 1960-х (Понтрягин, Брайсон).
Главное преимущество Neural ODE перед ResNet с точки зрения вычислений:
Reservoir
**Зачем обучать все веса нейросети, если можно обучить только последний слой?** Reservoir computing (эхо-сетевые вычисления): большая случайная рекуррентная сеть («резервуар») фиксирована, обучается только выходной слой. Это работает благодаря хаотическому резервуару, который «разворачивает» входной сигнал в богатое пространство признаков.
**Echo State Network (ESN, Яэгер 2001):** резервуар - случайная рекуррентная сеть: **h[t] = (1−α)h[t−1] + α·f(W_in·u[t] + W·h[t−1])**, где u - вход, h - состояние резервуара, W - случайная матрица. Выход: **y[t] = W_out·h[t]** (только W_out обучается линейной регрессией). Ключевое условие: **спектральный радиус ρ(W) < 1** (эхо-свойство, echo state property).
| Условие | Значение ρ(W) | Динамика резервуара |
|---|---|---|
| Слишком малый | ρ ≪ 1 | Быстрое забывание входа - плохая память |
| Оптимальный | ρ ≈ 0.9 | Хорошая «кратковременная» память |
| На краю хаоса | ρ ≈ 1 | Максимальная вычислительная мощность |
| Хаотический | ρ > 1 | Нестабильность - echo state property нарушена |
Для Echo State Network необходимо, чтобы спектральный радиус матрицы резервуара ρ(W) < 1. Что нарушается при ρ ≥ 1?
Stability Training
**Vanishing and exploding gradients - это вопрос устойчивости динамической системы.** При обратном распространении через L слоёв градиент умножается на якобианы слоёв L раз. Если собственные значения якобиана < 1 - градиент затухает, если > 1 - взрывается. Это точно то же, что показатели Ляпунова в нелинейной динамике.
**Устойчивость обучения:** при обратном распространении: **∂L/∂h[0] = (∂L/∂h[L]) · J_L · J_{L-1} · ... · J_1**, где Jₖ = ∂h[k]/∂h[k-1] - якобиан слоя k. Если σ₁ = spectral norm(J) < 1 - vanishing gradient. Если σ₁ > 1 - exploding gradient. **Условие изометрии:** ||Jh|| = ||h|| для всех h - градиент сохраняет норму через все слои.
| Техника | Механизм | Связь с динамическими системами |
|---|---|---|
| ReLU активация | Производная ∈ {0, 1} - нет затухания | Нейтральная устойчивость при x > 0 |
| Batch Normalization | Нормализует активации к N(0,1) | Стабилизация якобиана |
| Gradient Clipping | Обрезает норму градиента | Предотвращение exploding gradient |
| Skip connections | Добавляет путь с J ≈ I | Аттрактор с λ ≈ 0 (нейтральный) |
Почему сигмоидная активация вызывает vanishing gradient в глубоких сетях?
Dynamical Isometry
**Идеальная нейросеть при инициализации - это изометрия.** Если все единственные значения якобиана равны 1, то градиент и сигнал распространяются через сеть без искажений. Это состояние называется «динамической изометрией», и правильная инициализация его обеспечивает - отсюда практика инициализации Glorot, He и ортогональной инициализации.
**Динамическая изометрия (Saxe et al., 2014):** условие, при котором все единственные значения якобиана ∂h[L]/∂h[0] равны 1. Для линейных сетей достигается ортогональной инициализацией. Для нелинейных (ReLU, tanh) - специальными вариантами. Главный инструмент: **теория случайных матриц** - спектр произведения W_L·W_{L-1}·...·W_1 при конкретных распределениях.
| Инициализация | Распределение весов | Принцип |
|---|---|---|
| Xavier/Glorot | U[−√(6/(n_in+n_out)), +√(6/(n_in+n_out))] | Var[h] = Var[x] для tanh |
| He | N(0, 2/n_in) | Var[h] = Var[x] для ReLU |
| Ортогональная | QR(Normal(0,1)) | Сингулярные значения = 1 |
| LSUV | Адаптивная ортогон. | Дисперсия выхода каждого слоя = 1 |
Saxe et al., ICLR 2014
Эндрю Сакс, Джеймс МакКлелланд и Сурья Ганголи в 2014 году ввели понятие «динамической изометрии» и показали, что ортогональная инициализация позволяет обучать линейные сети глубиной 1000+ слоёв. Их теоретический анализ через теорию случайных матриц предсказал, что правильная инициализация критически важна - позже это подтвердилось на практике с BatchNorm и residual connections.
Проблемы обучения нейросетей (vanishing gradient, exploding gradient) - это инженерные проблемы, решаемые «трюками»
Vanishing/exploding gradient - это вопрос устойчивости динамической системы: показатели Ляпунова произведения якобианов. Решения (ReLU, BatchNorm, skip connections, ортогональная инициализация) имеют строгое математическое обоснование через теорию динамических систем и случайных матриц.
Backprop через L слоёв - это вычисление производной отображения f^L = f∘f∘...∘f. Нестабильность этого произведения - прямой аналог показателей Ляпунова для итерированного отображения. BatchNorm нормирует состояние - аналог «сброса» в центр аттрактора. ResNet добавляет I к якобиану - гарантируя λ_min ≥ 1.
Динамическая изометрия достигается, когда все сингулярные значения якобиана ∂h[L]/∂h[0] равны 1. Что это означает для обучения?
Ключевые идеи
- **Neural ODE:** ResNet = метод Эйлера; непрерывный предел - dh/dt = f_θ(h,t); adjoint method даёт O(1) памяти при обратном проходе
- **Reservoir computing (ESN):** случайная рекуррентная сеть + линейный выход; spectral radius ρ < 1 гарантирует echo state property
- **Vanishing/exploding gradient = показатели Ляпунова** произведения якобианов; ReLU, BatchNorm, skip connections - решения через динамику
- **Динамическая изометрия:** ортогональная инициализация даёт ||J|| = 1 - идеальное условие для обучения глубоких сетей
Связанные темы
ML и динамические системы - это одно и то же:
- Нейродинамика — Биологические нейронные сети - прообраз ML моделей; Hopfield → современные Hopfield Networks
- Хаос и странные аттракторы — Взрывной градиент = положительный показатель Ляпунова; gradient clipping ограничивает расхождение
- Гамильтоновы системы — Hamiltonian NN - нейросеть с симплектической структурой; сохраняет энергию точно
Вопросы для размышления
- Transformer архитектура - это тоже динамическая система? Какое уравнение описывает attention mechanism как итерацию? (Подсказка: mean-field iteration)
- Если нейросеть - это динамическая система, то переобучение - это что? Потеря обобщающей способности можно трактовать как... что именно в терминах динамики?
- Reservoir computing не обучает рекуррентные веса. Каков теоретический предел выразительности ESN по сравнению с полностью обученным RNN?