Дифференциальные уравнения

Стохастические дифференциальные уравнения и формула Ито

Цели урока

Определить броуновское движение и понять его квадратичную вариацию
Вывести формулу Ито и применить к геометрическому броуновскому движению
Связать SDE с уравнением Фоккера-Планка для плотности вероятности
Понять как score-based диффузия и RLHF используют стохастическое исчисление

Предварительные знания

Теория вероятностей (гауссовские процессы)
ODE (задача Коши)
Функциональный анализ

Волновое уравнение

Как из случайного блуждания молекул в воде выводится формула, по которой ежедневно оценивается 9.2 трлн долларов деривативов?

Формула Блэка-Шоулза (1973) - прямое следствие формулы Ито для цен активов, Нобелевская премия 1997
Score-based диффузионные модели (Stable Diffusion, DALL-E 3) - обратное SDE от шума к изображению
RLHF для ChatGPT - стохастическая задача управления в пространстве языковых политик
Молекулярная динамика в drug discovery: SDE для конформационных изменений белков

Ито, Эйнштейн и рождение стохастического исчисления

Броун в 1827 году наблюдал, Башелье в 1900 году применил к ценам акций, Эйнштейн в 1905 году объяснил физику. Но строгое исчисление для таких процессов создал Кийоши Ито в 1944 году во время Второй мировой войны, работая в Японии. Его статья 1944 года прошла почти незамеченной. К 1950-м годам западные математики независимо дошли до похожих идей. Сегодня формула Ито - один из самых цитируемых результатов прикладной математики: финансы, физика, биология, машинное обучение.

Броуновское движение и стохастический интеграл

Роберт Браун в 1827 году наблюдал хаотическое движение пыльцы в воде. Эйнштейн в 1905 году объяснил: частица испытывает 10^21 ударов молекул в секунду. Математическую модель дал Винер в 1923 году - процесс W_t с независимыми гауссовыми приращениями. Кийоши Ито в 1944 году определил интеграл по такому процессу - и открыл стохастическое исчисление.

Интеграл Стратоновича (альтернатива Ито) использует среднюю точку разбиения: int H dW_S = lim sum H_{(t_k+t_{k+1})/2} * Delta W_k. Он удовлетворяет обычному правилу цепного дифференцирования, но не является мартингалом. В физике часто используют Стратоновича, в финансах - Ито.

Почему (dW_t)^2 = dt, а не 0?

Формула Ито и её применения

Формула Ито - аналог правила цепного дифференцирования для стохастических процессов. Ключевое отличие от детерминированного исчисления: появляется дополнительный член (1/2)*f''*sigma^2*dt, порождённый квадратичной вариацией. Без него формула Блэка-Шоулза, оценивающая деривативы на 9.2 трлн долларов ежедневно, была бы неверна.

Знак доллара в формулах: формула Ито применима только при условии адаптированности (non-anticipating) подынтегральных процессов. Если sigma зависит от будущих значений W_t - интеграл не определён в смысле Ито. В физике иногда используют интеграл Стратоновича, который даёт другой результат для той же SDE.

Почему дрейф log(S_t) равен mu - sigma^2/2, а не mu?

Уравнение Фоккера-Планка и стационарные распределения

Вместо слежения за траекториями можно описывать эволюцию плотности вероятности p(x,t). Уравнение Фоккера-Планка (Колмогорова второго рода) - PDE для p(x,t) соответствующего SDE. Это двойник формулы Ито: каждому SDE соответствует своя FPE, и наоборот. Score-based diffusion models (Stable Diffusion, DALL-E) строятся именно на этой дуальности.

Связь FPE и машинного обучения: Score-based diffusion models (Song et al., 2020) обучают нейросеть аппроксимировать score-функцию nabla_x log p_t(x). Sampling = решение обратного SDE от чистого шума к данным. Именно это лежит в основе Stable Diffusion и DALL-E 3.

Что описывает уравнение Фоккера-Планка в отличие от SDE?

Стохастическое управление и RLHF

Принцип Понтрягина и HJB-уравнение обобщаются на стохастические системы: задача управления SDE dX = f(X,u)dt + sigma(X)dW. Стохастическое HJB добавляет член (sigma^2/2)*V_xx. Это математическая основа RLHF (Reinforcement Learning from Human Feedback) - метода, которым обучали ChatGPT.

RLHF и стохастическое управление

ChatGPT как решение задачи стохастического управления

RLHF обучает языковую модель через политику pi(a|s) - вероятностное распределение следующего токена. Это стохастическая задача управления: состояние s = контекст, действие a = токен. Reward = оценка человека. PPO-алгоритм (Schulman, 2017) оптимизирует ожидаемый reward через gradient ascent по параметрам pi. Математически - стохастический градиентный подъём по вариационной нижней оценке стохастического функционала J. Каждый шаг обучения - итерация в пространстве политик.

Почему оптимальное управление для стохастического LQR совпадает с детерминированным?

Связи с другими областями

Стохастическое исчисление - математический фундамент финансовой математики, диффузионных моделей и стохастического управления.

Диффузионные модели (Stable Diffusion) — Связанная тема
Финансовая математика — Связанная тема
RLHF и PPO — Связанная тема
Молекулярная динамика — Связанная тема

Итоги

Броуновское движение имеет квадратичную вариацию [W,W]_t = t, что означает (dW)^2 = dt
Формула Ито: df(X_t) = f_x dX + (1/2)f_xx sigma^2 dt - дополнительный член из квадратичной вариации
FPE - двойник SDE: описывает эволюцию плотности вероятности, используется в диффузионных моделях
Стохастическое LQR решается той же матрицей Риккати - шум добавляет только константу к стоимости

Вопросы для размышления

В чём разница между интегралами Ито и Стратоновича и когда каждый из них предпочтительнее?
Почему score-based диффузионные модели используют обратное SDE, а не просто инвертируют прямой процесс?
Как изменение меры Гирсанова позволяет оценивать деривативы без знания реального дрейфа mu?

Связанные уроки

diff-equations-28 — Марковские полугруппы - генераторы стохастических процессов
de-27-schrodinger — Стохастическое квантование связывает SDE с уравнением Шрёдингера
de-26-optimal-control — Стохастическое управление обобщает принцип Понтрягина на SDE