Дифференциальные уравнения
Стохастические дифференциальные уравнения и формула Ито
Цели урока
- Определить броуновское движение и понять его квадратичную вариацию
- Вывести формулу Ито и применить к геометрическому броуновскому движению
- Связать SDE с уравнением Фоккера-Планка для плотности вероятности
- Понять как score-based диффузия и RLHF используют стохастическое исчисление
Предварительные знания
- Теория вероятностей (гауссовские процессы)
- ODE (задача Коши)
- Функциональный анализ
Как из случайного блуждания молекул в воде выводится формула, по которой ежедневно оценивается 9.2 трлн долларов деривативов?
- Формула Блэка-Шоулза (1973) - прямое следствие формулы Ито для цен активов, Нобелевская премия 1997
- Score-based диффузионные модели (Stable Diffusion, DALL-E 3) - обратное SDE от шума к изображению
- RLHF для ChatGPT - стохастическая задача управления в пространстве языковых политик
- Молекулярная динамика в drug discovery: SDE для конформационных изменений белков
Ито, Эйнштейн и рождение стохастического исчисления
Броун в 1827 году наблюдал, Башелье в 1900 году применил к ценам акций, Эйнштейн в 1905 году объяснил физику. Но строгое исчисление для таких процессов создал Кийоши Ито в 1944 году во время Второй мировой войны, работая в Японии. Его статья 1944 года прошла почти незамеченной. К 1950-м годам западные математики независимо дошли до похожих идей. Сегодня формула Ито - один из самых цитируемых результатов прикладной математики: финансы, физика, биология, машинное обучение.
Броуновское движение и стохастический интеграл
Роберт Браун в 1827 году наблюдал хаотическое движение пыльцы в воде. Эйнштейн в 1905 году объяснил: частица испытывает 10^21 ударов молекул в секунду. Математическую модель дал Винер в 1923 году - процесс W_t с независимыми гауссовыми приращениями. Кийоши Ито в 1944 году определил интеграл по такому процессу - и открыл стохастическое исчисление.
Интеграл Стратоновича (альтернатива Ито) использует среднюю точку разбиения: int H dW_S = lim sum H_{(t_k+t_{k+1})/2} * Delta W_k. Он удовлетворяет обычному правилу цепного дифференцирования, но не является мартингалом. В физике часто используют Стратоновича, в финансах - Ито.
Почему (dW_t)^2 = dt, а не 0?
Формула Ито и её применения
Формула Ито - аналог правила цепного дифференцирования для стохастических процессов. Ключевое отличие от детерминированного исчисления: появляется дополнительный член (1/2)*f''*sigma^2*dt, порождённый квадратичной вариацией. Без него формула Блэка-Шоулза, оценивающая деривативы на 9.2 трлн долларов ежедневно, была бы неверна.
Знак доллара в формулах: формула Ито применима только при условии адаптированности (non-anticipating) подынтегральных процессов. Если sigma зависит от будущих значений W_t - интеграл не определён в смысле Ито. В физике иногда используют интеграл Стратоновича, который даёт другой результат для той же SDE.
Почему дрейф log(S_t) равен mu - sigma^2/2, а не mu?
Уравнение Фоккера-Планка и стационарные распределения
Вместо слежения за траекториями можно описывать эволюцию плотности вероятности p(x,t). Уравнение Фоккера-Планка (Колмогорова второго рода) - PDE для p(x,t) соответствующего SDE. Это двойник формулы Ито: каждому SDE соответствует своя FPE, и наоборот. Score-based diffusion models (Stable Diffusion, DALL-E) строятся именно на этой дуальности.
Связь FPE и машинного обучения: Score-based diffusion models (Song et al., 2020) обучают нейросеть аппроксимировать score-функцию nabla_x log p_t(x). Sampling = решение обратного SDE от чистого шума к данным. Именно это лежит в основе Stable Diffusion и DALL-E 3.
Что описывает уравнение Фоккера-Планка в отличие от SDE?
Стохастическое управление и RLHF
Принцип Понтрягина и HJB-уравнение обобщаются на стохастические системы: задача управления SDE dX = f(X,u)dt + sigma(X)dW. Стохастическое HJB добавляет член (sigma^2/2)*V_xx. Это математическая основа RLHF (Reinforcement Learning from Human Feedback) - метода, которым обучали ChatGPT.
RLHF и стохастическое управление
ChatGPT как решение задачи стохастического управления
RLHF обучает языковую модель через политику pi(a|s) - вероятностное распределение следующего токена. Это стохастическая задача управления: состояние s = контекст, действие a = токен. Reward = оценка человека. PPO-алгоритм (Schulman, 2017) оптимизирует ожидаемый reward через gradient ascent по параметрам pi. Математически - стохастический градиентный подъём по вариационной нижней оценке стохастического функционала J. Каждый шаг обучения - итерация в пространстве политик.
Почему оптимальное управление для стохастического LQR совпадает с детерминированным?
Связи с другими областями
Стохастическое исчисление - математический фундамент финансовой математики, диффузионных моделей и стохастического управления.
- Диффузионные модели (Stable Diffusion) — Связанная тема
- Финансовая математика — Связанная тема
- RLHF и PPO — Связанная тема
- Молекулярная динамика — Связанная тема
Итоги
- Броуновское движение имеет квадратичную вариацию [W,W]_t = t, что означает (dW)^2 = dt
- Формула Ито: df(X_t) = f_x dX + (1/2)f_xx sigma^2 dt - дополнительный член из квадратичной вариации
- FPE - двойник SDE: описывает эволюцию плотности вероятности, используется в диффузионных моделях
- Стохастическое LQR решается той же матрицей Риккати - шум добавляет только константу к стоимости
Вопросы для размышления
- В чём разница между интегралами Ито и Стратоновича и когда каждый из них предпочтительнее?
- Почему score-based диффузионные модели используют обратное SDE, а не просто инвертируют прямой процесс?
- Как изменение меры Гирсанова позволяет оценивать деривативы без знания реального дрейфа mu?
Связанные уроки
- diff-equations-28 — Марковские полугруппы - генераторы стохастических процессов
- de-27-schrodinger — Стохастическое квантование связывает SDE с уравнением Шрёдингера
- de-26-optimal-control — Стохастическое управление обобщает принцип Понтрягина на SDE