Дифференциальные уравнения

Стохастические дифференциальные уравнения и формула Ито

Цели урока

  • Определить броуновское движение и понять его квадратичную вариацию
  • Вывести формулу Ито и применить к геометрическому броуновскому движению
  • Связать SDE с уравнением Фоккера-Планка для плотности вероятности
  • Понять как score-based диффузия и RLHF используют стохастическое исчисление

Предварительные знания

  • Теория вероятностей (гауссовские процессы)
  • ODE (задача Коши)
  • Функциональный анализ
  • Волновое уравнение

Как из случайного блуждания молекул в воде выводится формула, по которой ежедневно оценивается 9.2 трлн долларов деривативов?

  • Формула Блэка-Шоулза (1973) - прямое следствие формулы Ито для цен активов, Нобелевская премия 1997
  • Score-based диффузионные модели (Stable Diffusion, DALL-E 3) - обратное SDE от шума к изображению
  • RLHF для ChatGPT - стохастическая задача управления в пространстве языковых политик
  • Молекулярная динамика в drug discovery: SDE для конформационных изменений белков

Ито, Эйнштейн и рождение стохастического исчисления

Броун в 1827 году наблюдал, Башелье в 1900 году применил к ценам акций, Эйнштейн в 1905 году объяснил физику. Но строгое исчисление для таких процессов создал Кийоши Ито в 1944 году во время Второй мировой войны, работая в Японии. Его статья 1944 года прошла почти незамеченной. К 1950-м годам западные математики независимо дошли до похожих идей. Сегодня формула Ито - один из самых цитируемых результатов прикладной математики: финансы, физика, биология, машинное обучение.

Броуновское движение и стохастический интеграл

Роберт Браун в 1827 году наблюдал хаотическое движение пыльцы в воде. Эйнштейн в 1905 году объяснил: частица испытывает 10^21 ударов молекул в секунду. Математическую модель дал Винер в 1923 году - процесс W_t с независимыми гауссовыми приращениями. Кийоши Ито в 1944 году определил интеграл по такому процессу - и открыл стохастическое исчисление.

Интеграл Стратоновича (альтернатива Ито) использует среднюю точку разбиения: int H dW_S = lim sum H_{(t_k+t_{k+1})/2} * Delta W_k. Он удовлетворяет обычному правилу цепного дифференцирования, но не является мартингалом. В физике часто используют Стратоновича, в финансах - Ито.

Почему (dW_t)^2 = dt, а не 0?

Формула Ито и её применения

Формула Ито - аналог правила цепного дифференцирования для стохастических процессов. Ключевое отличие от детерминированного исчисления: появляется дополнительный член (1/2)*f''*sigma^2*dt, порождённый квадратичной вариацией. Без него формула Блэка-Шоулза, оценивающая деривативы на 9.2 трлн долларов ежедневно, была бы неверна.

Знак доллара в формулах: формула Ито применима только при условии адаптированности (non-anticipating) подынтегральных процессов. Если sigma зависит от будущих значений W_t - интеграл не определён в смысле Ито. В физике иногда используют интеграл Стратоновича, который даёт другой результат для той же SDE.

Почему дрейф log(S_t) равен mu - sigma^2/2, а не mu?

Уравнение Фоккера-Планка и стационарные распределения

Вместо слежения за траекториями можно описывать эволюцию плотности вероятности p(x,t). Уравнение Фоккера-Планка (Колмогорова второго рода) - PDE для p(x,t) соответствующего SDE. Это двойник формулы Ито: каждому SDE соответствует своя FPE, и наоборот. Score-based diffusion models (Stable Diffusion, DALL-E) строятся именно на этой дуальности.

Связь FPE и машинного обучения: Score-based diffusion models (Song et al., 2020) обучают нейросеть аппроксимировать score-функцию nabla_x log p_t(x). Sampling = решение обратного SDE от чистого шума к данным. Именно это лежит в основе Stable Diffusion и DALL-E 3.

Что описывает уравнение Фоккера-Планка в отличие от SDE?

Стохастическое управление и RLHF

Принцип Понтрягина и HJB-уравнение обобщаются на стохастические системы: задача управления SDE dX = f(X,u)dt + sigma(X)dW. Стохастическое HJB добавляет член (sigma^2/2)*V_xx. Это математическая основа RLHF (Reinforcement Learning from Human Feedback) - метода, которым обучали ChatGPT.

RLHF и стохастическое управление

ChatGPT как решение задачи стохастического управления

RLHF обучает языковую модель через политику pi(a|s) - вероятностное распределение следующего токена. Это стохастическая задача управления: состояние s = контекст, действие a = токен. Reward = оценка человека. PPO-алгоритм (Schulman, 2017) оптимизирует ожидаемый reward через gradient ascent по параметрам pi. Математически - стохастический градиентный подъём по вариационной нижней оценке стохастического функционала J. Каждый шаг обучения - итерация в пространстве политик.

Почему оптимальное управление для стохастического LQR совпадает с детерминированным?

Связи с другими областями

Стохастическое исчисление - математический фундамент финансовой математики, диффузионных моделей и стохастического управления.

  • Диффузионные модели (Stable Diffusion) — Связанная тема
  • Финансовая математика — Связанная тема
  • RLHF и PPO — Связанная тема
  • Молекулярная динамика — Связанная тема

Итоги

  • Броуновское движение имеет квадратичную вариацию [W,W]_t = t, что означает (dW)^2 = dt
  • Формула Ито: df(X_t) = f_x dX + (1/2)f_xx sigma^2 dt - дополнительный член из квадратичной вариации
  • FPE - двойник SDE: описывает эволюцию плотности вероятности, используется в диффузионных моделях
  • Стохастическое LQR решается той же матрицей Риккати - шум добавляет только константу к стоимости

Вопросы для размышления

  • В чём разница между интегралами Ито и Стратоновича и когда каждый из них предпочтительнее?
  • Почему score-based диффузионные модели используют обратное SDE, а не просто инвертируют прямой процесс?
  • Как изменение меры Гирсанова позволяет оценивать деривативы без знания реального дрейфа mu?

Связанные уроки

  • diff-equations-28 — Марковские полугруппы - генераторы стохастических процессов
  • de-27-schrodinger — Стохастическое квантование связывает SDE с уравнением Шрёдингера
  • de-26-optimal-control — Стохастическое управление обобщает принцип Понтрягина на SDE
Стохастические дифференциальные уравнения и формула Ито

0

1

Войти