Теория вероятностей
Статистическая физика и вероятность
Алгоритм Метрополиса-Гастингса MCMC был изобретён в 1953 году для симуляции ядерного оружия. Сегодня он лежит в основе байесовского вывода в статистике, диффузионных моделей в генеративном AI и оптимизации методом имитации отжига. Вся эта вычислительная мощь следует из одного уравнения Больцмана.
- Имитация отжига (simulated annealing): минимизация функции потерь через случайное блуждание с параметром температуры $T$ - прямая аналогия охлаждения физических систем. При $T \to 0$ система оседает в глобальном минимуме с вероятностью $\to 1$.
- MCMC в байесовском ML: выборка из апостериорного $P(\theta | D) \propto P(D|\theta)P(\theta)$ через MH-алгоритм или NUTS. Stan и PyMC реализуют HMC (Hamiltonian Monte Carlo) - метод, вдохновлённый молекулярной динамикой.
- Диффузионные модели (DDPM): прямой процесс добавляет гауссовский шум (аналог тепловых флуктуаций); обратный - восстанавливает сигнал (аналог охлаждения). Score function - градиент log-плотности - аналог физической силы.
Цели урока
- Выводить распределение Больцмана из принципа максимальной энтропии
- Анализировать модель Изинга: фазовые переходы и критическое поведение
- Обосновывать корректность алгоритма Метрополиса через детальный баланс
Предварительные знания
- Информационно-теоретические методы: энтропия и KL-дивергенция
- Марковские цепи и их стационарные распределения
- Основы статистической механики (физические понятия: энергия, температура)
Распределение Больцмана и максимальная энтропия
Распределение Больцмана $P(s) = e^{-E(s)/T}/Z$, где $Z = \sum_s e^{-E(s)/T}$ - статистическая сумма, $T$ - температура. Вывод через максимум энтропии $H(P)$ при фиксированном среднем энергии $\mathbb{E}[E] = U$: с лагранжевым множителем $\beta = 1/T$ получаем $P(s) \propto e^{-\beta E(s)}$. При $T \to 0$: $P$ концентрируется на минимуме энергии. При $T \to \infty$: равномерное распределение - максимум энтропии.
Алгоритм Метрополиса-Гастингса: предложить $s' \sim q(s'|s)$; принять с вероятностью $\alpha = \min(1, P(s')q(s|s')/(P(s)q(s'|s)))$. Условие детального баланса $P(s)\alpha(s\to s') q(s'|s) = P(s')\alpha(s'\to s) q(s|s')$ гарантирует, что $P$ - стационарное распределение. Markov chain converges to $P$ при эргодичности (irreducibility + aperiodicity).
MCMC имеет проблему перемешивания: цепь может застрять в одной моде многомодального распределения. Для модели Изинга при $T < T_c$ цепь долго не переключается между состояниями $M > 0$ и $M < 0$. Решения: parallel tempering (обмен цепями при разных $T$), HMC (использует градиент для эффективного исследования), NUTS (автотюнинг шага).
Николас Метрополис с соавторами опубликовал алгоритм в 1953 году для расчётов в
Николас Метрополис с соавторами опубликовал алгоритм в 1953 году для расчётов в Лос-Аламосе. Вильям Гастингс обобщил его в 1970 году на несимметричные предложения. Модель Изинга предложил Вильгельм Ленц в 1920 году; его студент Эрнст Изинг решил одномерный случай в диссертации 1924 года, неверно заключив, что фазового перехода нет. Ларс Онзагер решил двумерный случай в 1944 году, показав наличие перехода.
Распределение Больцмана-Гиббса
В 1872 году Людвиг Больцман описал распределение 10^23 молекул газа через одну формулу: вероятность состояния пропорциональна exp(-E/kT). Та же экспонента сегодня лежит в энергетических моделях, в softmax-слое нейросетей и в MCMC-семплерах для вероятностного программирования.
При β → ∞ распределение Больцмана стремится к…
Модель Изинга и фазовый переход
Двумерная модель Изинга: спины σi ∈ {-1,+1} на решётке, энергия E = -J Σ σi σj по соседям. При βJ выше критического (≈0.4407) спонтанная намагниченность скачком становится ненулевой. Это образец фазового перехода второго рода с расходящейся корреляционной длиной.
В 2D-модели Изинга при β > βc намагниченность m…
Метрополис-Гастингс как MCMC
Алгоритм Метрополиса (1953) сэмплирует из распределения P через случайные блуждания: предложение x', принимается с вероятностью min(1, P(x')/P(x)). Только отношение P(x')/P(x) - Z сокращается. Это даёт сходимость к произвольному P через локальные шаги, без вычисления Z.
Почему Metropolis-Hastings работает без знания нормировки Z?
Модель Изинга и фазовый переход
Модель Изинга на решётке $\mathbb{Z}^2$: спины $\sigma_i \in \{\pm 1\}$, $E = -J\sum_{\langle i,j \rangle} \sigma_i \sigma_j - h\sum_i \sigma_i$. При $T > T_c$ (критическая температура Изинга $T_c \approx 2.269 J/k_B$ для квадратной решётки): намагниченность $M = \mathbb{E}[\sigma_i] = 0$ (парамагнетик). При $T < T_c$: $M \neq 0$ (ферромагнетик). Переход второго рода. В ML: RBM (Restricted Boltzmann Machine) - двудольная версия модели Изинга.
Итоги
- Распределение Больцмана $P \propto e^{-E/T}$ максимизирует энтропию при ограниченной средней энергии.
- Модель Изинга демонстрирует фазовый переход при критической температуре.
- MH-алгоритм строит цепь Маркова с нужным стационарным распределением через детальный баланс - основа MCMC в байесовском ML.
Связь с другими темами
Диффузионные модели (Score SDE): score function $\nabla \log p(x)$ аналогична физической силе; обратный процесс восстанавливает данные как остывание. Информационная теория (prob-25): свободная энергия $F = -T\log Z$ - KL-дивергенция до разбросанной меры. Байесовские сети (prob-27): вариационный вывод минимизирует KL, аналогично минимизации свободной энергии в физике.
- Prob 25 — связан
- Prob 27 — связан
Вопросы для размышления
- В имитации отжига температура $T(t)$ убывает по расписанию. Слишком быстрое охлаждение застревает в локальных минимумах; слишком медленное - неэффективно. Какой математический критерий (связанный с временами перемешивания цепи Маркова) гарантирует сходимость к глобальному минимуму?