Случайные процессы
Теория больших уклонений
Ядерная станция рассчитана на землетрясение 9 баллов с вероятностью 10^{-8} в год. ЦПТ бесполезна для таких хвостов. Теория больших уклонений - единственный строгий инструмент для подобных расчётов. Та же математика используется в теории кодирования и Google для анализа надёжности сетей.
- **Финансы:** стресс-тестирование банков - оценка потерь при p=0.01% сценариях (Value at Risk, Expected Shortfall)
- **Телекоммуникации:** проектирование буферов - вероятность перегрузки e^{-θ*B} для гарантий Quality of Service
- **Физика:** фазовые переходы и флуктуации в термодинамике - функция скорости = свободная энергия / kT
Предварительные знания
Зачем нужна теория больших уклонений
Renaissance Technologies (Medallion Fund, $130B AUM в 2023) использует large deviations для предсказания tail events: 66% годовой доходности до комиссий с 1988. Центральная предельная теорема описывает типичные флуктуации порядка 1/√n. Но что происходит с **редкими событиями** - когда среднее сильно отклоняется от ожидаемого? Это область теории больших уклонений (LDT).
Хвостовые вероятности экспоненциально малы, и ЦПТ их не описывает корректно. Буфер переполняется раз в год, самолёт падает раз в миллион полётов, алгоритм ошибается в 0.001% случаев - всё это большие уклонения.
ЦПТ говорит, что P(S_n > μ + ε) → 0. Что добавляет теория больших уклонений?
Функция скорости и преобразование Лежандра
**Функция скорости** I(x) - центральный объект LDT. Вычисляется через логарифмическую производящую функцию моментов (cumulant generating function) через преобразование Лежандра - Фенхеля.
Теорема Крамера (1938) - основной результат LDT для сумм: для a > μ, P(S_n ≥ a) = exp(-n·I(a) + o(n)) при n → ∞. Более точно (теорема Баадур - Рао): P(S_n ≥ a) ~ C(a)/√n · e^{-n·I(a)}.
Для нормального распределения N(0, σ²) функция скорости I(x) равна:
Лемма Вараданца и принцип LDP
**Принцип больших уклонений (LDP)** - абстрактная формулировка, охватывающая не только суммы, но и траектории процессов. **Лемма Вараданца** связывает LDP с интегралами функционалов.
В статистической физике I(x) ∝ -S(x), где S - термодинамическая энтропия. Наиболее вероятное состояние максимизирует S (минимизирует I). Флуктуации вокруг равновесия определяются I. Принцип LDP - это математическая формализация теоремы Больцмана.
Что вычисляет лемма Вараданца для lim (1/n) log E[e^{nF(X_n)}]?
Применения: риск, физика и алгоритмы
LDT применяется там, где нужно точно оценивать экспоненциально редкие события: перегрузку сетей, ошибки декодирования, разорение и фазовые переходы.
Функция скорости для средних значений - это DKL(a || p) (KL-дивергенция). Неслучайно: LDT и теория информации - глубоко связаны. Теорема Штейна в проверке гипотез - это ровно теорема Крамера, переписанная на языке информации.
В теории кодирования вероятность ошибки ≍ e^{-n·E_r(R)}. При увеличении длины кода n вдвое (при постоянной скорости R) вероятность ошибки:
Ключевые идеи
- **Функция скорости** I(x) = sup_θ{θx - Λ(θ)} - преобразование Лежандра от LMGF; I ≥ 0, I(μ) = 0
- **Теорема Крамера** - P(S_n ≥ a) ≍ e^{-n·I(a)}: экспоненциальная скорость хвостов
- **Лемма Вараданца** - log E[e^{nF}]/n → sup{F - I}: бесконечномерный метод Лапласа
- **Связь с информацией** - функция скорости для средних = KL-дивергенция; LDT ↔ теория информации
Связанные темы
Теория больших уклонений пронизывает всю вероятностную математику:
- MCMC и сэмплирование — Importance sampling - LDT-оптимальный выбор предложного распределения
- Случайные процессы: определения — Функциональный LDP (Donsker–Varadhan) - LDP для траекторий процессов
- Финансовая математика — LDT для оценки хвостового риска (VaR) и стресс-тестирования
Вопросы для размышления
- Почему функция скорости I(x) обращается в нуль только в точке математического ожидания μ?
- Как связаны KL-дивергенция и функция скорости в теореме Крамера? Это случайность или глубокая связь?
- рассмотрим случай, когда проектируете систему мониторинга серверов с требованием P(нагрузка > 95%) < 10^{-9}. Как использовать LDT для расчёта необходимого буфера?