Случайные процессы

Теория больших уклонений

Ядерная станция рассчитана на землетрясение 9 баллов с вероятностью 10^{-8} в год. ЦПТ бесполезна для таких хвостов. Теория больших уклонений - единственный строгий инструмент для подобных расчётов. Та же математика используется в теории кодирования и Google для анализа надёжности сетей.

**Финансы:** стресс-тестирование банков - оценка потерь при p=0.01% сценариях (Value at Risk, Expected Shortfall)
**Телекоммуникации:** проектирование буферов - вероятность перегрузки e^{-θ*B} для гарантий Quality of Service
**Физика:** фазовые переходы и флуктуации в термодинамике - функция скорости = свободная энергия / kT

Предварительные знания

Stochastic Processes: Definitions

Зачем нужна теория больших уклонений

Renaissance Technologies (Medallion Fund, $130B AUM в 2023) использует large deviations для предсказания tail events: 66% годовой доходности до комиссий с 1988. Центральная предельная теорема описывает типичные флуктуации порядка 1/√n. Но что происходит с **редкими событиями** - когда среднее сильно отклоняется от ожидаемого? Это область теории больших уклонений (LDT).

Хвостовые вероятности экспоненциально малы, и ЦПТ их не описывает корректно. Буфер переполняется раз в год, самолёт падает раз в миллион полётов, алгоритм ошибается в 0.001% случаев - всё это большие уклонения.

ЦПТ говорит, что P(S_n > μ + ε) → 0. Что добавляет теория больших уклонений?

Функция скорости и преобразование Лежандра

**Функция скорости** I(x) - центральный объект LDT. Вычисляется через логарифмическую производящую функцию моментов (cumulant generating function) через преобразование Лежандра - Фенхеля.

Теорема Крамера (1938) - основной результат LDT для сумм: для a > μ, P(S_n ≥ a) = exp(-n·I(a) + o(n)) при n → ∞. Более точно (теорема Баадур - Рао): P(S_n ≥ a) ~ C(a)/√n · e^{-n·I(a)}.

Для нормального распределения N(0, σ²) функция скорости I(x) равна:

Лемма Вараданца и принцип LDP

**Принцип больших уклонений (LDP)** - абстрактная формулировка, охватывающая не только суммы, но и траектории процессов. **Лемма Вараданца** связывает LDP с интегралами функционалов.

В статистической физике I(x) ∝ -S(x), где S - термодинамическая энтропия. Наиболее вероятное состояние максимизирует S (минимизирует I). Флуктуации вокруг равновесия определяются I. Принцип LDP - это математическая формализация теоремы Больцмана.

Что вычисляет лемма Вараданца для lim (1/n) log E[e^{nF(X_n)}]?

Применения: риск, физика и алгоритмы

LDT применяется там, где нужно точно оценивать экспоненциально редкие события: перегрузку сетей, ошибки декодирования, разорение и фазовые переходы.

Функция скорости для средних значений - это DKL(a || p) (KL-дивергенция). Неслучайно: LDT и теория информации - глубоко связаны. Теорема Штейна в проверке гипотез - это ровно теорема Крамера, переписанная на языке информации.

В теории кодирования вероятность ошибки ≍ e^{-n·E_r(R)}. При увеличении длины кода n вдвое (при постоянной скорости R) вероятность ошибки:

Ключевые идеи

**Функция скорости** I(x) = sup_θ{θx - Λ(θ)} - преобразование Лежандра от LMGF; I ≥ 0, I(μ) = 0
**Теорема Крамера** - P(S_n ≥ a) ≍ e^{-n·I(a)}: экспоненциальная скорость хвостов
**Лемма Вараданца** - log E[e^{nF}]/n → sup{F - I}: бесконечномерный метод Лапласа
**Связь с информацией** - функция скорости для средних = KL-дивергенция; LDT ↔ теория информации

Связанные темы

Теория больших уклонений пронизывает всю вероятностную математику:

MCMC и сэмплирование — Importance sampling - LDT-оптимальный выбор предложного распределения
Случайные процессы: определения — Функциональный LDP (Donsker–Varadhan) - LDP для траекторий процессов
Финансовая математика — LDT для оценки хвостового риска (VaR) и стресс-тестирования

Вопросы для размышления

Почему функция скорости I(x) обращается в нуль только в точке математического ожидания μ?
Как связаны KL-дивергенция и функция скорости в теореме Крамера? Это случайность или глубокая связь?
рассмотрим случай, когда проектируете систему мониторинга серверов с требованием P(нагрузка > 95%) < 10^{-9}. Как использовать LDT для расчёта необходимого буфера?

Связанные уроки

prob-22-concentration

Зачем нужна теория больших уклонений

ЦПТ говорит, что P(S_n > μ + ε) → 0. Что добавляет теория больших уклонений?

Функция скорости и преобразование Лежандра

Для нормального распределения N(0, σ²) функция скорости I(x) равна:

Лемма Вараданца и принцип LDP

Что вычисляет лемма Вараданца для lim (1/n) log E[e^{nF(X_n)}]?

Применения: риск, физика и алгоритмы

Ключевые идеи

**Функция скорости** I(x) = sup_θ{θx - Λ(θ)} - преобразование Лежандра от LMGF; I ≥ 0, I(μ) = 0

**Теорема Крамера** - P(S_n ≥ a) ≍ e^{-n·I(a)}: экспоненциальная скорость хвостов

**Лемма Вараданца** - log E[e^{nF}]/n → sup{F - I}: бесконечномерный метод Лапласа

**Связь с информацией** - функция скорости для средних = KL-дивергенция; LDT ↔ теория информации