Теория вероятностей
Пуассоновский процесс
Cloudflare обрабатывает 41.7 миллиона DNS-запросов в секунду. Каждый запрос приходит в случайный момент времени - но суммарный поток подчиняется точным математическим законам. Пуассоновский процесс описывает этот хаос формулой с тремя параметрами.
- Системы очередей (AWS SQS, Kafka): интервалы между сообщениями описываются показательным распределением. Параметр $\lambda$ оценивается по MLE как $\hat\lambda = 1/\bar t$ - обратная средняя задержка.
- Нейронные шипы в BCI: разряды нейронов моделируются как пуассоновский процесс с частотой $\lambda$ (spikes/sec). Оценка $\lambda$ из записей электрофизиологии - первый шаг декодирования двигательных намерений.
- Обнаружение DDoS-атак: внезапное увеличение оцененного $\hat\lambda$ сверх базовой линии - сигнал аномалии. Процессы Хоукса расширяют пуассоновскую модель, учитывая самовозбуждение (всплески трафика порождают новые всплески).
Цели урока
- Формулировать три аксиомы пуассоновского процесса и выводить из них распределение числа событий
- Доказывать мемориальное свойство показательного распределения и связывать его с временами ожидания
- Оценивать интенсивность $\lambda$ методом максимального правдоподобия и строить доверительный интервал
Предварительные знания
- Дискретные распределения: биномиальное и распределение Пуассона
- Показательное распределение и его свойства
- Основы вероятностного вывода: MLE
Три аксиомы и их следствия
Процесс $N(t)$ является пуассоновским с интенсивностью $\lambda$ если: (1) $N(0)=0$; (2) независимость приращений - числа событий в непересекающихся промежутках независимы; (3) стационарность - распределение $N(t+s)-N(t)$ зависит только от $s$; (4) ординарность - $P(N(h)\geq 2) = o(h)$ при $h\to 0$. Из этих аксиом выводится: $N(t) \sim \mathrm{Pois}(\lambda t)$, то есть $P(N(t)=k) = e^{-\lambda t}(\lambda t)^k/k!$.
Процесс Хоукса $\lambda(t) = \mu + \sum_{t_i < t} \phi(t - t_i)$ - расширение пуассоновского: каждое событие временно повышает интенсивность на величину $\phi(t-t_i)$. Используется для каскадов в социальных сетях, форшоков/афтершоков землетрясений и потока ордеров в HFT. При $\|\phi\|_1 < 1$ процесс стационарен.
MLE оценка $\hat\lambda = 1/\bar t$ смещена при малой выборке: $\mathbb{E}[1/\bar t] \neq 1/\mathbb{E}[\bar t]$ из-за нелинейности. Несмещённая оценка: $(n-1)/\sum t_i$ (при $n > 1$). При $n > 30$ разница несущественна; при малом $n$ используйте байесовский вывод с гамма-априорным распределением.
Определение пуассоновского процесса
Cloudflare обрабатывает 3.6 трлн DNS-запросов в день - интенсивность λ ≈ 41.7 млн запросов/с. Момент прихода каждого запроса непредсказуем, но статистика потока стабильна. Пуассоновский процесс - математическая модель именно таких явлений: редких независимых событий с постоянной средней интенсивностью.
Пуассоновский процесс задаётся тремя аксиомами. Ординарность: в малом интервале [t, t+h] вероятность двух и более событий есть o(h) - события приходят по одному. Стационарность: число событий на [t, t+s] зависит только от длины s, но не от t. Независимость приращений: числа событий на непересекающихся интервалах независимы.
В ML пуассоновская регрессия (GLM с log-link) используется для предсказания счётчиков: кликов по рекламе, числа транзакций, отказов оборудования. Функция потерь - отрицательный пуассоновский лог-правдоподобий: L = Σ(ŷᵢ − yᵢ log ŷᵢ).
Пуассоновский процесс имеет интенсивность λ=5 событий/мин. Какова вероятность, что за 2 минуты произойдёт ровно 8 событий?
В пуассоновском процессе число событий на интервале t имеет распределение Пуассона с параметром λt.
Распределение времён ожидания
В очереди к популярному API среднее время ожидания между запросами - 24 мкс (λ = 41 700 запросов/с). Это время подчиняется экспоненциальному закону. Время до первого события и все межсобытийные интервалы в пуассоновском процессе имеют одно и то же распределение Exp(λ).
В survival analysis (предсказание времени до отказа, оттока клиентов) экспоненциальное распределение - базовая параметрическая модель. Модель пропорциональных рисков Кокса обобщает её: λ(t|x) = λ₀(t) · exp(βᵀx), где λ₀(t) - базовая интенсивность, а βᵀx - вклад признаков.
Среднее время между запросами к серверу - 200 мс. Какова вероятность, что следующий запрос придёт позже чем через 500 мс?
Ответ следует непосредственно из определения и свойств рассматриваемого математического объекта.
Пуассоновские процессы в ML и нейронауке
Нейрон коры головного мозга генерирует потенциалы действия со средней частотой 10 - 100 Гц. Эмпирически установлено: промежутки между спайками распределены экспоненциально - нейрон реализует пуассоновский процесс. Эта модель лежит в основе Spiking Neural Networks и нейроморфных чипов (Intel Loihi, IBM TrueNorth).
Нестационарный (неоднородный) пуассоновский процесс имеет интенсивность λ(t), меняющуюся со временем. В Temporal Point Process модель обучается предсказывать λ(t | история событий), используя LSTM или трансформер. Применение: предсказание событий в социальных сетях, финансовые потоки ордеров, медицинские инциденты.
Теорема о слиянии: суперпозиция K независимых пуассоновских процессов с интенсивностями λ₁,...,λₖ - пуассоновский процесс с λ = Σλᵢ. Теорема о прореживании: независимое прореживание с вероятностью p даёт процесс с λp. Эти свойства используются в анализе систем очередей M/M/1 и маршрутизации трафика.
Нейрон генерирует спайки как пуассоновский процесс с λ=50 Гц. Каждый спайк независимо передаётся с вероятностью p=0.3. Какова интенсивность потока успешных передач?
В пуассоновском процессе число событий на интервале t имеет распределение Пуассона с параметром λt.
Оценка по Cloudflare-данным
41.7M запросов/сек: $\lambda = 41.7 \times 10^6$. За 0.1 мс: $\mu = \lambda t = 41.7\times 10^6 \times 10^{-4} = 4170$. По ЦПТ: $N(t) \approx \mathcal{N}(4170, 4170)$, стд. откл. $\approx 64.6$. Вероятность менее 4000 запросов за 0.1 мс: $P(N < 4000) \approx \Phi((4000-4170)/64.6) \approx \Phi(-2.63) \approx 0.4\%$. Мониторинг использует именно такие z-score отклонения для обнаружения аномалий.
Итоги
- Пуассоновский процесс определяется тремя аксиомами, из которых следует пуассоновское распределение числа событий и показательное распределение времён ожидания.
- MLE интенсивности: $\hat\lambda = 1/\bar t$, SE = $\lambda/\sqrt{n}$.
- Мемориальное свойство показательного распределения - единственная непрерывная мемориальная дистрибуция.
Связь с другими темами
Броуновское движение (prob-19) - непрерывный аналог: приращения гауссовы вместо пуассоновских. Байесовские сети (prob-27) используют условные пуассоновские модели для моделирования событийных данных. Процессы Хоукса, активно применяемые в рекомендательных системах, строятся поверх пуассоновского базиса.
- Prob 19 — связан
- Prob 27 — связан
Вопросы для размышления
- KS-тест показывает низкое $p$-значение для интервалов между событиями, подогнанных показательным распределением. Это означает негомогенность процесса. Как алгоритм прореживания (thinning, Lewis-Shedler) позволяет симулировать негомогенный пуассоновский процесс с переменной интенсивностью $\lambda(t)$?