Теория вероятностей

Производящие функции и ПГМ

Цели урока

  • Понять производящую функцию вероятностей (PGF) как кодировку распределения
  • Освоить производящую функцию моментов (MGF) и её свойства
  • Научиться извлекать моменты дифференцированием MGF
  • Использовать MGF для доказательства единственности распределения
  • Вычислять MGF в Python и сравнивать распределения

Предварительные знания

  • Математическое ожидание E[X]
  • Дисперсия и моменты Var[X]
  • Степенные ряды и производные
  • Математическое ожидание
  • Дисперсия

Задача: найти E[X³⁰] - тридцатый момент! Считать напрямую - ужас. Но есть трюк: **зашифровать всё распределение в одну функцию** - производящую функцию. Тогда любой момент извлекается простым дифференцированием. Это как иметь «мастер-ключ» к любым характеристикам распределения.

  • Анализ алгоритмов: средняя глубина дерева поиска
  • Генетика: число мутаций в поколении
  • Теория очередей: число клиентов в системе
  • Страхование: сумма выплат за период
  • Финансы: характеристические функции активов

От «трюков» к теории

Лаплас использовал производящие функции как вычислительный трюк для работы с биномиальными коэффициентами в 1812 году. Чебышёв и его школа превратили их в строгий инструмент теории вероятностей. Производящие функции моментов стали фундаментом для доказательства ЦПТ через характеристические функции - метод Ляпунова 1901 года.

Производящие функции и ПГМ

Производящие функции - удивительный мост между алгеброй и вероятностью. Они **кодируют всё распределение в одну функцию** и позволяют дифференцированием доставать матожидание, дисперсию и любые моменты. По сути - 'преобразование Фурье' для вероятностей.

Главных два вида: **производящая функция вероятностей** (PGF) $G_X(z) = \mathbb{E}[z^X]$ для дискретных $X \in \{0,1,2,\dots\}$, и **производящая функция моментов** (MGF) $M_X(t) = \mathbb{E}[e^{tX}]$ для произвольных $X$. У MGF свойство: $M_{X+Y}(t) = M_X(t)\cdot M_Y(t)$ для независимых $X, Y$.

Производящие функции - стандартный инструмент в analysis случайных процессов, теории больших уклонений, доказательстве ЦПТ. В ML появляются в анализе сходимости SGD и в моделях с латентными переменными.

Производящая функция моментов (MGF) $M_X(t) = \mathbb{E}[e^{tX}]$ полезна тем, что:

MGF кодирует все моменты в одной функции, через дифференцирование можно достать любой. MGF суммы независимых = произведение MGF - мощный инструмент для анализа сумм.

1. Производящая функция вероятностей (PGF)

1. Производящая функция вероятностей (PGF)

Для **дискретной** случайной величины X на {0, 1, 2, ...} производящая функция вероятностей:

Это просто степенной ряд, где коэффициент при $z^k$ - это $P(X=k)$. Вся информация о распределении упакована в одну функцию!

**Ключевые свойства PGF:** - $G_X(1) = 1$ (сумма всех вероятностей = 1) - $G_X'(1) = E[X]$ (первая производная в z=1 даёт среднее) - $G_X''(1) = E[X(X-1)]$ - факториальный момент

PGF для Бернулли

X ~ Bernoulli(p)

$P(X=0) = 1-p$, $P(X=1) = p$ $G_X(z) = (1-p) \cdot z^0 + p \cdot z^1 = 1 - p + pz$ **Проверка среднего:** $G_X'(z) = p$ $E[X] = G_X'(1) = p$ ✓ **PGF Биномиального Bin(n, p)** - как n независимых Бернулли: $G_X(z) = (1 - p + pz)^n$

PGF для Пуассона

X ~ Poisson(λ)

$G_X(z) = \sum_{k=0}^{\infty} e^{-\lambda} \frac{\lambda^k}{k!} z^k = e^{-\lambda} \sum_{k=0}^{\infty} \frac{(\lambda z)^k}{k!} = e^{-\lambda} \cdot e^{\lambda z}$ $G_X(z) = e^{\lambda(z-1)}$ **Среднее:** $G_X'(z) = \lambda e^{\lambda(z-1)}$ $E[X] = G_X'(1) = \lambda$ ✓

Если G_X(z) = (0.3 + 0.7z)⁵, то E[X] = ?

Это PGF Binomial(5, 0.7). G_X'(z) = 5·0.7·(0.3+0.7z)⁴. E[X] = G_X'(1) = 5·0.7·1 = 3.5. Или просто: E[Bin(n,p)] = np = 5·0.7 = 3.5.

2. Производящая функция моментов (MGF)

2. Производящая функция моментов (MGF)

Для произвольных (не только дискретных) случайных величин используется **MGF - moment generating function**:

Почему $e^{tX}$? Разложим в ряд Тейлора:

**MGF «хранит» все моменты в коэффициентах ряда Тейлора!**

MGF стандартных распределений

РаспределениеMGF $M_X(t)$
Bernoulli(p)$(1-p) + pe^t$
Binomial(n,p)$(1-p+pe^t)^n$
Poisson(λ)$e^{\lambda(e^t - 1)}$
Normal(μ,σ²)$e^{\mu t + \sigma^2 t^2/2}$
Exponential(λ)$\frac{\lambda}{\lambda - t}$, при $t < \lambda$

Чему равна MGF нормального N(0,1) при t=0?

M_X(0) = E[e^{0·X}] = E[1] = 1 для ЛЮБОГО распределения. Подставив t=0 в e^{μt + σ²t²/2} = e^0 = 1 ✓

3. Извлечение моментов дифференцированием

3. Извлечение моментов дифференцированием

Главный трюк: **n-й момент** получается как n-я производная MGF, вычисленная в t=0:

Моменты нормального распределения

X ~ N(μ, σ²)

$M_X(t) = e^{\mu t + \sigma^2 t^2/2}$ **Первая производная:** $M_X'(t) = (\mu + \sigma^2 t) \cdot e^{\mu t + \sigma^2 t^2/2}$ $E[X] = M_X'(0) = \mu \cdot e^0 = \mu$ ✓ **Вторая производная:** $M_X''(0) = \sigma^2 + \mu^2$ $E[X^2] = \sigma^2 + \mu^2$ **Проверка:** $Var[X] = E[X^2] - (E[X])^2 = \sigma^2 + \mu^2 - \mu^2 = \sigma^2$ ✓

**Теорема единственности MGF:** если $M_X(t) = M_Y(t)$ для всех $t$ в окрестности 0, то X и Y имеют одинаковое распределение. MGF **полностью определяет** распределение!

Python: вычисление MGF

Символьные и численные вычисления MGF

```python import numpy as np from scipy import stats import matplotlib.pyplot as plt # Численная MGF через Monte Carlo def empirical_mgf(samples, t_values): """E[e^{tX}] оцениваем по выборке""" return [np.mean(np.exp(t * samples)) for t in t_values] # Нормальное N(2, 9) mu, sigma = 2, 3 samples = np.random.normal(mu, sigma, size=100_000) t_vals = np.linspace(-0.5, 0.5, 100) # Теоретическая MGF: exp(mu*t + sigma^2*t^2/2) theory = np.exp(mu * t_vals + sigma**2 * t_vals**2 / 2) # Эмпирическая MGF empirical = empirical_mgf(samples, t_vals) plt.plot(t_vals, theory, 'b-', label='Теоретическая MGF') plt.plot(t_vals, empirical, 'r--', label='Эмпирическая MGF') plt.legend() plt.title('MGF нормального N(2, 9)') plt.show() # Извлечение моментов: численное дифференцирование dt = 1e-5 E_X = (empirical_mgf(samples, [dt])[0] - 1) / dt # M'(0) print(f'E[X] ≈ {E_X:.3f} (теория: {mu})') # Через производную формулы MGF E_X2 = mu**2 + sigma**2 print(f'E[X²] = {E_X2} (= σ² + μ² = {sigma**2} + {mu**2})') print(f'Var[X] = E[X²] - E[X]² = {E_X2 - mu**2}') ```

Если M_X(t) = e^{2t + 8t²}, то Var[X] = ?

MGF нормального N(μ, σ²) = e^{μt + σ²t²/2}. Здесь μt=2t → μ=2, и σ²t²/2=8t² → σ²/2=8 → σ²=16. Var[X] = σ² = 16.

Практика

Практика

Найдите PGF для геометрического распределения P(X=k) = (1-p)^{k-1}·p, k=1,2,... Вычислите E[X] через PGF.

G_X(z) = pz·Σ_{k=0}^∞ ((1-p)z)^k = pz/(1-(1-p)z) G_X'(z) = [p(1-(1-p)z) + pz(1-p)] / (1-(1-p)z)² = p / (1-(1-p)z)² E[X] = G_X'(1) = p / (1-(1-p))² = p/p² = 1/p ✓

Докажите, что если X ~ Poisson(λ₁) и Y ~ Poisson(λ₂) независимы, то X+Y ~ Poisson(λ₁+λ₂), используя MGF.

M_{X+Y}(t) = M_X(t) · M_Y(t) (независимость) = e^{λ₁(e^t-1)} · e^{λ₂(e^t-1)} = e^{(λ₁+λ₂)(e^t-1)} Это MGF Poisson(λ₁+λ₂)! По теореме единственности, X+Y ~ Poisson(λ₁+λ₂). ✓

X ~ Exponential(λ). Найдите E[X²] и Var[X] через MGF без вычисления интегралов.

M_X(t) = λ/(λ-t) M_X'(t) = λ/(λ-t)² → E[X] = M_X'(0) = 1/λ M_X''(t) = 2λ/(λ-t)³ → E[X²] = M_X''(0) = 2/λ² Var[X] = E[X²] - (E[X])² = 2/λ² - 1/λ² = 1/λ² Стандартное отклонение: σ = 1/λ = E[X] - характерное свойство экспоненциального!

$X \sim Exp(\lambda)$ имеет $M_X(t) = \lambda/(\lambda - t)$ при $t < \lambda$. Чему равна $Var[X]$ через MGF?

$M'(t) = \lambda/(\lambda - t)^2 \Rightarrow E[X] = 1/\lambda$. $M''(t) = 2\lambda/(\lambda - t)^3 \Rightarrow E[X^2] = 2/\lambda^2$. Тогда $Var[X] = 2/\lambda^2 - 1/\lambda^2 = 1/\lambda^2$. MGF превращает интегрирование в дифференцирование.

Производящие функции - мост к продвинутой теории

MGF и PGF открывают путь к глубоким результатам теории вероятностей.

  • Характеристические функции — φ_X(t) = E[e^{itX}] - работают для всех распределений (даже без MGF)
  • Центральная предельная теорема — Доказательство через логарифм MGF (cumulant generating function)
  • Условное математическое ожидание — Следующий урок: E[X|Y] - обобщение ожидания
  • Теория очередей — PGF для числа клиентов в очереди M/G/1

Итоги

  • **PGF:** $G_X(z) = E[z^X] = \sum p_k z^k$ для дискретных распределений
  • **MGF:** $M_X(t) = E[e^{tX}]$ - работает для любых распределений (если конечна)
  • **Извлечение моментов:** $E[X^n] = M_X^{(n)}(0)$ - просто n-я производная в 0
  • **Единственность:** MGF полностью определяет распределение
  • **Сумма независимых:** $M_{X+Y}(t) = M_X(t) \cdot M_Y(t)$ - произведение MGF
  • **Применение:** доказательство ЦПТ, идентификация распределений, расчёт моментов

Вопросы для размышления

  • Почему MGF называется «производящей функцией моментов»? Как ряд Тейлора связывает MGF и моменты?
  • Почему для распределения Коши MGF не существует - и что это говорит о распределении?
  • Как свойство M_{X+Y} = M_X·M_Y для независимых величин упрощает доказательство ЦПТ?
  • В каких задачах PGF удобнее MGF и наоборот?

Связанные уроки

  • stat-27-graphical-models
Производящие функции и ПГМ

0

1

Войти