Теория вероятностей
Производящие функции и ПГМ
Цели урока
- Понять производящую функцию вероятностей (PGF) как кодировку распределения
- Освоить производящую функцию моментов (MGF) и её свойства
- Научиться извлекать моменты дифференцированием MGF
- Использовать MGF для доказательства единственности распределения
- Вычислять MGF в Python и сравнивать распределения
Предварительные знания
- Математическое ожидание E[X]
- Дисперсия и моменты Var[X]
- Степенные ряды и производные
Задача: найти E[X³⁰] - тридцатый момент! Считать напрямую - ужас. Но есть трюк: **зашифровать всё распределение в одну функцию** - производящую функцию. Тогда любой момент извлекается простым дифференцированием. Это как иметь «мастер-ключ» к любым характеристикам распределения.
- Анализ алгоритмов: средняя глубина дерева поиска
- Генетика: число мутаций в поколении
- Теория очередей: число клиентов в системе
- Страхование: сумма выплат за период
- Финансы: характеристические функции активов
От «трюков» к теории
Лаплас использовал производящие функции как вычислительный трюк для работы с биномиальными коэффициентами в 1812 году. Чебышёв и его школа превратили их в строгий инструмент теории вероятностей. Производящие функции моментов стали фундаментом для доказательства ЦПТ через характеристические функции - метод Ляпунова 1901 года.
Производящие функции и ПГМ
Производящие функции - удивительный мост между алгеброй и вероятностью. Они **кодируют всё распределение в одну функцию** и позволяют дифференцированием доставать матожидание, дисперсию и любые моменты. По сути - 'преобразование Фурье' для вероятностей.
Главных два вида: **производящая функция вероятностей** (PGF) $G_X(z) = \mathbb{E}[z^X]$ для дискретных $X \in \{0,1,2,\dots\}$, и **производящая функция моментов** (MGF) $M_X(t) = \mathbb{E}[e^{tX}]$ для произвольных $X$. У MGF свойство: $M_{X+Y}(t) = M_X(t)\cdot M_Y(t)$ для независимых $X, Y$.
Производящие функции - стандартный инструмент в analysis случайных процессов, теории больших уклонений, доказательстве ЦПТ. В ML появляются в анализе сходимости SGD и в моделях с латентными переменными.
Производящая функция моментов (MGF) $M_X(t) = \mathbb{E}[e^{tX}]$ полезна тем, что:
MGF кодирует все моменты в одной функции, через дифференцирование можно достать любой. MGF суммы независимых = произведение MGF - мощный инструмент для анализа сумм.
1. Производящая функция вероятностей (PGF)
1. Производящая функция вероятностей (PGF)
Для **дискретной** случайной величины X на {0, 1, 2, ...} производящая функция вероятностей:
Это просто степенной ряд, где коэффициент при $z^k$ - это $P(X=k)$. Вся информация о распределении упакована в одну функцию!
**Ключевые свойства PGF:** - $G_X(1) = 1$ (сумма всех вероятностей = 1) - $G_X'(1) = E[X]$ (первая производная в z=1 даёт среднее) - $G_X''(1) = E[X(X-1)]$ - факториальный момент
PGF для Бернулли
X ~ Bernoulli(p)
$P(X=0) = 1-p$, $P(X=1) = p$ $G_X(z) = (1-p) \cdot z^0 + p \cdot z^1 = 1 - p + pz$ **Проверка среднего:** $G_X'(z) = p$ $E[X] = G_X'(1) = p$ ✓ **PGF Биномиального Bin(n, p)** - как n независимых Бернулли: $G_X(z) = (1 - p + pz)^n$
PGF для Пуассона
X ~ Poisson(λ)
$G_X(z) = \sum_{k=0}^{\infty} e^{-\lambda} \frac{\lambda^k}{k!} z^k = e^{-\lambda} \sum_{k=0}^{\infty} \frac{(\lambda z)^k}{k!} = e^{-\lambda} \cdot e^{\lambda z}$ $G_X(z) = e^{\lambda(z-1)}$ **Среднее:** $G_X'(z) = \lambda e^{\lambda(z-1)}$ $E[X] = G_X'(1) = \lambda$ ✓
Если G_X(z) = (0.3 + 0.7z)⁵, то E[X] = ?
Это PGF Binomial(5, 0.7). G_X'(z) = 5·0.7·(0.3+0.7z)⁴. E[X] = G_X'(1) = 5·0.7·1 = 3.5. Или просто: E[Bin(n,p)] = np = 5·0.7 = 3.5.
2. Производящая функция моментов (MGF)
2. Производящая функция моментов (MGF)
Для произвольных (не только дискретных) случайных величин используется **MGF - moment generating function**:
Почему $e^{tX}$? Разложим в ряд Тейлора:
**MGF «хранит» все моменты в коэффициентах ряда Тейлора!**
MGF стандартных распределений
| Распределение | MGF $M_X(t)$ |
|---|---|
| Bernoulli(p) | $(1-p) + pe^t$ |
| Binomial(n,p) | $(1-p+pe^t)^n$ |
| Poisson(λ) | $e^{\lambda(e^t - 1)}$ |
| Normal(μ,σ²) | $e^{\mu t + \sigma^2 t^2/2}$ |
| Exponential(λ) | $\frac{\lambda}{\lambda - t}$, при $t < \lambda$ |
Чему равна MGF нормального N(0,1) при t=0?
M_X(0) = E[e^{0·X}] = E[1] = 1 для ЛЮБОГО распределения. Подставив t=0 в e^{μt + σ²t²/2} = e^0 = 1 ✓
3. Извлечение моментов дифференцированием
3. Извлечение моментов дифференцированием
Главный трюк: **n-й момент** получается как n-я производная MGF, вычисленная в t=0:
Моменты нормального распределения
X ~ N(μ, σ²)
$M_X(t) = e^{\mu t + \sigma^2 t^2/2}$ **Первая производная:** $M_X'(t) = (\mu + \sigma^2 t) \cdot e^{\mu t + \sigma^2 t^2/2}$ $E[X] = M_X'(0) = \mu \cdot e^0 = \mu$ ✓ **Вторая производная:** $M_X''(0) = \sigma^2 + \mu^2$ $E[X^2] = \sigma^2 + \mu^2$ **Проверка:** $Var[X] = E[X^2] - (E[X])^2 = \sigma^2 + \mu^2 - \mu^2 = \sigma^2$ ✓
**Теорема единственности MGF:** если $M_X(t) = M_Y(t)$ для всех $t$ в окрестности 0, то X и Y имеют одинаковое распределение. MGF **полностью определяет** распределение!
Python: вычисление MGF
Символьные и численные вычисления MGF
```python import numpy as np from scipy import stats import matplotlib.pyplot as plt # Численная MGF через Monte Carlo def empirical_mgf(samples, t_values): """E[e^{tX}] оцениваем по выборке""" return [np.mean(np.exp(t * samples)) for t in t_values] # Нормальное N(2, 9) mu, sigma = 2, 3 samples = np.random.normal(mu, sigma, size=100_000) t_vals = np.linspace(-0.5, 0.5, 100) # Теоретическая MGF: exp(mu*t + sigma^2*t^2/2) theory = np.exp(mu * t_vals + sigma**2 * t_vals**2 / 2) # Эмпирическая MGF empirical = empirical_mgf(samples, t_vals) plt.plot(t_vals, theory, 'b-', label='Теоретическая MGF') plt.plot(t_vals, empirical, 'r--', label='Эмпирическая MGF') plt.legend() plt.title('MGF нормального N(2, 9)') plt.show() # Извлечение моментов: численное дифференцирование dt = 1e-5 E_X = (empirical_mgf(samples, [dt])[0] - 1) / dt # M'(0) print(f'E[X] ≈ {E_X:.3f} (теория: {mu})') # Через производную формулы MGF E_X2 = mu**2 + sigma**2 print(f'E[X²] = {E_X2} (= σ² + μ² = {sigma**2} + {mu**2})') print(f'Var[X] = E[X²] - E[X]² = {E_X2 - mu**2}') ```
Если M_X(t) = e^{2t + 8t²}, то Var[X] = ?
MGF нормального N(μ, σ²) = e^{μt + σ²t²/2}. Здесь μt=2t → μ=2, и σ²t²/2=8t² → σ²/2=8 → σ²=16. Var[X] = σ² = 16.
Практика
Практика
Найдите PGF для геометрического распределения P(X=k) = (1-p)^{k-1}·p, k=1,2,... Вычислите E[X] через PGF.
G_X(z) = pz·Σ_{k=0}^∞ ((1-p)z)^k = pz/(1-(1-p)z) G_X'(z) = [p(1-(1-p)z) + pz(1-p)] / (1-(1-p)z)² = p / (1-(1-p)z)² E[X] = G_X'(1) = p / (1-(1-p))² = p/p² = 1/p ✓
Докажите, что если X ~ Poisson(λ₁) и Y ~ Poisson(λ₂) независимы, то X+Y ~ Poisson(λ₁+λ₂), используя MGF.
M_{X+Y}(t) = M_X(t) · M_Y(t) (независимость) = e^{λ₁(e^t-1)} · e^{λ₂(e^t-1)} = e^{(λ₁+λ₂)(e^t-1)} Это MGF Poisson(λ₁+λ₂)! По теореме единственности, X+Y ~ Poisson(λ₁+λ₂). ✓
X ~ Exponential(λ). Найдите E[X²] и Var[X] через MGF без вычисления интегралов.
M_X(t) = λ/(λ-t) M_X'(t) = λ/(λ-t)² → E[X] = M_X'(0) = 1/λ M_X''(t) = 2λ/(λ-t)³ → E[X²] = M_X''(0) = 2/λ² Var[X] = E[X²] - (E[X])² = 2/λ² - 1/λ² = 1/λ² Стандартное отклонение: σ = 1/λ = E[X] - характерное свойство экспоненциального!
$X \sim Exp(\lambda)$ имеет $M_X(t) = \lambda/(\lambda - t)$ при $t < \lambda$. Чему равна $Var[X]$ через MGF?
$M'(t) = \lambda/(\lambda - t)^2 \Rightarrow E[X] = 1/\lambda$. $M''(t) = 2\lambda/(\lambda - t)^3 \Rightarrow E[X^2] = 2/\lambda^2$. Тогда $Var[X] = 2/\lambda^2 - 1/\lambda^2 = 1/\lambda^2$. MGF превращает интегрирование в дифференцирование.
Производящие функции - мост к продвинутой теории
MGF и PGF открывают путь к глубоким результатам теории вероятностей.
- Характеристические функции — φ_X(t) = E[e^{itX}] - работают для всех распределений (даже без MGF)
- Центральная предельная теорема — Доказательство через логарифм MGF (cumulant generating function)
- Условное математическое ожидание — Следующий урок: E[X|Y] - обобщение ожидания
- Теория очередей — PGF для числа клиентов в очереди M/G/1
Итоги
- **PGF:** $G_X(z) = E[z^X] = \sum p_k z^k$ для дискретных распределений
- **MGF:** $M_X(t) = E[e^{tX}]$ - работает для любых распределений (если конечна)
- **Извлечение моментов:** $E[X^n] = M_X^{(n)}(0)$ - просто n-я производная в 0
- **Единственность:** MGF полностью определяет распределение
- **Сумма независимых:** $M_{X+Y}(t) = M_X(t) \cdot M_Y(t)$ - произведение MGF
- **Применение:** доказательство ЦПТ, идентификация распределений, расчёт моментов
Вопросы для размышления
- Почему MGF называется «производящей функцией моментов»? Как ряд Тейлора связывает MGF и моменты?
- Почему для распределения Коши MGF не существует - и что это говорит о распределении?
- Как свойство M_{X+Y} = M_X·M_Y для независимых величин упрощает доказательство ЦПТ?
- В каких задачах PGF удобнее MGF и наоборот?