Теория вероятностей
Центральная предельная теорема
Цели урока
- Понять, почему ЦПТ - это "самая важная теорема статистики"
- Увидеть, как ЛЮБОЕ распределение превращается в нормальное
- Освоить формулу стандартизации суммы
- Применять ЦПТ для практических вычислений
- Понять границы применимости теоремы
Предварительные знания
- Нормальное распределение N(μ, σ²)
- Закон больших чисел
- Z-score и стандартизация
**1889 год.** Фрэнсис Гальтон изобретает странное устройство - "доску Гальтона" (quincunx). Шарики падают через ряды гвоздей, отскакивая случайно влево или вправо. Каждый путь уникален, хаотичен, непредсказуем. Но результат? **Идеальная колоколообразная кривая**, каждый раз. Гальтон называл это "чудо порядка из хаоса". Мы называем это Центральной Предельной Теоремой.
- Опросы: почему погрешность ±3% при 1000 респондентах
- Рост людей: сумма тысяч генетических факторов
- Физика: тепловой шум как сумма столкновений молекул
- Финансы: портфель из множества активов
- ML: почему SGD работает с mini-batch
Теорема трёх веков
Де Муавр (1733) обнаружил, что биномиальное распределение приближается к колоколу - это был его способ обойтись без таблиц факториалов. Лаплас (1812) обобщил идею. Но **общее доказательство** дал русский математик Александр Ляпунов лишь в 1901 году, используя характеристические функции. 168 лет от открытия до полного понимания!
Центральная предельная теорема
Доска Гальтона: шарик скачет влево-вправо через много рядов гвоздей, и куча шариков образует **колоколообразное** распределение. Это не случайность - это **Центральная Предельная Теорема** (ЦПТ) в действии. Сумма множества независимых случайных воздействий стремится к нормальному распределению.
Формально: для i.i.d. $X_1, X_2, \dots$ с $\mathbb{E}[X]=\mu$ и $\text{Var}(X)=\sigma^2<\infty$, нормированное среднее $\frac{\bar{X}_n - \mu}{\sigma/\sqrt{n}} \to \mathcal{N}(0,1)$ при $n\to\infty$. Удивительное в ЦПТ - **универсальность**: не важно, какое распределение у $X$, результат всегда нормальный.
ЦПТ объясняет, почему нормальное распределение - 'король' статистики: рост людей, ошибки измерений, шум в данных - всё это суммы многих независимых факторов. На ЦПТ построены доверительные интервалы, p-value, A/B-тесты.
Центральная предельная теорема утверждает, что для большого $n$:
ЦПТ объясняет повсеместность нормального распределения: сумма (или среднее) большого числа независимых случайных слагаемых асимптотически нормальна, независимо от их собственного распределения.
1. Доска Гальтона - ЦПТ в действии
1. Доска Гальтона - ЦПТ в действии
Пусть шарик падает через N рядов гвоздей. На каждом гвозде он отскакивает влево (-1) или вправо (+1) с равной вероятностью.
Финальная позиция шарика:
где $X_i = \pm 1$ с вероятностью 0.5 каждое. Это сумма N независимых случайных величин!
- N = 1: только 2 позиции (нет колокола)
- N = 5: уже видны контуры колокола
- N = 20: почти идеальная гауссиана
- N = 100: неотличимо от нормального
**Вот оно, чудо ЦПТ:** каждый шарик идёт своим хаотичным путём, но **агрегат** подчиняется строгому закону - нормальному распределению.
На доске Гальтона с 100 рядами гвоздей, какое распределение примет финальная позиция шарика?
Финальная позиция - сумма 100 независимых ±1. Это Binomial(100, 0.5), но при n=100 биномиальное почти неотличимо от N(0, 10). ЦПТ в чистом виде!
2. Формальная формулировка
2. Формальная формулировка
Пусть $X_1, X_2, \ldots, X_n$ - **независимые одинаково распределённые** (i.i.d.) случайные величины с:
- $E[X_i] = \mu$ - математическое ожидание
- $Var[X_i] = \sigma^2 < \infty$ - конечная дисперсия
**Сумма:**
**Стандартизованная сумма:**
**Центральная предельная теорема:**
**Эквивалентная формулировка для среднего:** $\bar{X}_n = S_n / n$ имеет распределение, близкое к $N(\mu, \sigma^2/n)$ Стандартная ошибка среднего: $SE = \sigma / \sqrt{n}$
X₁, X₂, ..., X₁₀₀ - i.i.d. с μ = 10, σ = 5. Чему примерно равно распределение суммы S₁₀₀?
E[S₁₀₀] = 100 × 10 = 1000. Var[S₁₀₀] = 100 × 25 = 2500. По ЦПТ: S₁₀₀ ≈ N(1000, 2500), т.е. σ = 50.
3. Универсальность - почему это так удивительно
3. Универсальность - почему это так удивительно
Самое поразительное в ЦПТ - её **универсальность**. Неважно, какое распределение у исходных величин!
| Распределение Xᵢ | Форма | Сумма при большом n |
|---|---|---|
| Бернулли(0.5) | Дискретное, 0-1 | N(0.5n, 0.25n) |
| Равномерное(0,1) | Плоское | N(0.5n, n/12) |
| Экспоненциальное(1) | Скошенное вправо | N(n, n) |
| Пуассон(λ) | Дискретное, скошенное | N(λn, λn) |
| Любое с σ² < ∞ | Любая форма | ≈ Нормальное |
Все дороги ведут к нормальному распределению!
От кубика к колоколу
Сумма n бросков кубика
Один кубик: μ = 3.5, σ² = 35/12 ≈ 2.92 Сумма n кубиков ≈ N(3.5n, 2.92n)
| n | E[Sₙ] | σ | Форма |
|---|---|---|---|
| 1 | 3.5 | 1.7 | Равномерная |
| 2 | 7 | 2.4 | Треугольная |
| 10 | 35 | 5.4 | Почти колокол |
| 100 | 350 | 17 | Идеальный колокол |
Время обработки запроса на сервере имеет экспоненциальное распределение (сильно скошенное). Среднее время 100 запросов - это...
По ЦПТ, среднее 100 независимых величин (даже экспоненциальных!) приближается к нормальному. Форма исходного распределения не имеет значения при большом n.
4. Практические применения
4. Практические применения
Приближение биномиального
Если $X \sim Binomial(n, p)$, то при достаточно большом n:
**Правило проверки:** ЦПТ хорошо работает, если $np \geq 5$ и $n(1-p) \geq 5$.
A/B тест
Конверсия 5%, 1000 посетителей
Число конверсий X ~ Binomial(1000, 0.05) По ЦПТ: X ≈ N(50, 47.5) μ = 1000 × 0.05 = 50 σ = √(1000 × 0.05 × 0.95) ≈ 6.9 **P(X ≥ 60) = ?** z = (60 - 50) / 6.9 ≈ 1.45 P(X ≥ 60) = P(Z ≥ 1.45) ≈ 0.074 = 7.4%
Погрешность опросов
Знаменитое "±3% при 1000 респондентах" - это ЦПТ!
Опрос общественного мнения
Откуда берётся ±3%
Опрос n = 1000 человек. Пусть истинная доля p = 0.5 (наихудший случай). Выборочная доля p̂ ≈ N(p, p(1-p)/n) = N(0.5, 0.00025) SE = √(0.5 × 0.5 / 1000) = 0.0158 ≈ 1.6% 95% доверительный интервал: ±1.96 × SE ≈ ±3.1% **Вот откуда ±3%!**
Чтобы уменьшить погрешность опроса с ±3% до ±1%, сколько респондентов нужно опросить?
SE ~ 1/√n. Чтобы уменьшить погрешность в 3 раза, нужно увеличить n в 9 раз. 1000 × 9 = 9000 респондентов.
5. Когда ЦПТ НЕ работает
5. Когда ЦПТ НЕ работает
ЦПТ - не магия. Есть условия!
ЦПТ работает для любых распределений
ЦПТ требует конечной дисперсии σ² < ∞
Для распределений с "тяжёлыми хвостами" (Коши, Парето с α ≤ 2) дисперсия бесконечна. Сумма таких величин НЕ стремится к нормальному - она подчиняется распределению Леви.
- **Распределение Коши:** даже среднее не определено! Сумма n величин Коши - тоже Коши
- **Очень малое n:** при n < 30 для скошенных распределений приближение плохое
- **p близко к 0 или 1:** для Binomial(n, p) лучше использовать Пуассон
Для биномиального Bin(20, 0.02) можно ли использовать нормальное приближение?
Правило: np ≥ 5 и n(1-p) ≥ 5. Здесь np = 20 × 0.02 = 0.4 < 5. Приближение будет плохим. Лучше использовать Пуассон(0.4) или точную формулу.
Практика
Практика
Лифт выдерживает 1000 кг. В офисе 15 человек, средний вес 70 кг, σ = 15 кг. Какова вероятность, что их суммарный вес превысит лимит?
S₁₅ ≈ N(1050, 3375), σ ≈ 58 кг z = (1000 - 1050) / 58 ≈ -0.86 P(S > 1000) = P(Z > -0.86) = 1 - P(Z < -0.86) ≈ 1 - 0.195 = 0.805 **80% вероятность!** Лифт слишком слабый для 15 человек.
Монету бросают 400 раз. Найдите вероятность получить от 185 до 215 орлов.
X ~ Bin(400, 0.5) μ = 200, σ = √(400 × 0.25) = 10 С поправкой на непрерывность: P(184.5 < X < 215.5) z₁ = (184.5 - 200) / 10 = -1.55 z₂ = (215.5 - 200) / 10 = 1.55 P = Φ(1.55) - Φ(-1.55) = 0.939 - 0.061 = **0.878 ≈ 88%**
Страховая компания: 10000 полисов, вероятность страхового случая 1%, выплата $50000. Средняя премия должна покрывать 99% сценариев. Какова минимальная премия?
Число случаев X ~ Bin(10000, 0.01) ≈ N(100, 99) σ_X ≈ 9.95 99-й перцентиль: X₀.₉₉ = 100 + 2.33 × 9.95 ≈ 123.2 Макс. выплаты в 99% случаев: 123.2 × $50000 = $6.16 млн Мин. премия на полис: $6.16 млн / 10000 = **$616** (При E[выплат] = 100 × $50000 = $5 млн, премия $500 была бы слишком низкой!)
Монету бросают 400 раз. По ЦПТ число орлов $X \approx N(200, 100)$. Какова вероятность $185 \leq X \leq 215$ (с поправкой на непрерывность)?
$\mu = 200$, $\sigma = \sqrt{400\cdot 0{,}25} = 10$. С поправкой: $z = \pm 15{,}5/10 = \pm 1{,}55$, $\Phi(1{,}55) - \Phi(-1{,}55) \approx 0{,}878$. ЦПТ превращает биномиальное в нормальное при больших $n$.
ЦПТ - вершина теории вероятностей
Эта теорема объединяет всё, что мы изучили, и открывает двери в статистику.
- Доверительные интервалы — Построены напрямую на ЦПТ
- Проверка гипотез — Z-тесты и t-тесты основаны на нормальности
- Регрессия — Оценки МНК нормальны по ЦПТ
- Байесовская статистика — Апостериорное распределение часто нормально
- Машинное обучение — SGD, BatchNorm, инициализация - всюду ЦПТ
Итоги
- **ЦПТ:** сумма n i.i.d. величин → нормальное распределение при n → ∞
- **Универсальность:** работает для ЛЮБЫХ распределений с конечной дисперсией
- **Формула:** $Z_n = \frac{S_n - n\mu}{\sigma\sqrt{n}} \to N(0, 1)$
- **Стандартная ошибка:** $SE = \sigma/\sqrt{n}$ - уменьшается медленно!
- **Практика:** Bin(n, p) ≈ N(np, npq) при np ≥ 5 и nq ≥ 5
- **Ограничения:** не работает при бесконечной дисперсии (Коши)
Вопросы для размышления
- Вернёмся к доске Гальтона: как она визуально демонстрирует "порядок из хаоса"?
- Почему ЦПТ объясняет, что рост, IQ и погрешности измерений распределены нормально?
- Социолог хочет уменьшить погрешность опроса с 3% до 1%. Во сколько раз вырастут затраты на исследование?
- Что общего между ЦПТ и mini-batch SGD в нейросетях?