Теория вероятностей

Центральная предельная теорема

Цели урока

Понять, почему ЦПТ - это "самая важная теорема статистики"
Увидеть, как ЛЮБОЕ распределение превращается в нормальное
Освоить формулу стандартизации суммы
Применять ЦПТ для практических вычислений
Понять границы применимости теоремы

Предварительные знания

Нормальное распределение N(μ, σ²)
Закон больших чисел
Z-score и стандартизация

**1889 год.** Фрэнсис Гальтон изобретает странное устройство - "доску Гальтона" (quincunx). Шарики падают через ряды гвоздей, отскакивая случайно влево или вправо. Каждый путь уникален, хаотичен, непредсказуем. Но результат? **Идеальная колоколообразная кривая**, каждый раз. Гальтон называл это "чудо порядка из хаоса". Мы называем это Центральной Предельной Теоремой.

Опросы: почему погрешность ±3% при 1000 респондентах
Рост людей: сумма тысяч генетических факторов
Физика: тепловой шум как сумма столкновений молекул
Финансы: портфель из множества активов
ML: почему SGD работает с mini-batch

Теорема трёх веков

Де Муавр (1733) обнаружил, что биномиальное распределение приближается к колоколу - это был его способ обойтись без таблиц факториалов. Лаплас (1812) обобщил идею. Но **общее доказательство** дал русский математик Александр Ляпунов лишь в 1901 году, используя характеристические функции. 168 лет от открытия до полного понимания!

Центральная предельная теорема

Доска Гальтона: шарик скачет влево-вправо через много рядов гвоздей, и куча шариков образует **колоколообразное** распределение. Это не случайность - это **Центральная Предельная Теорема** (ЦПТ) в действии. Сумма множества независимых случайных воздействий стремится к нормальному распределению.

Формально: для i.i.d. $X_1, X_2, \dots$ с $\mathbb{E}[X]=\mu$ и $\text{Var}(X)=\sigma^2<\infty$, нормированное среднее $\frac{\bar{X}_n - \mu}{\sigma/\sqrt{n}} \to \mathcal{N}(0,1)$ при $n\to\infty$. Удивительное в ЦПТ - **универсальность**: не важно, какое распределение у $X$, результат всегда нормальный.

ЦПТ объясняет, почему нормальное распределение - 'король' статистики: рост людей, ошибки измерений, шум в данных - всё это суммы многих независимых факторов. На ЦПТ построены доверительные интервалы, p-value, A/B-тесты.

Центральная предельная теорема утверждает, что для большого $n$:

ЦПТ объясняет повсеместность нормального распределения: сумма (или среднее) большого числа независимых случайных слагаемых асимптотически нормальна, независимо от их собственного распределения.

1. Доска Гальтона - ЦПТ в действии

Пусть шарик падает через N рядов гвоздей. На каждом гвозде он отскакивает влево (-1) или вправо (+1) с равной вероятностью.

Финальная позиция шарика:

где $X_i = \pm 1$ с вероятностью 0.5 каждое. Это сумма N независимых случайных величин!

N = 1: только 2 позиции (нет колокола)
N = 5: уже видны контуры колокола
N = 20: почти идеальная гауссиана
N = 100: неотличимо от нормального

**Вот оно, чудо ЦПТ:** каждый шарик идёт своим хаотичным путём, но **агрегат** подчиняется строгому закону - нормальному распределению.

На доске Гальтона с 100 рядами гвоздей, какое распределение примет финальная позиция шарика?

Финальная позиция - сумма 100 независимых ±1. Это Binomial(100, 0.5), но при n=100 биномиальное почти неотличимо от N(0, 10). ЦПТ в чистом виде!

2. Формальная формулировка

Пусть $X_1, X_2, \ldots, X_n$ - **независимые одинаково распределённые** (i.i.d.) случайные величины с:

$E[X_i] = \mu$ - математическое ожидание
$Var[X_i] = \sigma^2 < \infty$ - конечная дисперсия

**Сумма:**

**Стандартизованная сумма:**

**Центральная предельная теорема:**

**Эквивалентная формулировка для среднего:** $\bar{X}_n = S_n / n$ имеет распределение, близкое к $N(\mu, \sigma^2/n)$ Стандартная ошибка среднего: $SE = \sigma / \sqrt{n}$

X₁, X₂, ..., X₁₀₀ - i.i.d. с μ = 10, σ = 5. Чему примерно равно распределение суммы S₁₀₀?

E[S₁₀₀] = 100 × 10 = 1000. Var[S₁₀₀] = 100 × 25 = 2500. По ЦПТ: S₁₀₀ ≈ N(1000, 2500), т.е. σ = 50.

3. Универсальность - почему это так удивительно

Самое поразительное в ЦПТ - её **универсальность**. Неважно, какое распределение у исходных величин!

Распределение Xᵢ	Форма	Сумма при большом n
Бернулли(0.5)	Дискретное, 0-1	N(0.5n, 0.25n)
Равномерное(0,1)	Плоское	N(0.5n, n/12)
Экспоненциальное(1)	Скошенное вправо	N(n, n)
Пуассон(λ)	Дискретное, скошенное	N(λn, λn)
Любое с σ² < ∞	Любая форма	≈ Нормальное

Все дороги ведут к нормальному распределению!

От кубика к колоколу

Сумма n бросков кубика

Один кубик: μ = 3.5, σ² = 35/12 ≈ 2.92 Сумма n кубиков ≈ N(3.5n, 2.92n)

n	E[Sₙ]	σ	Форма
1	3.5	1.7	Равномерная
2	7	2.4	Треугольная
10	35	5.4	Почти колокол
100	350	17	Идеальный колокол

Время обработки запроса на сервере имеет экспоненциальное распределение (сильно скошенное). Среднее время 100 запросов - это...

По ЦПТ, среднее 100 независимых величин (даже экспоненциальных!) приближается к нормальному. Форма исходного распределения не имеет значения при большом n.

4. Практические применения

Приближение биномиального

Если $X \sim Binomial(n, p)$, то при достаточно большом n:

**Правило проверки:** ЦПТ хорошо работает, если $np \geq 5$ и $n(1-p) \geq 5$.

A/B тест

Конверсия 5%, 1000 посетителей

Число конверсий X ~ Binomial(1000, 0.05) По ЦПТ: X ≈ N(50, 47.5) μ = 1000 × 0.05 = 50 σ = √(1000 × 0.05 × 0.95) ≈ 6.9 **P(X ≥ 60) = ?** z = (60 - 50) / 6.9 ≈ 1.45 P(X ≥ 60) = P(Z ≥ 1.45) ≈ 0.074 = 7.4%

Погрешность опросов

Знаменитое "±3% при 1000 респондентах" - это ЦПТ!

Опрос общественного мнения

Откуда берётся ±3%

Опрос n = 1000 человек. Пусть истинная доля p = 0.5 (наихудший случай). Выборочная доля p̂ ≈ N(p, p(1-p)/n) = N(0.5, 0.00025) SE = √(0.5 × 0.5 / 1000) = 0.0158 ≈ 1.6% 95% доверительный интервал: ±1.96 × SE ≈ ±3.1% **Вот откуда ±3%!**

Чтобы уменьшить погрешность опроса с ±3% до ±1%, сколько респондентов нужно опросить?

SE ~ 1/√n. Чтобы уменьшить погрешность в 3 раза, нужно увеличить n в 9 раз. 1000 × 9 = 9000 респондентов.

5. Когда ЦПТ НЕ работает

ЦПТ - не магия. Есть условия!

ЦПТ работает для любых распределений

ЦПТ требует конечной дисперсии σ² < ∞

Для распределений с "тяжёлыми хвостами" (Коши, Парето с α ≤ 2) дисперсия бесконечна. Сумма таких величин НЕ стремится к нормальному - она подчиняется распределению Леви.

**Распределение Коши:** даже среднее не определено! Сумма n величин Коши - тоже Коши
**Очень малое n:** при n < 30 для скошенных распределений приближение плохое
**p близко к 0 или 1:** для Binomial(n, p) лучше использовать Пуассон

Для биномиального Bin(20, 0.02) можно ли использовать нормальное приближение?

Правило: np ≥ 5 и n(1-p) ≥ 5. Здесь np = 20 × 0.02 = 0.4 < 5. Приближение будет плохим. Лучше использовать Пуассон(0.4) или точную формулу.

Практика

Лифт выдерживает 1000 кг. В офисе 15 человек, средний вес 70 кг, σ = 15 кг. Какова вероятность, что их суммарный вес превысит лимит?

S₁₅ ≈ N(1050, 3375), σ ≈ 58 кг z = (1000 - 1050) / 58 ≈ -0.86 P(S > 1000) = P(Z > -0.86) = 1 - P(Z < -0.86) ≈ 1 - 0.195 = 0.805 **80% вероятность!** Лифт слишком слабый для 15 человек.

Монету бросают 400 раз. Найдите вероятность получить от 185 до 215 орлов.

X ~ Bin(400, 0.5) μ = 200, σ = √(400 × 0.25) = 10 С поправкой на непрерывность: P(184.5 < X < 215.5) z₁ = (184.5 - 200) / 10 = -1.55 z₂ = (215.5 - 200) / 10 = 1.55 P = Φ(1.55) - Φ(-1.55) = 0.939 - 0.061 = **0.878 ≈ 88%**

Страховая компания: 10000 полисов, вероятность страхового случая 1%, выплата $50000. Средняя премия должна покрывать 99% сценариев. Какова минимальная премия?

Число случаев X ~ Bin(10000, 0.01) ≈ N(100, 99) σ_X ≈ 9.95 99-й перцентиль: X₀.₉₉ = 100 + 2.33 × 9.95 ≈ 123.2 Макс. выплаты в 99% случаев: 123.2 × $50000 = $6.16 млн Мин. премия на полис: $6.16 млн / 10000 = **$616** (При E[выплат] = 100 × $50000 = $5 млн, премия $500 была бы слишком низкой!)

Монету бросают 400 раз. По ЦПТ число орлов $X \approx N(200, 100)$. Какова вероятность $185 \leq X \leq 215$ (с поправкой на непрерывность)?

$\mu = 200$, $\sigma = \sqrt{400\cdot 0{,}25} = 10$. С поправкой: $z = \pm 15{,}5/10 = \pm 1{,}55$, $\Phi(1{,}55) - \Phi(-1{,}55) \approx 0{,}878$. ЦПТ превращает биномиальное в нормальное при больших $n$.

ЦПТ - вершина теории вероятностей

Эта теорема объединяет всё, что мы изучили, и открывает двери в статистику.

Доверительные интервалы — Построены напрямую на ЦПТ
Проверка гипотез — Z-тесты и t-тесты основаны на нормальности
Регрессия — Оценки МНК нормальны по ЦПТ
Байесовская статистика — Апостериорное распределение часто нормально
Машинное обучение — SGD, BatchNorm, инициализация - всюду ЦПТ

Итоги

**ЦПТ:** сумма n i.i.d. величин → нормальное распределение при n → ∞
**Универсальность:** работает для ЛЮБЫХ распределений с конечной дисперсией
**Формула:** $Z_n = \frac{S_n - n\mu}{\sigma\sqrt{n}} \to N(0, 1)$
**Стандартная ошибка:** $SE = \sigma/\sqrt{n}$ - уменьшается медленно!
**Практика:** Bin(n, p) ≈ N(np, npq) при np ≥ 5 и nq ≥ 5
**Ограничения:** не работает при бесконечной дисперсии (Коши)

Вопросы для размышления

Вернёмся к доске Гальтона: как она визуально демонстрирует "порядок из хаоса"?
Почему ЦПТ объясняет, что рост, IQ и погрешности измерений распределены нормально?
Социолог хочет уменьшить погрешность опроса с 3% до 1%. Во сколько раз вырастут затраты на исследование?
Что общего между ЦПТ и mini-batch SGD в нейросетях?

Связанные уроки

Теория вероятностей

Центральная предельная теорема

Цели урока

Понять, почему ЦПТ - это "самая важная теорема статистики"
Увидеть, как ЛЮБОЕ распределение превращается в нормальное
Освоить формулу стандартизации суммы
Применять ЦПТ для практических вычислений
Понять границы применимости теоремы

Предварительные знания

Нормальное распределение N(μ, σ²)
Закон больших чисел
Z-score и стандартизация

Опросы: почему погрешность ±3% при 1000 респондентах
Рост людей: сумма тысяч генетических факторов
Физика: тепловой шум как сумма столкновений молекул
Финансы: портфель из множества активов
ML: почему SGD работает с mini-batch

Теорема трёх веков

Центральная предельная теорема

Центральная предельная теорема утверждает, что для большого $n$:

1. Доска Гальтона - ЦПТ в действии

Финальная позиция шарика:

где $X_i = \pm 1$ с вероятностью 0.5 каждое. Это сумма N независимых случайных величин!

N = 1: только 2 позиции (нет колокола)
N = 5: уже видны контуры колокола
N = 20: почти идеальная гауссиана
N = 100: неотличимо от нормального

На доске Гальтона с 100 рядами гвоздей, какое распределение примет финальная позиция шарика?

2. Формальная формулировка

Пусть $X_1, X_2, \ldots, X_n$ - **независимые одинаково распределённые** (i.i.d.) случайные величины с:

$E[X_i] = \mu$ - математическое ожидание
$Var[X_i] = \sigma^2 < \infty$ - конечная дисперсия

**Сумма:**

**Стандартизованная сумма:**

**Центральная предельная теорема:**

X₁, X₂, ..., X₁₀₀ - i.i.d. с μ = 10, σ = 5. Чему примерно равно распределение суммы S₁₀₀?

E[S₁₀₀] = 100 × 10 = 1000. Var[S₁₀₀] = 100 × 25 = 2500. По ЦПТ: S₁₀₀ ≈ N(1000, 2500), т.е. σ = 50.

3. Универсальность - почему это так удивительно

Самое поразительное в ЦПТ - её **универсальность**. Неважно, какое распределение у исходных величин!

Распределение Xᵢ	Форма	Сумма при большом n
Бернулли(0.5)	Дискретное, 0-1	N(0.5n, 0.25n)
Равномерное(0,1)	Плоское	N(0.5n, n/12)
Экспоненциальное(1)	Скошенное вправо	N(n, n)
Пуассон(λ)	Дискретное, скошенное	N(λn, λn)
Любое с σ² < ∞	Любая форма	≈ Нормальное

Все дороги ведут к нормальному распределению!

От кубика к колоколу

Сумма n бросков кубика

Один кубик: μ = 3.5, σ² = 35/12 ≈ 2.92 Сумма n кубиков ≈ N(3.5n, 2.92n)

n	E[Sₙ]	σ	Форма
1	3.5	1.7	Равномерная
2	7	2.4	Треугольная
10	35	5.4	Почти колокол
100	350	17	Идеальный колокол

4. Практические применения

Приближение биномиального

Если $X \sim Binomial(n, p)$, то при достаточно большом n:

**Правило проверки:** ЦПТ хорошо работает, если $np \geq 5$ и $n(1-p) \geq 5$.

A/B тест

Конверсия 5%, 1000 посетителей

Погрешность опросов

Знаменитое "±3% при 1000 респондентах" - это ЦПТ!

Опрос общественного мнения

Откуда берётся ±3%

Чтобы уменьшить погрешность опроса с ±3% до ±1%, сколько респондентов нужно опросить?

SE ~ 1/√n. Чтобы уменьшить погрешность в 3 раза, нужно увеличить n в 9 раз. 1000 × 9 = 9000 респондентов.

5. Когда ЦПТ НЕ работает

ЦПТ - не магия. Есть условия!

ЦПТ работает для любых распределений

ЦПТ требует конечной дисперсии σ² < ∞

**Распределение Коши:** даже среднее не определено! Сумма n величин Коши - тоже Коши
**Очень малое n:** при n < 30 для скошенных распределений приближение плохое
**p близко к 0 или 1:** для Binomial(n, p) лучше использовать Пуассон

Для биномиального Bin(20, 0.02) можно ли использовать нормальное приближение?

Практика

Монету бросают 400 раз. Найдите вероятность получить от 185 до 215 орлов.

ЦПТ - вершина теории вероятностей

Эта теорема объединяет всё, что мы изучили, и открывает двери в статистику.

Доверительные интервалы — Построены напрямую на ЦПТ
Проверка гипотез — Z-тесты и t-тесты основаны на нормальности
Регрессия — Оценки МНК нормальны по ЦПТ
Байесовская статистика — Апостериорное распределение часто нормально
Машинное обучение — SGD, BatchNorm, инициализация - всюду ЦПТ

Итоги

**ЦПТ:** сумма n i.i.d. величин → нормальное распределение при n → ∞
**Универсальность:** работает для ЛЮБЫХ распределений с конечной дисперсией
**Формула:** $Z_n = \frac{S_n - n\mu}{\sigma\sqrt{n}} \to N(0, 1)$
**Стандартная ошибка:** $SE = \sigma/\sqrt{n}$ - уменьшается медленно!
**Практика:** Bin(n, p) ≈ N(np, npq) при np ≥ 5 и nq ≥ 5
**Ограничения:** не работает при бесконечной дисперсии (Коши)

Вопросы для размышления

Вернёмся к доске Гальтона: как она визуально демонстрирует "порядок из хаоса"?
Почему ЦПТ объясняет, что рост, IQ и погрешности измерений распределены нормально?
Социолог хочет уменьшить погрешность опроса с 3% до 1%. Во сколько раз вырастут затраты на исследование?
Что общего между ЦПТ и mini-batch SGD в нейросетях?