Теория вероятностей
Закон больших чисел
Цели урока
- Понять интуицию закона больших чисел на примерах
- Разобраться, почему среднее стабилизируется при увеличении выборки
- Различить слабый и сильный ЗБЧ
- Понять связь с частотным определением вероятности
- Увидеть ЗБЧ в действии: казино, страхование, ML
Предварительные знания
- Математическое ожидание E[X]
- Дисперсия Var[X]
- Независимые случайные величины
- Неравенство Чебышёва
**1940 год, немецкий лагерь для военнопленных.** Южноафриканский математик Джон Керрич от скуки решил провести эксперимент. Он подбросил монету **10 000 раз** и записал каждый результат. На 10-м броске доля орлов была 40%. На 100-м - 44%. На 1000-м - 50.2%. На 10 000-м - 50.67%. Монета «сходилась» к честной. Это был живой Закон Больших Чисел.
- Казино: почему «дом всегда выигрывает»
- Страхование: предсказуемость при миллионах полисов
- Опросы: почему 1000 человек отражает миллионы
- A/B тесты: сколько ждать до достоверного результата
- ML: почему mini-batch gradient descent работает
Золотая теорема - 20 лет работы
Якоб Бернулли потратил **20 лет** на доказательство того, что интуитивно понятно любому. Он назвал результат «золотой теоремой» и опубликовал посмертно в «Ars Conjectandi» (1713). Это была первая строгая связь между **теорией** (вероятность) и **практикой** (частота). Бернулли писал: «Даже глупец понимает это интуитивно, но доказать - совсем другое дело».
Закон больших чисел
Бросьте монету один раз - орёл или решка, разброс огромный. Бросьте 10 000 раз - доля орлов будет очень близка к 0.5. Этот факт интуитивен, но требует строгой формулировки: **Закон больших чисел** (ЗБЧ) - один из основополагающих результатов теории вероятностей.
Формально: для независимых одинаково распределённых $X_1, X_2, \dots$ с конечным $\mathbb{E}[X]=\mu$ выборочное среднее $\bar{X}_n = \frac{1}{n}\sum X_i$ сходится к $\mu$ при $n\to\infty$. Это **слабый ЗБЧ** (сходимость по вероятности) или **сильный ЗБЧ** (почти наверная сходимость).
ЗБЧ - теоретическое обоснование Monte Carlo методов в ML, эмпирического риска (empirical risk) в supervised learning и оценки градиента в SGD. Без него мы не могли бы оправдать переход 'выборка → популяция'.
Закон больших чисел утверждает, что:
ЗБЧ - фундамент эмпирической оценки: частота сходится к вероятности, выборочное среднее - к матожиданию. Это оправдывает Монте-Карло и статистические оценки в больших данных.
1. Интуиция: что происходит при увеличении выборки?
1. Интуиция: что происходит при увеличении выборки?
Пусть мы бросаем честную монету и считаем долю орлов:
| Бросков | Орлов | Доля | Отклонение от 0.5 |
|---|---|---|---|
| 10 | 7 | 0.70 | 0.20 |
| 100 | 56 | 0.56 | 0.06 |
| 1 000 | 512 | 0.512 | 0.012 |
| 10 000 | 5 067 | 0.5067 | 0.0067 |
| 100 000 | 50 121 | 0.50121 | 0.00121 |
Видите паттерн? Отклонение **убывает** примерно как $1/\sqrt{n}$.
**Ключевой инсайт:** при увеличении выборки в 100 раз, отклонение уменьшается примерно в 10 раз (в $\sqrt{100}$ раз).
После 10 000 бросков доля орлов = 0.52. После ещё 90 000 бросков (всего 100 000), какое отклонение от 0.5 ожидается?
Выборка увеличилась в 10 раз (с 10k до 100k). Типичное отклонение уменьшается в √10 ≈ 3.16 раза. Было ~0.02, станет ~0.0063. ЗБЧ в действии!
2. Формальная формулировка
2. Формальная формулировка
Пусть $X_1, X_2, X_3, \ldots$ - **независимые одинаково распределённые** (i.i.d.) случайные величины с:
- $E[X_i] = \mu$ - математическое ожидание
- $Var[X_i] = \sigma^2 < \infty$ - конечная дисперсия
**Выборочное среднее:**
**Закон больших чисел:** при $n \to \infty$ выборочное среднее сходится к математическому ожиданию:
Слабый vs Сильный ЗБЧ
Есть два варианта теоремы - они отличаются **типом сходимости**:
| Версия | Авторы | Условия | Утверждение |
|---|---|---|---|
| Слабый ЗБЧ | Бернулли (1713), Хинчин (1929) | E[|X|] < ∞ | P(|X̄ₙ - μ| > ε) → 0 |
| Сильный ЗБЧ | Колмогоров (1930) | E[|X|] < ∞ | P(X̄ₙ → μ) = 1 |
**Разница:** слабый говорит «вероятность большого отклонения стремится к 0». Сильный говорит «траектория X̄ₙ почти наверняка сходится к μ». На практике разница редко важна.
Что означает "сходимость по вероятности" в слабом ЗБЧ?
Сходимость по вероятности: как бы мало ни было ε, вероятность отклониться от μ больше чем на ε стремится к нулю. Но это не гарантирует, что отклонений вообще не будет!
3. Почему это работает? Математика за интуицией
3. Почему это работает? Математика за интуицией
Вычислим характеристики выборочного среднего:
Матожидание X̄ₙ
Выборочное среднее - **несмещённая** оценка μ. Оно "целится" точно в μ.
Дисперсия X̄ₙ - ключ к ЗБЧ!
Дисперсия среднего **убывает как 1/n**! Это и есть суть ЗБЧ.
**Стандартная ошибка среднего:** $SE = \frac{\sigma}{\sqrt{n}}$ Она убывает как $1/\sqrt{n}$. Чтобы уменьшить ошибку вдвое, нужно увеличить выборку в 4 раза!
Доказательство слабого ЗБЧ (через Чебышёва)
По неравенству Чебышёва:
Готово! Вероятность большого отклонения стремится к нулю. ∎
X имеет σ = 10. Какова стандартная ошибка среднего при n = 100?
SE = σ/√n = 10/√100 = 10/10 = 1. При 100 наблюдениях стандартная ошибка в 10 раз меньше стандартного отклонения отдельного наблюдения.
4. Связь с частотным определением вероятности
4. Связь с частотным определением вероятности
ЗБЧ **оправдывает** частотное определение вероятности!
Если событие A имеет вероятность p, то его частота в n независимых экспериментах:
Это частный случай ЗБЧ: возьмём $X_i = 1$ если A произошло, 0 иначе. Тогда $E[X_i] = p$ и $\bar{X}_n =$ частота A.
Данные Керрича
Реальный эксперимент в лагере военнопленных
Керрич записал результаты по группам:
| Бросков | Орлов | Частота |
|---|---|---|
| 10 | 4 | 0.400 |
| 50 | 25 | 0.500 |
| 100 | 44 | 0.440 |
| 500 | 255 | 0.510 |
| 1000 | 502 | 0.502 |
| 5000 | 2533 | 0.5066 |
| 10000 | 5067 | 0.5067 |
Частота "стабилизируется" около 0.5, но не монотонно!
Вероятность выпадения "6" на кубике = 1/6 ≈ 0.167. После 600 бросков выпало 120 шестёрок (20%). Противоречит ли это ЗБЧ?
SE = √(p(1-p)/n) = √(0.167×0.833/600) ≈ 0.015. Отклонение 20% - 16.7% = 3.3% - это ~2.2 стандартных ошибки. Редко, но не невероятно. ЗБЧ говорит о пределе при n → ∞, не о конкретном n.
5. Главная ошибка: "Закон средних"
5. Главная ошибка: "Закон средних"
После 10 орлов подряд решка «должна» выпасть, чтобы «компенсировать»
Каждый бросок независим. ЗБЧ работает через разбавление, не компенсацию
10 орлов подряд - это 10 бросков. При 10 000 бросков их влияние на частоту = 10/10000 = 0.1%. Новые броски «разбавляют» прошлое, не «исправляют» его.
Разбавление vs компенсация
Почему ЗБЧ - не о компенсации
После 10 орлов подряд: частота = 10/10 = 100%. Сценарий 1 (компенсация): следующие 10 - решки. Частота = 10/20 = 50%. **Неверно!** Сценарий 2 (разбавление): следующие 9990 бросков - 50% орлов. Частота = (10 + 4995) / 10000 = 50.05%. ЗБЧ: 10 орлов «утонули» в массе новых данных, а не были «скомпенсированы».
**Ошибка игрока (Gambler's Fallacy):** вера в то, что прошлые исходы влияют на будущие в независимых экспериментах. Монета **не помнит**, что выпадало раньше!
В рулетке 5 раз подряд выпало красное. Что можно сказать о следующем спине?
Рулетка - независимые испытания. P(красное) = 18/37 каждый раз. Прошлые спины никак не влияют на будущие. Это и есть «ошибка игрока» - верить в компенсацию.
Практика
Практика
Завод производит детали с 3% браком. Инспектор проверяет 900 деталей. С какой вероятностью доля бракованных отклонится от 3% более чем на 1%?
$SE = \sqrt{\frac{0.03 \times 0.97}{900}} = \sqrt{\frac{0.0291}{900}} \approx 0.0057$ Отклонение 1% = 0.01. В единицах SE: z = 0.01 / 0.0057 ≈ 1.75 P(|X̄ - 0.03| > 0.01) = P(|Z| > 1.75) ≈ 2 × (1 - 0.96) = **8%** С вероятностью ~92% доля будет от 2% до 4%.
A/B тест: контроль (A) показывает конверсию 5%, тест (B) - 6%. Сколько нужно пользователей в каждой группе, чтобы различие было статистически значимым (SE < 0.5%)?
$SE_{diff} \approx \sqrt{\frac{2 \times 0.055 \times 0.945}{n}} = \sqrt{\frac{0.104}{n}}$ Нужно $SE < 0.005$: $\sqrt{\frac{0.104}{n}} < 0.005$ $\frac{0.104}{n} < 0.000025$ $n > \frac{0.104}{0.000025} = 4160$ **~4200 пользователей в каждой группе** минимум.
Казино имеет преимущество 2% в каждой игре. Средняя ставка - $100. Какова примерная прибыль казино от 1 миллиона игр? Почему казино уверено в этом?
$E[\text{прибыль с игры}] = 0.02 \times 100\,\text{долл.} = 2\,\text{долл.}$ $E[\text{прибыль от 1 млн игр}] = 1\,000\,000 \times 2\,\text{долл.} = 2\,000\,000\,\text{долл.}$ По ЗБЧ: средняя прибыль на игру сходится к 2 долларам. При миллионе игр флуктуации становятся пренебрежимо малы относительно суммы. **Казино «играет долго»**, и ЗБЧ гарантирует ему прибыль.
Казино имеет преимущество 2% при ставке $\$100$, играют 1 000 000 партий. Почему по ЗБЧ казино уверено в прибыли около $\$2\,000\,000$?
По ЗБЧ среднее за $n$ игр стремится к $E[X] = \$2$. Стандартная ошибка среднего убывает как $\sigma/\sqrt{n}$, поэтому при $n = 10^6$ отклонение от $\$2\,000\,000$ относительно мало - бизнес-модель казино держится именно на больших объёмах.
ЗБЧ - фундамент статистики
Закон больших чисел лежит в основе почти всех статистических методов.
- ЦПТ — Следующий шаг: не только сходимость, но и форма распределения
- Оценки параметров — Состоятельность оценок основана на ЗБЧ
- Метод Монте-Карло — Оценка интегралов через случайные выборки
- ML: SGD — Mini-batch градиент сходится к полному по ЗБЧ
- Страхование — Предсказуемость при большом числе полисов
Итоги
- **ЗБЧ:** $\bar{X}_n \to \mu$ при $n \to \infty$
- **Почему работает:** $Var[\bar{X}_n] = \sigma^2/n \to 0$
- **Стандартная ошибка:** $SE = \sigma/\sqrt{n}$ - убывает как $1/\sqrt{n}$
- **Частота → вероятность** - оправдание частотного подхода
- **НЕ компенсация:** прошлое разбавляется, а не исправляется
Вопросы для размышления
- Вернёмся к Керричу: почему его эксперимент был важен для науки, даже если ЗБЧ уже был доказан теоретически?
- Страховая компания выплачивает в среднем $10 000 на полис, но отдельные выплаты варьируются от $0 до $1 млн. Почему компания уверена в своих расчётах?
- Если ЗБЧ говорит о сходимости при n → ∞, как его применять на практике с конечным n?
- Почему для уменьшения ошибки вдвое нужно увеличить выборку в 4 раза, а не в 2?