Теория вероятностей

Закон больших чисел

Цели урока

Понять интуицию закона больших чисел на примерах
Разобраться, почему среднее стабилизируется при увеличении выборки
Различить слабый и сильный ЗБЧ
Понять связь с частотным определением вероятности
Увидеть ЗБЧ в действии: казино, страхование, ML

Предварительные знания

Математическое ожидание E[X]
Дисперсия Var[X]
Независимые случайные величины
Неравенство Чебышёва

**1940 год, немецкий лагерь для военнопленных.** Южноафриканский математик Джон Керрич от скуки решил провести эксперимент. Он подбросил монету **10 000 раз** и записал каждый результат. На 10-м броске доля орлов была 40%. На 100-м - 44%. На 1000-м - 50.2%. На 10 000-м - 50.67%. Монета «сходилась» к честной. Это был живой Закон Больших Чисел.

Казино: почему «дом всегда выигрывает»
Страхование: предсказуемость при миллионах полисов
Опросы: почему 1000 человек отражает миллионы
A/B тесты: сколько ждать до достоверного результата
ML: почему mini-batch gradient descent работает

Золотая теорема - 20 лет работы

Якоб Бернулли потратил **20 лет** на доказательство того, что интуитивно понятно любому. Он назвал результат «золотой теоремой» и опубликовал посмертно в «Ars Conjectandi» (1713). Это была первая строгая связь между **теорией** (вероятность) и **практикой** (частота). Бернулли писал: «Даже глупец понимает это интуитивно, но доказать - совсем другое дело».

Закон больших чисел

Бросьте монету один раз - орёл или решка, разброс огромный. Бросьте 10 000 раз - доля орлов будет очень близка к 0.5. Этот факт интуитивен, но требует строгой формулировки: **Закон больших чисел** (ЗБЧ) - один из основополагающих результатов теории вероятностей.

Формально: для независимых одинаково распределённых $X_1, X_2, \dots$ с конечным $\mathbb{E}[X]=\mu$ выборочное среднее $\bar{X}_n = \frac{1}{n}\sum X_i$ сходится к $\mu$ при $n\to\infty$. Это **слабый ЗБЧ** (сходимость по вероятности) или **сильный ЗБЧ** (почти наверная сходимость).

ЗБЧ - теоретическое обоснование Monte Carlo методов в ML, эмпирического риска (empirical risk) в supervised learning и оценки градиента в SGD. Без него мы не могли бы оправдать переход 'выборка → популяция'.

Закон больших чисел утверждает, что:

ЗБЧ - фундамент эмпирической оценки: частота сходится к вероятности, выборочное среднее - к матожиданию. Это оправдывает Монте-Карло и статистические оценки в больших данных.

1. Интуиция: что происходит при увеличении выборки?

Пусть мы бросаем честную монету и считаем долю орлов:

Бросков	Орлов	Доля	Отклонение от 0.5
10	7	0.70	0.20
100	56	0.56	0.06
1 000	512	0.512	0.012
10 000	5 067	0.5067	0.0067
100 000	50 121	0.50121	0.00121

Видите паттерн? Отклонение **убывает** примерно как $1/\sqrt{n}$.

**Ключевой инсайт:** при увеличении выборки в 100 раз, отклонение уменьшается примерно в 10 раз (в $\sqrt{100}$ раз).

После 10 000 бросков доля орлов = 0.52. После ещё 90 000 бросков (всего 100 000), какое отклонение от 0.5 ожидается?

Выборка увеличилась в 10 раз (с 10k до 100k). Типичное отклонение уменьшается в √10 ≈ 3.16 раза. Было ~0.02, станет ~0.0063. ЗБЧ в действии!

2. Формальная формулировка

Пусть $X_1, X_2, X_3, \ldots$ - **независимые одинаково распределённые** (i.i.d.) случайные величины с:

$E[X_i] = \mu$ - математическое ожидание
$Var[X_i] = \sigma^2 < \infty$ - конечная дисперсия

**Выборочное среднее:**

**Закон больших чисел:** при $n \to \infty$ выборочное среднее сходится к математическому ожиданию:

Слабый vs Сильный ЗБЧ

Есть два варианта теоремы - они отличаются **типом сходимости**:

Версия	Авторы	Условия	Утверждение
Слабый ЗБЧ	Бернулли (1713), Хинчин (1929)	E[\|X\|] < ∞	P(\|X̄ₙ - μ\| > ε) → 0
Сильный ЗБЧ	Колмогоров (1930)	E[\|X\|] < ∞	P(X̄ₙ → μ) = 1

**Разница:** слабый говорит «вероятность большого отклонения стремится к 0». Сильный говорит «траектория X̄ₙ почти наверняка сходится к μ». На практике разница редко важна.

Что означает "сходимость по вероятности" в слабом ЗБЧ?

Сходимость по вероятности: как бы мало ни было ε, вероятность отклониться от μ больше чем на ε стремится к нулю. Но это не гарантирует, что отклонений вообще не будет!

3. Почему это работает? Математика за интуицией

Вычислим характеристики выборочного среднего:

Матожидание X̄ₙ

Выборочное среднее - **несмещённая** оценка μ. Оно "целится" точно в μ.

Дисперсия X̄ₙ - ключ к ЗБЧ!

Дисперсия среднего **убывает как 1/n**! Это и есть суть ЗБЧ.

**Стандартная ошибка среднего:** $SE = \frac{\sigma}{\sqrt{n}}$ Она убывает как $1/\sqrt{n}$. Чтобы уменьшить ошибку вдвое, нужно увеличить выборку в 4 раза!

Доказательство слабого ЗБЧ (через Чебышёва)

По неравенству Чебышёва:

Готово! Вероятность большого отклонения стремится к нулю. ∎

X имеет σ = 10. Какова стандартная ошибка среднего при n = 100?

SE = σ/√n = 10/√100 = 10/10 = 1. При 100 наблюдениях стандартная ошибка в 10 раз меньше стандартного отклонения отдельного наблюдения.

4. Связь с частотным определением вероятности

ЗБЧ **оправдывает** частотное определение вероятности!

Если событие A имеет вероятность p, то его частота в n независимых экспериментах:

Это частный случай ЗБЧ: возьмём $X_i = 1$ если A произошло, 0 иначе. Тогда $E[X_i] = p$ и $\bar{X}_n =$ частота A.

Данные Керрича

Реальный эксперимент в лагере военнопленных

Керрич записал результаты по группам:

Бросков	Орлов	Частота
10	4	0.400
50	25	0.500
100	44	0.440
500	255	0.510
1000	502	0.502
5000	2533	0.5066
10000	5067	0.5067

Частота "стабилизируется" около 0.5, но не монотонно!

Вероятность выпадения "6" на кубике = 1/6 ≈ 0.167. После 600 бросков выпало 120 шестёрок (20%). Противоречит ли это ЗБЧ?

SE = √(p(1-p)/n) = √(0.167×0.833/600) ≈ 0.015. Отклонение 20% - 16.7% = 3.3% - это ~2.2 стандартных ошибки. Редко, но не невероятно. ЗБЧ говорит о пределе при n → ∞, не о конкретном n.

5. Главная ошибка: "Закон средних"

После 10 орлов подряд решка «должна» выпасть, чтобы «компенсировать»

Каждый бросок независим. ЗБЧ работает через разбавление, не компенсацию

10 орлов подряд - это 10 бросков. При 10 000 бросков их влияние на частоту = 10/10000 = 0.1%. Новые броски «разбавляют» прошлое, не «исправляют» его.

Разбавление vs компенсация

Почему ЗБЧ - не о компенсации

После 10 орлов подряд: частота = 10/10 = 100%. Сценарий 1 (компенсация): следующие 10 - решки. Частота = 10/20 = 50%. **Неверно!** Сценарий 2 (разбавление): следующие 9990 бросков - 50% орлов. Частота = (10 + 4995) / 10000 = 50.05%. ЗБЧ: 10 орлов «утонули» в массе новых данных, а не были «скомпенсированы».

**Ошибка игрока (Gambler's Fallacy):** вера в то, что прошлые исходы влияют на будущие в независимых экспериментах. Монета **не помнит**, что выпадало раньше!

В рулетке 5 раз подряд выпало красное. Что можно сказать о следующем спине?

Рулетка - независимые испытания. P(красное) = 18/37 каждый раз. Прошлые спины никак не влияют на будущие. Это и есть «ошибка игрока» - верить в компенсацию.

Практика

Завод производит детали с 3% браком. Инспектор проверяет 900 деталей. С какой вероятностью доля бракованных отклонится от 3% более чем на 1%?

$SE = \sqrt{\frac{0.03 \times 0.97}{900}} = \sqrt{\frac{0.0291}{900}} \approx 0.0057$ Отклонение 1% = 0.01. В единицах SE: z = 0.01 / 0.0057 ≈ 1.75 P(|X̄ - 0.03| > 0.01) = P(|Z| > 1.75) ≈ 2 × (1 - 0.96) = **8%** С вероятностью ~92% доля будет от 2% до 4%.

A/B тест: контроль (A) показывает конверсию 5%, тест (B) - 6%. Сколько нужно пользователей в каждой группе, чтобы различие было статистически значимым (SE < 0.5%)?

$SE_{diff} \approx \sqrt{\frac{2 \times 0.055 \times 0.945}{n}} = \sqrt{\frac{0.104}{n}}$ Нужно $SE < 0.005$: $\sqrt{\frac{0.104}{n}} < 0.005$ $\frac{0.104}{n} < 0.000025$ $n > \frac{0.104}{0.000025} = 4160$ **~4200 пользователей в каждой группе** минимум.

Казино имеет преимущество 2% в каждой игре. Средняя ставка - $100. Какова примерная прибыль казино от 1 миллиона игр? Почему казино уверено в этом?

$E[\text{прибыль с игры}] = 0.02 \times 100\,\text{долл.} = 2\,\text{долл.}$ $E[\text{прибыль от 1 млн игр}] = 1\,000\,000 \times 2\,\text{долл.} = 2\,000\,000\,\text{долл.}$ По ЗБЧ: средняя прибыль на игру сходится к 2 долларам. При миллионе игр флуктуации становятся пренебрежимо малы относительно суммы. **Казино «играет долго»**, и ЗБЧ гарантирует ему прибыль.

Казино имеет преимущество 2% при ставке $\$100$, играют 1 000 000 партий. Почему по ЗБЧ казино уверено в прибыли около $\$2\,000\,000$?

По ЗБЧ среднее за $n$ игр стремится к $E[X] = \$2$. Стандартная ошибка среднего убывает как $\sigma/\sqrt{n}$, поэтому при $n = 10^6$ отклонение от $\$2\,000\,000$ относительно мало - бизнес-модель казино держится именно на больших объёмах.

ЗБЧ - фундамент статистики

Закон больших чисел лежит в основе почти всех статистических методов.

ЦПТ — Следующий шаг: не только сходимость, но и форма распределения
Оценки параметров — Состоятельность оценок основана на ЗБЧ
Метод Монте-Карло — Оценка интегралов через случайные выборки
ML: SGD — Mini-batch градиент сходится к полному по ЗБЧ
Страхование — Предсказуемость при большом числе полисов

Итоги

**ЗБЧ:** $\bar{X}_n \to \mu$ при $n \to \infty$
**Почему работает:** $Var[\bar{X}_n] = \sigma^2/n \to 0$
**Стандартная ошибка:** $SE = \sigma/\sqrt{n}$ - убывает как $1/\sqrt{n}$
**Частота → вероятность** - оправдание частотного подхода
**НЕ компенсация:** прошлое разбавляется, а не исправляется

Вопросы для размышления

Вернёмся к Керричу: почему его эксперимент был важен для науки, даже если ЗБЧ уже был доказан теоретически?
Страховая компания выплачивает в среднем $10 000 на полис, но отдельные выплаты варьируются от $0 до $1 млн. Почему компания уверена в своих расчётах?
Если ЗБЧ говорит о сходимости при n → ∞, как его применять на практике с конечным n?
Почему для уменьшения ошибки вдвое нужно увеличить выборку в 4 раза, а не в 2?

Связанные уроки

Теория вероятностей

Закон больших чисел

Цели урока

Понять интуицию закона больших чисел на примерах
Разобраться, почему среднее стабилизируется при увеличении выборки
Различить слабый и сильный ЗБЧ
Понять связь с частотным определением вероятности
Увидеть ЗБЧ в действии: казино, страхование, ML

Предварительные знания

Математическое ожидание E[X]
Дисперсия Var[X]
Независимые случайные величины
Неравенство Чебышёва

Казино: почему «дом всегда выигрывает»
Страхование: предсказуемость при миллионах полисов
Опросы: почему 1000 человек отражает миллионы
A/B тесты: сколько ждать до достоверного результата
ML: почему mini-batch gradient descent работает

Золотая теорема - 20 лет работы

Закон больших чисел

Закон больших чисел утверждает, что:

1. Интуиция: что происходит при увеличении выборки?

Пусть мы бросаем честную монету и считаем долю орлов:

Бросков	Орлов	Доля	Отклонение от 0.5
10	7	0.70	0.20
100	56	0.56	0.06
1 000	512	0.512	0.012
10 000	5 067	0.5067	0.0067
100 000	50 121	0.50121	0.00121

Видите паттерн? Отклонение **убывает** примерно как $1/\sqrt{n}$.

**Ключевой инсайт:** при увеличении выборки в 100 раз, отклонение уменьшается примерно в 10 раз (в $\sqrt{100}$ раз).

После 10 000 бросков доля орлов = 0.52. После ещё 90 000 бросков (всего 100 000), какое отклонение от 0.5 ожидается?

2. Формальная формулировка

Пусть $X_1, X_2, X_3, \ldots$ - **независимые одинаково распределённые** (i.i.d.) случайные величины с:

$E[X_i] = \mu$ - математическое ожидание
$Var[X_i] = \sigma^2 < \infty$ - конечная дисперсия

**Выборочное среднее:**

**Закон больших чисел:** при $n \to \infty$ выборочное среднее сходится к математическому ожиданию:

Слабый vs Сильный ЗБЧ

Есть два варианта теоремы - они отличаются **типом сходимости**:

Версия	Авторы	Условия	Утверждение
Слабый ЗБЧ	Бернулли (1713), Хинчин (1929)	E[\|X\|] < ∞	P(\|X̄ₙ - μ\| > ε) → 0
Сильный ЗБЧ	Колмогоров (1930)	E[\|X\|] < ∞	P(X̄ₙ → μ) = 1

Что означает "сходимость по вероятности" в слабом ЗБЧ?

3. Почему это работает? Математика за интуицией

Вычислим характеристики выборочного среднего:

Матожидание X̄ₙ

Выборочное среднее - **несмещённая** оценка μ. Оно "целится" точно в μ.

Дисперсия X̄ₙ - ключ к ЗБЧ!

Дисперсия среднего **убывает как 1/n**! Это и есть суть ЗБЧ.

Доказательство слабого ЗБЧ (через Чебышёва)

По неравенству Чебышёва:

Готово! Вероятность большого отклонения стремится к нулю. ∎

X имеет σ = 10. Какова стандартная ошибка среднего при n = 100?

4. Связь с частотным определением вероятности

ЗБЧ **оправдывает** частотное определение вероятности!

Если событие A имеет вероятность p, то его частота в n независимых экспериментах:

Это частный случай ЗБЧ: возьмём $X_i = 1$ если A произошло, 0 иначе. Тогда $E[X_i] = p$ и $\bar{X}_n =$ частота A.

Данные Керрича

Реальный эксперимент в лагере военнопленных

Керрич записал результаты по группам:

Бросков	Орлов	Частота
10	4	0.400
50	25	0.500
100	44	0.440
500	255	0.510
1000	502	0.502
5000	2533	0.5066
10000	5067	0.5067

Частота "стабилизируется" около 0.5, но не монотонно!

Вероятность выпадения "6" на кубике = 1/6 ≈ 0.167. После 600 бросков выпало 120 шестёрок (20%). Противоречит ли это ЗБЧ?

5. Главная ошибка: "Закон средних"

После 10 орлов подряд решка «должна» выпасть, чтобы «компенсировать»

Каждый бросок независим. ЗБЧ работает через разбавление, не компенсацию

Разбавление vs компенсация

Почему ЗБЧ - не о компенсации

В рулетке 5 раз подряд выпало красное. Что можно сказать о следующем спине?

Практика

ЗБЧ - фундамент статистики

Закон больших чисел лежит в основе почти всех статистических методов.

ЦПТ — Следующий шаг: не только сходимость, но и форма распределения
Оценки параметров — Состоятельность оценок основана на ЗБЧ
Метод Монте-Карло — Оценка интегралов через случайные выборки
ML: SGD — Mini-batch градиент сходится к полному по ЗБЧ
Страхование — Предсказуемость при большом числе полисов

Итоги

**ЗБЧ:** $\bar{X}_n \to \mu$ при $n \to \infty$
**Почему работает:** $Var[\bar{X}_n] = \sigma^2/n \to 0$
**Стандартная ошибка:** $SE = \sigma/\sqrt{n}$ - убывает как $1/\sqrt{n}$
**Частота → вероятность** - оправдание частотного подхода
**НЕ компенсация:** прошлое разбавляется, а не исправляется

Вопросы для размышления

Вернёмся к Керричу: почему его эксперимент был важен для науки, даже если ЗБЧ уже был доказан теоретически?
Страховая компания выплачивает в среднем $10 000 на полис, но отдельные выплаты варьируются от $0 до $1 млн. Почему компания уверена в своих расчётах?
Если ЗБЧ говорит о сходимости при n → ∞, как его применять на практике с конечным n?
Почему для уменьшения ошибки вдвое нужно увеличить выборку в 4 раза, а не в 2?