Теория вероятностей

Закон больших чисел

Цели урока

  • Понять интуицию закона больших чисел на примерах
  • Разобраться, почему среднее стабилизируется при увеличении выборки
  • Различить слабый и сильный ЗБЧ
  • Понять связь с частотным определением вероятности
  • Увидеть ЗБЧ в действии: казино, страхование, ML

Предварительные знания

  • Математическое ожидание E[X]
  • Дисперсия Var[X]
  • Независимые случайные величины
  • Неравенство Чебышёва
  • Математическое ожидание
  • Дисперсия

**1940 год, немецкий лагерь для военнопленных.** Южноафриканский математик Джон Керрич от скуки решил провести эксперимент. Он подбросил монету **10 000 раз** и записал каждый результат. На 10-м броске доля орлов была 40%. На 100-м - 44%. На 1000-м - 50.2%. На 10 000-м - 50.67%. Монета «сходилась» к честной. Это был живой Закон Больших Чисел.

  • Казино: почему «дом всегда выигрывает»
  • Страхование: предсказуемость при миллионах полисов
  • Опросы: почему 1000 человек отражает миллионы
  • A/B тесты: сколько ждать до достоверного результата
  • ML: почему mini-batch gradient descent работает

Золотая теорема - 20 лет работы

Якоб Бернулли потратил **20 лет** на доказательство того, что интуитивно понятно любому. Он назвал результат «золотой теоремой» и опубликовал посмертно в «Ars Conjectandi» (1713). Это была первая строгая связь между **теорией** (вероятность) и **практикой** (частота). Бернулли писал: «Даже глупец понимает это интуитивно, но доказать - совсем другое дело».

Закон больших чисел

Бросьте монету один раз - орёл или решка, разброс огромный. Бросьте 10 000 раз - доля орлов будет очень близка к 0.5. Этот факт интуитивен, но требует строгой формулировки: **Закон больших чисел** (ЗБЧ) - один из основополагающих результатов теории вероятностей.

Формально: для независимых одинаково распределённых $X_1, X_2, \dots$ с конечным $\mathbb{E}[X]=\mu$ выборочное среднее $\bar{X}_n = \frac{1}{n}\sum X_i$ сходится к $\mu$ при $n\to\infty$. Это **слабый ЗБЧ** (сходимость по вероятности) или **сильный ЗБЧ** (почти наверная сходимость).

ЗБЧ - теоретическое обоснование Monte Carlo методов в ML, эмпирического риска (empirical risk) в supervised learning и оценки градиента в SGD. Без него мы не могли бы оправдать переход 'выборка → популяция'.

Закон больших чисел утверждает, что:

ЗБЧ - фундамент эмпирической оценки: частота сходится к вероятности, выборочное среднее - к матожиданию. Это оправдывает Монте-Карло и статистические оценки в больших данных.

1. Интуиция: что происходит при увеличении выборки?

1. Интуиция: что происходит при увеличении выборки?

Пусть мы бросаем честную монету и считаем долю орлов:

БросковОрловДоляОтклонение от 0.5
1070.700.20
100560.560.06
1 0005120.5120.012
10 0005 0670.50670.0067
100 00050 1210.501210.00121

Видите паттерн? Отклонение **убывает** примерно как $1/\sqrt{n}$.

**Ключевой инсайт:** при увеличении выборки в 100 раз, отклонение уменьшается примерно в 10 раз (в $\sqrt{100}$ раз).

После 10 000 бросков доля орлов = 0.52. После ещё 90 000 бросков (всего 100 000), какое отклонение от 0.5 ожидается?

Выборка увеличилась в 10 раз (с 10k до 100k). Типичное отклонение уменьшается в √10 ≈ 3.16 раза. Было ~0.02, станет ~0.0063. ЗБЧ в действии!

2. Формальная формулировка

2. Формальная формулировка

Пусть $X_1, X_2, X_3, \ldots$ - **независимые одинаково распределённые** (i.i.d.) случайные величины с:

  • $E[X_i] = \mu$ - математическое ожидание
  • $Var[X_i] = \sigma^2 < \infty$ - конечная дисперсия

**Выборочное среднее:**

**Закон больших чисел:** при $n \to \infty$ выборочное среднее сходится к математическому ожиданию:

Слабый vs Сильный ЗБЧ

Есть два варианта теоремы - они отличаются **типом сходимости**:

ВерсияАвторыУсловияУтверждение
Слабый ЗБЧБернулли (1713), Хинчин (1929)E[|X|] < ∞P(|X̄ₙ - μ| > ε) → 0
Сильный ЗБЧКолмогоров (1930)E[|X|] < ∞P(X̄ₙ → μ) = 1

**Разница:** слабый говорит «вероятность большого отклонения стремится к 0». Сильный говорит «траектория X̄ₙ почти наверняка сходится к μ». На практике разница редко важна.

Что означает "сходимость по вероятности" в слабом ЗБЧ?

Сходимость по вероятности: как бы мало ни было ε, вероятность отклониться от μ больше чем на ε стремится к нулю. Но это не гарантирует, что отклонений вообще не будет!

3. Почему это работает? Математика за интуицией

3. Почему это работает? Математика за интуицией

Вычислим характеристики выборочного среднего:

Матожидание X̄ₙ

Выборочное среднее - **несмещённая** оценка μ. Оно "целится" точно в μ.

Дисперсия X̄ₙ - ключ к ЗБЧ!

Дисперсия среднего **убывает как 1/n**! Это и есть суть ЗБЧ.

**Стандартная ошибка среднего:** $SE = \frac{\sigma}{\sqrt{n}}$ Она убывает как $1/\sqrt{n}$. Чтобы уменьшить ошибку вдвое, нужно увеличить выборку в 4 раза!

Доказательство слабого ЗБЧ (через Чебышёва)

По неравенству Чебышёва:

Готово! Вероятность большого отклонения стремится к нулю. ∎

X имеет σ = 10. Какова стандартная ошибка среднего при n = 100?

SE = σ/√n = 10/√100 = 10/10 = 1. При 100 наблюдениях стандартная ошибка в 10 раз меньше стандартного отклонения отдельного наблюдения.

4. Связь с частотным определением вероятности

4. Связь с частотным определением вероятности

ЗБЧ **оправдывает** частотное определение вероятности!

Если событие A имеет вероятность p, то его частота в n независимых экспериментах:

Это частный случай ЗБЧ: возьмём $X_i = 1$ если A произошло, 0 иначе. Тогда $E[X_i] = p$ и $\bar{X}_n =$ частота A.

Данные Керрича

Реальный эксперимент в лагере военнопленных

Керрич записал результаты по группам:

БросковОрловЧастота
1040.400
50250.500
100440.440
5002550.510
10005020.502
500025330.5066
1000050670.5067

Частота "стабилизируется" около 0.5, но не монотонно!

Вероятность выпадения "6" на кубике = 1/6 ≈ 0.167. После 600 бросков выпало 120 шестёрок (20%). Противоречит ли это ЗБЧ?

SE = √(p(1-p)/n) = √(0.167×0.833/600) ≈ 0.015. Отклонение 20% - 16.7% = 3.3% - это ~2.2 стандартных ошибки. Редко, но не невероятно. ЗБЧ говорит о пределе при n → ∞, не о конкретном n.

5. Главная ошибка: "Закон средних"

5. Главная ошибка: "Закон средних"

После 10 орлов подряд решка «должна» выпасть, чтобы «компенсировать»

Каждый бросок независим. ЗБЧ работает через разбавление, не компенсацию

10 орлов подряд - это 10 бросков. При 10 000 бросков их влияние на частоту = 10/10000 = 0.1%. Новые броски «разбавляют» прошлое, не «исправляют» его.

Разбавление vs компенсация

Почему ЗБЧ - не о компенсации

После 10 орлов подряд: частота = 10/10 = 100%. Сценарий 1 (компенсация): следующие 10 - решки. Частота = 10/20 = 50%. **Неверно!** Сценарий 2 (разбавление): следующие 9990 бросков - 50% орлов. Частота = (10 + 4995) / 10000 = 50.05%. ЗБЧ: 10 орлов «утонули» в массе новых данных, а не были «скомпенсированы».

**Ошибка игрока (Gambler's Fallacy):** вера в то, что прошлые исходы влияют на будущие в независимых экспериментах. Монета **не помнит**, что выпадало раньше!

В рулетке 5 раз подряд выпало красное. Что можно сказать о следующем спине?

Рулетка - независимые испытания. P(красное) = 18/37 каждый раз. Прошлые спины никак не влияют на будущие. Это и есть «ошибка игрока» - верить в компенсацию.

Практика

Практика

Завод производит детали с 3% браком. Инспектор проверяет 900 деталей. С какой вероятностью доля бракованных отклонится от 3% более чем на 1%?

$SE = \sqrt{\frac{0.03 \times 0.97}{900}} = \sqrt{\frac{0.0291}{900}} \approx 0.0057$ Отклонение 1% = 0.01. В единицах SE: z = 0.01 / 0.0057 ≈ 1.75 P(|X̄ - 0.03| > 0.01) = P(|Z| > 1.75) ≈ 2 × (1 - 0.96) = **8%** С вероятностью ~92% доля будет от 2% до 4%.

A/B тест: контроль (A) показывает конверсию 5%, тест (B) - 6%. Сколько нужно пользователей в каждой группе, чтобы различие было статистически значимым (SE < 0.5%)?

$SE_{diff} \approx \sqrt{\frac{2 \times 0.055 \times 0.945}{n}} = \sqrt{\frac{0.104}{n}}$ Нужно $SE < 0.005$: $\sqrt{\frac{0.104}{n}} < 0.005$ $\frac{0.104}{n} < 0.000025$ $n > \frac{0.104}{0.000025} = 4160$ **~4200 пользователей в каждой группе** минимум.

Казино имеет преимущество 2% в каждой игре. Средняя ставка - $100. Какова примерная прибыль казино от 1 миллиона игр? Почему казино уверено в этом?

$E[\text{прибыль с игры}] = 0.02 \times 100\,\text{долл.} = 2\,\text{долл.}$ $E[\text{прибыль от 1 млн игр}] = 1\,000\,000 \times 2\,\text{долл.} = 2\,000\,000\,\text{долл.}$ По ЗБЧ: средняя прибыль на игру сходится к 2 долларам. При миллионе игр флуктуации становятся пренебрежимо малы относительно суммы. **Казино «играет долго»**, и ЗБЧ гарантирует ему прибыль.

Казино имеет преимущество 2% при ставке $\$100$, играют 1 000 000 партий. Почему по ЗБЧ казино уверено в прибыли около $\$2\,000\,000$?

По ЗБЧ среднее за $n$ игр стремится к $E[X] = \$2$. Стандартная ошибка среднего убывает как $\sigma/\sqrt{n}$, поэтому при $n = 10^6$ отклонение от $\$2\,000\,000$ относительно мало - бизнес-модель казино держится именно на больших объёмах.

ЗБЧ - фундамент статистики

Закон больших чисел лежит в основе почти всех статистических методов.

  • ЦПТ — Следующий шаг: не только сходимость, но и форма распределения
  • Оценки параметров — Состоятельность оценок основана на ЗБЧ
  • Метод Монте-Карло — Оценка интегралов через случайные выборки
  • ML: SGD — Mini-batch градиент сходится к полному по ЗБЧ
  • Страхование — Предсказуемость при большом числе полисов

Итоги

  • **ЗБЧ:** $\bar{X}_n \to \mu$ при $n \to \infty$
  • **Почему работает:** $Var[\bar{X}_n] = \sigma^2/n \to 0$
  • **Стандартная ошибка:** $SE = \sigma/\sqrt{n}$ - убывает как $1/\sqrt{n}$
  • **Частота → вероятность** - оправдание частотного подхода
  • **НЕ компенсация:** прошлое разбавляется, а не исправляется

Вопросы для размышления

  • Вернёмся к Керричу: почему его эксперимент был важен для науки, даже если ЗБЧ уже был доказан теоретически?
  • Страховая компания выплачивает в среднем $10 000 на полис, но отдельные выплаты варьируются от $0 до $1 млн. Почему компания уверена в своих расчётах?
  • Если ЗБЧ говорит о сходимости при n → ∞, как его применять на практике с конечным n?
  • Почему для уменьшения ошибки вдвое нужно увеличить выборку в 4 раза, а не в 2?

Связанные уроки

  • aie-36-fine-tuning
  • stat-02-estimation
  • stat-01-sampling
Закон больших чисел

0

1

Войти