Теория вероятностей

Что такое вероятность?

1654 год: Паскаль и Ферма переписываются об азартных играх. Из этой переписки рождается теория вероятностей. Прошло 370 лет: те же формулы теперь выбирают следующий токен ChatGPT, флагают мошенничество в Stripe и управляют функцией потерь в каждой AI-лаборатории.

ChatGPT: каждый токен - сэмпл из распределения по ~200 000 словам. Параметр temperature в любом API - это сырая теория вероятности.
Gmail спам-фильтр: Naive Bayes считает $P(спам|слова)$ за микросекунды, миллиарды раз в день.
Stripe антифрод: $P(мошенничество|транзакция)$ - одно число вероятности блокирует или одобряет платёж.

Аксиомы Колмогорова: три правила для всего

1654 год: Паскаль и Ферма переписываются об азартных играх. Шевалье де Мере спросил Паскаля: «Как честно разделить ставку, если игру прервали?» Из этой переписки рождается теория вероятностей. Прошло 370 лет: те же формулы теперь выбирают следующий токен ChatGPT, флагают мошенничество в Stripe, управляют функцией потерь в каждой AI-лаборатории.

Прежде чем считать вероятность, нужен **набор всего, что может произойти**. Называем его $\Omega$ (омега) - пространство элементарных событий. **Событие** $A$ - любое подмножество $\Omega$.

Эксперимент	$\Omega$	Пример события $A$
Бросок монеты	$\{орёл, решка\}$, размер 2	«выпал орёл»
Бросок кубика	$\{1,2,3,4,5,6\}$, размер 6	«чётное число» = $\{2,4,6\}$
Два кубика	все пары $(i,j)$, размер 36	«сумма = 7» = 6 пар
Следующий токен GPT-4	словарь, размер ~100 000	«позитивное слово»

В 1933 году Андрей Колмогоров остановил философский спор о природе вероятности одним движением: «Хватит спорить. Договоримся о **правилах**, которым должна подчиняться любая вероятность - и выведем из них всё.»

**Три аксиомы Колмогорова:** **1. Неотрицательность:** $P(A) \geq 0$ **2. Нормировка:** $P(\Omega) = 1$ - что-то из $\Omega$ обязательно произойдёт **3. Аддитивность:** для несовместных событий $A \cap B = \emptyset$: $$P(A \cup B) = P(A) + P(B)$$ Вся теория вероятностей - теорема Байеса, матожидание, теория информации, cross-entropy loss нейросети - выводится из этих трёх строк.

Теорема из аксиом: $P(\bar{A}) = 1 - P(A)$

Приём дополнения

Событие $A$ и его дополнение $\bar{A}$ покрывают $\Omega$ и не пересекаются. По аксиоме 3: $P(A) + P(\bar{A}) = P(\Omega) = 1$. Отсюда: $P(\bar{A}) = 1 - P(A)$. **Это самый используемый приём в вероятности.** Пример: «вероятность, что сервер работает весь день» = $1 -$ «вероятность, что упадёт хотя бы раз».

**Классическая вероятность** (работает при равновозможных исходах): $P(A) = |A| / |\Omega|$. Сумма 7 при броске двух кубиков: 6 пар из 36, $P = 6/36 \approx 16.7\%$. Сумма 12: только $(6,6)$, $P = 1/36 \approx 2.8\%$. Отсюда и правила крэпса.

Бросаем два кубика. Сколько элементарных исходов в $\Omega$?

Частотная и байесовская вероятность

Аксиомы Колмогорова описывают **правила** для вероятности. Но что она **означает**? Здесь физики, статистики и инженеры расходятся уже 300 лет.

Частотная (frequentist) — Вероятность = предельная частота при многократном повторении. $P(A) = \lim_{n \to \infty} n_A / n$ • Объективна: не зависит от наблюдателя • Работает только для повторяемых экспериментов • Нельзя применить к разовым событиям Примеры: оценка CTR кнопки, точность классификатора, Monte Carlo
Байесовская (Bayesian) — Вероятность = степень уверенности наблюдателя. $P(A \mid \text{данные})$ - обновляемое убеждение • Субъективна: разные прайоры → разные ответы • Работает для разовых событий • Позволяет вносить экспертные знания Примеры: спам-фильтр, медицинский диагноз, A/B тест с малой выборкой

Где взгляды расходятся

Один вопрос, два ответа

**Вопрос**: «Вероятность дождя завтра = 0.7» **Частотник**: «Нельзя говорить о вероятности конкретного завтра - это разовое событие, не серия экспериментов. Можно сказать: в 70% похожих метеоситуаций дождь шёл.» **Байесовец**: «0.7 - моя текущая уверенность с учётом наблюдений. Покажи новые данные - обновлю до P(дождь | новые данные).» **Вопрос**: «Вероятность, что Аргентина выиграет ЧМ 2026» **Частотник**: «Вопрос бессмысленный - нельзя повторить этот ЧМ миллион раз.» **Байесовец**: «0.15 - мои убеждения на основе рейтинга FIFA, формы игроков и жеребьёвки.»

**В ML оба подхода живут бок о бок:** - Точность классификатора на тесте - частотная вероятность - Posterior $P(\theta \mid \text{данные})$ в байесовском обучении - байесовская - Спам-фильтр Naive Bayes - название байесовское, но часто обучается частотно - Dropout при инференсе как Bayesian approximation - байесовская интерпретация частотного метода

Монету подбросили 1000 раз, орёл выпал 473 раза. Какая интерпретация корректна?

Условная вероятность и независимость

Условная вероятность $P(A \mid B)$ - вероятность события $A$ при условии, что $B$ уже произошло. Это обновление информации.

Формула полной вероятности

Базовый инструмент байесовского рассуждения

Если $B_1, B_2, \ldots, B_n$ - полная группа событий (разбивают $\Omega$, не пересекаются), то: $$P(A) = \sum_i P(A \mid B_i) \cdot P(B_i)$$ **Пример**: спам-фильтр. $B_1$ = письмо спам, $B_2$ = не спам. $P(\text{слово 'кредит'} \mid B_1) = 0.30$, $P(B_1) = 0.20$ $P(\text{слово 'кредит'} \mid B_2) = 0.02$, $P(B_2) = 0.80$ $P(\text{слово 'кредит'}) = 0.30 \cdot 0.20 + 0.02 \cdot 0.80 = 0.076$

**Независимость событий**: $A$ и $B$ независимы, если $P(A \mid B) = P(A)$, то есть знание о $B$ не меняет вероятность $A$. Эквивалентно: $P(A \cap B) = P(A) \cdot P(B)$.

**Naive Bayes** - самый быстрый спам-фильтр - делает одно сильное допущение: слова в письме независимы друг от друга (на самом деле нет, но работает удивительно хорошо). $P(\text{спам} \mid w_1, w_2, \ldots) \propto P(\text{спам}) \prod_i P(w_i \mid \text{спам})$. Вычисляется за микросекунды, миллиарды раз в день.

**Парадокс базовой ставки**: тест с точностью 99% кажется отличным. Но если болезнь редкая (1%), положительный тест лишь в 16% случаев означает реальную болезнь. Это не ошибка - это математика условной вероятности. Именно поэтому медицинские скрининги требуют подтверждающего теста.

Погодное приложение говорит $P(\text{дождь}) = 0.4$. Какова вероятность отсутствия дождя?

Итог

$\Omega$ - пространство исходов, события $A \subseteq \Omega$ - подмножества, о которых ты спрашиваешь
Три аксиомы Колмогорова: неотрицательность, нормировка, аддитивность - вся вероятность из них
Дополнение: $P(\bar{A}) = 1 - P(A)$ - самый используемый приём
Классическая вероятность: $P(A) = |A| / |\Omega|$ при равновозможных исходах
Частотная vs байесовская: объективная предельная частота vs субъективная степень уверенности
Условная вероятность: $P(A|B) = P(A \cap B) / P(B)$ - обновление информации

Что это разблокирует

Три аксиомы и что они строят:

Комбинаторика — Систематический подсчёт исходов - нужен для всего, что сложнее 36 пар кубиков
Условная вероятность и теорема Байеса — Обновление убеждений по свидетельствам - спам-фильтр, медицинский тест, Байесовский A/B тест
Случайные величины — Вероятность с числами: матожидание, дисперсия - рабочие лошадки статистики

Вопросы для размышления

Почему интуиция о случайности так часто врёт? Подсказка: мы думаем историями, а не пространствами исходов.
«30% дождя» - что это означает операционально для частотника и для байесовца?
На какой temperature LLM становится детерминированной? На какой превращается в случайный шум?

Связанные уроки

dm-01