Теория вероятностей
Что такое вероятность?
1654 год: Паскаль и Ферма переписываются об азартных играх. Из этой переписки рождается теория вероятностей. Прошло 370 лет: те же формулы теперь выбирают следующий токен ChatGPT, флагают мошенничество в Stripe и управляют функцией потерь в каждой AI-лаборатории.
- ChatGPT: каждый токен - сэмпл из распределения по ~200 000 словам. Параметр temperature в любом API - это сырая теория вероятности.
- Gmail спам-фильтр: Naive Bayes считает $P(спам|слова)$ за микросекунды, миллиарды раз в день.
- Stripe антифрод: $P(мошенничество|транзакция)$ - одно число вероятности блокирует или одобряет платёж.
Аксиомы Колмогорова: три правила для всего
1654 год: Паскаль и Ферма переписываются об азартных играх. Шевалье де Мере спросил Паскаля: «Как честно разделить ставку, если игру прервали?» Из этой переписки рождается теория вероятностей. Прошло 370 лет: те же формулы теперь выбирают следующий токен ChatGPT, флагают мошенничество в Stripe, управляют функцией потерь в каждой AI-лаборатории.
Прежде чем считать вероятность, нужен **набор всего, что может произойти**. Называем его $\Omega$ (омега) - пространство элементарных событий. **Событие** $A$ - любое подмножество $\Omega$.
| Эксперимент | $\Omega$ | Пример события $A$ |
|---|---|---|
| Бросок монеты | $\{орёл, решка\}$, размер 2 | «выпал орёл» |
| Бросок кубика | $\{1,2,3,4,5,6\}$, размер 6 | «чётное число» = $\{2,4,6\}$ |
| Два кубика | все пары $(i,j)$, размер 36 | «сумма = 7» = 6 пар |
| Следующий токен GPT-4 | словарь, размер ~100 000 | «позитивное слово» |
В 1933 году Андрей Колмогоров остановил философский спор о природе вероятности одним движением: «Хватит спорить. Договоримся о **правилах**, которым должна подчиняться любая вероятность - и выведем из них всё.»
**Три аксиомы Колмогорова:** **1. Неотрицательность:** $P(A) \geq 0$ **2. Нормировка:** $P(\Omega) = 1$ - что-то из $\Omega$ обязательно произойдёт **3. Аддитивность:** для несовместных событий $A \cap B = \emptyset$: $$P(A \cup B) = P(A) + P(B)$$ Вся теория вероятностей - теорема Байеса, матожидание, теория информации, cross-entropy loss нейросети - выводится из этих трёх строк.
Теорема из аксиом: $P(\bar{A}) = 1 - P(A)$
Приём дополнения
Событие $A$ и его дополнение $\bar{A}$ покрывают $\Omega$ и не пересекаются. По аксиоме 3: $P(A) + P(\bar{A}) = P(\Omega) = 1$. Отсюда: $P(\bar{A}) = 1 - P(A)$. **Это самый используемый приём в вероятности.** Пример: «вероятность, что сервер работает весь день» = $1 -$ «вероятность, что упадёт хотя бы раз».
**Классическая вероятность** (работает при равновозможных исходах): $P(A) = |A| / |\Omega|$. Сумма 7 при броске двух кубиков: 6 пар из 36, $P = 6/36 \approx 16.7\%$. Сумма 12: только $(6,6)$, $P = 1/36 \approx 2.8\%$. Отсюда и правила крэпса.
Бросаем два кубика. Сколько элементарных исходов в $\Omega$?
Частотная и байесовская вероятность
Аксиомы Колмогорова описывают **правила** для вероятности. Но что она **означает**? Здесь физики, статистики и инженеры расходятся уже 300 лет.
- Частотная (frequentist) — Вероятность = предельная частота при многократном повторении. $P(A) = \lim_{n \to \infty} n_A / n$ • Объективна: не зависит от наблюдателя • Работает только для повторяемых экспериментов • Нельзя применить к разовым событиям Примеры: оценка CTR кнопки, точность классификатора, Monte Carlo
- Байесовская (Bayesian) — Вероятность = степень уверенности наблюдателя. $P(A \mid \text{данные})$ - обновляемое убеждение • Субъективна: разные прайоры → разные ответы • Работает для разовых событий • Позволяет вносить экспертные знания Примеры: спам-фильтр, медицинский диагноз, A/B тест с малой выборкой
Где взгляды расходятся
Один вопрос, два ответа
**Вопрос**: «Вероятность дождя завтра = 0.7» **Частотник**: «Нельзя говорить о вероятности конкретного завтра - это разовое событие, не серия экспериментов. Можно сказать: в 70% похожих метеоситуаций дождь шёл.» **Байесовец**: «0.7 - моя текущая уверенность с учётом наблюдений. Покажи новые данные - обновлю до P(дождь | новые данные).» **Вопрос**: «Вероятность, что Аргентина выиграет ЧМ 2026» **Частотник**: «Вопрос бессмысленный - нельзя повторить этот ЧМ миллион раз.» **Байесовец**: «0.15 - мои убеждения на основе рейтинга FIFA, формы игроков и жеребьёвки.»
**В ML оба подхода живут бок о бок:** - Точность классификатора на тесте - частотная вероятность - Posterior $P(\theta \mid \text{данные})$ в байесовском обучении - байесовская - Спам-фильтр Naive Bayes - название байесовское, но часто обучается частотно - Dropout при инференсе как Bayesian approximation - байесовская интерпретация частотного метода
Монету подбросили 1000 раз, орёл выпал 473 раза. Какая интерпретация корректна?
Условная вероятность и независимость
Условная вероятность $P(A \mid B)$ - вероятность события $A$ при условии, что $B$ уже произошло. Это обновление информации.
Формула полной вероятности
Базовый инструмент байесовского рассуждения
Если $B_1, B_2, \ldots, B_n$ - полная группа событий (разбивают $\Omega$, не пересекаются), то: $$P(A) = \sum_i P(A \mid B_i) \cdot P(B_i)$$ **Пример**: спам-фильтр. $B_1$ = письмо спам, $B_2$ = не спам. $P(\text{слово 'кредит'} \mid B_1) = 0.30$, $P(B_1) = 0.20$ $P(\text{слово 'кредит'} \mid B_2) = 0.02$, $P(B_2) = 0.80$ $P(\text{слово 'кредит'}) = 0.30 \cdot 0.20 + 0.02 \cdot 0.80 = 0.076$
**Независимость событий**: $A$ и $B$ независимы, если $P(A \mid B) = P(A)$, то есть знание о $B$ не меняет вероятность $A$. Эквивалентно: $P(A \cap B) = P(A) \cdot P(B)$.
**Naive Bayes** - самый быстрый спам-фильтр - делает одно сильное допущение: слова в письме независимы друг от друга (на самом деле нет, но работает удивительно хорошо). $P(\text{спам} \mid w_1, w_2, \ldots) \propto P(\text{спам}) \prod_i P(w_i \mid \text{спам})$. Вычисляется за микросекунды, миллиарды раз в день.
**Парадокс базовой ставки**: тест с точностью 99% кажется отличным. Но если болезнь редкая (1%), положительный тест лишь в 16% случаев означает реальную болезнь. Это не ошибка - это математика условной вероятности. Именно поэтому медицинские скрининги требуют подтверждающего теста.
Погодное приложение говорит $P(\text{дождь}) = 0.4$. Какова вероятность отсутствия дождя?
Итог
- $\Omega$ - пространство исходов, события $A \subseteq \Omega$ - подмножества, о которых ты спрашиваешь
- Три аксиомы Колмогорова: неотрицательность, нормировка, аддитивность - вся вероятность из них
- Дополнение: $P(\bar{A}) = 1 - P(A)$ - самый используемый приём
- Классическая вероятность: $P(A) = |A| / |\Omega|$ при равновозможных исходах
- Частотная vs байесовская: объективная предельная частота vs субъективная степень уверенности
- Условная вероятность: $P(A|B) = P(A \cap B) / P(B)$ - обновление информации
Что это разблокирует
Три аксиомы и что они строят:
- Комбинаторика — Систематический подсчёт исходов - нужен для всего, что сложнее 36 пар кубиков
- Условная вероятность и теорема Байеса — Обновление убеждений по свидетельствам - спам-фильтр, медицинский тест, Байесовский A/B тест
- Случайные величины — Вероятность с числами: матожидание, дисперсия - рабочие лошадки статистики
Вопросы для размышления
- Почему интуиция о случайности так часто врёт? Подсказка: мы думаем историями, а не пространствами исходов.
- «30% дождя» - что это означает операционально для частотника и для байесовца?
- На какой temperature LLM становится детерминированной? На какой превращается в случайный шум?