Теория вероятностей

Условная вероятность

Цели урока

Понять, как новая информация меняет вероятности
Освоить формулу условной вероятности P(A|B)
Научиться применять формулу умножения для цепочек событий
Разобрать формулу полной вероятности
Избежать "ошибки обратной вероятности" - путаницы P(A|B) и P(B|A)

Предварительные знания

Базовые понятия вероятности (события, исходы, пространство)
Комбинаторика (размещения, сочетания)

Медицинский тест на рак с точностью 99%. Результат положительный. Логика кричит: "скорее всего болен". Математика отвечает: при распространённости рака 1% в популяции - вероятность реально болен составляет около 50%, не 99%. Именно так. Это не ошибка теста - это base rate fallacy в действии. Условная вероятность - инструмент, который позволяет считать правильно.

**Спам-фильтры:** Naive Bayes вычисляет $P(\text{спам} \mid \text{слова})$ за микросекунды - Gmail делает это миллиарды раз в день. Вся классификация текстов строится на условной вероятности
**A/B тестирование:** Конверсия при условии сегмента пользователя, платформы, времени суток - это $P(\text{конверсия} \mid \text{сегмент})$
**Медицинские тесты:** положительный тест на редкую болезнь - чаще ложноположительный, чем реальный диагноз. Причина - base rate probability
**ДНК в суде:** $P(\text{совпадение ДНК} \mid \text{невиновен})$ путают с $P(\text{невиновен} \mid \text{совпадение})$ - это называется ошибкой прокурора
**GPT следующий токен:** модель вычисляет $P(\text{токен} \mid \text{контекст})$ для каждого шага генерации - это буквально условная вероятность

Преподобный Байес и посмертная слава

Томас Байес - английский священник и математик-любитель - всю жизнь размышлял над "обратной задачей": можно ли по следствиям судить о причинах? Он так и не опубликовал свою работу - считал её незавершённой. После смерти Байеса его друг Ричард Прайс нашёл рукопись и передал в Королевское общество. Сегодня "байесовское мышление" - это не просто формула. Это целая философия в AI, медицине, науке. Каждый раз, когда GPT генерирует следующее слово - он обновляет вероятности по Байесу.

Условная вероятность

Телешоу. Три двери: за одной машина, за двумя - козы. Выбор пал на дверь №1. Ведущий, знающий где что, открывает дверь №3 - там коза. Вопрос: *менять на дверь №2 или остаться?*

Интуиция: *"50 на 50, разницы нет".* Математика: **менять - и шансы вырастают с 1/3 до 2/3**. Пол Эрдёш - один из крупнейших математиков XX века - отказывался верить этому результату, пока не увидел компьютерную симуляцию. Ключ к пониманию - условная вероятность.

Что такое условная вероятность $P(A|B)$?

Знание о $B$ сужает пространство исходов до $B$. Затем смотрим, какая доля внутри $B$ принадлежит ещё и $A$. Если $A, B$ независимы, $P(A|B)=P(A)$.

Что такое условная вероятность?

Два кубика. До броска вероятность суммы = 12 - это $1/36$ (только пара 6+6).

Но вот первый кубик показал **6**. Как изменились шансы на сумму 12?

Теперь исходы - не 36 пар, а только 6: (6,1), (6,2), (6,3), (6,4), (6,5), (6,6). Из них только (6,6) даёт сумму 12. Вероятность стала $1/6$ - **в 6 раз выше!**

Это и есть **условная вероятность** - вероятность события $A$, когда мы уже знаем, что произошло событие $B$.

**Читается:** "вероятность A при условии B" или "P от A при B".

Когда известно, что $B$ произошло, пространство возможностей сжимается до $B$. Спрашивается: какую долю этого нового, меньшего пространства занимает $A$? Формула буквально: взять пересечение $A \cap B$ и поделить на новое пространство $B$. Это перенормировка - та же операция, что softmax делает с логитами в каждом шаге LLM.

Из колоды в 52 карты вытянули карту. Она красная (черви или бубны). Какова вероятность, что это дама?

$P(\text{дама}|\text{красная}) = \frac{P(\text{красная дама})}{P(\text{красная})} = \frac{2/52}{26/52} = \frac{2}{26} = \frac{1}{13}$ Красных дам две (черви и бубны). Красных карт всего 26. Заметь: без условия $P(\text{дама}) = 4/52 = 1/13$ - то же самое! Это потому, что масть и достоинство независимы.

Формула умножения: когда нужно "И"

Часто нужно найти вероятность, что произойдут **оба** события - $A$ **и** $B$. Переставим формулу условной вероятности:

**Словами:** вероятность "оба события" = вероятность первого × вероятность второго *при условии первого*.

🃏 Два туза подряд

Классическая задача - карты без возвращения

Из колоды вытягивают 2 карты подряд (без возвращения). Какова вероятность, что обе - тузы? **Шаг 1:** $P(\text{1-й туз}) = \frac{4}{52}$ **Шаг 2:** $P(\text{2-й туз} | \text{1-й туз}) = \frac{3}{51}$ *(Если первый был туз, осталось 3 туза из 51 карты)* **Ответ:** $$P(\text{оба туза}) = \frac{4}{52} \cdot \frac{3}{51} = \frac{12}{2652} = \frac{1}{221} \approx 0.45\%$$ Очень маловероятно - примерно 1 раз на 221 попытку!

Для **цепочки** событий формула расширяется:

**Нельзя** умножать безусловные вероятности для зависимых событий! $P(\text{два туза}) \neq \frac{4}{52} \times \frac{4}{52}$ Это было бы верно, только если карту **возвращают** в колоду. Первое событие влияет на второе!

В ящике 5 белых и 3 чёрных шара. Вынимают 2 шара подряд без возвращения. Какова вероятность, что оба белые?

$P(Б_1) = 5/8$ (5 белых из 8) $P(Б_2|Б_1) = 4/7$ (осталось 4 белых из 7) $P(\text{оба белые}) = \frac{5}{8} \cdot \frac{4}{7} = \frac{20}{56} = \frac{5}{14} \approx 35.7\%$ Оба ответа "5/8 × 4/7" и "(5×4)/(8×7)" правильные - это одно и то же!

Формула полной вероятности: все сценарии

Иногда событие $A$ может произойти **разными путями**. Например, бракованная деталь могла прийти с завода №1, №2 или №3. Как найти общую вероятность брака?

Пусть $B_1, B_2, \ldots, B_n$ - **взаимоисключающие сценарии**, покрывающие все возможности (полная группа событий). Тогда:

Три завода и брак

Классическая производственная задача

Три завода производят лампочки: - Завод 1: **30%** выпуска, брак **2%** - Завод 2: **50%** выпуска, брак **1%** - Завод 3: **20%** выпуска, брак **3%** Какова вероятность купить бракованную лампочку? $$P(\text{брак}) = 0.30 \cdot 0.02 + 0.50 \cdot 0.01 + 0.20 \cdot 0.03$$ $$= 0.006 + 0.005 + 0.006 = 0.017 = 1.7\%$$

**Лучший друг** при решении задач на условную вероятность - дерево решений. ``` ┌── A (0.02) → 0.30 × 0.02 = 0.006 ┌── B₁ (0.30) │ └── Ā (0.98) │ START ├── B₂ (0.50) ─── ... │ └── B₃ (0.20) ─── ... ``` Рисуй ветвления, пиши вероятности на рёбрах, перемножай вдоль путей, складывай ветки, ведущие к нужному исходу.

Две урны: в первой 3 белых и 2 чёрных шара, во второй 1 белый и 4 чёрных. Случайно выбираем урну (50/50) и вынимаем шар. Какова вероятность, что он белый?

Все три способа записи дают 0.4: $P(\text{белый}) = \frac{1}{2} \cdot \frac{3}{5} + \frac{1}{2} \cdot \frac{1}{5} = \frac{3}{10} + \frac{1}{10} = \frac{4}{10} = 0.4$ Это **не** просто $(3+1)/(5+5)$ - формула работает только потому, что урны выбираются равновероятно и в них одинаковое число шаров!

Главная ловушка: P(A|B) ≠ P(B|A)

Это **самая частая ошибка** в теории вероятностей. Её совершают врачи, юристы, журналисты и даже учёные. У неё есть название: **ошибка обратной вероятности** (или "ошибка прокурора").

P(A|B) = P(B|A) - это же просто разные записи одного и того же!

P(A|B) и P(B|A) - это РАЗНЫЕ величины, которые могут отличаться в разы

Сравни два разных числа: - $P(\text{мокрая улица} \mid \text{дождь}) \approx 0.95$ - почти наверняка - $P(\text{дождь} \mid \text{мокрая улица}) \approx 0.5$ - может, просто полив Или точнее: - $P(\text{положительный тест} \mid \text{болезнь}) = 0.99$ - чувствительность теста - $P(\text{болезнь} \mid \text{положительный тест}) \approx 0.17$ при редкой болезни Смешать их - ошибка прокурора. Именно эту ошибку совершают врачи, журналисты и судьи.

Парадокс медицинского теста

Почему положительный тест - не приговор

**Условия:** - Редкая болезнь: **1%** населения болеет - Тест: **99%** чувствительность (находит 99% больных) - Ложноположительные: **5%** здоровых получают "положительно" Получен положительный тест. Какова вероятность, что пациент болен? **Интуиция:** "99%! Тест же почти идеальный!" **Реальность:** давай посчитаем на 10,000 человек: - Больных: 100 чел. → Тест найдёт 99 из них - Здоровых: 9,900 чел. → Ложноположительных: 495 чел. Всего положительных тестов: $99 + 495 = 594$ $P(\text{болен}|\text{тест}+) = \frac{99}{594} \approx 16.7\%$ **Шанс болезни - всего 17%, не 99%!** Большинство положительных тестов - ложные срабатывания.

В реальных судах адвокаты путали: - $P(\text{совпадение ДНК}|\text{невиновен}) = 1/1,000,000$ - $P(\text{невиновен}|\text{совпадение ДНК}) = ???$ И убеждали присяжных, что обвиняемый виновен "с вероятностью 99.9999%". Но если в городе 10 миллионов человек, то ~10 невиновных людей тоже дадут совпадение!

P(облака|дождь) очень высока (дождь почти всегда из облаков). Что можно сказать о P(дождь|облака)?

$P(\text{облака}|\text{дождь}) \approx 1$ - дождь практически всегда из облаков. Но $P(\text{дождь}|\text{облака})$ гораздо меньше - облака бывают часто, а дождь - относительно редко. Это как: $P(\text{мех}|\text{кот}) = 1$, но $P(\text{кот}|\text{мех}) \ll 1$ (мех есть у многих животных).

Разгадка парадокса Монти Холла

Теперь мы готовы понять, почему **менять дверь выгодно**. Ключевой момент: ведущий знает, где машина, и **никогда не откроет дверь с машиной**.

Изначально вероятности:

Машина за дверью 1 (первоначальный выбор): **1/3**
Машина за дверью 2: **1/3**
Машина за дверью 3: **1/3**

После того как ведущий открыл дверь 3 (там коза):

Действие ведущего **информативно**, потому что он знает расположение. - Если машина за дверью 1 - ведущий мог открыть 2 или 3 (50/50) - Если машина за дверью 2 - ведущий **обязан** открыть 3 (100%) - Если машина за дверью 3 - ведущий **не мог** открыть 3 Факт, что ведущий открыл именно дверь 3, **повышает вероятность** того, что машина за дверью 2!

Применяем условную вероятность:

**Итог:** если остаёшься - шанс 1/3. Если меняешь - шанс **2/3**. Меняй дверь!

Если бы ведущий открывал дверь СЛУЧАЙНО (не зная, где машина), и там оказалась коза - стоило бы менять?

Когда ведущий **знает** расположение - его выбор информативен. Когда **не знает** - открытие козы ничего не говорит о машине. В случайной версии после открытия козы остаются 2 равновероятные двери - смена ничего не даёт. Вся магия Монти Холла - в **знании ведущего**!

Практика

Среди 100 студентов: 40 изучают английский, 30 изучают немецкий, 10 изучают оба языка. Случайно выбранный студент изучает английский. Какова вероятность, что он изучает и немецкий?

$P(\text{нем}|\text{англ}) = \frac{P(\text{оба})}{P(\text{англ})} = \frac{10/100}{40/100} = \frac{10}{40} = \frac{1}{4} = 25\%$ Из 40 "англичан" 10 также изучают немецкий - это четверть.

В группе 60% девушек и 40% юношей. Среди девушек 30% отличницы, среди юношей - 20% отличники. Случайно выбранный студент оказался отличником. Какова вероятность, что это девушка?

**Шаг 1:** P(отличник) $P(О) = 0.6 \cdot 0.3 + 0.4 \cdot 0.2 = 0.18 + 0.08 = 0.26$ **Шаг 2:** P(девушка|отличник) $P(Д|О) = \frac{P(Д \cap О)}{P(О)} = \frac{0.6 \cdot 0.3}{0.26} = \frac{0.18}{0.26} \approx 69.2\%$ Несмотря на то что девушек 60%, среди отличников их ~69% - потому что девушки чаще становятся отличницами.

Тест на COVID имеет чувствительность 95% (находит 95% больных) и специфичность 90% (правильно определяет 90% здоровых). В популяции 2% заражены. Человек получил положительный тест. Какова вероятность, что он болен?

**Дано:** - P(болен) = 0.02, P(здоров) = 0.98 - P(тест+|болен) = 0.95 (чувствительность) - P(тест+|здоров) = 0.10 (ложноположительные) **Шаг 1:** P(тест+) $P(+) = 0.02 \cdot 0.95 + 0.98 \cdot 0.10 = 0.019 + 0.098 = 0.117$ **Шаг 2:** P(болен|тест+) $P(\text{болен}|+) = \frac{0.02 \cdot 0.95}{0.117} = \frac{0.019}{0.117} \approx 16.2\%$ **Вывод:** Даже при положительном тесте вероятность болезни всего ~16%! Причина - болезнь редкая, а ложноположительных много.

Тест на болезнь с чувствительностью 99% и специфичностью 95% применили в популяции, где болеет 1 человек из 1000. Каков порядок $P(\text{болен}|\text{тест+})$?

По полной вероятности $P(+) \approx 0{,}001\cdot 0{,}99 + 0{,}999\cdot 0{,}05 \approx 0{,}051$. Тогда $P(\text{болен}|+) = \frac{0{,}001\cdot 0{,}99}{0{,}051} \approx 1{,}9\%$. Низкая base rate делает ложноположительные доминирующими.

Условная вероятность - основа машинного обучения

Это не просто формула - это способ мышления, который используется везде.

Теорема Байеса — Формула для "переворота" условной вероятности - следующий урок!
Независимость — Когда P(A|B) = P(A) - событие B не влияет на A
Наивный Байес — Спам-фильтры используют условные вероятности слов
Марковские цепи — Переходы между состояниями - условные вероятности
Языковые модели — GPT предсказывает P(следующее слово|контекст)

Ключевые идеи

**Условная вероятность** $P(A \mid B) = P(A \cap B) / P(B)$ - новая информация сужает пространство исходов
**Формула умножения** $P(A \cap B) = P(A) \cdot P(B \mid A)$ - для цепочки зависимых событий
**Полная вероятность** - разбить событие по сценариям и взвесить каждый вклад
**Главная ловушка:** $P(A \mid B) \neq P(B \mid A)$ - это разные числа, иногда разные в 10 раз
**GPT:** каждый шаг генерации - это сэмпл из $P(\text{токен} \mid \text{контекст})$, условная вероятность в буквальном смысле

Вопросы для размышления

Вернёмся к Монти Холлу: если бы было 100 дверей, и ведущий открыл 98 с козами - менять или нет? Почему ответ очевиднее?
Почему массовое тестирование на редкие болезни может создать больше проблем, чем решить?
Как прокуроры могут злоупотреблять статистикой ДНК в суде?
Когда ChatGPT выбирает следующее слово - какую условную вероятность он вычисляет?

Связанные уроки

stat-01-sampling

Теория вероятностей

Условная вероятность

Цели урока

Понять, как новая информация меняет вероятности
Освоить формулу условной вероятности P(A|B)
Научиться применять формулу умножения для цепочек событий
Разобрать формулу полной вероятности
Избежать "ошибки обратной вероятности" - путаницы P(A|B) и P(B|A)

Предварительные знания

Базовые понятия вероятности (события, исходы, пространство)
Комбинаторика (размещения, сочетания)

**Спам-фильтры:** Naive Bayes вычисляет $P(\text{спам} \mid \text{слова})$ за микросекунды - Gmail делает это миллиарды раз в день. Вся классификация текстов строится на условной вероятности
**A/B тестирование:** Конверсия при условии сегмента пользователя, платформы, времени суток - это $P(\text{конверсия} \mid \text{сегмент})$
**Медицинские тесты:** положительный тест на редкую болезнь - чаще ложноположительный, чем реальный диагноз. Причина - base rate probability
**ДНК в суде:** $P(\text{совпадение ДНК} \mid \text{невиновен})$ путают с $P(\text{невиновен} \mid \text{совпадение})$ - это называется ошибкой прокурора
**GPT следующий токен:** модель вычисляет $P(\text{токен} \mid \text{контекст})$ для каждого шага генерации - это буквально условная вероятность

Преподобный Байес и посмертная слава

Условная вероятность

Что такое условная вероятность $P(A|B)$?

Что такое условная вероятность?

Два кубика. До броска вероятность суммы = 12 - это $1/36$ (только пара 6+6).

Но вот первый кубик показал **6**. Как изменились шансы на сумму 12?

Это и есть **условная вероятность** - вероятность события $A$, когда мы уже знаем, что произошло событие $B$.

**Читается:** "вероятность A при условии B" или "P от A при B".

Из колоды в 52 карты вытянули карту. Она красная (черви или бубны). Какова вероятность, что это дама?

Формула умножения: когда нужно "И"

**Словами:** вероятность "оба события" = вероятность первого × вероятность второго *при условии первого*.

🃏 Два туза подряд

Классическая задача - карты без возвращения

Для **цепочки** событий формула расширяется:

В ящике 5 белых и 3 чёрных шара. Вынимают 2 шара подряд без возвращения. Какова вероятность, что оба белые?

Формула полной вероятности: все сценарии

Три завода и брак

Классическая производственная задача

Главная ловушка: P(A|B) ≠ P(B|A)

P(A|B) = P(B|A) - это же просто разные записи одного и того же!

P(A|B) и P(B|A) - это РАЗНЫЕ величины, которые могут отличаться в разы

Парадокс медицинского теста

Почему положительный тест - не приговор

P(облака|дождь) очень высока (дождь почти всегда из облаков). Что можно сказать о P(дождь|облака)?

Разгадка парадокса Монти Холла

Изначально вероятности:

Машина за дверью 1 (первоначальный выбор): **1/3**
Машина за дверью 2: **1/3**
Машина за дверью 3: **1/3**

После того как ведущий открыл дверь 3 (там коза):

Применяем условную вероятность:

**Итог:** если остаёшься - шанс 1/3. Если меняешь - шанс **2/3**. Меняй дверь!

Если бы ведущий открывал дверь СЛУЧАЙНО (не зная, где машина), и там оказалась коза - стоило бы менять?

Практика

Условная вероятность - основа машинного обучения

Это не просто формула - это способ мышления, который используется везде.

Теорема Байеса — Формула для "переворота" условной вероятности - следующий урок!
Независимость — Когда P(A|B) = P(A) - событие B не влияет на A
Наивный Байес — Спам-фильтры используют условные вероятности слов
Марковские цепи — Переходы между состояниями - условные вероятности
Языковые модели — GPT предсказывает P(следующее слово|контекст)

Ключевые идеи

**Условная вероятность** $P(A \mid B) = P(A \cap B) / P(B)$ - новая информация сужает пространство исходов
**Формула умножения** $P(A \cap B) = P(A) \cdot P(B \mid A)$ - для цепочки зависимых событий
**Полная вероятность** - разбить событие по сценариям и взвесить каждый вклад
**Главная ловушка:** $P(A \mid B) \neq P(B \mid A)$ - это разные числа, иногда разные в 10 раз
**GPT:** каждый шаг генерации - это сэмпл из $P(\text{токен} \mid \text{контекст})$, условная вероятность в буквальном смысле

Вопросы для размышления

Вернёмся к Монти Холлу: если бы было 100 дверей, и ведущий открыл 98 с козами - менять или нет? Почему ответ очевиднее?
Почему массовое тестирование на редкие болезни может создать больше проблем, чем решить?
Как прокуроры могут злоупотреблять статистикой ДНК в суде?
Когда ChatGPT выбирает следующее слово - какую условную вероятность он вычисляет?

Связанные уроки

stat-01-sampling