Логика

Байесовское мышление

Врач говорит: 'Тест на рак положительный'. Насколько вы должны волноваться? Интуиция кричит '99%!', но математика говорит '10%'. Разница может стоить вам годов стресса или ненужной операции. Теорема Байеса - это не абстракция, это инструмент принятия решений в условиях неопределённости.

**Медицинская диагностика:** почему врачи назначают повторные тесты после положительного результата — один тест не даёт достаточной уверенности при редких болезнях
**Спам-фильтры:** байесовские фильтры учитывают, насколько вероятно слово 'виагра' в спаме vs обычных письмах, и обновляют оценку с каждым словом
**Судебная экспертиза:** понимание base rate помогает правильно интерпретировать ДНК-доказательства и не осуждать невиновных

Теорема Байеса

Представьте: тест на редкую болезнь положительный. Насколько вероятно, что вы больны? Большинство людей ответят 'очень вероятно' - и ошибутся. **Теорема Байеса** - математический инструмент, который помогает правильно обновлять вероятности при получении новых данных.

**Теорема Байеса:** P(H|E) = P(E|H) × P(H) / P(E) Где: • P(H|E) - вероятность гипотезы H при условии свидетельства E • P(E|H) - вероятность увидеть E, если H истинна • P(H) - начальная вероятность H (до получения E) • P(E) - общая вероятность увидеть E

Почему так? Потому что здоровых людей намного больше, чем больных. Даже при низком проценте ошибок, ложно-положительных результатов получается больше, чем истинно-положительных. Это называется **парадокс ложных положительных** - и понимание теоремы Байеса защищает от этой ловушки.

Тест на наркотики имеет точность 95%. Наркотики употребляют 2% людей. Если тест положительный, какова примерная вероятность, что человек действительно употребляет?

Априорная и апостериорная вероятность

В байесовском мышлении ключевые понятия - **prior** (априорная вероятность) и **posterior** (апостериорная вероятность). Prior - это то, во что вы верите *до* получения новых данных. Posterior - то, во что вы *должны* верить после.

**Ключевые термины:** • **Prior P(H)** - начальная вероятность гипотезы до получения свидетельств • **Posterior P(H|E)** - обновлённая вероятность после получения свидетельства E • **Likelihood P(E|H)** - вероятность наблюдать E, если H истинна • **Evidence P(E)** - общая вероятность наблюдать E (нормализующий множитель)

Обратите внимание: **prior имеет значение**. Если бы подозреваемых было не 1000, а 10 миллионов (вся страна), posterior был бы совсем другим. Это объясняет, почему для редких событий нужны более сильные свидетельства - низкий prior 'сопротивляется' обновлению.

**Субъективность prior** - частый аргумент против байесианства. Но это не слабость, а честность: мы *признаём*, что у нас есть начальные убеждения, и *явно* их фиксируем. При достаточном количестве данных разные prior'ы сходятся к одному posterior'у - данные 'побеждают' предубеждения.

Почему при одинаковых свидетельствах (положительный тест) разные люди могут рационально прийти к разным posterior'ам?

Обновление убеждений

Байесовское мышление - это не разовый расчёт, а **непрерывный процесс**. Каждое новое свидетельство становится входом для следующего обновления. Вчерашний posterior становится сегодняшним prior'ом.

**Правила обновления:** 1. **Каждое свидетельство учитывается один раз** - нельзя дважды использовать тот же факт 2. **Порядок не важен** - при одинаковых свидетельствах итоговый posterior одинаков 3. **Свидетельства независимы** - если зависимы, нужна коррекция 4. **Обновление должно быть пропорциональным** - сильные свидетельства меняют больше

**Ошибка подтверждения в байесовских терминах:** люди ищут свидетельства с высоким P(E|H), игнорируя P(E|¬H). Если свидетельство одинаково вероятно при любой гипотезе, оно **не меняет** posterior. 'Астролог предсказал, что сегодня я встречу человека' - это не свидетельство, потому что P(встреча|астрология верна) = P(встреча|астрология неверна).

**Важно:** обновление работает в обе стороны. Свидетельство может как *увеличить*, так и *уменьшить* вашу уверенность в гипотезе. Если эксперимент не нашёл эффект, это тоже информация - уменьшающая posterior гипотезы.

Вы считаете вероятность дождя 30%. Друг говорит, что по радио обещали дождь. Как изменится ваша оценка?

Сила свидетельств

Не все свидетельства одинаково ценны. **Сила свидетельства** определяется тем, насколько оно *различает* между гипотезами. Ключевой показатель - **likelihood ratio** (отношение правдоподобий).

**Likelihood Ratio (LR):** LR = P(E|H) / P(E|¬H) • LR > 1 → свидетельство поддерживает H • LR < 1 → свидетельство против H • LR = 1 → свидетельство не информативно **Правило:** Posterior odds = Prior odds × LR Очень сильное свидетельство: LR > 10 или LR < 0.1

**Правило 'чудесного' свидетельства:** если гипотеза H предсказывает событие E, которое было бы чудом без H, то E - сильное свидетельство за H. ДНК-совпадение - 'чудо' для невиновного (1 на миллион), но не для виновного (100%). Поэтому LR огромный.

**Опасность слабых свидетельств:** они кажутся значимыми, но почти не меняют posterior. 'Подозреваемый нервничал' - P(нервничал|виновен) высоко, но P(нервничал|невиновен, которого допрашивает полиция) тоже высоко! LR близок к 1. Это псевдосвидетельство.

Любое подтверждающее свидетельство одинаково ценно

Ценность свидетельства определяется тем, насколько оно различает между гипотезами (likelihood ratio)

Свидетельство E, которое одинаково вероятно при H и при ¬H, не меняет вашу уверенность. 'Подозреваемый дышит' - это правда, но не свидетельство вины, потому что невиновные тоже дышат. Сила свидетельства = насколько оно 'удивительно' если гипотеза ложна.

Какое свидетельство сильнее всего поддерживает гипотезу 'этот человек - врач'?

Ключевые идеи

**Теорема Байеса** связывает prior (начальную вероятность) с posterior (обновлённой) через likelihood (правдоподобие свидетельства)
**Prior имеет значение:** при редких событиях даже очень точный тест даёт много ложно-положительных результатов
**Обновление постепенное:** каждое новое свидетельство корректирует убеждения, вчерашний posterior — сегодняшний prior
**Сила свидетельства (LR):** чем больше свидетельство различает между гипотезами, тем сильнее оно меняет posterior

Связанные темы

Байесовское мышление - математическая основа рационального обновления убеждений:

Абдукция — Байес даёт формальный способ выбора 'лучшего объяснения' через likelihood ratio
Базовая частота — Prior (base rate) критически важен - игнорирование приводит к ошибкам оценки вероятностей

Вопросы для размышления

Вспомните ситуацию, когда вы слишком сильно отреагировали на 'положительный тест' (медицинский, собеседование, отзыв). Какой был реальный base rate?
Какие свидетельства вы переоцениваете (слабый LR, но кажутся важными)? Например, 'он выглядел честно' при оценке людей.
Как изменилось бы ваше отношение к новостям, если бы вы явно оценивали prior и likelihood каждого сенсационного заголовка?

Связанные уроки

ml-18