Логика

Ошибка базовой ставки

Террорист пойман! Тест на детекторе лжи показал 'виновен'. Точность детектора - 90%. Стоит ли осудить? А если террористов - 1 на миллион, и 10% невиновных 'проваливают' тест? Тогда 99.99% всех 'пойманных' - невиновные люди. Одно число - базовая частота - меняет всё.

**Медицина:** врачи переоценивают вероятность редких диагнозов при 'типичных' симптомах. Студент-медик видит пациента с головной болью и думает о опухоли, хотя в 99.9% это мигрень
**Инвестиции:** 'Этот стартап точно взлетит' - но 90% стартапов терпят неудачу. Яркая история основателя не отменяет базовую статистику
**Криминалистика:** ДНК-совпадение при поиске в базе миллионов людей имеет совсем другое значение, чем при проверке конкретного подозреваемого

Игнорирование базовой частоты

Знаменитый эксперимент Канемана и Тверски: в группе 70 инженеров и 30 юристов. Случайно выбран человек, о котором известно: 'любит математические головоломки, не интересуется политикой, аккуратен'. Какова вероятность, что это инженер? Большинство отвечают '90%', игнорируя, что **априори** вероятность - 70%.

**Base rate neglect (игнорирование базовой частоты)** - когнитивная ошибка, при которой люди игнорируют статистическую информацию о распространённости явления и фокусируются на ярких индивидуальных характеристиках. Открыто Даниэлем Канеманом и Амосом Тверски в 1970-х годах.

Почему мозг игнорирует базовые частоты? Потому что **яркая история** захватывает внимание, а **сухая статистика** - нет. Описание 'любит головоломки, аккуратен' создаёт образ инженера, и мы 'забываем' спросить: а насколько часто инженеры вообще встречаются в этой группе?

**Эвристика репрезентативности:** мы судим о вероятности по тому, насколько описание 'похоже' на типичного представителя категории. Но сходство - не то же самое, что вероятность. Даже если описание идеально подходит инженеру, важно учитывать, сколько инженеров в выборке.

В университете 90% студентов на гуманитарных факультетах и 10% на технических. Случайный студент описан как 'любит программировать, играет в шахматы'. Какова приблизительная вероятность, что это технарь?

Проблема ложно-положительных

При низкой базовой частоте даже очень точный тест может давать больше **ложно-положительных** результатов, чем истинно-положительных. Это контринтуитивный, но критически важный факт для медицины, безопасности и права.

**Матрица ошибок теста:**

	Реально болен	Реально здоров
Тест положительный	Истинно-положительный (TP)	Ложно-положительный (FP)
Тест отрицательный	Ложно-отрицательный (FN)	Истинно-отрицательный (TN)

**PPV (Positive Predictive Value)** = TP / (TP + FP) - вероятность болезни при положительном тесте

Это объясняет, почему нельзя бездумно тестировать всё население на редкие болезни. При болезни с частотой 1 на 10,000 и тесте с 99% точностью, большинство положительных результатов будут ложными. Каждый ложно-положительный - это стресс, ненужные процедуры, иногда вред здоровью.

**Решение:** тестировать не всех, а группы риска с повышенной базовой частотой. Если у человека есть симптомы или факторы риска, его 'prior' выше, и положительный тест становится более информативным.

Почему при массовом скрининге на редкую болезнь большинство положительных результатов - ложные?

Парадокс скрининга

**Парадокс скрининга:** массовое тестирование на редкие болезни может принести больше вреда, чем пользы. Почему? Потому что вред от ложно-положительных (стресс, биопсии, операции) умножается на их огромное количество, а польза от обнаружения редких случаев - ограничена.

**Пример: скрининг рака груди** По данным исследований: • На 1000 женщин за 10 лет скрининга: - 1 спасённая жизнь (от раннего обнаружения) - 100+ ложных тревог (повторные обследования) - 5-15 ненужных биопсий - 0-2 overdiagnosis (лечение рака, который не навредил бы) Вывод: польза есть, но она меньше, чем кажется интуитивно

**Overdiagnosis (гипердиагностика)** - обнаружение 'болезни', которая никогда не причинила бы вреда. Некоторые раки растут так медленно, что человек умрёт от старости раньше. Но узнав диагноз, он получит лечение со всеми побочными эффектами.

Этот парадокс не означает, что скрининг бесполезен. Он означает, что решение о скрининге должно учитывать **все** последствия: и спасённые жизни, и вред от ложных тревог. Информированное согласие пациента должно включать эти цифры.

В стране ввели массовый скрининг на редкую болезнь X. Число диагнозов выросло в 10 раз, смертность не изменилась. Что вероятнее всего произошло?

Как использовать базовые частоты

Игнорирование базовых частот - когнитивная ошибка, но и **слепое следование** им - тоже проблема. Правильный подход - **взвешивать** статистику и индивидуальные признаки в соответствии с теоремой Байеса.

**Правила работы с базовыми частотами:** 1. **Всегда спрашивай:** насколько это распространено вообще? 2. **Не игнорируй описание:** индивидуальные признаки меняют вероятность 3. **Оценивай диагностичность:** насколько признак различает группы? 4. **Ищи референтный класс:** к какой группе относится случай? 5. **Обновляй последовательно:** каждый новый факт корректирует оценку

**Проблема референтного класса:** к какой группе отнести случай? Человек в библиотеке - это 'все взрослые' (много фермеров) или 'посетители библиотек' (мало фермеров)? Выбор референтного класса меняет prior. Правильного ответа нет - это вопрос суждения.

**Практический совет:** при яркой истории (в новостях, в споре) полезно задать вопрос: 'А как часто это происходит вообще?' Авиакатастрофы попадают в новости, автоаварии - нет. Но летать безопаснее, чем ездить. Базовая частота - якорь реальности.

Статистика не применима к индивидуальным случаям - каждый случай уникален

Статистика даёт базу для оценки, а индивидуальные признаки корректируют эту оценку

Да, каждый случай уникален, но это не значит, что базовые частоты бесполезны. Они дают стартовую точку (prior), от которой мы обновляем оценку с учётом индивидуальных особенностей. Игнорировать статистику - значит считать свой случай 'особенным' без оснований.

Друг говорит, что его стартап 'точно взлетит' - идея уникальна, команда сильная, рынок растёт. Какой вопрос стоит задать с учётом базовых частот?

Ключевые идеи

**Base rate neglect:** мы игнорируем 'скучную' статистику и фокусируемся на ярких деталях
**Парадокс ложных положительных:** при редких явлениях даже точный тест даёт больше ложных тревог, чем настоящих
**Парадокс скрининга:** массовое тестирование на редкие болезни может навредить больше, чем помочь
**Правильный подход:** использовать базовую частоту как стартовую точку, обновлять с учётом индивидуальных признаков

Связанные темы

Ошибка базовой частоты - практическое применение байесовского мышления:

Теорема Байеса — Prior (базовая частота) - ключевой компонент формулы Байеса
Эвристика доступности — Яркие примеры легче вспомнить, они затмевают статистику

Вопросы для размышления

Решение, принятое на основе яркой истории (новость, совет друга) - какова была реальная базовая частота успеха/неудачи?
Как изменились бы типичные страхи (терроризм, авиакатастрофы, редкие болезни) при постоянном учёте базовых частот?
В каких областях типична иллюзия 'особого случая', к которому статистика не применима?

Связанные уроки

prob-04-bayes