Статистика
Байесовская статистика
«Кто выиграет выборы с вероятностью 70%?» - это байесовское утверждение. Частотная статистика не умеет давать такие ответы: выборы случаются один раз, нельзя говорить о «предельной частоте». Байесовская статистика моделирует неопределённость там, где частотный подход молчит.
- Netflix использует байесовские модели для персонализации
- Spam-фильтры (наивный Байес) - самое первое применение
- Медицинская диагностика, финансовые модели рисков, системы автономного вождения - везде, где нужно выражать неопределённость количественно
Предварительные знания
Байесовский vs. частотный подход
**Два взгляда на вероятность:** Частотный (frequentist): вероятность = предельная частота при бесконечном повторении. Нельзя говорить о «вероятности гипотезы» (она либо верна, либо нет). Байесовский: вероятность = степень уверенности в истинности утверждения, которая обновляется при получении данных.
**Контринтуитивный результат медицинского теста!** Даже при хорошей точности теста (95% чувствительность), при редкой болезни (1% распространённость) положительный результат означает лишь ~9% вероятность болезни. Именно поэтому рекомендуют подтверждающие тесты. Base rate neglect - классическая когнитивная ошибка.
В байесовском подходе, что такое 'prior'?
Байесовское обновление: от prior к posterior
**Теорема Байеса:** P(θ|X) = P(X|θ) × P(θ) / P(X) Где: θ - параметр/гипотеза, X - данные, P(θ) - prior, P(X|θ) - likelihood, P(θ|X) - posterior, P(X) - нормализующая константа. Процесс многократного обновления при новых данных - ключевая сила байесовского подхода.
**Сопряжённые распределения (conjugate priors):** когда prior и posterior принадлежат одному семейству распределений. Примеры: Beta/Binomial, Normal/Normal, Gamma/Poisson. Это позволяет получить аналитическое решение без MCMC. В production-системах используется для онлайн-обновления (A/B тесты, рекомендательные системы).
Prior: Beta(2, 2) для p монеты. Мы наблюдаем 7 орлов и 3 решки. Каков posterior?
Байесовский вывод на практике: MCMC и A/B тесты
В сложных моделях аналитический posterior недостижим. **MCMC (Markov Chain Monte Carlo)** - семейство алгоритмов для выборки из posterior без его явного вычисления. PyMC и Stan - главные инструменты. Для A/B тестов байесовский подход даёт прямые ответы без p-значений.
**Credible interval vs Confidence interval:** 95% credible interval [a, b] означает «с вероятностью 95% истинный параметр лежит в [a, b]» - это то, что большинство людей наивно думают о confidence intervals! 95% confidence interval означает: «если повторить эксперимент бесконечно, 95% таких интервалов накроют истинное значение». Байесовский вывод даёт более интуитивную интерпретацию.
Байесовский A/B тест показал P(B > A) = 0.92. Что это означает?
Ключевые идеи
- Байесовский подход: вероятность = степень уверенности, обновляемая при получении данных
- Теорема Байеса: P(θ|X) ∝ P(X|θ) × P(θ) - likelihood × prior
- Prior → Posterior: каждое новое наблюдение уточняет убеждения
- Сопряжённые prior (Beta/Binomial, Normal/Normal) дают аналитические posterior
- Credible interval: P(θ ∈ [a,b] | данные) = 0.95 - прямая вероятностная интерпретация
- MCMC (PyMC, Stan) - для сложных моделей без аналитического posterior
Что дальше
Непараметрические тесты - альтернатива для данных, нарушающих предположения параметрических методов. Байесовские непараметрические модели (например, гауссовские процессы) соединяют оба подхода.
- Непараметрические тесты — Непараметрические методы не требуют распределения prior; работают с рангами вместо значений
Вопросы для размышления
- Как выбрать prior, если у вас есть экспертные знания о параметре? Как это меняется, если данных много?
- Почему 'base rate neglect' (игнорирование prior) так распространён? Придумайте пример из жизни, где его игнорирование приводит к неверным выводам.
- Сравните интерпретацию 95% confidence interval и 95% credible interval. Почему вторая интуитивнее для большинства людей?