Data Science

Статистика для DS: вывод

2011 год, Google: команда проводит A/B тест 41 оттенка синего цвета для ссылок в поиске. Нашли winner с p < 0.001. Внедрили. Результат: +$200 миллионов дохода в год. Оппоненты: 'это бессмысленно, люди не замечают такой разницы'. Данные: замечают. Это момент, когда статистика перестала быть академической дисциплиной и стала инструментом для бизнес-решений стоимостью в миллиарды. Сегодня Amazon, Netflix, Booking.com проводят тысячи A/B тестов одновременно.

**Booking.com**: 1000+ A/B тестов одновременно, байесовская оценка P(winner) для досрочной остановки
**Netflix**: многомерные тесты thumbnail изображений - статистика для решений о $100M+ инвестициях в контент
**Spotify**: Bayesian hierarchical models для оценки эффекта новых фич на retention по сегментам пользователей

Уильям Госсет (1908)

В 1908 году химик пивоварни Guinness Уильям Госсет опубликовал статью под псевдонимом 'Student' - компания запрещала сотрудникам публиковаться. Статья описывала t-распределение для небольших выборок. Проблема: как определить качество ячменя по 4-5 образцам, а не по тысячам? Госсет вывел математику под конкретную бизнес-задачу. Student's t-test сегодня - первый инструмент любого A/B теста. За Госсетом последовал Рональд Фишер с формализацией p-value (1925) и ANOVA. Ежегодно проводятся миллионы A/B тестов с инструментами, созданными для контроля качества пива. t-тест, p-value и null hypothesis significance testing (NHST) стали стандартом в науке, медицине и бизнесе на 100+ лет

Проверка гипотез: H₀ и H₁

Проверка гипотез - формальная процедура принятия решений на основе данных. **H₀** (нулевая гипотеза) - утверждение о том, что эффекта нет: CTR не изменился, лекарство не работает. **H₁** (альтернативная) - что эффект есть. Не доказываем H₁ - только отвергаем H₀ с некоторым уровнем уверенности.

**Типы ошибок**: Type I (α) - отвергли H₀, когда она верна (false positive). Type II (β) - не отвергли H₀, когда она неверна (false negative). **Power** = 1 - β = вероятность найти эффект, если он есть. Стандарты: α = 0.05, power = 0.8. При множественном тестировании (multiple comparisons) α накапливается - необходима поправка Бонферрони или FDR.

Компания провела 20 A/B тестов одновременно с α=0.05 для каждого. Сколько ложноположительных результатов ожидается, если все H₀ верны?

p-value: вероятность или доказательство?

**p-value** - вероятность наблюдать данные, столь же экстремальные (или более), если H₀ верна. p-value = 0.03 означает: 'если эффекта нет, вероятность увидеть такую или большую разницу случайно = 3%'. p-value **не** означает: 'вероятность того, что H₀ верна = 3%'. Это принципиально разные утверждения.

**p-hacking**: при достаточно большой выборке любой микроскопический эффект становится статистически значимым. Amazon A/B тест с 10 миллионами пользователей покажет значимость изменения шрифта на 0.1px, которое никак не влияет на бизнес. Всегда сообщать **effect size** (Cohen's d, odds ratio, relative uplift) вместе с p-value.

A/B тест показал p-value = 0.04. Что это означает?

Доверительный интервал: оценка неопределённости

95% доверительный интервал (CI) - не 'интервал, в котором параметр находится с 95% вероятностью'. Корректная интерпретация: если повторять эксперимент многократно, 95% построенных CI будут содержать истинный параметр. CI предоставляет оценку **magnitude** эффекта и **неопределённости**, которую p-value не даёт.

CI vs p-value: если CI не включает 0 (для разницы) или 1 (для отношения шансов) - результат статистически значим при соответствующем α. Ширина CI показывает **неопределённость оценки** - узкий CI = много данных или малая дисперсия. Для бизнес-решений: CI [0.001%, 0.5%] хуже CI [0.24%, 0.26%] даже при одинаковом p-value.

95% доверительный интервал для uplift CTR = [0.5%, 3.5%]. Что можно заключить?

Байесовский вывод: prior + likelihood = posterior

Байесовский подход рассматривает параметры как случайные переменные с распределением. **Prior** P(θ) - знания до данных. **Likelihood** P(data|θ) - вероятность данных при каждом θ. **Posterior** P(θ|data) ∝ P(data|θ) * P(θ). Это позволяет напрямую отвечать: 'вероятность того, что вариант B лучше A = 94.3%'.

Байесовский A/B тест: P(B > A) = 96.3% - прямой ответ на бизнес-вопрос. Частотный тест: p-value = 0.032 - интерпретируемо только через 'если H₀ верна...'. Байесовский подход позволяет **останавливать тест досрочно** без проблемы multiple comparisons, использовать **prior knowledge** (исторический CTR), и работать с **иерархическими моделями** для сегментов.

p-value < 0.05 означает, что нашли важный бизнес-эффект

Статистическая значимость не подразумевает практическую. Нужно проверять effect size: Cohen's d > 0.2 (малый), > 0.5 (средний), > 0.8 (большой)

С выборкой в 10 миллионов p-value < 0.001 для изменения CTR на 0.001% - статистически 'значимо', но бизнес-ценность нулевая

В чём главное практическое преимущество байесовского A/B теста перед частотным (frequentist)?

Ключевые идеи

**Проверка гипотез**: H₀ vs H₁, Type I (α=false positive) и Type II (β=false negative) ошибки, power = 1-β
**p-value**: P(data | H₀) - не вероятность H₀; при большой выборке любой эффект становится значимым
**CI**: ширина = неопределённость оценки; 95% CI исключающий 0 эквивалентен p < 0.05
**Байесовский вывод**: P(B > A) = прямой ответ на бизнес-вопрос через prior + likelihood = posterior

Вопросы для размышления

Booking.com останавливает A/B тест досрочно при P(B > A) > 95%. Почему это корректно в байесовском контексте, но нарушает правила частотного тестирования?
Как поправка Бонферрони (α_adj = α/k) защищает от false discoveries при k одновременных тестах, и почему FDR (Benjamini-Hochberg) часто лучше?
Effect size Cohen's d = 0.05 при p-value = 0.0001 (выборка 1M). Какое решение принять - внедрять фичу или нет - и какие дополнительные данные нужны?

Связанные уроки