Статистика
Проверка гипотез: как p-value убило 64 000 исследований
В 2015 году журнал Science воспроизвёл 100 психологических исследований - подтвердились только 36%. В 2011 году Амген воспроизвёл 53 «landmark» раковых исследования - подтвердились только 6. Кризис репликации убил доверие к сотням тысяч статей. В центре - p-value, интерпретируемый неверно 95% учёных.
- Кризис репликации (2015): 64% психологических открытий не воспроизвелись
- Клинические испытания: alpha=0.05 как FDA порог - компромисс между ошибками типа I и II
- A/B тесты Airbnb/Spotify: multiple testing correction через Bonferroni или FDR
- Геномика: GWAS тесты 10^6+ SNP требуют genome-wide significance p<5e-8
- ML модели: проверка гипотез о значимости признаков через permutation tests
- Журналы: p-hacking и publication bias - системные проблемы науки
Предварительные знания
- (no prerequisites)
Земмельвайс, 1847: когда данных недостаточно
**2015 год. 270 учёных объединяются в Open Science Collaboration и делают нечто беспрецедентное.** Они берут 100 опубликованных психологических исследований - все прошли рецензирование, все показали p < 0.05 - и пытаются их воспроизвести. Результат: **только 36% воспроизведено**. 64 из 100 «доказанных» открытий исчезли при повторении. Это называют «кризисом репликации». Потрясение затронуло медицину, экономику, нейронауки. Виноват не мошенничество и не халатность - виновато непонимание того, что такое p < 0.05 на самом деле. История начинается в 1847 году в Вене.
**Чему этот урок учит на самом деле**: не «как считать p-value», а **почему это понятие настолько мощное и настолько опасное одновременно**. p-value - единственная концепция статистики, которую неправильно интерпретируют даже авторы учебников (это задокументировано в 2002 году). После урока будет понятно: что именно гарантирует α = 0.05, что такое мощность теста, и почему A/B тест с «результатом» p = 0.04 может означать ровно ничего.
Земмельвайс, 1847: когда данных недостаточно
Игнац Земмельвайс работал в родильном отделении венской больницы. Материнская смертность от родильной горячки в одном крыле - 10%, в другом - 1.5%. Единственное отличие: в первом крыле принимали роды врачи, во втором - акушерки. Врачи до этого проводили вскрытия. Земмельвайс выдвинул гипотезу: врачи переносят «трупные частицы». Ввёл обязательное мытьё рук хлорированной водой. Смертность упала до 1%. Статистика была неопровержима. Медицинское сообщество отвергло его. В 1865 году Земмельвайс попал в психиатрическую больницу и умер там от сепсиса - вероятно, от той же инфекции, которую описывал.
Проблема Земмельвайса была не в отсутствии данных - данных было достаточно. Проблема в отсутствии **формального языка для принятия решений на основе данных**. Этот язык появился между 1920 и 1933 годами в работах Фишера, Неймана и Пирсона. Называется он «проверка статистических гипотез».
Земмельвайс в 1847 году имел убедительные данные: смертность упала с 10% до 1% после мытья рук. Почему медицинское сообщество отвергло его?
Логика гипотез: презумпция невиновности
Логика гипотез: презумпция невиновности
Проверка гипотез работает как суд: **нулевая гипотеза H₀ невиновна до доказательства обратного**. Альтернативная гипотеза H₁ - то, что пытаются доказать. Данные собираются, вычисляется насколько они противоречат H₀. Если противоречие достаточно сильное - H₀ отвергается.
| H₀ (нулевая) | H₁ (альтернативная) | |
|---|---|---|
| Смысл | «Ничего не произошло» | «Есть реальный эффект» |
| Земмельвайс | Смертность одинакова в обоих крыльях | Мытьё рук снижает смертность |
| A/B тест | Конверсия вариантов A и B одинакова | Вариант B конвертирует лучше |
| Лекарство | Новый препарат не эффективнее плацебо | Препарат эффективен |
| ML-модель | Новая модель не лучше baseline | Новая модель значимо лучше |
**Практическое правило**: H₀ всегда содержит знак равенства (нет эффекта, нет разницы, нет связи). H₁ содержит неравенство. Нельзя «доказать H₀» - можно только «не отвергнуть H₀» при недостатке данных. Это как оправдательный приговор: не «невиновен», а «не доказана вина».
Какая формулировка нулевой гипотезы H₀ корректна для A/B теста новой кнопки?
p-value: самая опасная цифра в науке
p-value: самая опасная цифра в науке
p-value - вероятность получить данные настолько же (или более) экстремальные, **при условии что H₀ верна**. Маленький p-value означает: «если бы нулевой эффект был правдой, такие данные почти никогда бы не появились». Это повод засомневаться в H₀.
Обозначения: T - тестовая статистика (вычислена по данным), t_obs - наблюдаемое значение p = P(|T| ≥ |t_obs| | H₀ верна) Двусторонний тест (H₁: μ ≠ 0): p = P(|T| ≥ |t_obs|) Односторонний тест (H₁: μ > 0): p = P(T ≥ t_obs) Правило отвержения: если p < α → отвергаем H₀ если p ≥ α → не отвергаем H₀ α - уровень значимости, обычно 0.05 или 0.01 АНАЛОГИЯ: p-value - как вероятность выбросить орёл 10 раз подряд. Если монета честная (H₀) и мы видим 10 орлов: p = (1/2)^10 ≈ 0.001 Такое крайне маловероятно под H₀ → отвергаем H₀.
**Три главных заблуждения про p-value** (задокументированы у Gigerenzer, 2002): 1. p = вероятность что H₀ верна ← НЕВЕРНО. p = P(данные | H₀), а не P(H₀ | данные) 2. 1-p = вероятность что H₁ верна ← НЕВЕРНО. Это Bayesian утверждение, требует prior 3. p < 0.05 = «важный результат» ← НЕВЕРНО. p-value не измеряет effect size Правильно: p < 0.05 означает «данные несовместимы с H₀ на уровне 5%».
Что в действительности означает p-value = 0.03?
Ошибки I и II рода: два способа ошибиться
Ошибки I и II рода: два способа ошибиться
Когда принимается решение по данным, возможны две ошибки. Снизить одну автоматически означает увеличить другую - это фундаментальный trade-off.
| H₀ верна | H₁ верна | |
|---|---|---|
| Отвергаем H₀ | Ошибка I рода (α) - ложная тревога | Правильное решение (мощность = 1-β) |
| Не отвергаем H₀ | Правильное решение (1-α) | Ошибка II рода (β) - пропущен эффект |
Ошибка I рода (α, false positive): Отвергаем H₀, хотя она верна. «Нашли» эффект которого нет. Контролируется выбором α = 0.05 (или 0.01). Именно это гарантирует p-value. Ошибка II рода (β, false negative): Не отвергаем H₀, хотя верна H₁. Пропустили реальный эффект. Зависит от: размера эффекта, n, σ, α. Мощность теста (power = 1 - β): Вероятность обнаружить реальный эффект если он есть. Стандарт: power ≥ 0.80 (80%). Чем больше n и чем больше эффект - тем выше мощность. Trade-off: уменьшить α (строже к ошибке I) → растёт β (хуже ловим эффект). Решение: увеличить n - снижает оба вида ошибок одновременно.
Кризис репликации через призму ошибок
Почему 64% исследований не воспроизвелись
Типичное психологическое исследование 2010-х: n = 30-50 участников (малая выборка) α = 0.05 (стандарт) Реальный эффект: небольшой При таких условиях мощность теста ≈ 20-40%. Это значит: даже если эффект реален, 60-80% экспериментов его НЕ найдут. Но в журналы попадают только p < 0.05 (publication bias). Survivor bias в чистом виде: видим «успешные» эксперименты, не видим 10 провалившихся попыток. При публикации отбираются только p < 0.05. Это похоже на подбрасывание монеты до первого орла и объявление «монета всегда падает орлом».
Что такое мощность теста (power = 1 - β) и почему она критична для интерпретации «несигнификантного» результата?
p-hacking и множественные сравнения
p-hacking и множественные сравнения
При однократном тесте с α = 0.05 вероятность ложного срабатывания - 5%. Но если запустить 20 независимых тестов под H₀, ожидаемое число «значимых» результатов = 1. При 100 тестах - 5 «открытий» из ничего. Это проблема **множественных сравнений** - критичная в genomics, neuroimaging и product analytics.
| Число тестов | P(хотя бы одного ложного срабатывания) | Пример применения |
|---|---|---|
| 1 | 5% | Один A/B тест |
| 5 | 23% | Тест 5 метрик в одном эксперименте |
| 20 | 64% | Геномный скрининг малого масштаба |
| 100 | 99.4% | Нейровизуализация (тысячи вокселей) |
| 1 000 | ≈100% | GWAS: 1M SNPs в генетике |
**Исправления**: Bonferroni поправка (α/k) - консервативна, снижает мощность. Benjamini-Hochberg FDR контроль - контролирует долю ложных открытий, а не вероятность хотя бы одного. В production A/B платформах (Netflix, Airbnb) используют более современные методы: sequential testing, e-values - уроки 52-54 в курсе.
Вы запускаете 20 независимых тестов с α = 0.05 под H₀ для каждого. Какая вероятность получить хотя бы один ложно-значимый результат?
Практика: z-тест с нуля
Практика: z-тест с нуля
Вы рассчитываете z-тест: X̄ = 105, μ₀ = 100, σ = 15, n = 36. Какое значение тестовой статистики и какой вывод при α = 0.05?
Что унести из урока
- **H₀ = презумпция невиновности**: нет эффекта, нет разницы. H₁ доказывается, H₀ лишь отвергается или не отвергается
- **p-value = P(данные | H₀)**: не вероятность что H₀ верна, не важность эффекта - только несовместимость данных с нулевой гипотезой
- **α = 0.05**: если H₀ верна, 5% тестов ложно покажут значимость. Это не вероятность ошибки в конкретном тесте
- **Мощность 1-β**: вероятность найти реальный эффект. При малых выборках мощность низкая - 64 000 исследований не воспроизвелось именно из-за этого
- **Множественные сравнения**: k тестов при H₀ дают k·α ложных открытий. Нужна поправка (Bonferroni или FDR)
- **Peeking = ошибка**: мониторинг A/B теста и остановка при p < 0.05 ломает гарантию α
Куда дальше
Общий аппарат гипотез - фундамент. Дальше - конкретные тесты для конкретных задач.
- t-тест Стьюдента — Самый распространённый тест: сравнение средних при неизвестной σ и малых n
- Хи-квадрат — Тест для категориальных данных: соответствие распределению и независимость
- Bootstrap — Вычислить p-value без предположений о распределении данных
- E-values и anytime-valid тесты — Решение проблемы peeking: тесты, валидные при непрерывном мониторинге