Статистика

Проверка гипотез: как p-value убило 64 000 исследований

В 2015 году журнал Science воспроизвёл 100 психологических исследований - подтвердились только 36%. В 2011 году Амген воспроизвёл 53 «landmark» раковых исследования - подтвердились только 6. Кризис репликации убил доверие к сотням тысяч статей. В центре - p-value, интерпретируемый неверно 95% учёных.

  • Кризис репликации (2015): 64% психологических открытий не воспроизвелись
  • Клинические испытания: alpha=0.05 как FDA порог - компромисс между ошибками типа I и II
  • A/B тесты Airbnb/Spotify: multiple testing correction через Bonferroni или FDR
  • Геномика: GWAS тесты 10^6+ SNP требуют genome-wide significance p<5e-8
  • ML модели: проверка гипотез о значимости признаков через permutation tests
  • Журналы: p-hacking и publication bias - системные проблемы науки

Предварительные знания

  • (no prerequisites)
  • Confidence Intervals: How Journalists Misread the 2016 Election

Земмельвайс, 1847: когда данных недостаточно

**2015 год. 270 учёных объединяются в Open Science Collaboration и делают нечто беспрецедентное.** Они берут 100 опубликованных психологических исследований - все прошли рецензирование, все показали p < 0.05 - и пытаются их воспроизвести. Результат: **только 36% воспроизведено**. 64 из 100 «доказанных» открытий исчезли при повторении. Это называют «кризисом репликации». Потрясение затронуло медицину, экономику, нейронауки. Виноват не мошенничество и не халатность - виновато непонимание того, что такое p < 0.05 на самом деле. История начинается в 1847 году в Вене.

**Чему этот урок учит на самом деле**: не «как считать p-value», а **почему это понятие настолько мощное и настолько опасное одновременно**. p-value - единственная концепция статистики, которую неправильно интерпретируют даже авторы учебников (это задокументировано в 2002 году). После урока будет понятно: что именно гарантирует α = 0.05, что такое мощность теста, и почему A/B тест с «результатом» p = 0.04 может означать ровно ничего.

Земмельвайс, 1847: когда данных недостаточно

Игнац Земмельвайс работал в родильном отделении венской больницы. Материнская смертность от родильной горячки в одном крыле - 10%, в другом - 1.5%. Единственное отличие: в первом крыле принимали роды врачи, во втором - акушерки. Врачи до этого проводили вскрытия. Земмельвайс выдвинул гипотезу: врачи переносят «трупные частицы». Ввёл обязательное мытьё рук хлорированной водой. Смертность упала до 1%. Статистика была неопровержима. Медицинское сообщество отвергло его. В 1865 году Земмельвайс попал в психиатрическую больницу и умер там от сепсиса - вероятно, от той же инфекции, которую описывал.

Проблема Земмельвайса была не в отсутствии данных - данных было достаточно. Проблема в отсутствии **формального языка для принятия решений на основе данных**. Этот язык появился между 1920 и 1933 годами в работах Фишера, Неймана и Пирсона. Называется он «проверка статистических гипотез».

Земмельвайс в 1847 году имел убедительные данные: смертность упала с 10% до 1% после мытья рук. Почему медицинское сообщество отвергло его?

Логика гипотез: презумпция невиновности

Логика гипотез: презумпция невиновности

Проверка гипотез работает как суд: **нулевая гипотеза H₀ невиновна до доказательства обратного**. Альтернативная гипотеза H₁ - то, что пытаются доказать. Данные собираются, вычисляется насколько они противоречат H₀. Если противоречие достаточно сильное - H₀ отвергается.

H₀ (нулевая)H₁ (альтернативная)
Смысл«Ничего не произошло»«Есть реальный эффект»
ЗеммельвайсСмертность одинакова в обоих крыльяхМытьё рук снижает смертность
A/B тестКонверсия вариантов A и B одинаковаВариант B конвертирует лучше
ЛекарствоНовый препарат не эффективнее плацебоПрепарат эффективен
ML-модельНовая модель не лучше baselineНовая модель значимо лучше

**Практическое правило**: H₀ всегда содержит знак равенства (нет эффекта, нет разницы, нет связи). H₁ содержит неравенство. Нельзя «доказать H₀» - можно только «не отвергнуть H₀» при недостатке данных. Это как оправдательный приговор: не «невиновен», а «не доказана вина».

Какая формулировка нулевой гипотезы H₀ корректна для A/B теста новой кнопки?

p-value: самая опасная цифра в науке

p-value: самая опасная цифра в науке

p-value - вероятность получить данные настолько же (или более) экстремальные, **при условии что H₀ верна**. Маленький p-value означает: «если бы нулевой эффект был правдой, такие данные почти никогда бы не появились». Это повод засомневаться в H₀.

Обозначения: T - тестовая статистика (вычислена по данным), t_obs - наблюдаемое значение p = P(|T| ≥ |t_obs| | H₀ верна) Двусторонний тест (H₁: μ ≠ 0): p = P(|T| ≥ |t_obs|) Односторонний тест (H₁: μ > 0): p = P(T ≥ t_obs) Правило отвержения: если p < α → отвергаем H₀ если p ≥ α → не отвергаем H₀ α - уровень значимости, обычно 0.05 или 0.01 АНАЛОГИЯ: p-value - как вероятность выбросить орёл 10 раз подряд. Если монета честная (H₀) и мы видим 10 орлов: p = (1/2)^10 ≈ 0.001 Такое крайне маловероятно под H₀ → отвергаем H₀.

**Три главных заблуждения про p-value** (задокументированы у Gigerenzer, 2002): 1. p = вероятность что H₀ верна ← НЕВЕРНО. p = P(данные | H₀), а не P(H₀ | данные) 2. 1-p = вероятность что H₁ верна ← НЕВЕРНО. Это Bayesian утверждение, требует prior 3. p < 0.05 = «важный результат» ← НЕВЕРНО. p-value не измеряет effect size Правильно: p < 0.05 означает «данные несовместимы с H₀ на уровне 5%».

Что в действительности означает p-value = 0.03?

Ошибки I и II рода: два способа ошибиться

Ошибки I и II рода: два способа ошибиться

Когда принимается решение по данным, возможны две ошибки. Снизить одну автоматически означает увеличить другую - это фундаментальный trade-off.

H₀ вернаH₁ верна
Отвергаем H₀Ошибка I рода (α) - ложная тревогаПравильное решение (мощность = 1-β)
Не отвергаем H₀Правильное решение (1-α)Ошибка II рода (β) - пропущен эффект

Ошибка I рода (α, false positive): Отвергаем H₀, хотя она верна. «Нашли» эффект которого нет. Контролируется выбором α = 0.05 (или 0.01). Именно это гарантирует p-value. Ошибка II рода (β, false negative): Не отвергаем H₀, хотя верна H₁. Пропустили реальный эффект. Зависит от: размера эффекта, n, σ, α. Мощность теста (power = 1 - β): Вероятность обнаружить реальный эффект если он есть. Стандарт: power ≥ 0.80 (80%). Чем больше n и чем больше эффект - тем выше мощность. Trade-off: уменьшить α (строже к ошибке I) → растёт β (хуже ловим эффект). Решение: увеличить n - снижает оба вида ошибок одновременно.

Кризис репликации через призму ошибок

Почему 64% исследований не воспроизвелись

Типичное психологическое исследование 2010-х: n = 30-50 участников (малая выборка) α = 0.05 (стандарт) Реальный эффект: небольшой При таких условиях мощность теста ≈ 20-40%. Это значит: даже если эффект реален, 60-80% экспериментов его НЕ найдут. Но в журналы попадают только p < 0.05 (publication bias). Survivor bias в чистом виде: видим «успешные» эксперименты, не видим 10 провалившихся попыток. При публикации отбираются только p < 0.05. Это похоже на подбрасывание монеты до первого орла и объявление «монета всегда падает орлом».

Что такое мощность теста (power = 1 - β) и почему она критична для интерпретации «несигнификантного» результата?

p-hacking и множественные сравнения

p-hacking и множественные сравнения

При однократном тесте с α = 0.05 вероятность ложного срабатывания - 5%. Но если запустить 20 независимых тестов под H₀, ожидаемое число «значимых» результатов = 1. При 100 тестах - 5 «открытий» из ничего. Это проблема **множественных сравнений** - критичная в genomics, neuroimaging и product analytics.

Число тестовP(хотя бы одного ложного срабатывания)Пример применения
15%Один A/B тест
523%Тест 5 метрик в одном эксперименте
2064%Геномный скрининг малого масштаба
10099.4%Нейровизуализация (тысячи вокселей)
1 000≈100%GWAS: 1M SNPs в генетике

**Исправления**: Bonferroni поправка (α/k) - консервативна, снижает мощность. Benjamini-Hochberg FDR контроль - контролирует долю ложных открытий, а не вероятность хотя бы одного. В production A/B платформах (Netflix, Airbnb) используют более современные методы: sequential testing, e-values - уроки 52-54 в курсе.

Вы запускаете 20 независимых тестов с α = 0.05 под H₀ для каждого. Какая вероятность получить хотя бы один ложно-значимый результат?

Практика: z-тест с нуля

Практика: z-тест с нуля

Вы рассчитываете z-тест: X̄ = 105, μ₀ = 100, σ = 15, n = 36. Какое значение тестовой статистики и какой вывод при α = 0.05?

Что унести из урока

  • **H₀ = презумпция невиновности**: нет эффекта, нет разницы. H₁ доказывается, H₀ лишь отвергается или не отвергается
  • **p-value = P(данные | H₀)**: не вероятность что H₀ верна, не важность эффекта - только несовместимость данных с нулевой гипотезой
  • **α = 0.05**: если H₀ верна, 5% тестов ложно покажут значимость. Это не вероятность ошибки в конкретном тесте
  • **Мощность 1-β**: вероятность найти реальный эффект. При малых выборках мощность низкая - 64 000 исследований не воспроизвелось именно из-за этого
  • **Множественные сравнения**: k тестов при H₀ дают k·α ложных открытий. Нужна поправка (Bonferroni или FDR)
  • **Peeking = ошибка**: мониторинг A/B теста и остановка при p < 0.05 ломает гарантию α

Куда дальше

Общий аппарат гипотез - фундамент. Дальше - конкретные тесты для конкретных задач.

  • t-тест Стьюдента — Самый распространённый тест: сравнение средних при неизвестной σ и малых n
  • Хи-квадрат — Тест для категориальных данных: соответствие распределению и независимость
  • Bootstrap — Вычислить p-value без предположений о распределении данных
  • E-values и anytime-valid тесты — Решение проблемы peeking: тесты, валидные при непрерывном мониторинге

Связанные уроки

  • aie-31-evaluation
  • ml-05-evaluation
Проверка гипотез: как p-value убило 64 000 исследований

0

1

Войти