Статистика

Проверка гипотез: как p-value убило 64 000 исследований

В 2015 году журнал Science воспроизвёл 100 психологических исследований - подтвердились только 36%. В 2011 году Амген воспроизвёл 53 «landmark» раковых исследования - подтвердились только 6. Кризис репликации убил доверие к сотням тысяч статей. В центре - p-value, интерпретируемый неверно 95% учёных.

Кризис репликации (2015): 64% психологических открытий не воспроизвелись
Клинические испытания: alpha=0.05 как FDA порог - компромисс между ошибками типа I и II
A/B тесты Airbnb/Spotify: multiple testing correction через Bonferroni или FDR
Геномика: GWAS тесты 10^6+ SNP требуют genome-wide significance p<5e-8
ML модели: проверка гипотез о значимости признаков через permutation tests
Журналы: p-hacking и publication bias - системные проблемы науки

Предварительные знания

(no prerequisites)

Confidence Intervals: How Journalists Misread the 2016 Election

Земмельвайс, 1847: когда данных недостаточно

**2015 год. 270 учёных объединяются в Open Science Collaboration и делают нечто беспрецедентное.** Они берут 100 опубликованных психологических исследований - все прошли рецензирование, все показали p < 0.05 - и пытаются их воспроизвести. Результат: **только 36% воспроизведено**. 64 из 100 «доказанных» открытий исчезли при повторении. Это называют «кризисом репликации». Потрясение затронуло медицину, экономику, нейронауки. Виноват не мошенничество и не халатность - виновато непонимание того, что такое p < 0.05 на самом деле. История начинается в 1847 году в Вене.

**Чему этот урок учит на самом деле**: не «как считать p-value», а **почему это понятие настолько мощное и настолько опасное одновременно**. p-value - единственная концепция статистики, которую неправильно интерпретируют даже авторы учебников (это задокументировано в 2002 году). После урока будет понятно: что именно гарантирует α = 0.05, что такое мощность теста, и почему A/B тест с «результатом» p = 0.04 может означать ровно ничего.

Земмельвайс, 1847: когда данных недостаточно

Игнац Земмельвайс работал в родильном отделении венской больницы. Материнская смертность от родильной горячки в одном крыле - 10%, в другом - 1.5%. Единственное отличие: в первом крыле принимали роды врачи, во втором - акушерки. Врачи до этого проводили вскрытия. Земмельвайс выдвинул гипотезу: врачи переносят «трупные частицы». Ввёл обязательное мытьё рук хлорированной водой. Смертность упала до 1%. Статистика была неопровержима. Медицинское сообщество отвергло его. В 1865 году Земмельвайс попал в психиатрическую больницу и умер там от сепсиса - вероятно, от той же инфекции, которую описывал.

Проблема Земмельвайса была не в отсутствии данных - данных было достаточно. Проблема в отсутствии **формального языка для принятия решений на основе данных**. Этот язык появился между 1920 и 1933 годами в работах Фишера, Неймана и Пирсона. Называется он «проверка статистических гипотез».

Земмельвайс в 1847 году имел убедительные данные: смертность упала с 10% до 1% после мытья рук. Почему медицинское сообщество отвергло его?

Логика гипотез: презумпция невиновности

Проверка гипотез работает как суд: **нулевая гипотеза H₀ невиновна до доказательства обратного**. Альтернативная гипотеза H₁ - то, что пытаются доказать. Данные собираются, вычисляется насколько они противоречат H₀. Если противоречие достаточно сильное - H₀ отвергается.

	H₀ (нулевая)	H₁ (альтернативная)
Смысл	«Ничего не произошло»	«Есть реальный эффект»
Земмельвайс	Смертность одинакова в обоих крыльях	Мытьё рук снижает смертность
A/B тест	Конверсия вариантов A и B одинакова	Вариант B конвертирует лучше
Лекарство	Новый препарат не эффективнее плацебо	Препарат эффективен
ML-модель	Новая модель не лучше baseline	Новая модель значимо лучше

**Практическое правило**: H₀ всегда содержит знак равенства (нет эффекта, нет разницы, нет связи). H₁ содержит неравенство. Нельзя «доказать H₀» - можно только «не отвергнуть H₀» при недостатке данных. Это как оправдательный приговор: не «невиновен», а «не доказана вина».

Какая формулировка нулевой гипотезы H₀ корректна для A/B теста новой кнопки?

p-value: самая опасная цифра в науке

p-value - вероятность получить данные настолько же (или более) экстремальные, **при условии что H₀ верна**. Маленький p-value означает: «если бы нулевой эффект был правдой, такие данные почти никогда бы не появились». Это повод засомневаться в H₀.

Обозначения: T - тестовая статистика (вычислена по данным), t_obs - наблюдаемое значение p = P(|T| ≥ |t_obs| | H₀ верна) Двусторонний тест (H₁: μ ≠ 0): p = P(|T| ≥ |t_obs|) Односторонний тест (H₁: μ > 0): p = P(T ≥ t_obs) Правило отвержения: если p < α → отвергаем H₀ если p ≥ α → не отвергаем H₀ α - уровень значимости, обычно 0.05 или 0.01 АНАЛОГИЯ: p-value - как вероятность выбросить орёл 10 раз подряд. Если монета честная (H₀) и мы видим 10 орлов: p = (1/2)^10 ≈ 0.001 Такое крайне маловероятно под H₀ → отвергаем H₀.

**Три главных заблуждения про p-value** (задокументированы у Gigerenzer, 2002): 1. p = вероятность что H₀ верна ← НЕВЕРНО. p = P(данные | H₀), а не P(H₀ | данные) 2. 1-p = вероятность что H₁ верна ← НЕВЕРНО. Это Bayesian утверждение, требует prior 3. p < 0.05 = «важный результат» ← НЕВЕРНО. p-value не измеряет effect size Правильно: p < 0.05 означает «данные несовместимы с H₀ на уровне 5%».

Что в действительности означает p-value = 0.03?

Ошибки I и II рода: два способа ошибиться

Когда принимается решение по данным, возможны две ошибки. Снизить одну автоматически означает увеличить другую - это фундаментальный trade-off.

	H₀ верна	H₁ верна
Отвергаем H₀	Ошибка I рода (α) - ложная тревога	Правильное решение (мощность = 1-β)
Не отвергаем H₀	Правильное решение (1-α)	Ошибка II рода (β) - пропущен эффект

Ошибка I рода (α, false positive): Отвергаем H₀, хотя она верна. «Нашли» эффект которого нет. Контролируется выбором α = 0.05 (или 0.01). Именно это гарантирует p-value. Ошибка II рода (β, false negative): Не отвергаем H₀, хотя верна H₁. Пропустили реальный эффект. Зависит от: размера эффекта, n, σ, α. Мощность теста (power = 1 - β): Вероятность обнаружить реальный эффект если он есть. Стандарт: power ≥ 0.80 (80%). Чем больше n и чем больше эффект - тем выше мощность. Trade-off: уменьшить α (строже к ошибке I) → растёт β (хуже ловим эффект). Решение: увеличить n - снижает оба вида ошибок одновременно.

Кризис репликации через призму ошибок

Почему 64% исследований не воспроизвелись

Типичное психологическое исследование 2010-х: n = 30-50 участников (малая выборка) α = 0.05 (стандарт) Реальный эффект: небольшой При таких условиях мощность теста ≈ 20-40%. Это значит: даже если эффект реален, 60-80% экспериментов его НЕ найдут. Но в журналы попадают только p < 0.05 (publication bias). Survivor bias в чистом виде: видим «успешные» эксперименты, не видим 10 провалившихся попыток. При публикации отбираются только p < 0.05. Это похоже на подбрасывание монеты до первого орла и объявление «монета всегда падает орлом».

Что такое мощность теста (power = 1 - β) и почему она критична для интерпретации «несигнификантного» результата?

p-hacking и множественные сравнения

При однократном тесте с α = 0.05 вероятность ложного срабатывания - 5%. Но если запустить 20 независимых тестов под H₀, ожидаемое число «значимых» результатов = 1. При 100 тестах - 5 «открытий» из ничего. Это проблема **множественных сравнений** - критичная в genomics, neuroimaging и product analytics.

Число тестов	P(хотя бы одного ложного срабатывания)	Пример применения
1	5%	Один A/B тест
5	23%	Тест 5 метрик в одном эксперименте
20	64%	Геномный скрининг малого масштаба
100	99.4%	Нейровизуализация (тысячи вокселей)
1 000	≈100%	GWAS: 1M SNPs в генетике

**Исправления**: Bonferroni поправка (α/k) - консервативна, снижает мощность. Benjamini-Hochberg FDR контроль - контролирует долю ложных открытий, а не вероятность хотя бы одного. В production A/B платформах (Netflix, Airbnb) используют более современные методы: sequential testing, e-values - уроки 52-54 в курсе.

Вы запускаете 20 независимых тестов с α = 0.05 под H₀ для каждого. Какая вероятность получить хотя бы один ложно-значимый результат?

Практика: z-тест с нуля

Вы рассчитываете z-тест: X̄ = 105, μ₀ = 100, σ = 15, n = 36. Какое значение тестовой статистики и какой вывод при α = 0.05?

Что унести из урока

**H₀ = презумпция невиновности**: нет эффекта, нет разницы. H₁ доказывается, H₀ лишь отвергается или не отвергается
**p-value = P(данные | H₀)**: не вероятность что H₀ верна, не важность эффекта - только несовместимость данных с нулевой гипотезой
**α = 0.05**: если H₀ верна, 5% тестов ложно покажут значимость. Это не вероятность ошибки в конкретном тесте
**Мощность 1-β**: вероятность найти реальный эффект. При малых выборках мощность низкая - 64 000 исследований не воспроизвелось именно из-за этого
**Множественные сравнения**: k тестов при H₀ дают k·α ложных открытий. Нужна поправка (Bonferroni или FDR)
**Peeking = ошибка**: мониторинг A/B теста и остановка при p < 0.05 ломает гарантию α

Куда дальше

Общий аппарат гипотез - фундамент. Дальше - конкретные тесты для конкретных задач.

t-тест Стьюдента — Самый распространённый тест: сравнение средних при неизвестной σ и малых n
Хи-квадрат — Тест для категориальных данных: соответствие распределению и независимость
Bootstrap — Вычислить p-value без предположений о распределении данных
E-values и anytime-valid тесты — Решение проблемы peeking: тесты, валидные при непрерывном мониторинге

Связанные уроки

Статистика

Проверка гипотез: как p-value убило 64 000 исследований

Кризис репликации (2015): 64% психологических открытий не воспроизвелись
Клинические испытания: alpha=0.05 как FDA порог - компромисс между ошибками типа I и II
A/B тесты Airbnb/Spotify: multiple testing correction через Bonferroni или FDR
Геномика: GWAS тесты 10^6+ SNP требуют genome-wide significance p<5e-8
ML модели: проверка гипотез о значимости признаков через permutation tests
Журналы: p-hacking и publication bias - системные проблемы науки

Предварительные знания

(no prerequisites)

Confidence Intervals: How Journalists Misread the 2016 Election

Земмельвайс, 1847: когда данных недостаточно

Логика гипотез: презумпция невиновности

	H₀ (нулевая)	H₁ (альтернативная)
Смысл	«Ничего не произошло»	«Есть реальный эффект»
Земмельвайс	Смертность одинакова в обоих крыльях	Мытьё рук снижает смертность
A/B тест	Конверсия вариантов A и B одинакова	Вариант B конвертирует лучше
Лекарство	Новый препарат не эффективнее плацебо	Препарат эффективен
ML-модель	Новая модель не лучше baseline	Новая модель значимо лучше

Какая формулировка нулевой гипотезы H₀ корректна для A/B теста новой кнопки?

p-value: самая опасная цифра в науке

Что в действительности означает p-value = 0.03?

Ошибки I и II рода: два способа ошибиться

	H₀ верна	H₁ верна
Отвергаем H₀	Ошибка I рода (α) - ложная тревога	Правильное решение (мощность = 1-β)
Не отвергаем H₀	Правильное решение (1-α)	Ошибка II рода (β) - пропущен эффект

Кризис репликации через призму ошибок

Почему 64% исследований не воспроизвелись

Что такое мощность теста (power = 1 - β) и почему она критична для интерпретации «несигнификантного» результата?

p-hacking и множественные сравнения

Число тестов	P(хотя бы одного ложного срабатывания)	Пример применения
1	5%	Один A/B тест
5	23%	Тест 5 метрик в одном эксперименте
20	64%	Геномный скрининг малого масштаба
100	99.4%	Нейровизуализация (тысячи вокселей)
1 000	≈100%	GWAS: 1M SNPs в генетике

Практика: z-тест с нуля

Вы рассчитываете z-тест: X̄ = 105, μ₀ = 100, σ = 15, n = 36. Какое значение тестовой статистики и какой вывод при α = 0.05?

Что унести из урока

**H₀ = презумпция невиновности**: нет эффекта, нет разницы. H₁ доказывается, H₀ лишь отвергается или не отвергается
**p-value = P(данные | H₀)**: не вероятность что H₀ верна, не важность эффекта - только несовместимость данных с нулевой гипотезой
**α = 0.05**: если H₀ верна, 5% тестов ложно покажут значимость. Это не вероятность ошибки в конкретном тесте
**Мощность 1-β**: вероятность найти реальный эффект. При малых выборках мощность низкая - 64 000 исследований не воспроизвелось именно из-за этого
**Множественные сравнения**: k тестов при H₀ дают k·α ложных открытий. Нужна поправка (Bonferroni или FDR)
**Peeking = ошибка**: мониторинг A/B теста и остановка при p < 0.05 ломает гарантию α

Куда дальше

Общий аппарат гипотез - фундамент. Дальше - конкретные тесты для конкретных задач.

t-тест Стьюдента — Самый распространённый тест: сравнение средних при неизвестной σ и малых n
Хи-квадрат — Тест для категориальных данных: соответствие распределению и независимость
Bootstrap — Вычислить p-value без предположений о распределении данных
E-values и anytime-valid тесты — Решение проблемы peeking: тесты, валидные при непрерывном мониторинге