Статистика

Множественное тестирование

«Мы нашли ген, вызывающий шизофрению!» - и таких заявлений было сотни. Потом воспроизводимость: 0%. Виновник - тестирование миллионов SNP без поправки на множественность. В 2005 году Иоаннидис показал: большинство опубликованных открытий ложны. Понимание множественного тестирования - вопрос научной честности.

GWAS (genome-wide association studies): пороговое значение p < 5×10^-8 вместо 0.05 для 1 млн SNP
Нейровизуализация: тысячи воксел тестируются на активацию - строгий FWE или FDR
A/B тестирование: компании тестируют 10+ метрик, риск найти 'значимую' случайно
Кризис воспроизводимости в психологии: многие результаты 2000-х не воспроизводятся
Клинические испытания: регуляторные органы (FDA, EMA) требуют явной процедуры поправки

Предварительные знания

Hypothesis Testing: How p-values Killed 64,000 Studies

Проблема FWER и поправка Бонферрони

**Проблема множественного тестирования:** при m независимых тестах на уровне α вероятность хотя бы одной ложной находки = 1 − (1−α)^m. При m=20 и α=0.05: P(хотя бы одна ложная) = 1 − 0.95^20 ≈ 64%! **FWER** (Familywise Error Rate) - вероятность хотя бы одной ошибки I рода в наборе тестов. **Поправка Бонферрони:** α_корр = α/m. Консервативна, контролирует FWER строго.

**История p-хакинга:** в 2005 году Йоанн Иоаннидис опубликовал «Почему большинство опубликованных результатов исследований ложны». Основная причина: исследователи тестируют множество гипотез, но публикуют только значимые результаты (publication bias) без поправки на множественность. В геномике: миллионы SNP, α=5×10^-8 (пороговое значение GWAS) вместо 0.05.

Исследователь провёл 50 независимых t-тестов на уровне α=0.05. Сколько ложно значимых результатов ожидается при условии, что все H₀ верны?

FDR: метод Бенджамини-Хохберга

**FDR (False Discovery Rate)** - ожидаемая доля ложных открытий среди всех отвергнутых H₀. FDR = E[V/R], где V - число ложных открытий, R - общее число отвергнутых. Менее консервативно, чем FWER (Бонферрони). **Метод Бенджамини-Хохберга (BH):** 1. упорядочить p-value: p(1) ≤ p(2) ≤ ... ≤ p(m) 2. найти максимальное k: p(k) ≤ (k/m) × q 3. отвергнуть все H₁,...,H_k.

**q-value**: откорректированный p-value в рамках BH. q = p × m/rank. Часто используется в геномике: 'FDR q < 0.05' означает, что ожидается не более 5% ложных открытий среди объявленных значимыми. Пакет `statsmodels.stats.multitest.multipletests` реализует все основные методы.

GWAS: 500 000 SNP протестированы. Метод BH с q=0.05 отверг 1000 H₀. Что это означает?

Практические рекомендации: что и когда применять

**Выбор метода зависит от цены ошибок:** если одна ложная находка катастрофична (испытание нового препарата: один одобренный неэффективный препарат = вред пациентам) → FWER (Бонферрони или Холм). Если допустимо иметь ~5% «мусора» среди находок (геномика: проверим 1000 кандидатов в лаборатории, 50 ложных - нормально) → FDR (BH).

Ситуация	Метод	Почему
Клинические испытания, 2 - 5 конечных точек	Бонферрони или Холм	Одна ошибка = вред пациентам, строгий FWER
Геномика, 500K+ SNP	BH (FDR q=0.05)	Допустимо ~5% «мусора», важна мощность
Нейровизуализация (voxel-wise)	FWE (GRF) или FDR	Пространственная корреляция, специфичные инструменты
A/B тест, 10+ метрик	BH или Холм	Зависит от важности каждой метрики
Одна сравнение без семьи тестов	Без поправки	Одиночный тест не требует поправки

Фармацевтическая компания тестирует новый препарат по 4 первичным конечным точкам (смертность, инсульт, инфаркт, госпитализации) одновременно в одном испытании. Какой метод поправки использовать?

Ключевые идеи

При m тестах FWER = 1 − (1−α)^m: при m=20 это 64% ложных открытий!
Бонферрони: α/m - строго, консервативно, для клиники и регуляторных испытаний
Холм-Бонферрони: менее консервативен чем Бонферрони, тот же FWER
BH (Бенджамини-Хохберг): контролирует FDR (долю ложных), более мощный
q-value = скорректированный p-value; FDR q < 0.05 → ≤5% ложных среди значимых
FWER: для клиники, когда одна ошибка дорого; FDR: для омики и исследований

Связь с другими методами

Множественное тестирование пересекается с проверкой гипотез (расширяет одиночный тест), FDR используется в биоинформатике (DESeq2, limma), перестановочными тестами (точный контроль FWER).

Проверка гипотез — Множественное тестирование - расширение одиночного теста на семью
Бутстрап и ресэмплинг — Перестановочные тесты с поправкой Westfall-Young для точного FWER

Вопросы для размышления

Почему предварительная регистрация гипотез (pre-registration) решает часть проблемы множественного тестирования?
В вашем A/B тесте 10 метрик. Одна значима (p=0.02). Что делать: поправку Бонферрони или BH? Как изменится вывод?
Что такое «кризис воспроизводимости»? Как множественное тестирование и p-хакинг способствуют ложным открытиям в науке?

Связанные уроки

prob-04-bayes

Проблема FWER и поправка Бонферрони

FDR: метод Бенджамини-Хохберга

GWAS: 500 000 SNP протестированы. Метод BH с q=0.05 отверг 1000 H₀. Что это означает?

Практические рекомендации: что и когда применять

Ситуация

Метод

Почему

Клинические испытания, 2 - 5 конечных точек

Бонферрони или Холм

Одна ошибка = вред пациентам, строгий FWER

Геномика, 500K+ SNP

BH (FDR q=0.05)

Допустимо ~5% «мусора», важна мощность

Нейровизуализация (voxel-wise)

FWE (GRF) или FDR

Пространственная корреляция, специфичные инструменты

A/B тест, 10+ метрик

BH или Холм

Зависит от важности каждой метрики

Одна сравнение без семьи тестов

Без поправки

Одиночный тест не требует поправки

Ключевые идеи

При m тестах FWER = 1 − (1−α)^m: при m=20 это 64% ложных открытий!

Бонферрони: α/m - строго, консервативно, для клиники и регуляторных испытаний

Холм-Бонферрони: менее консервативен чем Бонферрони, тот же FWER

BH (Бенджамини-Хохберг): контролирует FDR (долю ложных), более мощный

q-value = скорректированный p-value; FDR q < 0.05 → ≤5% ложных среди значимых

FWER: для клиники, когда одна ошибка дорого; FDR: для омики и исследований