Статистика
Множественное тестирование
«Мы нашли ген, вызывающий шизофрению!» - и таких заявлений было сотни. Потом воспроизводимость: 0%. Виновник - тестирование миллионов SNP без поправки на множественность. В 2005 году Иоаннидис показал: большинство опубликованных открытий ложны. Понимание множественного тестирования - вопрос научной честности.
- GWAS (genome-wide association studies): пороговое значение p < 5×10^-8 вместо 0.05 для 1 млн SNP
- Нейровизуализация: тысячи воксел тестируются на активацию - строгий FWE или FDR
- A/B тестирование: компании тестируют 10+ метрик, риск найти 'значимую' случайно
- Кризис воспроизводимости в психологии: многие результаты 2000-х не воспроизводятся
- Клинические испытания: регуляторные органы (FDA, EMA) требуют явной процедуры поправки
Предварительные знания
Проблема FWER и поправка Бонферрони
**Проблема множественного тестирования:** при m независимых тестах на уровне α вероятность хотя бы одной ложной находки = 1 − (1−α)^m. При m=20 и α=0.05: P(хотя бы одна ложная) = 1 − 0.95^20 ≈ 64%! **FWER** (Familywise Error Rate) - вероятность хотя бы одной ошибки I рода в наборе тестов. **Поправка Бонферрони:** α_корр = α/m. Консервативна, контролирует FWER строго.
**История p-хакинга:** в 2005 году Йоанн Иоаннидис опубликовал «Почему большинство опубликованных результатов исследований ложны». Основная причина: исследователи тестируют множество гипотез, но публикуют только значимые результаты (publication bias) без поправки на множественность. В геномике: миллионы SNP, α=5×10^-8 (пороговое значение GWAS) вместо 0.05.
Исследователь провёл 50 независимых t-тестов на уровне α=0.05. Сколько ложно значимых результатов ожидается при условии, что все H₀ верны?
FDR: метод Бенджамини-Хохберга
**FDR (False Discovery Rate)** - ожидаемая доля ложных открытий среди всех отвергнутых H₀. FDR = E[V/R], где V - число ложных открытий, R - общее число отвергнутых. Менее консервативно, чем FWER (Бонферрони). **Метод Бенджамини-Хохберга (BH):** 1. упорядочить p-value: p(1) ≤ p(2) ≤ ... ≤ p(m) 2. найти максимальное k: p(k) ≤ (k/m) × q 3. отвергнуть все H₁,...,H_k.
**q-value**: откорректированный p-value в рамках BH. q = p × m/rank. Часто используется в геномике: 'FDR q < 0.05' означает, что ожидается не более 5% ложных открытий среди объявленных значимыми. Пакет `statsmodels.stats.multitest.multipletests` реализует все основные методы.
GWAS: 500 000 SNP протестированы. Метод BH с q=0.05 отверг 1000 H₀. Что это означает?
Практические рекомендации: что и когда применять
**Выбор метода зависит от цены ошибок:** если одна ложная находка катастрофична (испытание нового препарата: один одобренный неэффективный препарат = вред пациентам) → FWER (Бонферрони или Холм). Если допустимо иметь ~5% «мусора» среди находок (геномика: проверим 1000 кандидатов в лаборатории, 50 ложных - нормально) → FDR (BH).
| Ситуация | Метод | Почему |
|---|---|---|
| Клинические испытания, 2 - 5 конечных точек | Бонферрони или Холм | Одна ошибка = вред пациентам, строгий FWER |
| Геномика, 500K+ SNP | BH (FDR q=0.05) | Допустимо ~5% «мусора», важна мощность |
| Нейровизуализация (voxel-wise) | FWE (GRF) или FDR | Пространственная корреляция, специфичные инструменты |
| A/B тест, 10+ метрик | BH или Холм | Зависит от важности каждой метрики |
| Одна сравнение без семьи тестов | Без поправки | Одиночный тест не требует поправки |
Фармацевтическая компания тестирует новый препарат по 4 первичным конечным точкам (смертность, инсульт, инфаркт, госпитализации) одновременно в одном испытании. Какой метод поправки использовать?
Ключевые идеи
- При m тестах FWER = 1 − (1−α)^m: при m=20 это 64% ложных открытий!
- Бонферрони: α/m - строго, консервативно, для клиники и регуляторных испытаний
- Холм-Бонферрони: менее консервативен чем Бонферрони, тот же FWER
- BH (Бенджамини-Хохберг): контролирует FDR (долю ложных), более мощный
- q-value = скорректированный p-value; FDR q < 0.05 → ≤5% ложных среди значимых
- FWER: для клиники, когда одна ошибка дорого; FDR: для омики и исследований
Связь с другими методами
Множественное тестирование пересекается с проверкой гипотез (расширяет одиночный тест), FDR используется в биоинформатике (DESeq2, limma), перестановочными тестами (точный контроль FWER).
- Проверка гипотез — Множественное тестирование - расширение одиночного теста на семью
- Бутстрап и ресэмплинг — Перестановочные тесты с поправкой Westfall-Young для точного FWER
Вопросы для размышления
- Почему предварительная регистрация гипотез (pre-registration) решает часть проблемы множественного тестирования?
- В вашем A/B тесте 10 метрик. Одна значима (p=0.02). Что делать: поправку Бонферрони или BH? Как изменится вывод?
- Что такое «кризис воспроизводимости»? Как множественное тестирование и p-хакинг способствуют ложным открытиям в науке?