Статистика

Множественное тестирование

«Мы нашли ген, вызывающий шизофрению!» - и таких заявлений было сотни. Потом воспроизводимость: 0%. Виновник - тестирование миллионов SNP без поправки на множественность. В 2005 году Иоаннидис показал: большинство опубликованных открытий ложны. Понимание множественного тестирования - вопрос научной честности.

  • GWAS (genome-wide association studies): пороговое значение p < 5×10^-8 вместо 0.05 для 1 млн SNP
  • Нейровизуализация: тысячи воксел тестируются на активацию - строгий FWE или FDR
  • A/B тестирование: компании тестируют 10+ метрик, риск найти 'значимую' случайно
  • Кризис воспроизводимости в психологии: многие результаты 2000-х не воспроизводятся
  • Клинические испытания: регуляторные органы (FDA, EMA) требуют явной процедуры поправки

Предварительные знания

  • Hypothesis Testing: How p-values Killed 64,000 Studies

Проблема FWER и поправка Бонферрони

**Проблема множественного тестирования:** при m независимых тестах на уровне α вероятность хотя бы одной ложной находки = 1 − (1−α)^m. При m=20 и α=0.05: P(хотя бы одна ложная) = 1 − 0.95^20 ≈ 64%! **FWER** (Familywise Error Rate) - вероятность хотя бы одной ошибки I рода в наборе тестов. **Поправка Бонферрони:** α_корр = α/m. Консервативна, контролирует FWER строго.

**История p-хакинга:** в 2005 году Йоанн Иоаннидис опубликовал «Почему большинство опубликованных результатов исследований ложны». Основная причина: исследователи тестируют множество гипотез, но публикуют только значимые результаты (publication bias) без поправки на множественность. В геномике: миллионы SNP, α=5×10^-8 (пороговое значение GWAS) вместо 0.05.

Исследователь провёл 50 независимых t-тестов на уровне α=0.05. Сколько ложно значимых результатов ожидается при условии, что все H₀ верны?

FDR: метод Бенджамини-Хохберга

**FDR (False Discovery Rate)** - ожидаемая доля ложных открытий среди всех отвергнутых H₀. FDR = E[V/R], где V - число ложных открытий, R - общее число отвергнутых. Менее консервативно, чем FWER (Бонферрони). **Метод Бенджамини-Хохберга (BH):** 1. упорядочить p-value: p(1) ≤ p(2) ≤ ... ≤ p(m) 2. найти максимальное k: p(k) ≤ (k/m) × q 3. отвергнуть все H₁,...,H_k.

**q-value**: откорректированный p-value в рамках BH. q = p × m/rank. Часто используется в геномике: 'FDR q < 0.05' означает, что ожидается не более 5% ложных открытий среди объявленных значимыми. Пакет `statsmodels.stats.multitest.multipletests` реализует все основные методы.

GWAS: 500 000 SNP протестированы. Метод BH с q=0.05 отверг 1000 H₀. Что это означает?

Практические рекомендации: что и когда применять

**Выбор метода зависит от цены ошибок:** если одна ложная находка катастрофична (испытание нового препарата: один одобренный неэффективный препарат = вред пациентам) → FWER (Бонферрони или Холм). Если допустимо иметь ~5% «мусора» среди находок (геномика: проверим 1000 кандидатов в лаборатории, 50 ложных - нормально) → FDR (BH).

СитуацияМетодПочему
Клинические испытания, 2 - 5 конечных точекБонферрони или ХолмОдна ошибка = вред пациентам, строгий FWER
Геномика, 500K+ SNPBH (FDR q=0.05)Допустимо ~5% «мусора», важна мощность
Нейровизуализация (voxel-wise)FWE (GRF) или FDRПространственная корреляция, специфичные инструменты
A/B тест, 10+ метрикBH или ХолмЗависит от важности каждой метрики
Одна сравнение без семьи тестовБез поправкиОдиночный тест не требует поправки

Фармацевтическая компания тестирует новый препарат по 4 первичным конечным точкам (смертность, инсульт, инфаркт, госпитализации) одновременно в одном испытании. Какой метод поправки использовать?

Ключевые идеи

  • При m тестах FWER = 1 − (1−α)^m: при m=20 это 64% ложных открытий!
  • Бонферрони: α/m - строго, консервативно, для клиники и регуляторных испытаний
  • Холм-Бонферрони: менее консервативен чем Бонферрони, тот же FWER
  • BH (Бенджамини-Хохберг): контролирует FDR (долю ложных), более мощный
  • q-value = скорректированный p-value; FDR q < 0.05 → ≤5% ложных среди значимых
  • FWER: для клиники, когда одна ошибка дорого; FDR: для омики и исследований

Связь с другими методами

Множественное тестирование пересекается с проверкой гипотез (расширяет одиночный тест), FDR используется в биоинформатике (DESeq2, limma), перестановочными тестами (точный контроль FWER).

  • Проверка гипотез — Множественное тестирование - расширение одиночного теста на семью
  • Бутстрап и ресэмплинг — Перестановочные тесты с поправкой Westfall-Young для точного FWER

Вопросы для размышления

  • Почему предварительная регистрация гипотез (pre-registration) решает часть проблемы множественного тестирования?
  • В вашем A/B тесте 10 метрик. Одна значима (p=0.02). Что делать: поправку Бонферрони или BH? Как изменится вывод?
  • Что такое «кризис воспроизводимости»? Как множественное тестирование и p-хакинг способствуют ложным открытиям в науке?

Связанные уроки

  • prob-04-bayes
Множественное тестирование

0

1

Войти