Статистика
Непараметрические тесты
Как сравнить группы без предположений о форме распределения - и почему именно эти тесты лежат в основе clinical trials FDA?
- **Клинические испытания:** знаковый тест и Уилкоксон применяются FDA для парных биомаркеров
- **A/B/n-тестирование:** Kruskal-Wallis в LinkedIn, Booking, Airbnb для сравнения k вариантов
- **Психометрия:** ранговые тесты в анализе шкал Ликерта - порядковые данные нельзя усреднять напрямую
- **ML cross-validation:** сравнение k моделей через KW проверяет существенность различий до попарных сравнений
Предварительные знания
- Биномиальное распределение и тестирование гипотез
- ANOVA и F-распределение
- Распределение Стьюдента и t-тест
- Множественное тестирование и поправка Бонферрони
Знаковый тест
В 1710 году Джон Арбатнот провёл первый в истории статистический тест: сравнил число рождений мальчиков и девочек в Лондоне за 82 года. За все годы мальчиков было больше; вероятность этого при равных шансах - 1/2^82. Это и есть знаковый тест в чистом виде. Сегодня в A/B тестах Booking.com и Airbnb знаковый тест используется как первая проверка асимметрии метрик без предположений о распределении.
Знаковый тест - самый робастный среди классических тестов: работает даже когда не существует математического ожидания (Коши). Цена робастности - низкая мощность: тест Стьюдента при выполнении его предположений мощнее знакового на ~30%.
Какое распределение имеет статистика знакового теста S при H_0: med(X) = m_0?
Тест Уилкоксона
Фрэнк Уилкоксон в 1945 году заметил: знаковый тест отбрасывает информацию о величине отклонений, оставляя лишь знак. Его идея - сохранить порядок: ранжировать абсолютные значения и суммировать ранги положительных. Результирующий тест по мощности почти равен t-критерию (95% эффективности на нормальных данных) и работает на любых распределениях с симметричным шумом. Сегодня это стандарт в R (wilcox.test) и Python (scipy.stats.wilcoxon).
Уилкоксон - стандарт в clinical trials FDA для парных данных: например, before/after для биомаркеров, когда нормальность не доказана. ARE Уилкоксона относительно t-теста на нормальных данных = 3/pi ≈ 95.5% - почти без потерь по мощности.
Почему тест Уилкоксона мощнее знакового теста?
Тест Краскела-Уоллиса
В 1952 году Уильям Краскел и У. Аллен Уоллис обобщили Уилкоксона на k групп: непараметрический аналог ANOVA. Не требует нормальности и гомоскедастичности, поэтому стал стандартом в фармакологии и A/B/C тестах. Когда LinkedIn тестирует k вариантов фида, Kruskal-Wallis проверяет, есть ли вообще различия между группами, прежде чем запускать попарные сравнения.
Связи с другими областями
Непараметрические тесты дают точные ответы там, где параметрические методы рискуют из-за нарушения предположений.
- A/B/n-тестирование — Kruskal-Wallis - стандарт в LinkedIn, Booking, Airbnb для сравнения k вариантов без предположений нормальности
- Клинические испытания — Знаковый тест и Уилкоксон применяются FDA для парных биомаркеров, когда нормальность не доказана
- Машинное обучение — Кросс-валидация на k моделях: Kruskal-Wallis проверяет, есть ли значимая разница в качестве между моделями
- Бутстреп и перестановочные тесты — Современные обобщения непараметрических идей; permutation tests дают точные p-значения без асимптотических приближений
Итоги
- **Знаковый тест:** проверяет медиану; статистика S ~ Bin(n, 1/2) при H_0; робастен, но низкая мощность
- **Уилкоксон (парный):** ранжирует |D_i|, суммирует ранги положительных; ARE ~95% относительно t-теста
- **Манн-Уитни:** Уилкоксон для двух независимых выборок; число инверсий между X и Y
- **Краскел-Уоллис:** непараметрический ANOVA для k групп; статистика H ~ chi^2_{k-1}
- **Post-hoc Дунн:** попарные сравнения с поправкой на множественное тестирование
- **Применения:** клинические испытания, A/B/n-тесты, кросс-валидация моделей
Чем тест Краскела-Уоллиса отличается от классического ANOVA?