Статистика

Непараметрические тесты

Как сравнить группы без предположений о форме распределения - и почему именно эти тесты лежат в основе clinical trials FDA?

  • **Клинические испытания:** знаковый тест и Уилкоксон применяются FDA для парных биомаркеров
  • **A/B/n-тестирование:** Kruskal-Wallis в LinkedIn, Booking, Airbnb для сравнения k вариантов
  • **Психометрия:** ранговые тесты в анализе шкал Ликерта - порядковые данные нельзя усреднять напрямую
  • **ML cross-validation:** сравнение k моделей через KW проверяет существенность различий до попарных сравнений

Предварительные знания

  • Биномиальное распределение и тестирование гипотез
  • ANOVA и F-распределение
  • Распределение Стьюдента и t-тест
  • Множественное тестирование и поправка Бонферрони
  • Множественное тестирование

Знаковый тест

В 1710 году Джон Арбатнот провёл первый в истории статистический тест: сравнил число рождений мальчиков и девочек в Лондоне за 82 года. За все годы мальчиков было больше; вероятность этого при равных шансах - 1/2^82. Это и есть знаковый тест в чистом виде. Сегодня в A/B тестах Booking.com и Airbnb знаковый тест используется как первая проверка асимметрии метрик без предположений о распределении.

Знаковый тест - самый робастный среди классических тестов: работает даже когда не существует математического ожидания (Коши). Цена робастности - низкая мощность: тест Стьюдента при выполнении его предположений мощнее знакового на ~30%.

Какое распределение имеет статистика знакового теста S при H_0: med(X) = m_0?

Тест Уилкоксона

Фрэнк Уилкоксон в 1945 году заметил: знаковый тест отбрасывает информацию о величине отклонений, оставляя лишь знак. Его идея - сохранить порядок: ранжировать абсолютные значения и суммировать ранги положительных. Результирующий тест по мощности почти равен t-критерию (95% эффективности на нормальных данных) и работает на любых распределениях с симметричным шумом. Сегодня это стандарт в R (wilcox.test) и Python (scipy.stats.wilcoxon).

Уилкоксон - стандарт в clinical trials FDA для парных данных: например, before/after для биомаркеров, когда нормальность не доказана. ARE Уилкоксона относительно t-теста на нормальных данных = 3/pi ≈ 95.5% - почти без потерь по мощности.

Почему тест Уилкоксона мощнее знакового теста?

Тест Краскела-Уоллиса

В 1952 году Уильям Краскел и У. Аллен Уоллис обобщили Уилкоксона на k групп: непараметрический аналог ANOVA. Не требует нормальности и гомоскедастичности, поэтому стал стандартом в фармакологии и A/B/C тестах. Когда LinkedIn тестирует k вариантов фида, Kruskal-Wallis проверяет, есть ли вообще различия между группами, прежде чем запускать попарные сравнения.

Связи с другими областями

Непараметрические тесты дают точные ответы там, где параметрические методы рискуют из-за нарушения предположений.

  • A/B/n-тестирование — Kruskal-Wallis - стандарт в LinkedIn, Booking, Airbnb для сравнения k вариантов без предположений нормальности
  • Клинические испытания — Знаковый тест и Уилкоксон применяются FDA для парных биомаркеров, когда нормальность не доказана
  • Машинное обучение — Кросс-валидация на k моделях: Kruskal-Wallis проверяет, есть ли значимая разница в качестве между моделями
  • Бутстреп и перестановочные тесты — Современные обобщения непараметрических идей; permutation tests дают точные p-значения без асимптотических приближений

Итоги

  • **Знаковый тест:** проверяет медиану; статистика S ~ Bin(n, 1/2) при H_0; робастен, но низкая мощность
  • **Уилкоксон (парный):** ранжирует |D_i|, суммирует ранги положительных; ARE ~95% относительно t-теста
  • **Манн-Уитни:** Уилкоксон для двух независимых выборок; число инверсий между X и Y
  • **Краскел-Уоллис:** непараметрический ANOVA для k групп; статистика H ~ chi^2_{k-1}
  • **Post-hoc Дунн:** попарные сравнения с поправкой на множественное тестирование
  • **Применения:** клинические испытания, A/B/n-тесты, кросс-валидация моделей

Чем тест Краскела-Уоллиса отличается от классического ANOVA?

Связанные уроки

  • prob-01-intro
Непараметрические тесты

0

1

Войти