Статистика
Ранговые тесты: Манн-Уитни, Вилкоксон, Краскал-Уоллис
1945 год: Фрэнк Вилкоксон опубликовал одностраничную статью, которая перевернула прикладную статистику. Его тест работал без предположений о нормальности - только ранги. Сегодня Mann-Whitney U применяется в половине медицинских статей с малой выборкой: когда данные «грязные», а t-тест дал бы ложный вывод.
- В медицинских исследованиях с малой выборкой, в анализе пользовательских сессий (распределение Парето), в А/Б тестировании с метриками долларового дохода (сильная асимметрия) - везде, где данные далеки от нормальности
Предварительные знания
Когда использовать непараметрику
**Непараметрические тесты** не требуют предположений о распределении генеральной совокупности. Используются когда: 1. малая выборка и нельзя проверить нормальность 2. данные явно не нормальные (выбросы, тяжёлые хвосты, бимодальность) 3. порядковые данные (рейтинги, шкалы) 4. выбросы, которые нельзя удалить.
**Плата за отказ от нормальности:** непараметрические тесты менее мощные, чем их параметрические аналоги при нормальных данных. Например, тест Манна-Уитни имеет ~95% мощности t-теста при нормальных данных. Но при нарушении нормальности непараметрика работает корректно, а t-тест нет.
Данные: зарплаты 15 сотрудников (сильно правосторонняя асимметрия, один СЕО с зарплатой в 10× выше остальных). Какой тест сравнения двух групп выбрать?
Тесты на основе рангов: Манн-Уитни и Вилкоксон
**Ключевая идея ранговых тестов:** заменить исходные значения их рангами (1-е наименьшее, 2-е, ...). Это нивелирует влияние выбросов и освобождает от предположений о форме распределения. Тест Манна-Уитни (U-тест) - аналог независимого t-теста. Тест Вилкоксона (ранговых знаков) - аналог парного t-теста.
**Эффект-размер для непараметрических тестов:** r = Z / √N (где Z из нормального приближения). Или ε² (eta-squared). Для Манна-Уитни: эффект-размер = U / (n₁ × n₂), интерпретируется как P(X > Y). r = 0.1 - малый, 0.3 - средний, 0.5 - большой эффект.
Манн-Уитни H₀: медианы групп равны. Какую именно гипотезу проверяет тест?
Крускал-Уоллис: непараметрическая ANOVA
**Тест Крускала-Уоллиса** - непараметрическая альтернатива однофакторной ANOVA. Сравнивает ≥3 групп на основе рангов. H₀: все группы имеют одинаковое распределение. При значимом результате - попарные сравнения тестом Данна (с поправкой на множественность).
**Шпаргалка: какой тест выбрать?**
| Ситуация | Параметрический | Непараметрический |
|---|---|---|
| 2 независимые группы | t-тест | Манн-Уитни |
| 2 зависимые группы | Парный t-тест | Вилкоксон |
| ≥3 независимые группы | ANOVA | Крускал-Уоллис |
| ≥3 зависимые группы | Повторные измерения ANOVA | Фридман |
Тест Крускала-Уоллиса значим (p = 0.02). Какой следующий шаг?
Ключевые идеи
- Непараметрические тесты не требуют нормальности; работают с рангами
- Манн-Уитни - аналог независимого t-теста; проверяет P(X>Y)=0.5
- Вилкоксон - аналог парного t-теста для зависимых выборок
- Крускал-Уоллис - аналог однофакторной ANOVA (≥3 группы)
- Фридман - аналог repeated-measures ANOVA (зависимые группы)
- После значимого omnibus теста → post-hoc Данн / Неменьи с поправкой на множественность
Замкнутость курса
Непараметрические методы замыкают базовый инструментарий статистика. Дальнейшие пути: многомерная статистика (PCA, факторный анализ), временные ряды, или углубление в байесовскую статистику.
- Байесовская статистика — Байесовские непараметрические модели (Gaussian processes) соединяют оба мира
Вопросы для размышления
- Почему медиана устойчивее к выбросам, чем среднее? Как это связано с работой ранговых тестов?
- Загрузите реальный датасет (например, зарплаты из Census данных) и проверьте нормальность. Какой тест подходит для сравнения групп?
- В A/B тестировании на метрике 'выручка' выбросы (whale-users) сильно влияют на среднее. Какой подход лучше: непараметрический тест, обрезание выбросов, или логарифмирование? Когда что использовать?