Статистика

Ранговые тесты: Манн-Уитни, Вилкоксон, Краскал-Уоллис

1945 год: Фрэнк Вилкоксон опубликовал одностраничную статью, которая перевернула прикладную статистику. Его тест работал без предположений о нормальности - только ранги. Сегодня Mann-Whitney U применяется в половине медицинских статей с малой выборкой: когда данные «грязные», а t-тест дал бы ложный вывод.

В медицинских исследованиях с малой выборкой, в анализе пользовательских сессий (распределение Парето), в А/Б тестировании с метриками долларового дохода (сильная асимметрия) - везде, где данные далеки от нормальности

Предварительные знания

Когда использовать непараметрику

**Непараметрические тесты** не требуют предположений о распределении генеральной совокупности. Используются когда: 1. малая выборка и нельзя проверить нормальность 2. данные явно не нормальные (выбросы, тяжёлые хвосты, бимодальность) 3. порядковые данные (рейтинги, шкалы) 4. выбросы, которые нельзя удалить.

**Плата за отказ от нормальности:** непараметрические тесты менее мощные, чем их параметрические аналоги при нормальных данных. Например, тест Манна-Уитни имеет ~95% мощности t-теста при нормальных данных. Но при нарушении нормальности непараметрика работает корректно, а t-тест нет.

Данные: зарплаты 15 сотрудников (сильно правосторонняя асимметрия, один СЕО с зарплатой в 10× выше остальных). Какой тест сравнения двух групп выбрать?

Тесты на основе рангов: Манн-Уитни и Вилкоксон

**Ключевая идея ранговых тестов:** заменить исходные значения их рангами (1-е наименьшее, 2-е, ...). Это нивелирует влияние выбросов и освобождает от предположений о форме распределения. Тест Манна-Уитни (U-тест) - аналог независимого t-теста. Тест Вилкоксона (ранговых знаков) - аналог парного t-теста.

**Эффект-размер для непараметрических тестов:** r = Z / √N (где Z из нормального приближения). Или ε² (eta-squared). Для Манна-Уитни: эффект-размер = U / (n₁ × n₂), интерпретируется как P(X > Y). r = 0.1 - малый, 0.3 - средний, 0.5 - большой эффект.

Манн-Уитни H₀: медианы групп равны. Какую именно гипотезу проверяет тест?

Крускал-Уоллис: непараметрическая ANOVA

**Тест Крускала-Уоллиса** - непараметрическая альтернатива однофакторной ANOVA. Сравнивает ≥3 групп на основе рангов. H₀: все группы имеют одинаковое распределение. При значимом результате - попарные сравнения тестом Данна (с поправкой на множественность).

**Шпаргалка: какой тест выбрать?**

Ситуация	Параметрический	Непараметрический
2 независимые группы	t-тест	Манн-Уитни
2 зависимые группы	Парный t-тест	Вилкоксон
≥3 независимые группы	ANOVA	Крускал-Уоллис
≥3 зависимые группы	Повторные измерения ANOVA	Фридман

Тест Крускала-Уоллиса значим (p = 0.02). Какой следующий шаг?

Ключевые идеи

Непараметрические тесты не требуют нормальности; работают с рангами
Манн-Уитни - аналог независимого t-теста; проверяет P(X>Y)=0.5
Вилкоксон - аналог парного t-теста для зависимых выборок
Крускал-Уоллис - аналог однофакторной ANOVA (≥3 группы)
Фридман - аналог repeated-measures ANOVA (зависимые группы)
После значимого omnibus теста → post-hoc Данн / Неменьи с поправкой на множественность

Замкнутость курса

Непараметрические методы замыкают базовый инструментарий статистика. Дальнейшие пути: многомерная статистика (PCA, факторный анализ), временные ряды, или углубление в байесовскую статистику.

Байесовская статистика — Байесовские непараметрические модели (Gaussian processes) соединяют оба мира

Вопросы для размышления

Почему медиана устойчивее к выбросам, чем среднее? Как это связано с работой ранговых тестов?
Загрузите реальный датасет (например, зарплаты из Census данных) и проверьте нормальность. Какой тест подходит для сравнения групп?
В A/B тестировании на метрике 'выручка' выбросы (whale-users) сильно влияют на среднее. Какой подход лучше: непараметрический тест, обрезание выбросов, или логарифмирование? Когда что использовать?

Связанные уроки

prob-01-intro

Когда использовать непараметрику

Тесты на основе рангов: Манн-Уитни и Вилкоксон

Манн-Уитни H₀: медианы групп равны. Какую именно гипотезу проверяет тест?

Крускал-Уоллис: непараметрическая ANOVA

**Шпаргалка: какой тест выбрать?**

Ситуация

Параметрический

Непараметрический

2 независимые группы

t-тест

Манн-Уитни

2 зависимые группы

Парный t-тест

Вилкоксон

≥3 независимые группы

ANOVA

Крускал-Уоллис

≥3 зависимые группы

Повторные измерения ANOVA

Фридман

Тест Крускала-Уоллиса значим (p = 0.02). Какой следующий шаг?

Ключевые идеи

Непараметрические тесты не требуют нормальности; работают с рангами

Манн-Уитни - аналог независимого t-теста; проверяет P(X>Y)=0.5

Вилкоксон - аналог парного t-теста для зависимых выборок

Крускал-Уоллис - аналог однофакторной ANOVA (≥3 группы)

Фридман - аналог repeated-measures ANOVA (зависимые группы)

После значимого omnibus теста → post-hoc Данн / Неменьи с поправкой на множественность