Статистика
ANOVA: сравнение нескольких групп
Фармацевтическая компания тестирует три дозировки препарата. Если провести попарные t-тесты (3 штуки), вероятность хотя бы одного ложного вывода составит ~14%. С ANOVA - контролируемые 5%. Именно поэтому клинические исследования требуют ANOVA, а не множества t-тестов.
- ANOVA используется в A/B/C тестировании продуктов, в агрономии для сравнения удобрений, в психологии при сравнении методов терапии, и в машинном обучении для сравнения алгоритмов на нескольких датасетах
Предварительные знания
Идея ANOVA: разложение дисперсии
**ANOVA (Analysis of Variance)** - метод проверки гипотезы о равенстве средних нескольких генеральных совокупностей. Вместо попарных t-тестов (что увеличивает ошибку I рода) ANOVA делает один тест, сравнивая изменчивость «между группами» с изменчивостью «внутри групп».
**Почему не просто попарные t-тесты?** При трёх группах нужно 3 сравнения. При 10 группах - 45. Если α = 0.05, вероятность хотя бы одной ложной находки составляет 1 - 0.95⁴⁵ ≈ 90%! ANOVA контролирует ошибку I рода на уровне α для всей семьи тестов одновременно.
В однофакторной ANOVA с 4 группами по 6 наблюдений, каковы степени свободы для SS_between и SS_within?
Таблица ANOVA и F-тест
Результаты ANOVA обычно представляют в **таблице ANOVA**. F-статистика сравнивается с критическим значением из F-распределения. Если F > F_критическое, отвергаем H₀.
**Предположения ANOVA:** 1) нормальность внутри каждой группы (проверять тестом Шапиро-Уилка); 2) гомоскедастичность - равенство дисперсий (тест Левена); 3) независимость наблюдений. Нарушение гомоскедастичности - применять тест Уэлча. Нарушение нормальности при n > 30 - допустимо по ЦПТ.
ANOVA показала p = 0.03. Что можно заключить?
Post-hoc тесты: какие группы различаются?
ANOVA - «omnibus тест»: говорит, есть ли различия, но не где именно. **Post-hoc тесты** выполняют попарные сравнения с коррекцией на множественность. Самые популярные: Tukey HSD (сбалансированные группы), Bonferroni (строгая коррекция), Шеффе (гибкий).
**Когда какой post-hoc?** Tukey HSD - оптимален для сбалансированных групп, контролирует FWER. Games-Howell - при неравных дисперсиях (нарушена гомоскедастичность). Bonferroni - наиболее строгий, используйте при малом числе сравнений. Для исследовательского анализа подходит FDR-коррекция (Benjamini-Hochberg).
Сравниваются 5 групп пациентов после ANOVA (p < 0.05). Сколько попарных сравнений нужно выполнить в post-hoc анализе?
Ключевые идеи
- ANOVA сравнивает средние ≥3 групп одним тестом, контролируя ошибку I рода
- F = MS_between / MS_within: если группы различаются, F >> 1
- df_between = k-1, df_within = k(n-1) для сбалансированного дизайна
- Предположения: нормальность, гомоскедастичность, независимость
- Значимая ANOVA → post-hoc тест (Tukey, Bonferroni) для попарных сравнений
- ANOVA только говорит 'есть различие', но не 'где' - это задача post-hoc
Что дальше
ANOVA - параметрический метод, требующий нормальности. Когда данные явно не нормальные или номинальные, используют непараметрические альтернативы (Крускал-Уоллис вместо ANOVA).
- Непараметрические тесты — Крускал-Уоллис - непараметрическая альтернатива однофакторной ANOVA
- Байесовская статистика — Байесовская ANOVA даёт вероятности гипотез, а не бинарное reject/fail
Вопросы для размышления
- Почему ANOVA использует соотношение дисперсий, а не разность средних? В каком случае большая разность средних может дать незначимый F?
- A/B/C тест на сайте дал ANOVA с p = 0.04. Как объяснить результат менеджеру, который не знает статистику?
- Двухфакторная ANOVA добавляет второй фактор и их взаимодействие. Придумайте пример, где взаимодействие факторов важнее их главных эффектов.