Статистика

ANOVA: сравнение нескольких групп

Фармацевтическая компания тестирует три дозировки препарата. Если провести попарные t-тесты (3 штуки), вероятность хотя бы одного ложного вывода составит ~14%. С ANOVA - контролируемые 5%. Именно поэтому клинические исследования требуют ANOVA, а не множества t-тестов.

  • ANOVA используется в A/B/C тестировании продуктов, в агрономии для сравнения удобрений, в психологии при сравнении методов терапии, и в машинном обучении для сравнения алгоритмов на нескольких датасетах

Предварительные знания

  • Student's t-test: The Statistic Born in a Brewery

Идея ANOVA: разложение дисперсии

**ANOVA (Analysis of Variance)** - метод проверки гипотезы о равенстве средних нескольких генеральных совокупностей. Вместо попарных t-тестов (что увеличивает ошибку I рода) ANOVA делает один тест, сравнивая изменчивость «между группами» с изменчивостью «внутри групп».

**Почему не просто попарные t-тесты?** При трёх группах нужно 3 сравнения. При 10 группах - 45. Если α = 0.05, вероятность хотя бы одной ложной находки составляет 1 - 0.95⁴⁵ ≈ 90%! ANOVA контролирует ошибку I рода на уровне α для всей семьи тестов одновременно.

В однофакторной ANOVA с 4 группами по 6 наблюдений, каковы степени свободы для SS_between и SS_within?

Таблица ANOVA и F-тест

Результаты ANOVA обычно представляют в **таблице ANOVA**. F-статистика сравнивается с критическим значением из F-распределения. Если F > F_критическое, отвергаем H₀.

**Предположения ANOVA:** 1) нормальность внутри каждой группы (проверять тестом Шапиро-Уилка); 2) гомоскедастичность - равенство дисперсий (тест Левена); 3) независимость наблюдений. Нарушение гомоскедастичности - применять тест Уэлча. Нарушение нормальности при n > 30 - допустимо по ЦПТ.

ANOVA показала p = 0.03. Что можно заключить?

Post-hoc тесты: какие группы различаются?

ANOVA - «omnibus тест»: говорит, есть ли различия, но не где именно. **Post-hoc тесты** выполняют попарные сравнения с коррекцией на множественность. Самые популярные: Tukey HSD (сбалансированные группы), Bonferroni (строгая коррекция), Шеффе (гибкий).

**Когда какой post-hoc?** Tukey HSD - оптимален для сбалансированных групп, контролирует FWER. Games-Howell - при неравных дисперсиях (нарушена гомоскедастичность). Bonferroni - наиболее строгий, используйте при малом числе сравнений. Для исследовательского анализа подходит FDR-коррекция (Benjamini-Hochberg).

Сравниваются 5 групп пациентов после ANOVA (p < 0.05). Сколько попарных сравнений нужно выполнить в post-hoc анализе?

Ключевые идеи

  • ANOVA сравнивает средние ≥3 групп одним тестом, контролируя ошибку I рода
  • F = MS_between / MS_within: если группы различаются, F >> 1
  • df_between = k-1, df_within = k(n-1) для сбалансированного дизайна
  • Предположения: нормальность, гомоскедастичность, независимость
  • Значимая ANOVA → post-hoc тест (Tukey, Bonferroni) для попарных сравнений
  • ANOVA только говорит 'есть различие', но не 'где' - это задача post-hoc

Что дальше

ANOVA - параметрический метод, требующий нормальности. Когда данные явно не нормальные или номинальные, используют непараметрические альтернативы (Крускал-Уоллис вместо ANOVA).

  • Непараметрические тесты — Крускал-Уоллис - непараметрическая альтернатива однофакторной ANOVA
  • Байесовская статистика — Байесовская ANOVA даёт вероятности гипотез, а не бинарное reject/fail

Вопросы для размышления

  • Почему ANOVA использует соотношение дисперсий, а не разность средних? В каком случае большая разность средних может дать незначимый F?
  • A/B/C тест на сайте дал ANOVA с p = 0.04. Как объяснить результат менеджеру, который не знает статистику?
  • Двухфакторная ANOVA добавляет второй фактор и их взаимодействие. Придумайте пример, где взаимодействие факторов важнее их главных эффектов.

Связанные уроки

  • prob-11-normal
ANOVA: сравнение нескольких групп

0

1

Войти