Статистика

Смешанные модели: иерархия и случайные эффекты

Google и Airbnb используют mixed models в A/B тестах с иерархическими данными: без random effects один пользователь с тысячей сессий может исказить результат. FDA требует MMRM как первичный анализ в клинических испытаниях с повторными измерениями.

  • Google и Airbnb A/B тесты: random effect по пользователю/городу
  • FDA MMRM: смешанная модель для повторных измерений в КИ
  • EdTech: HLM для оценки эффекта обучающих программ (студенты в классах)
  • Маркетинг-mix modeling: random effects по регионам с partial pooling
  • Клинические испытания: пациенты в центрах, несбалансированные группы
  • Геномика: GWAS с random effect для контроля родства и стратификации

**Mixed effects в индустрии** Иерархические данные встречаются везде - mixed models стандарт анализа. • **A/B тестирование (Tech)**: Random effects по пользователю/городу - Google, Airbnb: A/B тест с user-level random effect для метрик с multiple observations per user. Без random effects - псевдорепликация и false positives. • **Клинические испытания**: Пациенты в центрах, повторные измерения - FDA требует mixed model for repeated measures (MMRM) как первичный анализ. Обрабатывает missing data под MAR assumption лучше, чем ANOVA. • **Образование (EdTech)**: Студенты в классах, классы в школах - HLM (hierarchical linear modeling) - стандарт оценки эффекта обучающих программ. Контроль clustering не позволяет атрибутировать school-level эффекты student-level ковариатам. • **Геоаналитика**: Пользователи в регионах - Маркетинг-mix modeling с random effects по рынкам. Partial pooling: регионы с малыми данными 'заимствуют силу' от глобальной оценки.

Google A/B тест в 50 странах: 20% false positives без random effects

Google запускает A/B тесты одновременно в 50 странах. Пользователи внутри одной страны похожи друг на друга - это нарушает предположение независимости обычной регрессии. Игнорировать иерархию = занижать standard errors = 20% false positives. Решение: **mixed effects models** со случайным эффектом страны.

Модель: **y = Xβ + Zu + ε**, где β - фиксированные эффекты (то, что оцениваем), u ~ N(0, σ²ᵤI) - случайные эффекты (группировочные переменные), ε ~ N(0, σ²I) - шум.

ICC (Intraclass Correlation Coefficient) = σ²ᵤ / (σ²ᵤ + σ²). ICC = 0.20 означает: 20% общей дисперсии объяснено принадлежностью к группе. ICC > 0.05 - mixed models обязательны. В образовании ICC обычно 0.10-0.20, в психологии лабораторных экспериментов - 0.05-0.15.

A/B тест: 50 000 пользователей в 20 городах. Метрика - time spent. ICC = 0.12. Почему обычный t-test даст неверный p-value? Что означает ICC = 0.12 для интерпретации результатов?

Random intercepts и slopes: у каждого своя траектория

**Случайный intercept**: каждая группа имеет свой базовый уровень, но одинаковый slope (эффект ковариаты). **Случайный slope**: эффект ковариаты различается между группами. Нотация lme4: `(1|group)` - random intercept; `(1 + x|group)` - intercept и slope.

Когда нужен random slope: если предполагается, что эффект ковариаты различается между группами (разные пациенты по-разному реагируют на лечение). Тест: сравнить AIC модели с random intercept vs random intercept+slope. Более сложная модель оправдана, если ΔAIC > 2.

Модель: `score ~ time + treatment + (1 + time | student)`. Что означает random slope по time для студентов? Как интерпретировать σ₁₁ = 4.2 (дисперсия random slope)?

REML и ICC: правильная оценка variance components

**REML** (Restricted Maximum Likelihood) - стандартный метод оценки variance components в LME. В отличие от ML, REML исправляет bias при оценке σ²: учитывает степени свободы, потраченные на оценку фиксированных эффектов.

Сравнение моделей в LME: **AIC/BIC для выбора random effects структуры** (при оценке ML, не REML). **Likelihood ratio test** для сравнения вложенных моделей. Правило: более сложная random effects структура оправдана только если значимо улучшает fit.

Иерархические модели в образовании: PISA, TIMSS используют 3-level LME (ученики в школах в странах). Без учёта иерархии стандартные ошибки для school-level ковариат (качество учителей, финансирование) занижены в 2-3 раза.

Мультицентровое клиническое испытание: 300 пациентов в 15 больницах. Нужно оценить эффект нового препарата. Почему больницу нужно включить как random effect, а не как 15 dummy-переменных (fixed effect)? Какой вывод при этом меняется?

Упражнения

  1. Объясните разницу между fixed и random effects. Когда школы в образовательном исследовании считаются fixed, а когда random? — Fixed effects: оцениваем конкретные уровни; random effects: уровни - случайная выборка из популяции Школы как fixed: 5 конкретных школ, интересуют именно они. Random: 20 школ как выборка из всех школ страны Random effects позволяют обобщать на ненаблюдаемые уровни; fixed - нет
  2. Что такое partial pooling в mixed models и почему это лучше, чем no pooling (отдельная регрессия для каждой группы) или complete pooling (игнорировать группировку)? — Complete pooling: игнорирует различия между группами -> bias No pooling: отдельная регрессия -> большая дисперсия для малых групп Partial pooling: Bayes-optimal shrinkage к глобальной оценке пропорционально размеру группы

Ключевые идеи

  • Иерархические данные нарушают independence -> занижены SE, завышены false positives
  • ICC = σ²ᵤ/(σ²ᵤ + σ²): ICC > 0.05 - mixed models обязательны
  • y = Xβ + Zu + ε: β - фиксированные, u ~ N(0, σ²ᵤI) - случайные эффекты
  • (1|group) - random intercept; (1+x|group) - intercept и slope
  • REML корректирует bias оценки variance components (исправляет степени свободы)
  • Partial pooling: small groups заимствуют силу от глобальной оценки

Связанные темы

Mixed models обобщают регрессию и ANOVA, связаны с байесовскими иерархическими моделями.

  • ANOVA — Repeated measures ANOVA - частный случай LME с compound symmetry structure
  • Байесовская статистика — Bayesian hierarchical models = mixed models с прiorами; MCMC для posterior

Связанные уроки

  • la-13-eigenvectors
Смешанные модели: иерархия и случайные эффекты

0

1

Войти