Статистика
Смешанные модели: иерархия и случайные эффекты
Google и Airbnb используют mixed models в A/B тестах с иерархическими данными: без random effects один пользователь с тысячей сессий может исказить результат. FDA требует MMRM как первичный анализ в клинических испытаниях с повторными измерениями.
- Google и Airbnb A/B тесты: random effect по пользователю/городу
- FDA MMRM: смешанная модель для повторных измерений в КИ
- EdTech: HLM для оценки эффекта обучающих программ (студенты в классах)
- Маркетинг-mix modeling: random effects по регионам с partial pooling
- Клинические испытания: пациенты в центрах, несбалансированные группы
- Геномика: GWAS с random effect для контроля родства и стратификации
**Mixed effects в индустрии** Иерархические данные встречаются везде - mixed models стандарт анализа. • **A/B тестирование (Tech)**: Random effects по пользователю/городу - Google, Airbnb: A/B тест с user-level random effect для метрик с multiple observations per user. Без random effects - псевдорепликация и false positives. • **Клинические испытания**: Пациенты в центрах, повторные измерения - FDA требует mixed model for repeated measures (MMRM) как первичный анализ. Обрабатывает missing data под MAR assumption лучше, чем ANOVA. • **Образование (EdTech)**: Студенты в классах, классы в школах - HLM (hierarchical linear modeling) - стандарт оценки эффекта обучающих программ. Контроль clustering не позволяет атрибутировать school-level эффекты student-level ковариатам. • **Геоаналитика**: Пользователи в регионах - Маркетинг-mix modeling с random effects по рынкам. Partial pooling: регионы с малыми данными 'заимствуют силу' от глобальной оценки.
Google A/B тест в 50 странах: 20% false positives без random effects
Google запускает A/B тесты одновременно в 50 странах. Пользователи внутри одной страны похожи друг на друга - это нарушает предположение независимости обычной регрессии. Игнорировать иерархию = занижать standard errors = 20% false positives. Решение: **mixed effects models** со случайным эффектом страны.
Модель: **y = Xβ + Zu + ε**, где β - фиксированные эффекты (то, что оцениваем), u ~ N(0, σ²ᵤI) - случайные эффекты (группировочные переменные), ε ~ N(0, σ²I) - шум.
ICC (Intraclass Correlation Coefficient) = σ²ᵤ / (σ²ᵤ + σ²). ICC = 0.20 означает: 20% общей дисперсии объяснено принадлежностью к группе. ICC > 0.05 - mixed models обязательны. В образовании ICC обычно 0.10-0.20, в психологии лабораторных экспериментов - 0.05-0.15.
A/B тест: 50 000 пользователей в 20 городах. Метрика - time spent. ICC = 0.12. Почему обычный t-test даст неверный p-value? Что означает ICC = 0.12 для интерпретации результатов?
Random intercepts и slopes: у каждого своя траектория
**Случайный intercept**: каждая группа имеет свой базовый уровень, но одинаковый slope (эффект ковариаты). **Случайный slope**: эффект ковариаты различается между группами. Нотация lme4: `(1|group)` - random intercept; `(1 + x|group)` - intercept и slope.
Когда нужен random slope: если предполагается, что эффект ковариаты различается между группами (разные пациенты по-разному реагируют на лечение). Тест: сравнить AIC модели с random intercept vs random intercept+slope. Более сложная модель оправдана, если ΔAIC > 2.
Модель: `score ~ time + treatment + (1 + time | student)`. Что означает random slope по time для студентов? Как интерпретировать σ₁₁ = 4.2 (дисперсия random slope)?
REML и ICC: правильная оценка variance components
**REML** (Restricted Maximum Likelihood) - стандартный метод оценки variance components в LME. В отличие от ML, REML исправляет bias при оценке σ²: учитывает степени свободы, потраченные на оценку фиксированных эффектов.
Сравнение моделей в LME: **AIC/BIC для выбора random effects структуры** (при оценке ML, не REML). **Likelihood ratio test** для сравнения вложенных моделей. Правило: более сложная random effects структура оправдана только если значимо улучшает fit.
Иерархические модели в образовании: PISA, TIMSS используют 3-level LME (ученики в школах в странах). Без учёта иерархии стандартные ошибки для school-level ковариат (качество учителей, финансирование) занижены в 2-3 раза.
Мультицентровое клиническое испытание: 300 пациентов в 15 больницах. Нужно оценить эффект нового препарата. Почему больницу нужно включить как random effect, а не как 15 dummy-переменных (fixed effect)? Какой вывод при этом меняется?
Упражнения
- Объясните разницу между fixed и random effects. Когда школы в образовательном исследовании считаются fixed, а когда random? — Fixed effects: оцениваем конкретные уровни; random effects: уровни - случайная выборка из популяции Школы как fixed: 5 конкретных школ, интересуют именно они. Random: 20 школ как выборка из всех школ страны Random effects позволяют обобщать на ненаблюдаемые уровни; fixed - нет
- Что такое partial pooling в mixed models и почему это лучше, чем no pooling (отдельная регрессия для каждой группы) или complete pooling (игнорировать группировку)? — Complete pooling: игнорирует различия между группами -> bias No pooling: отдельная регрессия -> большая дисперсия для малых групп Partial pooling: Bayes-optimal shrinkage к глобальной оценке пропорционально размеру группы
Ключевые идеи
- Иерархические данные нарушают independence -> занижены SE, завышены false positives
- ICC = σ²ᵤ/(σ²ᵤ + σ²): ICC > 0.05 - mixed models обязательны
- y = Xβ + Zu + ε: β - фиксированные, u ~ N(0, σ²ᵤI) - случайные эффекты
- (1|group) - random intercept; (1+x|group) - intercept и slope
- REML корректирует bias оценки variance components (исправляет степени свободы)
- Partial pooling: small groups заимствуют силу от глобальной оценки
Связанные темы
Mixed models обобщают регрессию и ANOVA, связаны с байесовскими иерархическими моделями.
- ANOVA — Repeated measures ANOVA - частный случай LME с compound symmetry structure
- Байесовская статистика — Bayesian hierarchical models = mixed models с прiorами; MCMC для posterior