Статистика
Дизайн экспериментов
Любой эксперимент - это ставка. Слишком маленькая выборка: пропустишь реальный эффект. Слишком большая: потратишь деньги впустую. Правильный дизайн - это математика, которая гарантирует нужный ответ с нужной вероятностью.
- Клинические исследования: FDA требует расчёт выборки до начала; post-hoc power не принимается
- Продуктовые A/B тесты: Netflix, Booking, Google используют sequential testing для быстрых решений
- Промышленность: DOE (Design of Experiments) оптимизирует производственные процессы, сокращая число испытаний в 10x
Предварительные знания
Мощность теста и размер выборки
**Мощность теста** (power = 1−β) = P(отвергнуть H₀ | H₁ верна). Четыре взаимосвязанных величины: α (ошибка I рода), β (ошибка II рода), n (размер выборки), δ (эффект, который хотим обнаружить). Формула для t-теста: n = (z_{1-α/2} + z_{1-β})² · 2σ² / δ². **Стандартизованный эффект (Cohen's d):** d = δ/σ. Правила Коэна: малый d=0.2, средний d=0.5, большой d=0.8.
**Практические ловушки:** 1. расчёт выборки ПОСЛЕ сбора данных - бессмысленно (post-hoc power = tautology) 2. «stop at significance» - p-hacking, завышает α в 2 - 3 раза 3. минимальный детектируемый эффект (MDE) должен быть содержательно значимым, не просто статистически. Золотое правило: определи δ на основе бизнес-логики, затем рассчитай n.
Эксперимент запланирован с n=100/группу, δ=0.5, σ=1 (power=0.80, α=0.05). Исследователь набрал 80% от плана и увидел p=0.06. Он решил «собрать ещё немного до значимости». Что не так?
Блочный дизайн и факториальные эксперименты
**RCBD** (Randomized Complete Block Design): группируем экспериментальные единицы в блоки (по конфаундеру), рандомизируем внутри блоков. Модель: Yᵢⱼ = μ + τᵢ + βⱼ + εᵢⱼ, где τᵢ - эффект лечения, βⱼ - эффект блока. Блокирование убирает вариабельность блоков из σ²_error → повышает мощность. **Факториальный дизайн 2ᵏ:** k факторов на 2 уровнях, 2ᵏ комбинаций. Главный эффект A: средняя разница при изменении A. Взаимодействие AB: эффект A зависит от уровня B.
**Дробный факториальный дизайн (Fractional Factorial):** при k=7 факторах полный 2⁷=128 комбинаций. Дробный 2^{7-4}=8 комбинаций - экономим 94% ресурсов. Принцип sparsity of effects: главные эффекты и взаимодействия 2-го порядка доминируют; взаимодействия 3-го+ порядка обычно ничтожны. Алиасинг: некоторые эффекты неразличимы. Инструменты: R пакет FrF2, Python pyDOE2.
В факториальном 2² дизайне CTR видеорекламы = 4.5% (день) и 2.0% (ночь), а CTR баннерной рекламы = 3.0% (день) и 2.8% (ночь). Есть ли взаимодействие A×B?
A/B тесты и последовательный анализ
**Последовательный анализ** позволяет останавливать эксперимент досрочно при закономерном результате. **Alpha-spending** (расходование уровня значимости): разбиваем α на промежуточные проверки. **O'Brien-Fleming:** критические значения α(t) = 2(1 − Φ(z_{α/2}/√t)) - строгие в начале, либеральные в конце. Итоговый уровень значимости остаётся ≤ α. Альтернатива: SPRT (Sequential Probability Ratio Test) Вальда, байесовский подход.
**Частые ошибки A/B тестов:** 1. новизна-эффект - пользователи реагируют на изменение, а не само изменение; нужен достаточный период 2. carryover effects - пользователь видел оба варианта; нужна изоляция 3. network effects - воздействие на A влияет на B через сеть (social platforms); нужна кластерная рандомизация 4. SUTVA нарушение - взаимодействие между единицами; стандартные тесты дают смещённые оценки.
O'Brien-Fleming с 4 промежуточными анализами: при первом анализе (25% данных) граница z=3.92 (против наивных 1.96). При финальном анализе - z=1.97. Что означает значимость только в финале?
Ключевые идеи
- Power = 1−β; n = (z_α/2 + z_β)² · 2σ²/δ²; Cohen's d = δ/σ
- RCBD: блокирование убирает между-блочную вариабельность из ошибки
- Факториальный 2ᵏ: главные эффекты и взаимодействия - нельзя анализировать отдельно
- Peek-and-stop: завышает α; нужен alpha-spending (OBF, Pocock)
- Байесовский A/B: P(B>A) - прямая интерпретация без порогов p-value
Дизайн экспериментов и курс
Дизайн экспериментов - применение гипотез, ANOVA и причинного вывода. Мощность связывает размер выборки с оценкой эффекта. Байесовский A/B тест использует conjugate prior. Sequential testing - часть теории оптимальной остановки.
- Причинный вывод — RCT - специальный случай рандомизированного эксперимента; дизайн определяет идентифицируемость
- Множественные сравнения — Factorial дизайн порождает множественные тесты; alpha-spending - их контроль во времени
Вопросы для размышления
- Компания провела 50 A/B тестов за год и 5 объявили значимыми (p<0.05). Ни в одном не использовался sequential testing. Сколько из 5 «значимых» результатов, вероятно, ложные? Как это изменит стратегию экспериментирования?
- Объясните trade-off мощности: если вдвое увеличить δ (минимально детектируемый эффект), как изменится нужный n? Что происходит на практике, когда команда занижает δ, чтобы «на всякий случай»?
- Взаимодействие A×B в факториальном дизайне сделало главные эффекты бессмысленными. Как интерпретировать результаты в этом случае? Что означает «нельзя анализировать факторы отдельно» на практике?