Статистика

Дизайн экспериментов

Любой эксперимент - это ставка. Слишком маленькая выборка: пропустишь реальный эффект. Слишком большая: потратишь деньги впустую. Правильный дизайн - это математика, которая гарантирует нужный ответ с нужной вероятностью.

Клинические исследования: FDA требует расчёт выборки до начала; post-hoc power не принимается
Продуктовые A/B тесты: Netflix, Booking, Google используют sequential testing для быстрых решений
Промышленность: DOE (Design of Experiments) оптимизирует производственные процессы, сокращая число испытаний в 10x

Предварительные знания

Causal Inference

Мощность теста и размер выборки

**Мощность теста** (power = 1−β) = P(отвергнуть H₀ | H₁ верна). Четыре взаимосвязанных величины: α (ошибка I рода), β (ошибка II рода), n (размер выборки), δ (эффект, который хотим обнаружить). Формула для t-теста: n = (z_{1-α/2} + z_{1-β})² · 2σ² / δ². **Стандартизованный эффект (Cohen's d):** d = δ/σ. Правила Коэна: малый d=0.2, средний d=0.5, большой d=0.8.

**Практические ловушки:** 1. расчёт выборки ПОСЛЕ сбора данных - бессмысленно (post-hoc power = tautology) 2. «stop at significance» - p-hacking, завышает α в 2 - 3 раза 3. минимальный детектируемый эффект (MDE) должен быть содержательно значимым, не просто статистически. Золотое правило: определи δ на основе бизнес-логики, затем рассчитай n.

Эксперимент запланирован с n=100/группу, δ=0.5, σ=1 (power=0.80, α=0.05). Исследователь набрал 80% от плана и увидел p=0.06. Он решил «собрать ещё немного до значимости». Что не так?

Блочный дизайн и факториальные эксперименты

**RCBD** (Randomized Complete Block Design): группируем экспериментальные единицы в блоки (по конфаундеру), рандомизируем внутри блоков. Модель: Yᵢⱼ = μ + τᵢ + βⱼ + εᵢⱼ, где τᵢ - эффект лечения, βⱼ - эффект блока. Блокирование убирает вариабельность блоков из σ²_error → повышает мощность. **Факториальный дизайн 2ᵏ:** k факторов на 2 уровнях, 2ᵏ комбинаций. Главный эффект A: средняя разница при изменении A. Взаимодействие AB: эффект A зависит от уровня B.

**Дробный факториальный дизайн (Fractional Factorial):** при k=7 факторах полный 2⁷=128 комбинаций. Дробный 2^{7-4}=8 комбинаций - экономим 94% ресурсов. Принцип sparsity of effects: главные эффекты и взаимодействия 2-го порядка доминируют; взаимодействия 3-го+ порядка обычно ничтожны. Алиасинг: некоторые эффекты неразличимы. Инструменты: R пакет FrF2, Python pyDOE2.

В факториальном 2² дизайне CTR видеорекламы = 4.5% (день) и 2.0% (ночь), а CTR баннерной рекламы = 3.0% (день) и 2.8% (ночь). Есть ли взаимодействие A×B?

A/B тесты и последовательный анализ

**Последовательный анализ** позволяет останавливать эксперимент досрочно при закономерном результате. **Alpha-spending** (расходование уровня значимости): разбиваем α на промежуточные проверки. **O'Brien-Fleming:** критические значения α(t) = 2(1 − Φ(z_{α/2}/√t)) - строгие в начале, либеральные в конце. Итоговый уровень значимости остаётся ≤ α. Альтернатива: SPRT (Sequential Probability Ratio Test) Вальда, байесовский подход.

**Частые ошибки A/B тестов:** 1. новизна-эффект - пользователи реагируют на изменение, а не само изменение; нужен достаточный период 2. carryover effects - пользователь видел оба варианта; нужна изоляция 3. network effects - воздействие на A влияет на B через сеть (social platforms); нужна кластерная рандомизация 4. SUTVA нарушение - взаимодействие между единицами; стандартные тесты дают смещённые оценки.

O'Brien-Fleming с 4 промежуточными анализами: при первом анализе (25% данных) граница z=3.92 (против наивных 1.96). При финальном анализе - z=1.97. Что означает значимость только в финале?

Ключевые идеи

Power = 1−β; n = (z_α/2 + z_β)² · 2σ²/δ²; Cohen's d = δ/σ
RCBD: блокирование убирает между-блочную вариабельность из ошибки
Факториальный 2ᵏ: главные эффекты и взаимодействия - нельзя анализировать отдельно
Peek-and-stop: завышает α; нужен alpha-spending (OBF, Pocock)
Байесовский A/B: P(B>A) - прямая интерпретация без порогов p-value