Статистика
Доверительные интервалы: что значит 95% (и нет, не то, что обычно думают)
«Поддержка кандидата 52% плюс-минус 3%». 95% людей читают это неверно. Правильное прочтение интервала Неймана не «вероятность 95%» - это процедурная гарантия, которая спровоцировала 30-летнюю войну между Нейманом и Фишером. Самое частое заблуждение в статистике сидит в этой формулировке.
- Выборы: предвыборные опросы с margins of error - доверительные интервалы в действии
- A/B тесты: Stripe, Airbnb - CI для коэффициентов конверсии при старте/остановке
- Клинические испытания: FDA требует 95% CI для одобрения новых препаратов
- Наука: кризис репликации частично из-за неправильного чтения 95% CI как p<0.05
- ML production: доверительные интервалы для метрик модели при деплое
- Финансы: Value at Risk (VaR) - однодневный 95% доверительный интервал потерь
Предварительные знания
- (no prerequisites)
Почему точечная оценка недостаточна
**Ноябрь 2016 года. В ночь американских выборов все крупные медиа показывают одно и то же.** Хиллари Клинтон: 52% поддержки, 95% CI [49%, 55%]. Дональд Трамп: 44%, CI [41%, 47%]. Интерпретация в прямом эфире: «с 95%-ной уверенностью истинная поддержка Клинтон от 49 до 55% - она победит». Победил Трамп с 46.1% против 48.2% по популярному голосованию, но с 306 голосами выборщиков. Опросы не провалились катастрофически - погрешность вписывалась в CIs. **Провалилась интерпретация.** «95% CI» не означает «95% вероятность что истинное значение в интервале». Это фундаментально другое утверждение - и путаница между ними стоила журналистам профессиональной репутации, а ставочным конторам - миллионов долларов.
**Чему этот урок учит на самом деле**: не «как посчитать X̄ ± 1.96·SE», а почему **правильная интерпретация доверительного интервала контр-интуитивна**, и что именно гарантирует «95%». После этого урока будет понятно, почему A/B тесты завершают не тогда, когда «вошли в ДИ», и почему frequentist CI и Bayesian credible interval говорят принципиально разные вещи.
Почему точечная оценка недостаточна
MLE даёт одно число - лучшее точечное приближение параметра. Но без понимания точности это число почти бесполезно. Сказать «средняя задержка сервиса 142 мс» без указания на разброс - это как сказать «средняя температура пациентов в нашей больнице нормальная»: часть из них здорова, часть мертва. **Доверительный интервал - способ честно сообщить о неопределённости оценки.**
| Контекст | Точечная оценка | С доверительным интервалом | Что меняется |
|---|---|---|---|
| Эффект лекарства | Снижает давление на 8 мм рт.ст. | 8 мм рт.ст. [2, 14], 95% CI | Может быть минимальным или существенным - FDA требует CI |
| A/B тест конверсии | Вариант B лучше на 0.8% | 0.8% [-0.2%, 1.8%], 95% CI | Нижняя граница отрицательна - ещё не доказано |
| Латентность API | p99 = 230 мс | p99 = 230 мс [215, 248], 95% CI | SLA 250 мс: уложимся или нет? |
| CTR рекламы | Кампания A: CTR 3.2% | 3.2% [2.9%, 3.5%], 95% CI | Реальный диапазон для планирования бюджета |
Почему точечной оценки X̄ = 142 мс самой по себе недостаточно для принятия инженерного решения?
Что такое 95% CI на самом деле
Что такое 95% CI на самом деле
Вот самый важный факт урока. После построения конкретного интервала, например [48.9%, 55.1%], **нельзя говорить о вероятности 95%**, что истинный параметр в нём находится. Параметр либо в интервале, либо нет - это не вероятностное событие в frequentist трактовке. Правильная интерпретация звучит иначе.
95% доверительный интервал для θ - это случайный интервал [L(X), U(X)], построенный по случайной выборке X = (X₁,...,Xₙ), такой что: P(L(X) ≤ θ ≤ U(X)) = 0.95 Ключевое: **случайны границы L и U, а не θ**. Параметр θ фиксирован (хотя и неизвестен). Интервал меняется от выборки к выборке. Правильная формулировка: «Метод построения таков, что при многократном повторении 95% построенных интервалов содержат истинный θ» Неправильная формулировка: «Вероятность 95%, что θ ∈ [48.9, 55.1]» После того, как выборка получена и интервал построен: [48.9%, 55.1%] либо содержит θ (prob=1), либо нет (prob=0). Мы не знаем что из двух, но это не вопрос вероятности. Вероятностное утверждение было ДО построения конкретного интервала.
Аналогия: рыбная ловля сетью
Интуиция без формул
Рыбак бросает сеть в случайное место реки. 95% площади реки покрыто рыбой. Вопрос: какова вероятность, что рыба попадёт в сеть? Ответ до броска: 95%. После броска сеть уже в конкретном месте. Вопрос: с какой вероятностью рыба в сети? Ответ: либо попала, либо нет - это уже не вероятность. Доверительный интервал = сеть фиксированного размера. Истинный θ = рыба в конкретном месте. 95% = вероятность поймать рыбы ДО броска. После построения конкретного CI - рыба либо поймана, либо нет.
**Исторический контекст**: Jerzy Neyman изобрёл доверительные интервалы в 1937 году именно с этой «процедурной» трактовкой. Рональд Фишер одновременно предложил «фидуциальные интервалы» с другой интерпретацией. Они воевали публично 25 лет. Современная статистика приняла интерпретацию Неймана. Если хочется вероятностного утверждения «P(θ ∈ interval) = 95%» - это Bayesian credible interval, и он требует prior.
После построения конкретного 95% ДИ [48.9%, 55.1%] для истинной доли голосов θ, как ПРАВИЛЬНО интерпретировать «95%»?
Как строить: pivot и его следствия
Как строить: pivot и его следствия
Стандартный метод построения ДИ - через **pivot** (пивотальная статистика): функция от данных и параметра, распределение которой не зависит от параметра. Для нормального распределения это стандартизованное среднее.
СЛУЧАЙ 1: σ известно (z-интервал) (X̄ - μ) / (σ/√n) ~ N(0, 1) P(-1.96 ≤ (X̄-μ)/(σ/√n) ≤ 1.96) = 0.95 ↕ (решаем неравенство относительно μ) P(X̄ - 1.96·σ/√n ≤ μ ≤ X̄ + 1.96·σ/√n) = 0.95 95% CI: X̄ ± 1.96 · σ/√n КВАНТИЛИ: 90%: z = 1.645 95%: z = 1.960 99%: z = 2.576 СЛУЧАЙ 2: σ неизвестно (t-интервал) (X̄ - μ) / (S/√n) ~ t(n-1) [t-распределение Стьюдента] 95% CI: X̄ ± t_{α/2, n-1} · S/√n При n ≥ 30 разница t и z < 5%; при n=5: t₀.₀₂₅,₄ = 2.776 vs z = 1.960
Наблюдаем k успехов из n: p̂ = k/n. По ЦПТ при больших n: p̂ ~ N(p, p(1-p)/n) 95% CI: p̂ ± 1.96 · √(p̂(1-p̂)/n) Пример: 540 из 1000 за кандидата A p̂ = 0.54 SE = √(0.54·0.46/1000) = √0.000248 ≈ 0.01575 95% CI: 0.54 ± 1.96·0.01575 = 0.54 ± 0.031 → [50.9%, 57.1%] Эта «погрешность ±3%» в опросах - именно этот расчёт. При любом n: максимальная погрешность при p=0.5 (наихудший случай). Для n=1000: max SE = 0.5/√1000 ≈ 1.58%, max margin = 1.96·1.58% ≈ 3.1%.
**Закон корня**: ширина ДИ пропорциональна 1/√n. Чтобы сузить интервал вдвое - нужно УЧЕТВЕРИТЬ выборку. Отсюда практическое следствие для A/B тестов: если конверсия 3% и хотите поймать эффект 0.1%, нужны миллионы пользователей. power calculator считает именно это.
Опрос даёт 540 голосов «за» из 1000. Какой 95% ДИ для истинной доли поддержки?
Ширина, уровень доверия и размер выборки
Ширина, уровень доверия и размер выборки
Три параметра связаны: уровень доверия (1-α), ширина интервала (2E), размер выборки (n). Зафиксировав два, третий определён.
| n | 95% CI для пропорции (p=0.5) | 99% CI (p=0.5) | Комментарий |
|---|---|---|---|
| 100 | ±9.8% | ±12.9% | Опрос 100 человек - очень широко |
| 400 | ±4.9% | ±6.4% | Вдвое точнее - в 4 раза больше |
| 1 000 | ±3.1% | ±4.1% | Стандарт для национального опроса |
| 2 500 | ±2.0% | ±2.6% | Точность опросов Gallup |
| 10 000 | ±1.0% | ±1.3% | Крупные A/B тесты на конверсии |
Хотим погрешность не более E при уровне доверия (1-α). Для среднего (σ известно): n ≥ (z_{α/2} · σ / E)² Для доли (наихудший случай p=0.5): n ≥ (z_{α/2} · 0.5 / E)² Пример: 95% CI с погрешностью ≤ 2%: n ≥ (1.96 · 0.5 / 0.02)² = (49)² = 2401 Замечание: для A/B тестов применяется другая формула (учитывает мощность test - вероятность обнаружить эффект если он есть). Простая формула для n - это ширина интервала, а не power.
Чтобы сузить 95% доверительный интервал ВДВОЕ при том же уровне доверия, во сколько раз нужно увеличить выборку?
ДИ в инструментах и производственных системах
ДИ в инструментах и производственных системах
**Bayesian альтернатива - credible interval**: P(θ ∈ [a,b] | данные) = 0.95. Это именно та вероятностная интерпретация, которую хочется. Но она требует prior P(θ) и более сложных вычислений (MCMC). В большинстве production-систем используется frequentist CI из-за простоты. Bayesian credible interval используется там, где prior информация ценна: clinical trials, risk management, parameter estimation в малых выборках.
В чём ключевое различие между frequentist CI и Bayesian credible interval?
Практика: эмпирическая проверка покрытия
Практика: эмпирическая проверка покрытия
Вы проводите Monte Carlo симуляцию: генерируете 10 000 выборок при известном μ, строите 95% CI для каждой и считаете долю интервалов, содержащих μ. Что должно получиться?
Что унести из урока
- **Правильная интерпретация**: «95% интервалов, построенных по разным выборкам, накроют θ» - не «вероятность 95%, что θ в данном интервале»
- **Для среднего**: X̄ ± z·σ/√n (z-интервал, σ известно) или X̄ ± t·S/√n (t-интервал, σ неизвестно, df=n-1)
- **Для доли**: p̂ ± 1.96·√(p̂(1-p̂)/n). Погрешность ±3% в опросах = именно эта формула при n=1000
- **Ширина ∝ 1/√n**: вдвое точнее = вчетверо больше данных. Главный экономический закон A/B тестов
- **Peeking проблема**: проверять тест досрочно нарушает гарантию 95%. Нужен sequential testing
- **Frequentist vs Bayesian**: CI - процедурный, credible interval - вероятностный. Числа похожи, смысл разный
Куда дальше
ДИ показывает диапазон. Проверка гипотез отвечает на бинарный вопрос: отличается ли параметр от нуля?
- Проверка гипотез — Дополнение к ДИ: p-value, мощность, ошибки I и II рода - формальный аппарат A/B тестов
- Bootstrap — Построить CI для любой статистики без аналитических формул через ресэмплинг
- E-values и anytime-valid CI — Решение peeking-проблемы: CI валидный в любой момент времени, без поправки на множественные проверки
- Байесовский подход — Credible interval P(θ ∈ [a,b] | X) = 95%: то самое интуитивное вероятностное утверждение