Статистика

Доверительные интервалы: что значит 95% (и нет, не то, что обычно думают)

«Поддержка кандидата 52% плюс-минус 3%». 95% людей читают это неверно. Правильное прочтение интервала Неймана не «вероятность 95%» - это процедурная гарантия, которая спровоцировала 30-летнюю войну между Нейманом и Фишером. Самое частое заблуждение в статистике сидит в этой формулировке.

Выборы: предвыборные опросы с margins of error - доверительные интервалы в действии
A/B тесты: Stripe, Airbnb - CI для коэффициентов конверсии при старте/остановке
Клинические испытания: FDA требует 95% CI для одобрения новых препаратов
Наука: кризис репликации частично из-за неправильного чтения 95% CI как p<0.05
ML production: доверительные интервалы для метрик модели при деплое
Финансы: Value at Risk (VaR) - однодневный 95% доверительный интервал потерь

Предварительные знания

(no prerequisites)

Почему точечная оценка недостаточна

**Ноябрь 2016 года. В ночь американских выборов все крупные медиа показывают одно и то же.** Хиллари Клинтон: 52% поддержки, 95% CI [49%, 55%]. Дональд Трамп: 44%, CI [41%, 47%]. Интерпретация в прямом эфире: «с 95%-ной уверенностью истинная поддержка Клинтон от 49 до 55% - она победит». Победил Трамп с 46.1% против 48.2% по популярному голосованию, но с 306 голосами выборщиков. Опросы не провалились катастрофически - погрешность вписывалась в CIs. **Провалилась интерпретация.** «95% CI» не означает «95% вероятность что истинное значение в интервале». Это фундаментально другое утверждение - и путаница между ними стоила журналистам профессиональной репутации, а ставочным конторам - миллионов долларов.

**Чему этот урок учит на самом деле**: не «как посчитать X̄ ± 1.96·SE», а почему **правильная интерпретация доверительного интервала контр-интуитивна**, и что именно гарантирует «95%». После этого урока будет понятно, почему A/B тесты завершают не тогда, когда «вошли в ДИ», и почему frequentist CI и Bayesian credible interval говорят принципиально разные вещи.

Почему точечная оценка недостаточна

MLE даёт одно число - лучшее точечное приближение параметра. Но без понимания точности это число почти бесполезно. Сказать «средняя задержка сервиса 142 мс» без указания на разброс - это как сказать «средняя температура пациентов в нашей больнице нормальная»: часть из них здорова, часть мертва. **Доверительный интервал - способ честно сообщить о неопределённости оценки.**

Контекст	Точечная оценка	С доверительным интервалом	Что меняется
Эффект лекарства	Снижает давление на 8 мм рт.ст.	8 мм рт.ст. [2, 14], 95% CI	Может быть минимальным или существенным - FDA требует CI
A/B тест конверсии	Вариант B лучше на 0.8%	0.8% [-0.2%, 1.8%], 95% CI	Нижняя граница отрицательна - ещё не доказано
Латентность API	p99 = 230 мс	p99 = 230 мс [215, 248], 95% CI	SLA 250 мс: уложимся или нет?
CTR рекламы	Кампания A: CTR 3.2%	3.2% [2.9%, 3.5%], 95% CI	Реальный диапазон для планирования бюджета

Почему точечной оценки X̄ = 142 мс самой по себе недостаточно для принятия инженерного решения?

Что такое 95% CI на самом деле

Вот самый важный факт урока. После построения конкретного интервала, например [48.9%, 55.1%], **нельзя говорить о вероятности 95%**, что истинный параметр в нём находится. Параметр либо в интервале, либо нет - это не вероятностное событие в frequentist трактовке. Правильная интерпретация звучит иначе.

95% доверительный интервал для θ - это случайный интервал [L(X), U(X)], построенный по случайной выборке X = (X₁,...,Xₙ), такой что: P(L(X) ≤ θ ≤ U(X)) = 0.95 Ключевое: **случайны границы L и U, а не θ**. Параметр θ фиксирован (хотя и неизвестен). Интервал меняется от выборки к выборке. Правильная формулировка: «Метод построения таков, что при многократном повторении 95% построенных интервалов содержат истинный θ» Неправильная формулировка: «Вероятность 95%, что θ ∈ [48.9, 55.1]» После того, как выборка получена и интервал построен: [48.9%, 55.1%] либо содержит θ (prob=1), либо нет (prob=0). Мы не знаем что из двух, но это не вопрос вероятности. Вероятностное утверждение было ДО построения конкретного интервала.

Аналогия: рыбная ловля сетью

Интуиция без формул

Рыбак бросает сеть в случайное место реки. 95% площади реки покрыто рыбой. Вопрос: какова вероятность, что рыба попадёт в сеть? Ответ до броска: 95%. После броска сеть уже в конкретном месте. Вопрос: с какой вероятностью рыба в сети? Ответ: либо попала, либо нет - это уже не вероятность. Доверительный интервал = сеть фиксированного размера. Истинный θ = рыба в конкретном месте. 95% = вероятность поймать рыбы ДО броска. После построения конкретного CI - рыба либо поймана, либо нет.

**Исторический контекст**: Jerzy Neyman изобрёл доверительные интервалы в 1937 году именно с этой «процедурной» трактовкой. Рональд Фишер одновременно предложил «фидуциальные интервалы» с другой интерпретацией. Они воевали публично 25 лет. Современная статистика приняла интерпретацию Неймана. Если хочется вероятностного утверждения «P(θ ∈ interval) = 95%» - это Bayesian credible interval, и он требует prior.

После построения конкретного 95% ДИ [48.9%, 55.1%] для истинной доли голосов θ, как ПРАВИЛЬНО интерпретировать «95%»?

Как строить: pivot и его следствия

Стандартный метод построения ДИ - через **pivot** (пивотальная статистика): функция от данных и параметра, распределение которой не зависит от параметра. Для нормального распределения это стандартизованное среднее.

СЛУЧАЙ 1: σ известно (z-интервал) (X̄ - μ) / (σ/√n) ~ N(0, 1) P(-1.96 ≤ (X̄-μ)/(σ/√n) ≤ 1.96) = 0.95 ↕ (решаем неравенство относительно μ) P(X̄ - 1.96·σ/√n ≤ μ ≤ X̄ + 1.96·σ/√n) = 0.95 95% CI: X̄ ± 1.96 · σ/√n КВАНТИЛИ: 90%: z = 1.645 95%: z = 1.960 99%: z = 2.576 СЛУЧАЙ 2: σ неизвестно (t-интервал) (X̄ - μ) / (S/√n) ~ t(n-1) [t-распределение Стьюдента] 95% CI: X̄ ± t_{α/2, n-1} · S/√n При n ≥ 30 разница t и z < 5%; при n=5: t₀.₀₂₅,₄ = 2.776 vs z = 1.960

Наблюдаем k успехов из n: p̂ = k/n. По ЦПТ при больших n: p̂ ~ N(p, p(1-p)/n) 95% CI: p̂ ± 1.96 · √(p̂(1-p̂)/n) Пример: 540 из 1000 за кандидата A p̂ = 0.54 SE = √(0.54·0.46/1000) = √0.000248 ≈ 0.01575 95% CI: 0.54 ± 1.96·0.01575 = 0.54 ± 0.031 → [50.9%, 57.1%] Эта «погрешность ±3%» в опросах - именно этот расчёт. При любом n: максимальная погрешность при p=0.5 (наихудший случай). Для n=1000: max SE = 0.5/√1000 ≈ 1.58%, max margin = 1.96·1.58% ≈ 3.1%.

**Закон корня**: ширина ДИ пропорциональна 1/√n. Чтобы сузить интервал вдвое - нужно УЧЕТВЕРИТЬ выборку. Отсюда практическое следствие для A/B тестов: если конверсия 3% и хотите поймать эффект 0.1%, нужны миллионы пользователей. power calculator считает именно это.

Опрос даёт 540 голосов «за» из 1000. Какой 95% ДИ для истинной доли поддержки?

Ширина, уровень доверия и размер выборки

Три параметра связаны: уровень доверия (1-α), ширина интервала (2E), размер выборки (n). Зафиксировав два, третий определён.

n	95% CI для пропорции (p=0.5)	99% CI (p=0.5)	Комментарий
100	±9.8%	±12.9%	Опрос 100 человек - очень широко
400	±4.9%	±6.4%	Вдвое точнее - в 4 раза больше
1 000	±3.1%	±4.1%	Стандарт для национального опроса
2 500	±2.0%	±2.6%	Точность опросов Gallup
10 000	±1.0%	±1.3%	Крупные A/B тесты на конверсии

Хотим погрешность не более E при уровне доверия (1-α). Для среднего (σ известно): n ≥ (z_{α/2} · σ / E)² Для доли (наихудший случай p=0.5): n ≥ (z_{α/2} · 0.5 / E)² Пример: 95% CI с погрешностью ≤ 2%: n ≥ (1.96 · 0.5 / 0.02)² = (49)² = 2401 Замечание: для A/B тестов применяется другая формула (учитывает мощность test - вероятность обнаружить эффект если он есть). Простая формула для n - это ширина интервала, а не power.

Чтобы сузить 95% доверительный интервал ВДВОЕ при том же уровне доверия, во сколько раз нужно увеличить выборку?

ДИ в инструментах и производственных системах

**Bayesian альтернатива - credible interval**: P(θ ∈ [a,b] | данные) = 0.95. Это именно та вероятностная интерпретация, которую хочется. Но она требует prior P(θ) и более сложных вычислений (MCMC). В большинстве production-систем используется frequentist CI из-за простоты. Bayesian credible interval используется там, где prior информация ценна: clinical trials, risk management, parameter estimation в малых выборках.

В чём ключевое различие между frequentist CI и Bayesian credible interval?

Практика: эмпирическая проверка покрытия

Вы проводите Monte Carlo симуляцию: генерируете 10 000 выборок при известном μ, строите 95% CI для каждой и считаете долю интервалов, содержащих μ. Что должно получиться?

Что унести из урока

**Правильная интерпретация**: «95% интервалов, построенных по разным выборкам, накроют θ» - не «вероятность 95%, что θ в данном интервале»
**Для среднего**: X̄ ± z·σ/√n (z-интервал, σ известно) или X̄ ± t·S/√n (t-интервал, σ неизвестно, df=n-1)
**Для доли**: p̂ ± 1.96·√(p̂(1-p̂)/n). Погрешность ±3% в опросах = именно эта формула при n=1000
**Ширина ∝ 1/√n**: вдвое точнее = вчетверо больше данных. Главный экономический закон A/B тестов
**Peeking проблема**: проверять тест досрочно нарушает гарантию 95%. Нужен sequential testing
**Frequentist vs Bayesian**: CI - процедурный, credible interval - вероятностный. Числа похожи, смысл разный

Куда дальше

ДИ показывает диапазон. Проверка гипотез отвечает на бинарный вопрос: отличается ли параметр от нуля?

Проверка гипотез — Дополнение к ДИ: p-value, мощность, ошибки I и II рода - формальный аппарат A/B тестов
Bootstrap — Построить CI для любой статистики без аналитических формул через ресэмплинг
E-values и anytime-valid CI — Решение peeking-проблемы: CI валидный в любой момент времени, без поправки на множественные проверки
Байесовский подход — Credible interval P(θ ∈ [a,b] | X) = 95%: то самое интуитивное вероятностное утверждение

Связанные уроки

aie-31-evaluation

Статистика

Доверительные интервалы: что значит 95% (и нет, не то, что обычно думают)

Выборы: предвыборные опросы с margins of error - доверительные интервалы в действии
A/B тесты: Stripe, Airbnb - CI для коэффициентов конверсии при старте/остановке
Клинические испытания: FDA требует 95% CI для одобрения новых препаратов
Наука: кризис репликации частично из-за неправильного чтения 95% CI как p<0.05
ML production: доверительные интервалы для метрик модели при деплое
Финансы: Value at Risk (VaR) - однодневный 95% доверительный интервал потерь

Предварительные знания

(no prerequisites)

Почему точечная оценка недостаточна

Контекст	Точечная оценка	С доверительным интервалом	Что меняется
Эффект лекарства	Снижает давление на 8 мм рт.ст.	8 мм рт.ст. [2, 14], 95% CI	Может быть минимальным или существенным - FDA требует CI
A/B тест конверсии	Вариант B лучше на 0.8%	0.8% [-0.2%, 1.8%], 95% CI	Нижняя граница отрицательна - ещё не доказано
Латентность API	p99 = 230 мс	p99 = 230 мс [215, 248], 95% CI	SLA 250 мс: уложимся или нет?
CTR рекламы	Кампания A: CTR 3.2%	3.2% [2.9%, 3.5%], 95% CI	Реальный диапазон для планирования бюджета

Почему точечной оценки X̄ = 142 мс самой по себе недостаточно для принятия инженерного решения?

Что такое 95% CI на самом деле

Аналогия: рыбная ловля сетью

Интуиция без формул

После построения конкретного 95% ДИ [48.9%, 55.1%] для истинной доли голосов θ, как ПРАВИЛЬНО интерпретировать «95%»?

Как строить: pivot и его следствия

Опрос даёт 540 голосов «за» из 1000. Какой 95% ДИ для истинной доли поддержки?

Ширина, уровень доверия и размер выборки

n	95% CI для пропорции (p=0.5)	99% CI (p=0.5)	Комментарий
100	±9.8%	±12.9%	Опрос 100 человек - очень широко
400	±4.9%	±6.4%	Вдвое точнее - в 4 раза больше
1 000	±3.1%	±4.1%	Стандарт для национального опроса
2 500	±2.0%	±2.6%	Точность опросов Gallup
10 000	±1.0%	±1.3%	Крупные A/B тесты на конверсии

ДИ в инструментах и производственных системах

В чём ключевое различие между frequentist CI и Bayesian credible interval?

Практика: эмпирическая проверка покрытия

Что унести из урока

**Правильная интерпретация**: «95% интервалов, построенных по разным выборкам, накроют θ» - не «вероятность 95%, что θ в данном интервале»
**Для среднего**: X̄ ± z·σ/√n (z-интервал, σ известно) или X̄ ± t·S/√n (t-интервал, σ неизвестно, df=n-1)
**Для доли**: p̂ ± 1.96·√(p̂(1-p̂)/n). Погрешность ±3% в опросах = именно эта формула при n=1000
**Ширина ∝ 1/√n**: вдвое точнее = вчетверо больше данных. Главный экономический закон A/B тестов
**Peeking проблема**: проверять тест досрочно нарушает гарантию 95%. Нужен sequential testing
**Frequentist vs Bayesian**: CI - процедурный, credible interval - вероятностный. Числа похожи, смысл разный

Куда дальше

ДИ показывает диапазон. Проверка гипотез отвечает на бинарный вопрос: отличается ли параметр от нуля?

Проверка гипотез — Дополнение к ДИ: p-value, мощность, ошибки I и II рода - формальный аппарат A/B тестов
Bootstrap — Построить CI для любой статистики без аналитических формул через ресэмплинг
E-values и anytime-valid CI — Решение peeking-проблемы: CI валидный в любой момент времени, без поправки на множественные проверки
Байесовский подход — Credible interval P(θ ∈ [a,b] | X) = 95%: то самое интуитивное вероятностное утверждение

Связанные уроки

aie-31-evaluation