Статистика

Выборка: как 1000 человек предсказывают поведение миллиарда

1936 год: Джордж Гэллап опросил 50 000 человек и правильно предсказал победу Рузвельта, пока Literary Digest с 2.4 миллионами анкет ошиблись катастрофически. Размер выборки не главное - главное её репрезентативность.

Nielsen TV ratings: 25 000 семей решают, что смотрят 130 миллионов американцев - $70 млрд рекламы ежегодно
FDA: ~3000 пациентов в Phase-3 решают судьбу препарата для миллионов
A/B тесты в Booking.com, Netflix, Amazon - тысячи параллельных экспериментов в день
ML training data: 13T токенов из ~10²⁰ возможных - выборка, от которой зависит качество LLM

Генеральная совокупность, выборка и смещение

**1943 год. Лондон.** Союзники теряют бомбардировщики десятками за вылет. Военные собирают данные: где у вернувшихся самолётов больше пробоин. Картина чёткая - крылья и хвост изрешечены, фюзеляж и двигатели почти целы. Решение: усилить броню там, где дырок больше. Статистик Абрахам Вальд смотрит на ту же картинку и говорит: **«усиливайте ровно противоположные места»**. Объяснение одной фразой: "Эти самолёты вернулись. Те, что попадали в двигатели - не вернулись". Это survivorship bias - самая коварная ошибка выборки.

**Генеральная совокупность** - всё, о чём хочется сделать вывод (все избиратели, все пользователи, все молекулы). **Выборка** - подмножество, которое реально удалось измерить. Невероятный факт: правильно построенной выборки из ~1000 объектов хватает для выводов о популяциях в миллиарды раз большего размера. Точность зависит от размера выборки, **но не от размера популяции**.

**1936 год.** Literary Digest опросил **2.4 миллиона** человек и уверенно предсказал победу Лэндона на президентских выборах США. Рузвельт выиграл 523:8 по голосам выборщиков. В том же году Джордж Гэллап опросил **50 000 человек** случайной выборкой и предсказал Рузвельта. Ошибка Digest: опрашивали по спискам владельцев телефонов и автомобилей - в разгар Великой депрессии это были состоятельные республиканцы. Бедные избиратели Рузвельта в выборку не попали.

Четыре классических типа смещения: **selection bias** (кого выбрали), **non-response bias** (кто отвечает), **coverage bias** (кого вообще можно достать), **survivorship bias** (кого видим из произошедшего). Почти все провалы выборок - это их комбинация. Профессиональный приём перед любым анализом: спросить "кто мог попасть в эти данные, но не попал?".

Literary Digest в 1936 году опросил 2.4 миллиона человек, но ошибся с прогнозом выборов. Gallup опросил 50 000 и угадал. Почему?

Оценки параметров: несмещённость, состоятельность и ЦПТ

Среднее значение выборки - **тоже случайная величина**. Не число, а величина с собственным распределением. Почему? Повторите эксперимент - выборка изменится, и среднее изменится. **Само число «среднее по выборке» имеет распределение, дисперсию и стандартное отклонение** - просто потому что оно зависит от случайной выборки. Это называется sampling distribution.

Оценка θ̂ называется **несмещённой** если E[θ̂] = θ (математическое ожидание равно истинному параметру). **Состоятельной** если θ̂ → θ при n → ∞. Выборочное среднее X̄ несмещённо для μ. Выборочная дисперсия с n-1 (не n) в знаменателе несмещённо оценивает σ² - делитель n-1 поправляет на то, что центрировали по X̄, а не по μ.

Центральная предельная теорема (ЦПТ): при достаточно большом n выборочное среднее X̄ распределено приблизительно нормально с параметрами (μ, σ²/n) - **независимо от формы исходного распределения**. Это фундамент всех доверительных интервалов и проверки гипотез. Формула **SE = σ/√n** называется стандартной ошибкой и определяет, насколько X̄ отклоняется от μ.

Почему выборочная дисперсия делится на (n-1), а не на n?

Доверительные интервалы и стандартная ошибка

**Стандартная ошибка (SE)** - стандартное отклонение sampling distribution. Насколько X̄ колеблется вокруг истинного μ. Одна формула с огромными последствиями для индустрии: SE(X̄) = σ/√n. Ошибка падает с ростом n, но не линейно - как корень квадратный. Чтобы **удвоить точность** - нужно **учетверить выборку**.

95%-доверительный интервал: X̄ ± 1.96 × SE. **Правильная интерпретация**: если повторять эксперимент бесконечно, 95% построенных интервалов накроют истинный μ. **Неправильная**: «с вероятностью 95% истинный μ лежит в этом интервале» - μ фиксировано, вероятность здесь не применима. При малых n (< 30) вместо z=1.96 используют t-распределение Стьюдента с n-1 степенями свободы.

Размер популяции **не входит** в формулу SE. Опрос 1000 случайных жителей Москвы (12 млн) даёт ту же точность, что опрос 1000 случайных людей с планеты (8 млрд). Этот контр-интуитивный факт делает массовые опросы экономически осуществимыми. Именно поэтому полевые исследования остановились на ~1000 респондентов - sweet spot цены и точности.

A/B тест выявил статистически значимую разницу 0.5%. Менеджер говорит: «удвоим выборку, чтобы быть вдвое увереннее». Что не так с этим планом?

Итог

Выборка репрезентативна, если механизм попадания в неё не зависит от измеряемого признака - иначе любой размер не спасёт
Четыре bias: selection, non-response, coverage, survivorship - 80% провалов выборок это их комбинация
X̄ - несмещённая оценка μ; E[X̄] = μ по определению случайной выборки
По ЦПТ: X̄ ~ N(μ, σ²/n) при n → ∞, независимо от формы исходного распределения
SE = σ/√n - закон корня квадратного; чтобы удвоить точность нужно учетверить выборку
Размер популяции не входит в SE - 1000 человек одинаково точны для 1 млн и 8 млрд

Куда дальше

Выборка - это «что мы видим». Дальше - как из увиденного делать осмысленные выводы.

Проверка гипотез — p-value, мощность, ошибки I и II рода - формальный аппарат A/B тестов
Bootstrap — Симулировать sampling distribution прямо из одной выборки - современный рабочий конь
Байесовский вывод — Альтернатива частотному подходу: апостериорное распределение вместо доверительного интервала

Вопросы для размышления

Какие данные, которые команда использует прямо сейчас, могут страдать от survivorship bias или selection bias?
Если бы нужно было удвоить точность текущего A/B теста - во сколько раз увеличился бы бюджет?
Когда в последний раз команда задавала вопрос «кто мог попасть в эти данные, но не попал?» перед анализом?

Связанные уроки

prob-01-intro

Генеральная совокупность, выборка и смещение

Оценки параметров: несмещённость, состоятельность и ЦПТ

Почему выборочная дисперсия делится на (n-1), а не на n?

Доверительные интервалы и стандартная ошибка

Итог

Выборка репрезентативна, если механизм попадания в неё не зависит от измеряемого признака - иначе любой размер не спасёт

Четыре bias: selection, non-response, coverage, survivorship - 80% провалов выборок это их комбинация

X̄ - несмещённая оценка μ; E[X̄] = μ по определению случайной выборки

По ЦПТ: X̄ ~ N(μ, σ²/n) при n → ∞, независимо от формы исходного распределения

SE = σ/√n - закон корня квадратного; чтобы удвоить точность нужно учетверить выборку

Размер популяции не входит в SE - 1000 человек одинаково точны для 1 млн и 8 млрд