Теория вероятностей
Дисперсия и стандартное отклонение
Цели урока
- Понять, зачем нужна мера разброса (а не только среднее)
- Освоить формулы дисперсии и стандартного отклонения
- Применять свойства дисперсии для сложных величин
- Использовать неравенство Чебышёва для оценки рисков
- Связать дисперсию с финансами и машинным обучением
Предварительные знания
- Математическое ожидание E[X]
- Линейность матожидания
- Независимость случайных величин
Страховая компания застраховала 10 000 домов от пожара. В среднем сгорает 1% домов, выплата - 10 млн рублей. Ожидаемые выплаты: 1 миллиард. Но что если в этом году сгорит 2%? Это ещё миллиард! Почему компания не боится разориться? Ответ - в математике дисперсии.
- Страхование: почему страховщики всегда в плюсе
- Инвестиции: волатильность как мера риска акций
- Производство: допуски на размеры деталей
- ML: bias-variance tradeoff - ключевой компромисс
- Спорт: "стабильный" игрок vs "нестабильный"
Нобелевская премия за простую идею
23-летний аспирант предложил идею, которая казалась само собой разумеющейся: "не клади все яйца в одну корзину". Но он доказал это **математически** - показал, что дисперсия портфеля акций меньше, чем сумма дисперсий отдельных акций! Через 38 лет за это дали Нобелевскую премию. Почему так долго? Инвесторы не верили математике.
Дисперсия и стандартное отклонение
Среднее (математическое ожидание) показывает, **куда** случайная величина 'центрирована'. Но не говорит **насколько широко** она разбросана. Две страховые компании могут иметь одинаковый средний убыток, но одна выплачивает стабильно, а другая - то ничего, то катастрофу. Это разница в **дисперсии**.
Дисперсия $\text{Var}(X) = \mathbb{E}[(X-\mu)^2]$ - средний квадрат отклонения от среднего. Квадрат нужен, чтобы плюсы и минусы не сокращались, и чтобы большие отклонения штрафовались сильнее. Стандартное отклонение $\sigma = \sqrt{\text{Var}(X)}$ возвращает нас в исходные единицы измерения.
В ML дисперсия появляется везде: bias-variance tradeoff, неопределённость предсказаний, нормализация активаций (batch norm), оценка градиента в SGD. Без понимания разброса нельзя количественно оценить риск.
Дисперсия $\text{Var}(X)$ измеряет:
Дисперсия - мера разброса вокруг среднего. Стандартное отклонение $\sigma = \sqrt{\text{Var}(X)}$ - в тех же единицах, что и $X$. Для независимых $X,Y$: $\text{Var}(X+Y)=\text{Var}(X)+\text{Var}(Y)$.
Зачем нужна дисперсия?
Зачем нужна дисперсия?
Пусть имеются две работы с **одинаковой** средней зарплатой - 100 000 ₽/мес.
| Работа A | Работа B | |
|---|---|---|
| Каждый месяц | 100 000 ₽ | 50 000 ₽ или 150 000 ₽ |
| Среднее (E[X]) | 100 000 ₽ | 100 000 ₽ |
| Разброс | Никакого | Огромный |
Матожидание **не различает** эти работы! Но интуитивно они разные. Нам нужна характеристика **разброса** - насколько значения "прыгают" вокруг среднего.
**Дисперсия отвечает на вопрос:** насколько значения случайной величины отклоняются от среднего? Чем больше дисперсия - тем сильнее "разброс".
Почему нельзя просто посчитать среднее отклонение E[X - E[X]]?
E[X - E[X]] = E[X] - E[X] = 0 всегда! Отклонения выше среднего (+) и ниже среднего (-) взаимно уничтожаются. Поэтому нужно либо возводить в квадрат, либо брать модуль.
Определение дисперсии
Определение дисперсии
Чтобы отклонения не "сокращались", возводим их в **квадрат**:
Словами: **дисперсия - это среднее значение квадрата отклонения от среднего**.
Раскроем скобки и получим **вычислительную формулу** (она удобнее!):
**Запомните:** дисперсия = "среднее квадратов" минус "квадрат среднего". Формула $E[X^2] - (E[X])^2$ работает всегда и считается проще!
Стандартное отклонение (σ)
У дисперсии есть проблема: она измеряется в **квадратах** исходных единиц. Если X - рубли, то Var[X] - "квадратные рубли" (что это вообще?). Чтобы вернуться к исходным единицам, берём корень:
**Стандартное отклонение** (σ, "сигма") - это "типичный размер" отклонения от среднего, в тех же единицах, что и X.
СВ X всегда равна 42 (константа). Чему равны Var[X] и σ?
Если величина **никогда** не отклоняется от среднего - разброса нет! Var[42] = E[(42-42)²] = E[0] = 0. Дисперсия константы всегда равна нулю.
Пример: игральный кубик
Пример: игральный кубик
Посчитаем дисперсию честного кубика двумя способами.
Способ 1: через определение
Считаем среднее квадратов отклонений
Мы знаем, что $E[X] = 3.5$. Отклонения от среднего: - Выпало 1: отклонение $1 - 3.5 = -2.5$, квадрат $6.25$ - Выпало 2: отклонение $2 - 3.5 = -1.5$, квадрат $2.25$ - Выпало 3: отклонение $3 - 3.5 = -0.5$, квадрат $0.25$ - И так далее... $Var[X] = \frac{6.25 + 2.25 + 0.25 + 0.25 + 2.25 + 6.25}{6} = \frac{17.5}{6} \approx 2.92$
Способ 2: через формулу (проще!)
E[X²] - (E[X])²
$E[X^2] = \frac{1^2 + 2^2 + 3^2 + 4^2 + 5^2 + 6^2}{6} = \frac{1+4+9+16+25+36}{6} = \frac{91}{6}$ $Var[X] = \frac{91}{6} - 3.5^2 = \frac{91}{6} - \frac{49}{4} = \frac{182 - 147}{12} = \frac{35}{12} \approx 2.92$ $\sigma \approx 1.71$ Интерпретация: при броске кубика результат **типично** отклоняется от 3.5 примерно на 1.7.
Для честного кубика $E[X] = 3{,}5$ и $E[X^2] = 91/6$. Чему равна $Var[X]$?
По формуле $Var[X] = E[X^2] - (E[X])^2 = 91/6 - 49/4 = (182 - 147)/12 = 35/12 \approx 2{,}92$. Корень из этого даст $\sigma \approx 1{,}71$ - типичное отклонение результата от 3,5.
Свойства дисперсии
Свойства дисперсии
Дисперсия ведёт себя **не так**, как матожидание! Это частый источник ошибок.
Свойство 1: Неотрицательность
Квадраты всегда неотрицательны, поэтому их среднее тоже. Причём $Var[X] = 0$ **только** для констант.
Свойство 2: Сдвиг не меняет дисперсию
Если ко всем значениям прибавить константу - среднее сдвинется, но **разброс останется тем же**! Логично: от того, что всем подняли зарплату на 10 000 ₽, неопределённость не изменилась.
Свойство 3: Масштабирование
**Внимание!** При умножении на константу дисперсия умножается на **квадрат** этой константы. А стандартное отклонение - на модуль: $\sigma_{aX} = |a| \cdot \sigma_X$.
Пример: если X измеряется в метрах, а Y = 100X в сантиметрах, то $Var[Y] = 10000 \cdot Var[X]$. Но $\sigma_Y = 100 \cdot \sigma_X$ - размерность сохраняется!
X - температура в Цельсиях, Var[X] = 9. Y - температура в Фаренгейтах: Y = 1.8X + 32. Чему равна Var[Y]?
Var[aX + b] = a² · Var[X]. Сдвиг (+32) не влияет на дисперсию, а множитель 1.8 возводится в квадрат. Var[Y] = 1.8² × 9 = 3.24 × 9 = 29.16.
Дисперсия суммы
Дисперсия суммы
А вот здесь **ключевое отличие** от матожидания!
Для матожидания **всегда** верно: $E[X + Y] = E[X] + E[Y]$, независимо от связи между X и Y.
Для дисперсии это работает **только для независимых** величин:
Для зависимых величин появляется дополнительный член - **ковариация**:
Дисперсия суммы равна сумме дисперсий
Только для независимых СВ. Для зависимых нужно учитывать ковариацию
Если акции A и B коррелируют (растут/падают вместе), то риск портфеля A+B больше, чем сумма рисков. Если антикоррелируют (одна растёт, когда другая падает) - риск меньше. В этом суть диверсификации!
X и Y - независимые броски кубика. Var[X] = Var[Y] = 35/12. Чему равна Var[X + Y]?
Для независимых СВ: Var[X+Y] = Var[X] + Var[Y] = 35/12 + 35/12 = 70/12 ≈ 5.83. Но заметьте: σ_{X+Y} = √5.83 ≈ 2.4, а σ_X + σ_Y ≈ 3.4. Стандартные отклонения НЕ складываются!
Почему страховщики не разоряются?
Почему страховщики не разоряются?
Вернёмся к нашему примеру. Страховая компания застраховала $n = 10000$ домов. Пусть $X_i$ - выплата по i-му дому (0 или 10 млн). Все $X_i$ независимы с одинаковым распределением.
Общая выплата: $S = X_1 + X_2 + ... + X_{10000}$
Для каждого дома:
- $E[X_i] = 0.01 \times 10\,000\,000 = 100\,000$ руб
- $Var[X_i] = E[X_i^2] - (E[X_i])^2 = 0.01 \times 10^{14} - 10^{10} = 10^{12} - 10^{10} ≈ 10^{12}$
- $\sigma_{X_i} ≈ 1\,000\,000$ руб (огромный разброс для одного дома!)
Для суммы 10 000 независимых домов:
- $E[S] = 10000 \times 100\,000 = 1\,000\,000\,000$ руб (1 млрд)
- $Var[S] = 10000 \times 10^{12} = 10^{16}$
- $\sigma_S = 10^8 = 100\,000\,000$ руб (100 млн)
**Ключевой инсайт:** коэффициент вариации (σ/E) для одного дома = 1 000 000 / 100 000 = **10** (1000%). Для портфеля из 10 000 домов = 100 000 000 / 1 000 000 000 = **0.1** (10%). Относительный риск уменьшился в 100 раз!
Почему? Дисперсия суммы растёт как $n$, а среднее тоже как $n$. Значит, стандартное отклонение растёт как $\sqrt{n}$, а относительный разброс убывает как $1/\sqrt{n}$. Это **закон больших чисел в действии**!
У одного дома коэффициент вариации (σ/E) равен 10. Как ведёт себя коэффициент вариации портфеля из $n$ независимых одинаковых домов при росте $n$?
Для суммы $S = \sum X_i$ независимых одинаковых СВ: $E[S] = nE[X]$, $Var[S] = nVar[X]$, $\sigma_S = \sqrt{n}\sigma_X$. Поэтому $\sigma_S/E[S] = \sigma_X/(\sqrt{n}E[X])$ - убывает как $1/\sqrt{n}$.
Неравенство Чебышёва
Неравенство Чебышёва
Дисперсия позволяет **ограничить** вероятность больших отклонений - даже не зная точного распределения!
Словами: вероятность отклониться от среднего на $k$ стандартных отклонений - не больше $1/k^2$.
| k | Макс. вероятность отклонения | Мин. вероятность внутри |
|---|---|---|
| 2 | 25% | 75% |
| 3 | 11% | 89% |
| 4 | 6.25% | 93.75% |
| 5 | 4% | 96% |
Страховщик использует Чебышёва
Оценка риска без знания распределения
Компания хочет знать: какова вероятность, что выплаты превысят 1.5 млрд (вместо ожидаемого 1 млрд)? Отклонение: 500 млн = 5σ (при σ = 100 млн). По Чебышёву: P(|S - 1 млрд| ≥ 500 млн) ≤ 1/25 = 4%. Причём это только **в одну** сторону, так что P(S > 1.5 млрд) ≤ 2%. Компания может спокойно держать резерв в 1.5 млрд - риск разорения мизерный.
Для **нормального** распределения оценки гораздо точнее: правило 68-95-99.7 (вероятности отклонения более чем на 1σ, 2σ, 3σ).
Рост людей: E[X] = 170 см, σ = 10 см. По неравенству Чебышёва, какая максимальная доля людей имеет рост за пределами 150-190 см?
Интервал 150-190 - это ±20 см от среднего, или ±2σ. По Чебышёву: P(|X - 170| ≥ 20) ≤ 1/2² = 25%. На практике (если распределение нормальное) - около 5%.
Дисперсия в машинном обучении
Дисперсия в машинном обучении
В ML есть фундаментальный компромисс - **bias-variance tradeoff**.
Когда мы обучаем модель на данных, её ошибка складывается из трёх частей:
- **Bias (смещение):** насколько модель "промахивается" в среднем (слишком простая)
- **Variance (дисперсия):** насколько модель "прыгает" на разных данных (переобучение)
- **Noise:** неустранимая случайность в данных
| Модель | Bias | Variance | Проблема |
|---|---|---|---|
| Линейная регрессия | Высокий | Низкий | Недообучение |
| Глубокая нейросеть | Низкий | Высокий | Переобучение |
| Ансамбль (Random Forest) | Низкий | Низкий | ✓ Оптимально |
**Ансамбли** работают по тому же принципу, что и страховые компании: усредняя много независимых моделей, мы уменьшаем дисперсию в $\sqrt{n}$ раз, не увеличивая bias!
Высокая дисперсия - всегда плохо
Зависит от контекста. В инвестициях высокая дисперсия = высокий риск, но и высокий потенциал
Венчурные инвесторы **специально** выбирают проекты с огромной дисперсией. 9 из 10 провалятся (потеря 100%), но один даст 1000%. Матожидание положительное!
Глубокая нейросеть на маленьком датасете показывает идеальную train-точность и плохую test-точность. По разложению Error = Bias² + Variance + Noise, что доминирует?
Гэп между train и test - классический признак high variance / overfitting. Усреднение независимых моделей (Random Forest, bagging) уменьшает Variance в $\sqrt{n}$ раз без увеличения Bias - та же логика, что у страхового портфеля.
Практика
Практика
СВ X: P(X = 0) = 0.5, P(X = 2) = 0.5. Найдите E[X], E[X²], Var[X], σ.
$E[X] = 0 \times 0.5 + 2 \times 0.5 = 1$ $E[X^2] = 0 \times 0.5 + 4 \times 0.5 = 2$ $Var[X] = 2 - 1^2 = 1$ $\sigma = \sqrt{1} = 1$ Интерпретация: среднее значение 1, типичное отклонение от среднего тоже 1.
X и Y - независимые СВ. Var[X] = 4, Var[Y] = 9. Найдите: a) Var[X + Y] b) Var[2X - 3Y] c) σ_{X+Y} и сравните с σ_X + σ_Y
a) $Var[X + Y] = 4 + 9 = 13$ b) $Var[2X - 3Y] = 4 \cdot Var[X] + 9 \cdot Var[Y] = 4 \cdot 4 + 9 \cdot 9 = 16 + 81 = 97$ (Знак минус не влияет: $(-3)^2 = 9$) c) $\sigma_{X+Y} = \sqrt{13} \approx 3.6$ $\sigma_X + \sigma_Y = 2 + 3 = 5$ **Стандартные отклонения НЕ складываются!** Сумма независимых СВ "разбросана" меньше, чем можно было бы ожидать.
Портфель из двух акций: 50% в акцию A (σ = 20%), 50% в акцию B (σ = 30%). Корреляция между ними ρ = -0.5. Найдите σ портфеля.
$Var[R] = 0.5^2 \cdot 0.2^2 + 0.5^2 \cdot 0.3^2 + 2 \cdot 0.5 \cdot 0.5 \cdot \rho \cdot 0.2 \cdot 0.3$ $= 0.25 \cdot 0.04 + 0.25 \cdot 0.09 + 0.5 \cdot (-0.5) \cdot 0.06$ $= 0.01 + 0.0225 - 0.015 = 0.0175$ $\sigma_R = \sqrt{0.0175} \approx 13.2\%$ **Магия диверсификации!** Каждая акция рискованнее (20% и 30%), но портфель имеет σ = 13.2%. Отрицательная корреляция снижает риск.
Портфель: 50% акции A ($\sigma = 20\%$) и 50% акции B ($\sigma = 30\%$), корреляция $\rho = -0{,}5$. Какова $\sigma$ доходности портфеля?
$Var[R] = 0{,}25\cdot 0{,}04 + 0{,}25\cdot 0{,}09 + 2\cdot 0{,}25\cdot(-0{,}5)\cdot 0{,}2\cdot 0{,}3 = 0{,}0175$, поэтому $\sigma \approx 13{,}2\%$. Отрицательная ковариация снижает риск ниже любой из компонент - суть диверсификации.
Дисперсия - мост к большим теоремам
Понимание дисперсии открывает двери к главным результатам теории вероятностей.
- Закон больших чисел — Дисперсия среднего → 0 при n → ∞
- Центральная предельная теорема — Нормализация через σ даёт стандартное нормальное
- Нормальное распределение — Полностью определяется μ и σ
- Портфельная теория — Диверсификация уменьшает σ
- ML: bias-variance tradeoff — Ключевой компромисс при обучении
Итоги
- **Дисперсия** измеряет разброс: $Var[X] = E[X^2] - (E[X])^2$
- **Стандартное отклонение** $\sigma = \sqrt{Var[X]}$ - в исходных единицах
- **Свойства:** $Var[aX + b] = a^2 Var[X]$, сдвиг не влияет!
- **Для независимых:** $Var[X + Y] = Var[X] + Var[Y]$, но σ НЕ складываются
- **Чебышёв:** $P(|X - \mu| \geq k\sigma) \leq 1/k^2$ - универсальная оценка
- **Страховщики и ансамбли** используют уменьшение дисперсии при усреднении
Вопросы для размышления
- Вернёмся к страховой компании: как изменится относительный риск, если застраховать 1 млн домов вместо 10 000?
- Почему в формуле дисперсии отклонения возводят в квадрат, а не берут модуль? (Подсказка: производные)
- Инвестор говорит: "У этих двух акций одинаковая доходность и σ, значит они эквивалентны". Почему он неправ?
- Как bias-variance tradeoff объясняет, почему простые модели иногда работают лучше сложных?