Теория информации
IT в статистике: достаточность и неравенство Крамера-Рао
измеряешь температуру 1000 раз. Нужно ли хранить все данные или достаточно суммы? Насколько точен может быть термометр в принципе? Теория информации отвечает: существует фундаментальный предел точности для любого метода оценки - неравенство Крамера-Рао.
- **GPS и навигация**: оценка координат - задача оценивания параметра. CR-граница задаёт теоретический предел точности GPS независимо от алгоритма обработки
- **Медицинская диагностика**: достаточные статистики (например, среднее артериальное давление) сжимают данные без потери диагностической информации
- **Квантовая метрология**: квантовое расширение CR-границы (граница Холево-Крамера-Рао) задаёт пределы точности квантовых сенсоров и оптических интерферометров
Предварительные знания
Достаточные статистики
Whisper модель OpenAI (2022) использует mutual information для multilingual ASR: 680 000 часов аудио, 99 языков, 1.5B параметров. собрал 1000 измерений температуры. Нужно оценить среднее μ. Нужно ли хранить все 1000 чисел, или достаточно их суммы и числа наблюдений? **Достаточная статистика** - это функция данных, которая содержит всю информацию о параметре θ, не теряя ничего.
Информационная интерпретация: достаточная статистика T(X) **сохраняет всю взаимную информацию** I(θ; X) = I(θ; T(X)). Никакая дальнейшая обработка T не потеряет информацию о θ. Это связано с неравенством обработки данных: передача через любую функцию не может увеличить информацию.
**Минимальная достаточная статистика** - наиболее компактная: T минимальная достаточная ⟺ она является функцией от любой другой достаточной статистики. Для экспоненциального семейства p(x;θ) = h(x)exp(θᵀT(x) - A(θ)) минимальная достаточная статистика - T(x) в показателе экспоненты. Большинство распределений в статистике принадлежат этому семейству.
Для выборки X₁,...,Xₙ из Bernoulli(p), какая статистика является достаточной?
Неравенство обработки данных (DPI)
**Data Processing Inequality (DPI)** - фундаментальный принцип: обработка данных не может **увеличить** взаимную информацию. Если X → Y → Z - марковская цепь, то I(X;Z) ≤ I(X;Y). Любая дополнительная обработка Y может только уменьшить или сохранить информацию о X.
DPI лежит в основе **Information Bottleneck** (Tishby, 2000): хорошее скрытое представление h должно сохранять I(Y; h) при минимизации I(X; h). Это компромисс: достаточно информации о Y, но как можно меньше «лишнего» из X. DPI гарантирует, что такой баланс существует.
Тишби (2017) предложил интерпретировать deep learning через DPI: нейронная сеть X → h₁ → h₂ → Y создаёт цепочку, где каждый слой может только уменьшать I(X;h). Гипотеза Information Bottleneck: обучение проходит две фазы - подгонка (h захватывает информацию о Y) и сжатие (h избавляется от лишней информации о X). Этот взгляд спорен, но плодотворен для понимания обобщения.
X → Y → Z - марковская цепь, I(X;Y) = 5 бит. Максимально возможное I(X;Z) равно:
Неравенство Крамера-Рао и эффективные оценки
Насколько точно можно оценить параметр θ по выборке? **Неравенство Крамера-Рао** даёт нижнюю границу дисперсии любой несмещённой оценки через матрицу Фишера. Это абсолютный предел точности статистической оценки.
Оценка θ̂ называется **эффективной**, если Var(θ̂) = 1/F(θ) (достигает нижней границы CR). Для регулярных моделей **MLE (оценка максимального правдоподобия) асимптотически эффективна**: при n → ∞, √n(θ̂_MLE - θ) → N(0, 1/F(θ)). Это один из главных аргументов в пользу MLE - он «оптимален» в пределе.
Информация Фишера F(θ) для нормального N(μ, 1) по параметру μ: при удвоении выборки (2n вместо n) нижняя граница CR:
Теорема Рао-Блэкуэлла и полные статистики
Достаточная статистика и CR-граница объединяются в мощную теорему: **теорема Рао-Блэкуэлла** - любую оценку можно улучшить (или не ухудшить), взяв её условное ожидание при достаточной статистике. Это алгоритм построения оптимальных оценок.
Пример: оценка Rao-Blackwell для Poisson(λ). Случайная оценка: индикатор X₁ = 0 (несмещённая оценка e^(-λ)). Достаточная: T = ΣXᵢ. Улучшенная: E[I(X₁=0) | T = t] = (1-1/n)^t - значительно более точная оценка e^(-λ).
**Теорема Лемана-Шеффе**: если T полная достаточная и θ̂ = g(T) несмещённая, то θ̂ - единственная UMVUE (оценка с равномерно минимальной дисперсией среди несмещённых). Это финальный результат теории оценивания: существует единственная «наилучшая» несмещённая оценка, и она строится через полную достаточную статистику. В реальных задачах часто предпочитают смещённые оценки (MLE, MAP) с меньшим MSE.
Теорема Рао-Блэкуэлла утверждает, что оценка E[θ̃ | T] где T - достаточная статистика:
Ключевые идеи
- **Достаточная статистика** T(X): I(θ;T) = I(θ;X) - содержит всю информацию о θ, ничего не теряя
- **DPI**: I(X;Z) ≤ I(X;Y) для X→Y→Z - обработка не создаёт информацию
- **CR-неравенство**: Var(θ̂) ≥ 1/F(θ) - нижний предел дисперсии через матрицу Фишера
- **Rao-Blackwell**: E[θ̃|T] не хуже θ̃ - алгоритм построения UMVUE через полную достаточную статистику
Связанные темы
Теория оценивания объединяет классическую статистику с теорией информации:
- Информационная геометрия и матрица Фишера — Матрица Фишера - геометрическая основа CR-неравенства
- KL-дивергенция и взаимная информация — DPI - следствие основных свойств взаимной информации
- Принцип MDL — Достаточные статистики - минимальное сжатие данных без потери информации о θ
Вопросы для размышления
- MLE асимптотически достигает CR-границы. Почему иногда используют смещённые оценки (ridge regression, MAP)? Что они оптимизируют вместо дисперсии?
- DPI говорит, что обработка данных не увеличивает взаимную информацию. Как тогда нейросети «создают» полезные представления из сырых данных?
- Достаточная статистика сжимает данные без потери информации о θ. Всегда ли сжатие возможно? Что происходит если θ многомерный?