Теория информации

IT в статистике: достаточность и неравенство Крамера-Рао

измеряешь температуру 1000 раз. Нужно ли хранить все данные или достаточно суммы? Насколько точен может быть термометр в принципе? Теория информации отвечает: существует фундаментальный предел точности для любого метода оценки - неравенство Крамера-Рао.

**GPS и навигация**: оценка координат - задача оценивания параметра. CR-граница задаёт теоретический предел точности GPS независимо от алгоритма обработки
**Медицинская диагностика**: достаточные статистики (например, среднее артериальное давление) сжимают данные без потери диагностической информации
**Квантовая метрология**: квантовое расширение CR-границы (граница Холево-Крамера-Рао) задаёт пределы точности квантовых сенсоров и оптических интерферометров

Предварительные знания

Достаточные статистики

Whisper модель OpenAI (2022) использует mutual information для multilingual ASR: 680 000 часов аудио, 99 языков, 1.5B параметров. собрал 1000 измерений температуры. Нужно оценить среднее μ. Нужно ли хранить все 1000 чисел, или достаточно их суммы и числа наблюдений? **Достаточная статистика** - это функция данных, которая содержит всю информацию о параметре θ, не теряя ничего.

Информационная интерпретация: достаточная статистика T(X) **сохраняет всю взаимную информацию** I(θ; X) = I(θ; T(X)). Никакая дальнейшая обработка T не потеряет информацию о θ. Это связано с неравенством обработки данных: передача через любую функцию не может увеличить информацию.

**Минимальная достаточная статистика** - наиболее компактная: T минимальная достаточная ⟺ она является функцией от любой другой достаточной статистики. Для экспоненциального семейства p(x;θ) = h(x)exp(θᵀT(x) - A(θ)) минимальная достаточная статистика - T(x) в показателе экспоненты. Большинство распределений в статистике принадлежат этому семейству.

Для выборки X₁,...,Xₙ из Bernoulli(p), какая статистика является достаточной?

Неравенство обработки данных (DPI)

**Data Processing Inequality (DPI)** - фундаментальный принцип: обработка данных не может **увеличить** взаимную информацию. Если X → Y → Z - марковская цепь, то I(X;Z) ≤ I(X;Y). Любая дополнительная обработка Y может только уменьшить или сохранить информацию о X.

DPI лежит в основе **Information Bottleneck** (Tishby, 2000): хорошее скрытое представление h должно сохранять I(Y; h) при минимизации I(X; h). Это компромисс: достаточно информации о Y, но как можно меньше «лишнего» из X. DPI гарантирует, что такой баланс существует.

Тишби (2017) предложил интерпретировать deep learning через DPI: нейронная сеть X → h₁ → h₂ → Y создаёт цепочку, где каждый слой может только уменьшать I(X;h). Гипотеза Information Bottleneck: обучение проходит две фазы - подгонка (h захватывает информацию о Y) и сжатие (h избавляется от лишней информации о X). Этот взгляд спорен, но плодотворен для понимания обобщения.

X → Y → Z - марковская цепь, I(X;Y) = 5 бит. Максимально возможное I(X;Z) равно:

Неравенство Крамера-Рао и эффективные оценки

Насколько точно можно оценить параметр θ по выборке? **Неравенство Крамера-Рао** даёт нижнюю границу дисперсии любой несмещённой оценки через матрицу Фишера. Это абсолютный предел точности статистической оценки.

Оценка θ̂ называется **эффективной**, если Var(θ̂) = 1/F(θ) (достигает нижней границы CR). Для регулярных моделей **MLE (оценка максимального правдоподобия) асимптотически эффективна**: при n → ∞, √n(θ̂_MLE - θ) → N(0, 1/F(θ)). Это один из главных аргументов в пользу MLE - он «оптимален» в пределе.

Информация Фишера F(θ) для нормального N(μ, 1) по параметру μ: при удвоении выборки (2n вместо n) нижняя граница CR:

Теорема Рао-Блэкуэлла и полные статистики

Достаточная статистика и CR-граница объединяются в мощную теорему: **теорема Рао-Блэкуэлла** - любую оценку можно улучшить (или не ухудшить), взяв её условное ожидание при достаточной статистике. Это алгоритм построения оптимальных оценок.

Пример: оценка Rao-Blackwell для Poisson(λ). Случайная оценка: индикатор X₁ = 0 (несмещённая оценка e^(-λ)). Достаточная: T = ΣXᵢ. Улучшенная: E[I(X₁=0) | T = t] = (1-1/n)^t - значительно более точная оценка e^(-λ).

**Теорема Лемана-Шеффе**: если T полная достаточная и θ̂ = g(T) несмещённая, то θ̂ - единственная UMVUE (оценка с равномерно минимальной дисперсией среди несмещённых). Это финальный результат теории оценивания: существует единственная «наилучшая» несмещённая оценка, и она строится через полную достаточную статистику. В реальных задачах часто предпочитают смещённые оценки (MLE, MAP) с меньшим MSE.

Теорема Рао-Блэкуэлла утверждает, что оценка E[θ̃ | T] где T - достаточная статистика:

Ключевые идеи

**Достаточная статистика** T(X): I(θ;T) = I(θ;X) - содержит всю информацию о θ, ничего не теряя
**DPI**: I(X;Z) ≤ I(X;Y) для X→Y→Z - обработка не создаёт информацию
**CR-неравенство**: Var(θ̂) ≥ 1/F(θ) - нижний предел дисперсии через матрицу Фишера
**Rao-Blackwell**: E[θ̃|T] не хуже θ̃ - алгоритм построения UMVUE через полную достаточную статистику

Связанные темы

Теория оценивания объединяет классическую статистику с теорией информации:

Информационная геометрия и матрица Фишера — Матрица Фишера - геометрическая основа CR-неравенства
KL-дивергенция и взаимная информация — DPI - следствие основных свойств взаимной информации
Принцип MDL — Достаточные статистики - минимальное сжатие данных без потери информации о θ

Вопросы для размышления

MLE асимптотически достигает CR-границы. Почему иногда используют смещённые оценки (ridge regression, MAP)? Что они оптимизируют вместо дисперсии?
DPI говорит, что обработка данных не увеличивает взаимную информацию. Как тогда нейросети «создают» полезные представления из сырых данных?
Достаточная статистика сжимает данные без потери информации о θ. Всегда ли сжатие возможно? Что происходит если θ многомерный?

Связанные уроки