Теория информации

IT в статистике: достаточность и неравенство Крамера-Рао

измеряешь температуру 1000 раз. Нужно ли хранить все данные или достаточно суммы? Насколько точен может быть термометр в принципе? Теория информации отвечает: существует фундаментальный предел точности для любого метода оценки - неравенство Крамера-Рао.

  • **GPS и навигация**: оценка координат - задача оценивания параметра. CR-граница задаёт теоретический предел точности GPS независимо от алгоритма обработки
  • **Медицинская диагностика**: достаточные статистики (например, среднее артериальное давление) сжимают данные без потери диагностической информации
  • **Квантовая метрология**: квантовое расширение CR-границы (граница Холево-Крамера-Рао) задаёт пределы точности квантовых сенсоров и оптических интерферометров

Предварительные знания

  • Shannon Entropy: the Math of Uncertainty
  • KL-Divergence and Cross-Entropy
  • Information Geometry and the Fisher Matrix

Достаточные статистики

Whisper модель OpenAI (2022) использует mutual information для multilingual ASR: 680 000 часов аудио, 99 языков, 1.5B параметров. собрал 1000 измерений температуры. Нужно оценить среднее μ. Нужно ли хранить все 1000 чисел, или достаточно их суммы и числа наблюдений? **Достаточная статистика** - это функция данных, которая содержит всю информацию о параметре θ, не теряя ничего.

Информационная интерпретация: достаточная статистика T(X) **сохраняет всю взаимную информацию** I(θ; X) = I(θ; T(X)). Никакая дальнейшая обработка T не потеряет информацию о θ. Это связано с неравенством обработки данных: передача через любую функцию не может увеличить информацию.

**Минимальная достаточная статистика** - наиболее компактная: T минимальная достаточная ⟺ она является функцией от любой другой достаточной статистики. Для экспоненциального семейства p(x;θ) = h(x)exp(θᵀT(x) - A(θ)) минимальная достаточная статистика - T(x) в показателе экспоненты. Большинство распределений в статистике принадлежат этому семейству.

Для выборки X₁,...,Xₙ из Bernoulli(p), какая статистика является достаточной?

Неравенство обработки данных (DPI)

**Data Processing Inequality (DPI)** - фундаментальный принцип: обработка данных не может **увеличить** взаимную информацию. Если X → Y → Z - марковская цепь, то I(X;Z) ≤ I(X;Y). Любая дополнительная обработка Y может только уменьшить или сохранить информацию о X.

DPI лежит в основе **Information Bottleneck** (Tishby, 2000): хорошее скрытое представление h должно сохранять I(Y; h) при минимизации I(X; h). Это компромисс: достаточно информации о Y, но как можно меньше «лишнего» из X. DPI гарантирует, что такой баланс существует.

Тишби (2017) предложил интерпретировать deep learning через DPI: нейронная сеть X → h₁ → h₂ → Y создаёт цепочку, где каждый слой может только уменьшать I(X;h). Гипотеза Information Bottleneck: обучение проходит две фазы - подгонка (h захватывает информацию о Y) и сжатие (h избавляется от лишней информации о X). Этот взгляд спорен, но плодотворен для понимания обобщения.

X → Y → Z - марковская цепь, I(X;Y) = 5 бит. Максимально возможное I(X;Z) равно:

Неравенство Крамера-Рао и эффективные оценки

Насколько точно можно оценить параметр θ по выборке? **Неравенство Крамера-Рао** даёт нижнюю границу дисперсии любой несмещённой оценки через матрицу Фишера. Это абсолютный предел точности статистической оценки.

Оценка θ̂ называется **эффективной**, если Var(θ̂) = 1/F(θ) (достигает нижней границы CR). Для регулярных моделей **MLE (оценка максимального правдоподобия) асимптотически эффективна**: при n → ∞, √n(θ̂_MLE - θ) → N(0, 1/F(θ)). Это один из главных аргументов в пользу MLE - он «оптимален» в пределе.

Информация Фишера F(θ) для нормального N(μ, 1) по параметру μ: при удвоении выборки (2n вместо n) нижняя граница CR:

Теорема Рао-Блэкуэлла и полные статистики

Достаточная статистика и CR-граница объединяются в мощную теорему: **теорема Рао-Блэкуэлла** - любую оценку можно улучшить (или не ухудшить), взяв её условное ожидание при достаточной статистике. Это алгоритм построения оптимальных оценок.

Пример: оценка Rao-Blackwell для Poisson(λ). Случайная оценка: индикатор X₁ = 0 (несмещённая оценка e^(-λ)). Достаточная: T = ΣXᵢ. Улучшенная: E[I(X₁=0) | T = t] = (1-1/n)^t - значительно более точная оценка e^(-λ).

**Теорема Лемана-Шеффе**: если T полная достаточная и θ̂ = g(T) несмещённая, то θ̂ - единственная UMVUE (оценка с равномерно минимальной дисперсией среди несмещённых). Это финальный результат теории оценивания: существует единственная «наилучшая» несмещённая оценка, и она строится через полную достаточную статистику. В реальных задачах часто предпочитают смещённые оценки (MLE, MAP) с меньшим MSE.

Теорема Рао-Блэкуэлла утверждает, что оценка E[θ̃ | T] где T - достаточная статистика:

Ключевые идеи

  • **Достаточная статистика** T(X): I(θ;T) = I(θ;X) - содержит всю информацию о θ, ничего не теряя
  • **DPI**: I(X;Z) ≤ I(X;Y) для X→Y→Z - обработка не создаёт информацию
  • **CR-неравенство**: Var(θ̂) ≥ 1/F(θ) - нижний предел дисперсии через матрицу Фишера
  • **Rao-Blackwell**: E[θ̃|T] не хуже θ̃ - алгоритм построения UMVUE через полную достаточную статистику

Связанные темы

Теория оценивания объединяет классическую статистику с теорией информации:

  • Информационная геометрия и матрица Фишера — Матрица Фишера - геометрическая основа CR-неравенства
  • KL-дивергенция и взаимная информация — DPI - следствие основных свойств взаимной информации
  • Принцип MDL — Достаточные статистики - минимальное сжатие данных без потери информации о θ

Вопросы для размышления

  • MLE асимптотически достигает CR-границы. Почему иногда используют смещённые оценки (ridge regression, MAP)? Что они оптимизируют вместо дисперсии?
  • DPI говорит, что обработка данных не увеличивает взаимную информацию. Как тогда нейросети «создают» полезные представления из сырых данных?
  • Достаточная статистика сжимает данные без потери информации о θ. Всегда ли сжатие возможно? Что происходит если θ многомерный?

Связанные уроки

  • stat-03-mle
  • stat-11-bayesian
IT в статистике: достаточность и неравенство Крамера-Рао

0

1

Войти