Теория информации

Дифференциальная энтропия и непрерывные каналы

JPEG сжимает фото до 10% размера. Wi-Fi показывает «полный сигнал», но скорость падает при помехах. Формула Шеннона-Хартли C = W*log2(1+SNR) задаёт жёсткий предел для любого канала - и 5G NR достигает 95% этого предела. Дифференциальная энтропия - математический фундамент этих технологий.

Wi-Fi и 5G: пропускная способность прямо рассчитывается по C = W*log2(1+SNR) при проектировании
Feature selection в ML: sklearn.mutual_info_regression обнаруживает нелинейные зависимости, которые корреляция пропустит
Contrastive learning (SimCLR, CLIP): обучение максимизирует оценку MI между представлениями двух видов объекта

Предварительные знания

Дифференциальная энтропия h(X)

JPEG сжимает фото до 10% исходного размера. Под капотом - дифференциальная энтропия непрерывного сигнала и теорема кодирования Шеннона для непрерывных источников. Теорема канала Шеннона-Хартли задаёт жёсткий предел скорости Wi-Fi - и реальные 802.11ax достигают 85% этого предела.

Дифференциальная энтропия - прямое обобщение H(X) = -sum p(x) log p(x) на непрерывный случай: сумма заменяется интегралом. Ключевое отличие: h(X) может быть отрицательной и зависит от единиц измерения. Это не баг, а следствие того, что непрерывная величина «содержит бесконечно много информации» в строгом смысле.

h(X) отрицательна для «узких» распределений - это означает, что сами значения X несут меньше битов, чем «ноль информации» (единичный интервал). Взаимная информация I(X;Y) = h(X) - h(X|Y) всегда неотрицательна - именно она используется в ML, а не h(X) напрямую.

Вычислите h(U[0, 0.5]). Объясните физический смысл отрицательного значения.

Гауссово распределение - максимальная h(X) при фиксированной дисперсии

Теорема (MaxEnt для непрерывных): среди всех распределений с E[X^2] <= P нормальное N(0, P) максимизирует h(X). Это не просто теоретический факт - из него следует, что гауссовый шум наихудший для канала связи, и что гауссовый вход оптимален для AWGN-канала.

Именно MaxEnt объясняет повсеместность нормального распределения: если известны только среднее и дисперсия, нормальное - единственное «честное» распределение, не вносящее дополнительных предположений. Это и есть принцип максимальной энтропии (Jaynes).

Почему гауссовый шум в канале называют «наихудшим» для приёмника, но оптимальным для передатчика?

Формула Шеннона-Хартли: предел любого канала

AWGN-канал: Y = X + Z, Z ~ N(0, sigma^2), мощность X ограничена P. Пропускная способность C = max I(X;Y) = 1/2 * log2(1 + P/sigma^2) бит/использование. В полосе W Гц: C = W * log2(1 + SNR) бит/с. Это формула Шеннона-Хартли - абсолютный предел для любого реального канала.

Современные LDPC и Polar коды (5G NR) достигают 95-98% предела Шеннона. Это потребовало 70 лет после публикации формулы в 1948 году. Оставшиеся 2-5% - «gap to capacity» - активно исследуются. MIMO умножает пропускную способность на min(n_t, n_r) - количество независимых пространственных каналов.

Удвоение SNR (в линейной шкале) vs удвоение полосы W - что даёт бОльший прирост C по формуле Шеннона-Хартли?

Взаимная информация: нелинейные зависимости в ML

I(X;Y) = h(X) - h(X|Y) = h(Y) - h(Y|X). Всегда неотрицательна, равна нулю тогда и только тогда, когда X и Y независимы. Это делает её superior мерой зависимости по сравнению с корреляцией: корреляция = 0 не означает независимости, но I = 0 означает.

Применения MI в ML: 1) Feature selection - выбор признаков с максимальным MI с таргетом (sklearn.feature_selection.mutual_info_regression/classif). 2) ICA (Independent Component Analysis) - минимизация MI между компонентами. 3) Contrastive learning (SimCLR, CLIP) - максимизация MI между двумя видами одного объекта. 4) Information bottleneck - компромисс между сжатием и сохранением MI с таргетом.

Библиотека MINE (Mutual Information Neural Estimation, Belghazi 2018) оценивает I(X;Y) нейросетью для высокоразмерных распределений. Используется при обучении GAN и feature learning в Anthropic, Google для диагностики quality of representations.

Корреляция Pearson для пары (X, Y=X^2) с X~U[-3,3] близка к нулю. Это означает, что X и Y независимы? Как MI помогает?

Ключевые идеи

h(X) = -integral f(x) log f(x) dx - может быть отрицательной, зависит от масштаба
MaxEnt: N(mu, sigma^2) максимизирует h(X) при фиксированной дисперсии sigma^2
Формула Шеннона-Хартли: C = W*log2(1+SNR) - абсолютный предел любого AWGN-канала
Удвоение полосы W удваивает C; удвоение SNR даёт лишь +W бит/с при больших SNR
I(X;Y) = h(X) - h(X|Y) >= 0 - обнаруживает любые зависимости, не только линейные
Feature selection: MI превосходит корреляцию для нелинейных признаков

Связанные темы

Дифференциальная энтропия связывает непрерывные сигналы с ML:

Канал связи и пропускная способность — AWGN-канал - главное применение h(X)
KL-дивергенция — I(X;Y) = KL(p(x,y) || p(x)p(y)) - непрерывный случай
Информационная геометрия — Метрика Фишера - локальная версия h(X) на многообразии

Вопросы для размышления

h(X) может быть отрицательной. Взаимная информация I(X;Y) - всегда неотрицательна. В чём математическая причина этой разницы?
Формула Шеннона: при SNR -> inf пропускная способность растёт как log(SNR). Почему нельзя просто взять очень мощный передатчик и получить любую скорость?
В contrastive learning (SimCLR) максимизируют оценку MI между двумя аугментациями изображения. Почему это учит хорошим representations?

Связанные уроки