Теория информации
Дифференциальная энтропия и непрерывные каналы
JPEG сжимает фото до 10% размера. Wi-Fi показывает «полный сигнал», но скорость падает при помехах. Формула Шеннона-Хартли C = W*log2(1+SNR) задаёт жёсткий предел для любого канала - и 5G NR достигает 95% этого предела. Дифференциальная энтропия - математический фундамент этих технологий.
- Wi-Fi и 5G: пропускная способность прямо рассчитывается по C = W*log2(1+SNR) при проектировании
- Feature selection в ML: sklearn.mutual_info_regression обнаруживает нелинейные зависимости, которые корреляция пропустит
- Contrastive learning (SimCLR, CLIP): обучение максимизирует оценку MI между представлениями двух видов объекта
Предварительные знания
Дифференциальная энтропия h(X)
JPEG сжимает фото до 10% исходного размера. Под капотом - дифференциальная энтропия непрерывного сигнала и теорема кодирования Шеннона для непрерывных источников. Теорема канала Шеннона-Хартли задаёт жёсткий предел скорости Wi-Fi - и реальные 802.11ax достигают 85% этого предела.
Дифференциальная энтропия - прямое обобщение H(X) = -sum p(x) log p(x) на непрерывный случай: сумма заменяется интегралом. Ключевое отличие: h(X) может быть отрицательной и зависит от единиц измерения. Это не баг, а следствие того, что непрерывная величина «содержит бесконечно много информации» в строгом смысле.
h(X) отрицательна для «узких» распределений - это означает, что сами значения X несут меньше битов, чем «ноль информации» (единичный интервал). Взаимная информация I(X;Y) = h(X) - h(X|Y) всегда неотрицательна - именно она используется в ML, а не h(X) напрямую.
Вычислите h(U[0, 0.5]). Объясните физический смысл отрицательного значения.
Гауссово распределение - максимальная h(X) при фиксированной дисперсии
Теорема (MaxEnt для непрерывных): среди всех распределений с E[X^2] <= P нормальное N(0, P) максимизирует h(X). Это не просто теоретический факт - из него следует, что гауссовый шум наихудший для канала связи, и что гауссовый вход оптимален для AWGN-канала.
Именно MaxEnt объясняет повсеместность нормального распределения: если известны только среднее и дисперсия, нормальное - единственное «честное» распределение, не вносящее дополнительных предположений. Это и есть принцип максимальной энтропии (Jaynes).
Почему гауссовый шум в канале называют «наихудшим» для приёмника, но оптимальным для передатчика?
Формула Шеннона-Хартли: предел любого канала
AWGN-канал: Y = X + Z, Z ~ N(0, sigma^2), мощность X ограничена P. Пропускная способность C = max I(X;Y) = 1/2 * log2(1 + P/sigma^2) бит/использование. В полосе W Гц: C = W * log2(1 + SNR) бит/с. Это формула Шеннона-Хартли - абсолютный предел для любого реального канала.
Современные LDPC и Polar коды (5G NR) достигают 95-98% предела Шеннона. Это потребовало 70 лет после публикации формулы в 1948 году. Оставшиеся 2-5% - «gap to capacity» - активно исследуются. MIMO умножает пропускную способность на min(n_t, n_r) - количество независимых пространственных каналов.
Удвоение SNR (в линейной шкале) vs удвоение полосы W - что даёт бОльший прирост C по формуле Шеннона-Хартли?
Взаимная информация: нелинейные зависимости в ML
I(X;Y) = h(X) - h(X|Y) = h(Y) - h(Y|X). Всегда неотрицательна, равна нулю тогда и только тогда, когда X и Y независимы. Это делает её superior мерой зависимости по сравнению с корреляцией: корреляция = 0 не означает независимости, но I = 0 означает.
Применения MI в ML: 1) Feature selection - выбор признаков с максимальным MI с таргетом (sklearn.feature_selection.mutual_info_regression/classif). 2) ICA (Independent Component Analysis) - минимизация MI между компонентами. 3) Contrastive learning (SimCLR, CLIP) - максимизация MI между двумя видами одного объекта. 4) Information bottleneck - компромисс между сжатием и сохранением MI с таргетом.
Библиотека MINE (Mutual Information Neural Estimation, Belghazi 2018) оценивает I(X;Y) нейросетью для высокоразмерных распределений. Используется при обучении GAN и feature learning в Anthropic, Google для диагностики quality of representations.
Корреляция Pearson для пары (X, Y=X^2) с X~U[-3,3] близка к нулю. Это означает, что X и Y независимы? Как MI помогает?
Ключевые идеи
- h(X) = -integral f(x) log f(x) dx - может быть отрицательной, зависит от масштаба
- MaxEnt: N(mu, sigma^2) максимизирует h(X) при фиксированной дисперсии sigma^2
- Формула Шеннона-Хартли: C = W*log2(1+SNR) - абсолютный предел любого AWGN-канала
- Удвоение полосы W удваивает C; удвоение SNR даёт лишь +W бит/с при больших SNR
- I(X;Y) = h(X) - h(X|Y) >= 0 - обнаруживает любые зависимости, не только линейные
- Feature selection: MI превосходит корреляцию для нелинейных признаков
Связанные темы
Дифференциальная энтропия связывает непрерывные сигналы с ML:
- Канал связи и пропускная способность — AWGN-канал - главное применение h(X)
- KL-дивергенция — I(X;Y) = KL(p(x,y) || p(x)p(y)) - непрерывный случай
- Информационная геометрия — Метрика Фишера - локальная версия h(X) на многообразии
Вопросы для размышления
- h(X) может быть отрицательной. Взаимная информация I(X;Y) - всегда неотрицательна. В чём математическая причина этой разницы?
- Формула Шеннона: при SNR -> inf пропускная способность растёт как log(SNR). Почему нельзя просто взять очень мощный передатчик и получить любую скорость?
- В contrastive learning (SimCLR) максимизируют оценку MI между двумя аугментациями изображения. Почему это учит хорошим representations?