Теория информации

Типичные последовательности и AEP

Почему 1000 подбрасываний монеты почти всегда дают 480-520 орлов? AEP - математический ответ, но за ним стоит глубокая идея: вселенная типичных событий намного меньше пространства всех возможностей, и именно там мы живём.

  • **Сжатие без потерь**: типичных последовательностей ≈ 2^{nH}, поэтому нужно ровно nH бит для их кодирования - вот откуда граница Шеннона.
  • **Статистическая физика**: энтропия в термодинамике - это AEP для физических систем. Типичные микросостояния = термодинамическое равновесие.
  • **ML generalization**: PAC-Bayes теория использует идеи, очень похожие на AEP, для оценки обобщающей способности нейросетей.

Предварительные знания

  • KL-Divergence and Cross-Entropy

Типичное множество

Подбросьте монету 1000 раз. Почти наверняка получите около 500 орлов - не ровно 500, но близко. Последовательности с ~500 орлами и ~500 решками называются «типичными». Важный факт: хотя их много, они составляют ничтожную долю всех 2^1000 возможных последовательностей, но почти всю вероятность. Это и есть суть AEP.

**Типичное ε-множество T_ε^(n):** множество последовательностей x^n таких, что |−(1/n) log p(x^n) − H(X)| ≤ ε. Свойства: 1. P(T_ε^(n)) → 1 при n→∞ 2. |T_ε^(n)| ≤ 2^{n(H+ε)} 3. |T_ε^(n)| ≥ (1−ε)·2^{n(H−ε)}. Размер типичного множества ≈ 2^{nH(X)}.

СвойствоФормулаИнтерпретация
Вероятность типичногоP(T_ε) → 1Почти все реализации типичны
Размер сверху|T_ε| ≤ 2^{n(H+ε)}Типичных не больше, чем 2^{nH}
Размер снизу|T_ε| ≥ (1-ε)·2^{n(H-ε)}Типичных примерно 2^{nH}
Вероятность однойp(x) ≈ 2^{-nH}Все типичные равновероятны

Историческая справка

Понятие типичного множества центрально в работе Шеннона 1948 года, хотя он использовал его имплицитно. Явная формулировка AEP и доказательство теорем через типичные множества стали стандартом благодаря учебнику Кавера и Томаса «Элементы теории информации» (1991).

Типичные последовательности - это наиболее вероятные последовательности

Наиболее вероятная одна последовательность (например, сплошь символы с max вероятностью). Типичные - это «средние» последовательности, которые вместе несут почти всю вероятность.

Для монеты с p=0.9 наиболее вероятна сплошные орлы, но типична последовательность с ~90% орлов. Таких последовательностей много, и вместе они почти наверняка произойдут.

Для источника с H(X)=2 бит/символ, сколько примерно типичных последовательностей длины n=100?

AEP: Asymptotic Equipartition Property

AEP - теорема о законе больших чисел для информации. Если X₁, X₂, ..., Xₙ - независимые одинаково распределённые случайные величины, то −(1/n) log p(X₁,...,Xₙ) сходится по вероятности к H(X). Иначе говоря: почти все длинные последовательности имеют вероятность примерно 2^{−nH}. Это делает всех типичных «равновероятными» в асимптотическом смысле.

**AEP (Теорема):** Если X_i ~ i.i.d. p(x), то (1/n) log(1/p(X^n)) → H(X) по вероятности (LLN для −log p). Следствие: для любого ε > 0 при достаточно большом n: Pr[|−(1/n)log p(X^n) − H(X)| > ε] → 0.

ЗаконФормулировкаПрименение в ИТ
LLN (классический)(1/n)∑Xᵢ → E[X]Эмпирические средние
AEP−(1/n)log p → H(X)Размер типичного множества
CLT√n·(mean−μ)/σ → N(0,1)Оценка скорости сходимости
Закон больших отклоненийP(|mean−μ|>ε) ≤ e^{-nI}Вероятность атипичных событий

Историческая справка

AEP - прямое следствие закона больших чисел, применённого к −log p(Xᵢ). Шеннон использовал эту идею интуитивно в 1948. Формальное доказательство и название «AEP» появились позже; термин популяризован в учебнике Кавера-Томаса.

AEP работает только для равновероятных символов

AEP работает для любого i.i.d. источника. «Equipartition» означает, что типичные последовательности равновероятны между собой, а не что символы равновероятны.

Термин «equipartition» относится к вероятностям типичных последовательностей ≈ 2^{−nH}, не к вероятностям символов.

AEP утверждает, что при n→∞: −(1/n) log p(X^n) сходится к H(X). Какой тип сходимости?

Совместная типичность

Совместная типичность - расширение AEP на два связанных источника. Пара последовательностей (x^n, y^n) совместно типична, если эмпирическая совместная энтропия близка к H(X,Y). Ключевой результат: если X и Y независимы, то случайная пара (X^n, Y^n) совместно типична с вероятностью ≈ 2^{-nI(X;Y)}. Это центрально для доказательства теоремы о кодировании канала.

**Множество совместно типичных пар:** A_ε^(n) = {(x^n, y^n): |−(1/n)log p(x^n) − H(X)| ≤ ε, |−(1/n)log p(y^n) − H(Y)| ≤ ε, |−(1/n)log p(x^n,y^n) − H(X,Y)| ≤ ε}. Размер ≈ 2^{nH(X,Y)}. Вероятность совместно типичной пары при независимых X,Y: ≈ 2^{-nI(X;Y)}.

СобытиеВероятностьЗначение
(x^n,y^n) типична из p(x,y)→ 1Зависимые пары почти всегда совм. типичны
(x^n,ỹ^n) типична, ỹ^n нез.≈ 2^{-nI(X;Y)}Несвязанные пары редко совм. типичны
Число сов. тип. пар≈ 2^{nH(X,Y)}Всё множество
Число нез. сов. тип. пар2^{nH(X)}·2^{-nI}Относительно мало

Историческая справка

Совместная типичность - ключевой инструмент доказательства теоремы кодирования канала Шеннона. Метод «совместного типичного декодера» показывает, что при случайном кодировании вероятность ошибки декодирования → 0 при R < C. Это доказательство стало образцом для всей области Network Information Theory.

Совместная типичность гарантирует зависимость X и Y

Совместная типичность - лишь необходимое условие для «разумной» пары. Независимые X,Y иногда случайно оказываются совместно типичными, но с экспоненциально малой вероятностью.

Это именно то, что используется в доказательстве: при достаточно большом кодовом пространстве случайное «ложное» совпадение крайне редко.

Если I(X;Y)=2 бит, какова вероятность, что случайная независимая пара (X^n, Y^n) длиной n=100 окажется совместно типичной?

Случайное кодирование

Доказательство теоремы Шеннона использует элегантный приём: выбрать кодовую книгу случайно и показать, что в среднем она хороша. Генерируем 2^{nR} кодовых слов случайно из p(x). Декодер ищет единственное кодовое слово, совместно типичное с полученным y^n. При R < C вероятность ошибки стремится к нулю по n → ∞.

**Схема случайного кодирования:** 1. Генерируем M=2^{nR} кодовых слов из p^n(x). 2. Для сообщения m отправляем X^n(m). 3. Декодер ищет m̂: X^n(m̂) совместно типично с Y^n. Анализ ошибок: P(ошибка для m) ≤ P(нет сов.тип.) + ∑_{m≠m̂} P(сов.тип.) ≤ ε + 2^{n(R-I+3ε)} → 0 при R < I(X;Y) = C.

Элемент доказательстваЧто он даёт
AEPПочти все послед. типичны → концентрация вероятности
Совместная типичностьХарактеристика «правильной» пары (кодовое слово, канальный выход)
Случайная книга кодовВ среднем по книгам вероятность ошибки мала
Марковское неравенствоСуществует хотя бы одна хорошая книга кодов

Историческая справка

Метод случайного кодирования Шеннона - один из первых примеров «вероятностного метода» в комбинаторике. Он показывает существование хорошего объекта, не конструируя его явно. Позже Пол Эрдёш и другие математики широко использовали этот подход.

Случайные коды - плохие коды; практические коды всегда структурированы

Случайные коды теоретически оптимальны, но сложны для декодирования. Структурированные коды (LDPC, Polar) жертвуют оптимальностью ради эффективного декодирования.

Декодирование случайного кода - NP-hard. Структура LDPC/turbo позволяет итерационное декодирование за полиномиальное время.

Почему метод случайного кодирования доказывает существование хорошего кода, а не все коды хороши?

Ключевые идеи

  • **Типичное множество** T_ε: последовательности с эмпирической энтропией ≈ H(X). Несёт почти всю вероятность, но занимает ≈ 2^{nH} элементов.
  • **AEP:** −(1/n) log p(X^n) → H(X) по вероятности. Все типичные последовательности примерно равновероятны ≈ 2^{−nH}.
  • **Совместная типичность:** (x^n, y^n) типичны совместно. Вероятность случайного попадания независимой пары ≈ 2^{−nI(X;Y)}.
  • **Случайное кодирование:** доказательство теоремы Шеннона через усреднение по случайным кодовым книгам.

Связанные темы

AEP - математическое сердце теории информации, связывающее все разделы:

  • Канал связи и теорема Шеннона — AEP используется в доказательстве теоремы о кодировании канала
  • Network Information Theory — Многопользовательские теоремы доказываются аналогичными методами
  • Information Theory в Deep Learning — PAC-Bayes и обобщающая способность используют идеи близкие к AEP

Вопросы для размышления

  • AEP говорит: «почти все длинные последовательности типичны». Что происходит с нетипичными - насколько они вероятны и что с ними делать?
  • Случайное кодирование доказывает существование хорошего кода. Почему этого недостаточно для практики? Какие дополнительные свойства нужны реальным кодам?
  • Связь между AEP и законом больших чисел: в чём сходство и в чём отличие?

Связанные уроки

  • prob-22-concentration
Типичные последовательности и AEP

0

1

Войти