Теория информации

Типичные последовательности и AEP

Почему 1000 подбрасываний монеты почти всегда дают 480-520 орлов? AEP - математический ответ, но за ним стоит глубокая идея: вселенная типичных событий намного меньше пространства всех возможностей, и именно там мы живём.

**Сжатие без потерь**: типичных последовательностей ≈ 2^{nH}, поэтому нужно ровно nH бит для их кодирования - вот откуда граница Шеннона.
**Статистическая физика**: энтропия в термодинамике - это AEP для физических систем. Типичные микросостояния = термодинамическое равновесие.
**ML generalization**: PAC-Bayes теория использует идеи, очень похожие на AEP, для оценки обобщающей способности нейросетей.

Предварительные знания

KL-Divergence and Cross-Entropy

Типичное множество

Подбросьте монету 1000 раз. Почти наверняка получите около 500 орлов - не ровно 500, но близко. Последовательности с ~500 орлами и ~500 решками называются «типичными». Важный факт: хотя их много, они составляют ничтожную долю всех 2^1000 возможных последовательностей, но почти всю вероятность. Это и есть суть AEP.

**Типичное ε-множество T_ε^(n):** множество последовательностей x^n таких, что |−(1/n) log p(x^n) − H(X)| ≤ ε. Свойства: 1. P(T_ε^(n)) → 1 при n→∞ 2. |T_ε^(n)| ≤ 2^{n(H+ε)} 3. |T_ε^(n)| ≥ (1−ε)·2^{n(H−ε)}. Размер типичного множества ≈ 2^{nH(X)}.

Свойство	Формула	Интерпретация
Вероятность типичного	P(T_ε) → 1	Почти все реализации типичны
Размер сверху	\|T_ε\| ≤ 2^{n(H+ε)}	Типичных не больше, чем 2^{nH}
Размер снизу	\|T_ε\| ≥ (1-ε)·2^{n(H-ε)}	Типичных примерно 2^{nH}
Вероятность одной	p(x) ≈ 2^{-nH}	Все типичные равновероятны

Историческая справка

Понятие типичного множества центрально в работе Шеннона 1948 года, хотя он использовал его имплицитно. Явная формулировка AEP и доказательство теорем через типичные множества стали стандартом благодаря учебнику Кавера и Томаса «Элементы теории информации» (1991).

Типичные последовательности - это наиболее вероятные последовательности

Наиболее вероятная одна последовательность (например, сплошь символы с max вероятностью). Типичные - это «средние» последовательности, которые вместе несут почти всю вероятность.

Для монеты с p=0.9 наиболее вероятна сплошные орлы, но типична последовательность с ~90% орлов. Таких последовательностей много, и вместе они почти наверняка произойдут.

Для источника с H(X)=2 бит/символ, сколько примерно типичных последовательностей длины n=100?

AEP: Asymptotic Equipartition Property

AEP - теорема о законе больших чисел для информации. Если X₁, X₂, ..., Xₙ - независимые одинаково распределённые случайные величины, то −(1/n) log p(X₁,...,Xₙ) сходится по вероятности к H(X). Иначе говоря: почти все длинные последовательности имеют вероятность примерно 2^{−nH}. Это делает всех типичных «равновероятными» в асимптотическом смысле.

**AEP (Теорема):** Если X_i ~ i.i.d. p(x), то (1/n) log(1/p(X^n)) → H(X) по вероятности (LLN для −log p). Следствие: для любого ε > 0 при достаточно большом n: Pr[|−(1/n)log p(X^n) − H(X)| > ε] → 0.

Закон	Формулировка	Применение в ИТ
LLN (классический)	(1/n)∑Xᵢ → E[X]	Эмпирические средние
AEP	−(1/n)log p → H(X)	Размер типичного множества
CLT	√n·(mean−μ)/σ → N(0,1)	Оценка скорости сходимости
Закон больших отклонений	P(\|mean−μ\|>ε) ≤ e^{-nI}	Вероятность атипичных событий

Историческая справка

AEP - прямое следствие закона больших чисел, применённого к −log p(Xᵢ). Шеннон использовал эту идею интуитивно в 1948. Формальное доказательство и название «AEP» появились позже; термин популяризован в учебнике Кавера-Томаса.

AEP работает только для равновероятных символов

AEP работает для любого i.i.d. источника. «Equipartition» означает, что типичные последовательности равновероятны между собой, а не что символы равновероятны.

Термин «equipartition» относится к вероятностям типичных последовательностей ≈ 2^{−nH}, не к вероятностям символов.

AEP утверждает, что при n→∞: −(1/n) log p(X^n) сходится к H(X). Какой тип сходимости?

Совместная типичность

Совместная типичность - расширение AEP на два связанных источника. Пара последовательностей (x^n, y^n) совместно типична, если эмпирическая совместная энтропия близка к H(X,Y). Ключевой результат: если X и Y независимы, то случайная пара (X^n, Y^n) совместно типична с вероятностью ≈ 2^{-nI(X;Y)}. Это центрально для доказательства теоремы о кодировании канала.

**Множество совместно типичных пар:** A_ε^(n) = {(x^n, y^n): |−(1/n)log p(x^n) − H(X)| ≤ ε, |−(1/n)log p(y^n) − H(Y)| ≤ ε, |−(1/n)log p(x^n,y^n) − H(X,Y)| ≤ ε}. Размер ≈ 2^{nH(X,Y)}. Вероятность совместно типичной пары при независимых X,Y: ≈ 2^{-nI(X;Y)}.

Событие	Вероятность	Значение
(x^n,y^n) типична из p(x,y)	→ 1	Зависимые пары почти всегда совм. типичны
(x^n,ỹ^n) типична, ỹ^n нез.	≈ 2^{-nI(X;Y)}	Несвязанные пары редко совм. типичны
Число сов. тип. пар	≈ 2^{nH(X,Y)}	Всё множество
Число нез. сов. тип. пар	2^{nH(X)}·2^{-nI}	Относительно мало

Историческая справка

Совместная типичность - ключевой инструмент доказательства теоремы кодирования канала Шеннона. Метод «совместного типичного декодера» показывает, что при случайном кодировании вероятность ошибки декодирования → 0 при R < C. Это доказательство стало образцом для всей области Network Information Theory.

Совместная типичность гарантирует зависимость X и Y

Совместная типичность - лишь необходимое условие для «разумной» пары. Независимые X,Y иногда случайно оказываются совместно типичными, но с экспоненциально малой вероятностью.

Это именно то, что используется в доказательстве: при достаточно большом кодовом пространстве случайное «ложное» совпадение крайне редко.

Если I(X;Y)=2 бит, какова вероятность, что случайная независимая пара (X^n, Y^n) длиной n=100 окажется совместно типичной?

Случайное кодирование

Доказательство теоремы Шеннона использует элегантный приём: выбрать кодовую книгу случайно и показать, что в среднем она хороша. Генерируем 2^{nR} кодовых слов случайно из p(x). Декодер ищет единственное кодовое слово, совместно типичное с полученным y^n. При R < C вероятность ошибки стремится к нулю по n → ∞.

**Схема случайного кодирования:** 1. Генерируем M=2^{nR} кодовых слов из p^n(x). 2. Для сообщения m отправляем X^n(m). 3. Декодер ищет m̂: X^n(m̂) совместно типично с Y^n. Анализ ошибок: P(ошибка для m) ≤ P(нет сов.тип.) + ∑_{m≠m̂} P(сов.тип.) ≤ ε + 2^{n(R-I+3ε)} → 0 при R < I(X;Y) = C.

Элемент доказательства	Что он даёт
AEP	Почти все послед. типичны → концентрация вероятности
Совместная типичность	Характеристика «правильной» пары (кодовое слово, канальный выход)
Случайная книга кодов	В среднем по книгам вероятность ошибки мала
Марковское неравенство	Существует хотя бы одна хорошая книга кодов

Историческая справка

Метод случайного кодирования Шеннона - один из первых примеров «вероятностного метода» в комбинаторике. Он показывает существование хорошего объекта, не конструируя его явно. Позже Пол Эрдёш и другие математики широко использовали этот подход.

Случайные коды - плохие коды; практические коды всегда структурированы

Случайные коды теоретически оптимальны, но сложны для декодирования. Структурированные коды (LDPC, Polar) жертвуют оптимальностью ради эффективного декодирования.

Декодирование случайного кода - NP-hard. Структура LDPC/turbo позволяет итерационное декодирование за полиномиальное время.

Почему метод случайного кодирования доказывает существование хорошего кода, а не все коды хороши?

Ключевые идеи

**Типичное множество** T_ε: последовательности с эмпирической энтропией ≈ H(X). Несёт почти всю вероятность, но занимает ≈ 2^{nH} элементов.
**AEP:** −(1/n) log p(X^n) → H(X) по вероятности. Все типичные последовательности примерно равновероятны ≈ 2^{−nH}.
**Совместная типичность:** (x^n, y^n) типичны совместно. Вероятность случайного попадания независимой пары ≈ 2^{−nI(X;Y)}.
**Случайное кодирование:** доказательство теоремы Шеннона через усреднение по случайным кодовым книгам.

Связанные темы

AEP - математическое сердце теории информации, связывающее все разделы:

Канал связи и теорема Шеннона — AEP используется в доказательстве теоремы о кодировании канала
Network Information Theory — Многопользовательские теоремы доказываются аналогичными методами
Information Theory в Deep Learning — PAC-Bayes и обобщающая способность используют идеи близкие к AEP

Вопросы для размышления

AEP говорит: «почти все длинные последовательности типичны». Что происходит с нетипичными - насколько они вероятны и что с ними делать?
Случайное кодирование доказывает существование хорошего кода. Почему этого недостаточно для практики? Какие дополнительные свойства нужны реальным кодам?
Связь между AEP и законом больших чисел: в чём сходство и в чём отличие?

Связанные уроки

prob-22-concentration

Теория информации

Типичные последовательности и AEP

**Сжатие без потерь**: типичных последовательностей ≈ 2^{nH}, поэтому нужно ровно nH бит для их кодирования - вот откуда граница Шеннона.
**Статистическая физика**: энтропия в термодинамике - это AEP для физических систем. Типичные микросостояния = термодинамическое равновесие.
**ML generalization**: PAC-Bayes теория использует идеи, очень похожие на AEP, для оценки обобщающей способности нейросетей.

Предварительные знания

KL-Divergence and Cross-Entropy

Типичное множество

Свойство	Формула	Интерпретация
Вероятность типичного	P(T_ε) → 1	Почти все реализации типичны
Размер сверху	\|T_ε\| ≤ 2^{n(H+ε)}	Типичных не больше, чем 2^{nH}
Размер снизу	\|T_ε\| ≥ (1-ε)·2^{n(H-ε)}	Типичных примерно 2^{nH}
Вероятность одной	p(x) ≈ 2^{-nH}	Все типичные равновероятны

Историческая справка

Типичные последовательности - это наиболее вероятные последовательности

Для источника с H(X)=2 бит/символ, сколько примерно типичных последовательностей длины n=100?

AEP: Asymptotic Equipartition Property

Закон	Формулировка	Применение в ИТ
LLN (классический)	(1/n)∑Xᵢ → E[X]	Эмпирические средние
AEP	−(1/n)log p → H(X)	Размер типичного множества
CLT	√n·(mean−μ)/σ → N(0,1)	Оценка скорости сходимости
Закон больших отклонений	P(\|mean−μ\|>ε) ≤ e^{-nI}	Вероятность атипичных событий

Историческая справка

AEP работает только для равновероятных символов

Термин «equipartition» относится к вероятностям типичных последовательностей ≈ 2^{−nH}, не к вероятностям символов.

AEP утверждает, что при n→∞: −(1/n) log p(X^n) сходится к H(X). Какой тип сходимости?

Совместная типичность

Событие	Вероятность	Значение
(x^n,y^n) типична из p(x,y)	→ 1	Зависимые пары почти всегда совм. типичны
(x^n,ỹ^n) типична, ỹ^n нез.	≈ 2^{-nI(X;Y)}	Несвязанные пары редко совм. типичны
Число сов. тип. пар	≈ 2^{nH(X,Y)}	Всё множество
Число нез. сов. тип. пар	2^{nH(X)}·2^{-nI}	Относительно мало

Историческая справка

Совместная типичность гарантирует зависимость X и Y

Случайное кодирование

Элемент доказательства	Что он даёт
AEP	Почти все послед. типичны → концентрация вероятности
Совместная типичность	Характеристика «правильной» пары (кодовое слово, канальный выход)
Случайная книга кодов	В среднем по книгам вероятность ошибки мала
Марковское неравенство	Существует хотя бы одна хорошая книга кодов

Историческая справка

Случайные коды - плохие коды; практические коды всегда структурированы

Почему метод случайного кодирования доказывает существование хорошего кода, а не все коды хороши?

Ключевые идеи

**Типичное множество** T_ε: последовательности с эмпирической энтропией ≈ H(X). Несёт почти всю вероятность, но занимает ≈ 2^{nH} элементов.
**AEP:** −(1/n) log p(X^n) → H(X) по вероятности. Все типичные последовательности примерно равновероятны ≈ 2^{−nH}.
**Совместная типичность:** (x^n, y^n) типичны совместно. Вероятность случайного попадания независимой пары ≈ 2^{−nI(X;Y)}.
**Случайное кодирование:** доказательство теоремы Шеннона через усреднение по случайным кодовым книгам.

Связанные темы

AEP - математическое сердце теории информации, связывающее все разделы:

Канал связи и теорема Шеннона — AEP используется в доказательстве теоремы о кодировании канала
Network Information Theory — Многопользовательские теоремы доказываются аналогичными методами
Information Theory в Deep Learning — PAC-Bayes и обобщающая способность используют идеи близкие к AEP

Вопросы для размышления

AEP говорит: «почти все длинные последовательности типичны». Что происходит с нетипичными - насколько они вероятны и что с ними делать?
Случайное кодирование доказывает существование хорошего кода. Почему этого недостаточно для практики? Какие дополнительные свойства нужны реальным кодам?
Связь между AEP и законом больших чисел: в чём сходство и в чём отличие?

Связанные уроки

prob-22-concentration