Теория информации
Типичные последовательности и AEP
Почему 1000 подбрасываний монеты почти всегда дают 480-520 орлов? AEP - математический ответ, но за ним стоит глубокая идея: вселенная типичных событий намного меньше пространства всех возможностей, и именно там мы живём.
- **Сжатие без потерь**: типичных последовательностей ≈ 2^{nH}, поэтому нужно ровно nH бит для их кодирования - вот откуда граница Шеннона.
- **Статистическая физика**: энтропия в термодинамике - это AEP для физических систем. Типичные микросостояния = термодинамическое равновесие.
- **ML generalization**: PAC-Bayes теория использует идеи, очень похожие на AEP, для оценки обобщающей способности нейросетей.
Предварительные знания
Типичное множество
Подбросьте монету 1000 раз. Почти наверняка получите около 500 орлов - не ровно 500, но близко. Последовательности с ~500 орлами и ~500 решками называются «типичными». Важный факт: хотя их много, они составляют ничтожную долю всех 2^1000 возможных последовательностей, но почти всю вероятность. Это и есть суть AEP.
**Типичное ε-множество T_ε^(n):** множество последовательностей x^n таких, что |−(1/n) log p(x^n) − H(X)| ≤ ε. Свойства: 1. P(T_ε^(n)) → 1 при n→∞ 2. |T_ε^(n)| ≤ 2^{n(H+ε)} 3. |T_ε^(n)| ≥ (1−ε)·2^{n(H−ε)}. Размер типичного множества ≈ 2^{nH(X)}.
| Свойство | Формула | Интерпретация |
|---|---|---|
| Вероятность типичного | P(T_ε) → 1 | Почти все реализации типичны |
| Размер сверху | |T_ε| ≤ 2^{n(H+ε)} | Типичных не больше, чем 2^{nH} |
| Размер снизу | |T_ε| ≥ (1-ε)·2^{n(H-ε)} | Типичных примерно 2^{nH} |
| Вероятность одной | p(x) ≈ 2^{-nH} | Все типичные равновероятны |
Историческая справка
Понятие типичного множества центрально в работе Шеннона 1948 года, хотя он использовал его имплицитно. Явная формулировка AEP и доказательство теорем через типичные множества стали стандартом благодаря учебнику Кавера и Томаса «Элементы теории информации» (1991).
Типичные последовательности - это наиболее вероятные последовательности
Наиболее вероятная одна последовательность (например, сплошь символы с max вероятностью). Типичные - это «средние» последовательности, которые вместе несут почти всю вероятность.
Для монеты с p=0.9 наиболее вероятна сплошные орлы, но типична последовательность с ~90% орлов. Таких последовательностей много, и вместе они почти наверняка произойдут.
Для источника с H(X)=2 бит/символ, сколько примерно типичных последовательностей длины n=100?
AEP: Asymptotic Equipartition Property
AEP - теорема о законе больших чисел для информации. Если X₁, X₂, ..., Xₙ - независимые одинаково распределённые случайные величины, то −(1/n) log p(X₁,...,Xₙ) сходится по вероятности к H(X). Иначе говоря: почти все длинные последовательности имеют вероятность примерно 2^{−nH}. Это делает всех типичных «равновероятными» в асимптотическом смысле.
**AEP (Теорема):** Если X_i ~ i.i.d. p(x), то (1/n) log(1/p(X^n)) → H(X) по вероятности (LLN для −log p). Следствие: для любого ε > 0 при достаточно большом n: Pr[|−(1/n)log p(X^n) − H(X)| > ε] → 0.
| Закон | Формулировка | Применение в ИТ |
|---|---|---|
| LLN (классический) | (1/n)∑Xᵢ → E[X] | Эмпирические средние |
| AEP | −(1/n)log p → H(X) | Размер типичного множества |
| CLT | √n·(mean−μ)/σ → N(0,1) | Оценка скорости сходимости |
| Закон больших отклонений | P(|mean−μ|>ε) ≤ e^{-nI} | Вероятность атипичных событий |
Историческая справка
AEP - прямое следствие закона больших чисел, применённого к −log p(Xᵢ). Шеннон использовал эту идею интуитивно в 1948. Формальное доказательство и название «AEP» появились позже; термин популяризован в учебнике Кавера-Томаса.
AEP работает только для равновероятных символов
AEP работает для любого i.i.d. источника. «Equipartition» означает, что типичные последовательности равновероятны между собой, а не что символы равновероятны.
Термин «equipartition» относится к вероятностям типичных последовательностей ≈ 2^{−nH}, не к вероятностям символов.
AEP утверждает, что при n→∞: −(1/n) log p(X^n) сходится к H(X). Какой тип сходимости?
Совместная типичность
Совместная типичность - расширение AEP на два связанных источника. Пара последовательностей (x^n, y^n) совместно типична, если эмпирическая совместная энтропия близка к H(X,Y). Ключевой результат: если X и Y независимы, то случайная пара (X^n, Y^n) совместно типична с вероятностью ≈ 2^{-nI(X;Y)}. Это центрально для доказательства теоремы о кодировании канала.
**Множество совместно типичных пар:** A_ε^(n) = {(x^n, y^n): |−(1/n)log p(x^n) − H(X)| ≤ ε, |−(1/n)log p(y^n) − H(Y)| ≤ ε, |−(1/n)log p(x^n,y^n) − H(X,Y)| ≤ ε}. Размер ≈ 2^{nH(X,Y)}. Вероятность совместно типичной пары при независимых X,Y: ≈ 2^{-nI(X;Y)}.
| Событие | Вероятность | Значение |
|---|---|---|
| (x^n,y^n) типична из p(x,y) | → 1 | Зависимые пары почти всегда совм. типичны |
| (x^n,ỹ^n) типична, ỹ^n нез. | ≈ 2^{-nI(X;Y)} | Несвязанные пары редко совм. типичны |
| Число сов. тип. пар | ≈ 2^{nH(X,Y)} | Всё множество |
| Число нез. сов. тип. пар | 2^{nH(X)}·2^{-nI} | Относительно мало |
Историческая справка
Совместная типичность - ключевой инструмент доказательства теоремы кодирования канала Шеннона. Метод «совместного типичного декодера» показывает, что при случайном кодировании вероятность ошибки декодирования → 0 при R < C. Это доказательство стало образцом для всей области Network Information Theory.
Совместная типичность гарантирует зависимость X и Y
Совместная типичность - лишь необходимое условие для «разумной» пары. Независимые X,Y иногда случайно оказываются совместно типичными, но с экспоненциально малой вероятностью.
Это именно то, что используется в доказательстве: при достаточно большом кодовом пространстве случайное «ложное» совпадение крайне редко.
Если I(X;Y)=2 бит, какова вероятность, что случайная независимая пара (X^n, Y^n) длиной n=100 окажется совместно типичной?
Случайное кодирование
Доказательство теоремы Шеннона использует элегантный приём: выбрать кодовую книгу случайно и показать, что в среднем она хороша. Генерируем 2^{nR} кодовых слов случайно из p(x). Декодер ищет единственное кодовое слово, совместно типичное с полученным y^n. При R < C вероятность ошибки стремится к нулю по n → ∞.
**Схема случайного кодирования:** 1. Генерируем M=2^{nR} кодовых слов из p^n(x). 2. Для сообщения m отправляем X^n(m). 3. Декодер ищет m̂: X^n(m̂) совместно типично с Y^n. Анализ ошибок: P(ошибка для m) ≤ P(нет сов.тип.) + ∑_{m≠m̂} P(сов.тип.) ≤ ε + 2^{n(R-I+3ε)} → 0 при R < I(X;Y) = C.
| Элемент доказательства | Что он даёт |
|---|---|
| AEP | Почти все послед. типичны → концентрация вероятности |
| Совместная типичность | Характеристика «правильной» пары (кодовое слово, канальный выход) |
| Случайная книга кодов | В среднем по книгам вероятность ошибки мала |
| Марковское неравенство | Существует хотя бы одна хорошая книга кодов |
Историческая справка
Метод случайного кодирования Шеннона - один из первых примеров «вероятностного метода» в комбинаторике. Он показывает существование хорошего объекта, не конструируя его явно. Позже Пол Эрдёш и другие математики широко использовали этот подход.
Случайные коды - плохие коды; практические коды всегда структурированы
Случайные коды теоретически оптимальны, но сложны для декодирования. Структурированные коды (LDPC, Polar) жертвуют оптимальностью ради эффективного декодирования.
Декодирование случайного кода - NP-hard. Структура LDPC/turbo позволяет итерационное декодирование за полиномиальное время.
Почему метод случайного кодирования доказывает существование хорошего кода, а не все коды хороши?
Ключевые идеи
- **Типичное множество** T_ε: последовательности с эмпирической энтропией ≈ H(X). Несёт почти всю вероятность, но занимает ≈ 2^{nH} элементов.
- **AEP:** −(1/n) log p(X^n) → H(X) по вероятности. Все типичные последовательности примерно равновероятны ≈ 2^{−nH}.
- **Совместная типичность:** (x^n, y^n) типичны совместно. Вероятность случайного попадания независимой пары ≈ 2^{−nI(X;Y)}.
- **Случайное кодирование:** доказательство теоремы Шеннона через усреднение по случайным кодовым книгам.
Связанные темы
AEP - математическое сердце теории информации, связывающее все разделы:
- Канал связи и теорема Шеннона — AEP используется в доказательстве теоремы о кодировании канала
- Network Information Theory — Многопользовательские теоремы доказываются аналогичными методами
- Information Theory в Deep Learning — PAC-Bayes и обобщающая способность используют идеи близкие к AEP
Вопросы для размышления
- AEP говорит: «почти все длинные последовательности типичны». Что происходит с нетипичными - насколько они вероятны и что с ними делать?
- Случайное кодирование доказывает существование хорошего кода. Почему этого недостаточно для практики? Какие дополнительные свойства нужны реальным кодам?
- Связь между AEP и законом больших чисел: в чём сходство и в чём отличие?