Информационная геометрия

Dual flat structure: геометрия двойственности

EM-алгоритм, натуральный градиент, mirror descent - за всем стоит двойственная геометрия Амари. E-step - это m-проекция. M-step - e-проекция. Сходимость EM - теорема Пифагора для KL-дивергенции. Не метафора. Буквальный $a^2 + b^2 = c^2$ - но для вероятностей. Шун-ичи Амари доказал это в 1985 году в Токио. Через 40 лет каждый крупный оптимизатор нейросетей так или иначе использует эту геометрию.

**Natural gradient / K-FAC**: натуральный градиент - это движение вдоль e-геодезической на многообразии параметров нейросети. Именно поэтому K-FAC сходится быстрее Adam в задачах с чёткой exp-family структурой (VAE, normalizing flows)
**EM-алгоритм (GMM, HMM, LDA)**: каждая итерация EM - это чередование e-проекции (M-step) и m-проекции (E-step). Монотонная сходимость - прямое следствие теоремы Пифагора Амари
**Mirror descent и Sinkhorn**: зеркальный спуск - это последовательность m-проекций Брегмана. Итерации Синхорна сходятся потому, что это чередующиеся Bregman-проекции на e- и m-плоские ограничения

Предварительные знания

KL-дивергенция и дивергенция Брегмана
Экспоненциальное семейство и натуральные параметры
Метрика Фишера

KL как дивергенция Брегмана

e- и m-связности

На обычном пространстве есть одна геодезическая между двумя точками - прямой путь. На статистическом многообразии их две. Это открытие Амари 1985 года.

**e-связность** (exponential) определяет параллельный перенос вдоль экспоненциального семейства: $p_t = p^{1-t} q^t / Z_t$. Геодезические - это экспоненциальные дуги в пространстве распределений. Кривизна тензора Римана равна нулю при этой связности - многообразие e-плоское.

**m-связность** (mixture) задаёт другой параллельный перенос: $p_t = (1-t)p + tq$. Геодезические - это смеси распределений. Кривизна тоже нулевая - многообразие m-плоское.

**Ключевое свойство**: e-связность и m-связность дуальны относительно метрики Фишера. Это значит: то, что выглядит как прямолинейное движение с точки зрения e-структуры, кривит m-структуру, и наоборот. Два взгляда на одно многообразие, как прямолинейная и полярная системы координат.

Натуральный градиент в оптимизаторах типа K-FAC движется вдоль какой геодезической?

Дуальные координаты: theta и eta

Экспоненциальное семейство $p(x; \theta) = h(x) \exp(\langle \theta, T(x) \rangle - A(\theta))$ живёт в двух системах координат одновременно.

**Натуральные параметры** $\theta$ - это e-координаты. Аффинно-плоские в e-смысле: e-геодезические выглядят прямыми. Нормальное распределение: $\theta_1 = \mu/\sigma^2$, $\theta_2 = -1/(2\sigma^2)$.

**Параметры ожидания** $\eta = \mathbb{E}_{\theta}[T(x)] = \nabla A(\theta)$ - это m-координаты. Аффинно-плоские в m-смысле: m-геодезические выглядят прямыми. Для нормального: $\eta_1 = \mu$, $\eta_2 = \mu^2 + \sigma^2$.

**Связь через логарифмическую функцию разделения**: $\eta = \nabla A(\theta)$ и $\theta = \nabla A^*(\eta)$, где $A^*$ - сопряжённая по Лежандру. Это и есть двойственность Лежандра в геометрическом виде. Переход $\theta \leftrightarrow \eta$ - это информационно-геометрическое преобразование Фурье.

В E-шаге EM-алгоритма вычисляется Q(theta) = E_{p(z|x,theta_old)}[log p(x,z|theta)]. Какой тип проекции это соответствует?

Теорема Пифагора для KL-дивергенции

1985 год. Амари доказывает, что при определённых условиях KL-дивергенция ведёт себя как квадрат расстояния. Не метафора - буквальная теорема Пифагора.

Пусть $r$ лежит на e-плоском подмногообразии $\mathcal{S}$, $q$ - m-проекция точки $p$ на $\mathcal{S}$ (т.е. $q = \arg\min_{r \in \mathcal{S}} D_{KL}(r \| p)$). Тогда:

**Теорема Пифагора Амари**: если $q$ - m-проекция $p$ на e-плоское $\mathcal{S}$, то для любого $r \in \mathcal{S}$: $$D_{KL}(p \| r) = D_{KL}(p \| q) + D_{KL}(q \| r)$$ Никакого зазора. Полное обобщение $|pr|^2 = |pq|^2 + |qr|^2$ на пространство вероятностей.

Именно этим объясняется сходимость EM. Каждая итерация: E-шаг (m-проекция) + M-шаг (e-проекция). Теорема Пифагора гарантирует, что $D_{KL}(p_{true} \| p_{model})$ монотонно убывает. Не эвристика - геометрический факт.

Теорема Пифагора для KL - это приближение, справедливое лишь для близких распределений

Это точное равенство при выполнении условия ортогональности e- и m-геодезических

Асимптотическое приближение $D_{KL} \approx \frac{1}{2} \Delta\theta^T F \Delta\theta$ справедливо лишь вблизи точки. Но обобщённая теорема Пифагора - это точное геометрическое утверждение о структуре двойственно плоских многообразий, без каких-либо асимптотик.

Сходимость EM-алгоритма объясняется теоремой Пифагора, потому что...

Ключевые идеи

**e-связность** задаёт геодезические через экспоненциальные дуги ($p^{1-t}q^t$), **m-связность** - через смеси ($(1-t)p + tq$). Оба дают нулевую кривизну - два плоских пространства на одном многообразии
**Дуальные координаты**: $\theta$ (натуральные параметры) - e-плоские, $\eta = \nabla A(\theta)$ (ожидания) - m-плоские. Связаны через двойственность Лежандра: $\theta = \nabla A^*(\eta)$
**Теорема Пифагора Амари**: $D_{KL}(p \| r) = D_{KL}(p \| q) + D_{KL}(q \| r)$ при условии ортогональности геодезических. Точное равенство, не приближение
**EM = чередующиеся проекции**: E-step - m-проекция, M-step - e-проекция. Монотонная сходимость гарантирована геометрически, а не эвристически

Куда дальше

Dual flat structure - это фундамент для прикладных инструментов информационной геометрии:

Натуральный градиент — Движение по e-геодезической на параметрическом многообразии
Информационные проекции — e- и m-проекции - инструменты оптимизации в пространстве распределений
Mirror descent — Bregman-проекция как m-проекция в выпуклой оптимизации
Оптимальный транспорт: двойственность — Primal-dual структура - родственная идея для задачи транспорта

Вопросы для размышления

EM-алгоритм иногда застревает в локальных максимумах. Теорема Пифагора гарантирует монотонную сходимость - где же противоречие?
Mirror descent и натуральный градиент оба используют двойственную структуру. Чем принципиально отличаются их геодезические пути в пространстве распределений?
Если e-координаты плоские для e-структуры, а m-координаты плоские для m-структуры - что будет, если попробовать построить одну систему координат, плоскую одновременно для обеих?

Связанные уроки

ig-07-natural-gradient — Натуральный градиент движется вдоль e-геодезической - прямое следствие двойственной структуры
ig-09-mirror-descent — Mirror descent - это m-проекция Брегмана, частный случай двойственной геометрии
ig-04-kl-bregman — Двойственность выражается через дивергенцию Брегмана / KL
ig-08-info-projection — e- и m-проекции - центральный инструмент информационной геометрии
prob-25-info-theory — Теорема Пифагора для KL корнями уходит в теоремы о проекциях в инфо-теории
stat-01-sampling