Информационная геометрия

Экспоненциальные семейства

Нормальное, Пуассоновское, биномиальное, гамма-, бета-распределения - все принадлежат одному классу с единой алгебраической структурой. Эта структура объясняет, почему для них существуют замкнутые формулы MLE, EM и вариационного вывода.

  • VAE (Google Brain): нормальное распределение N(μ, σ²) как апостериорное q(z|x) параметризуется через натуральные параметры; KL-член регуляризации вычисляется аналитически через A(η)
  • GLM: логистическая и пуассоновская регрессии - обобщённые линейные модели с экспоненциальными семействами; функция связи и IRLS выводятся автоматически из структуры семейства
  • EM-алгоритм: M-шаг в экспоненциальных семействах - обновление параметров через достаточные статистики μ = ∇A(η); нет численной оптимизации, только аналитические формулы
  • Байесовский вывод: сопряжённые априорные распределения для экспоненциальных семейств дают аналитический байесовский апдейт - просто суммирование натуральных параметров

Предварительные знания

  • Вероятностные распределения
  • Матрица Фишера
  • Преобразование Лежандра
  • Натуральный градиент
  • KL-дивергенс

Экспоненциальные семейства и лог-раздел функция

Экспоненциальное семейство задаётся формулой p(x|η) = h(x) exp(η^T T(x) − A(η)), где T(x) - достаточная статистика, η - натуральный параметр, A(η) - лог-раздел функция. Большинство классических распределений принадлежат этому классу: достаточно проверить, что логарифм правдоподобия линеен по некоторой функции параметров.

Примеры: Гауссово N(μ, σ²): η = (μ/σ², −1/(2σ²)), T(x) = (x, x²). Пуассон Poi(λ): η = log λ, T(x) = x. Бернулли Ber(p): η = log(p/(1−p)) (лог-шансы), T(x) = x. Лог-раздел функция A(η) полностью задаёт геометрию семейства.

Экспоненциальные семейства - «плоские» подмногообразия в пространстве всех распределений в смысле экспоненциальной связности: в координатах η геодезические являются прямыми линиями. Именно поэтому для этих семейств существуют замкнутые формулы MLE, EM-шагов и сопряжённых байесовских распределений.

Чему равен гессиан лог-раздел функции A(η) в экспоненциальном семействе?

В экспоненциальных семействах Hess(A(η)) = Cov(T(X)) = F(η). Это тройное тождество связывает геометрию (матрицу Фишера), статистику (ковариацию) и анализ (гессиан нормировочной функции) в единой структуре.

Преобразование Лежандра и двойственная геометрия

Преобразование Лежандра A*(μ) = sup_η(η^T·μ − A(η)) устанавливает взаимно-однозначное соответствие между натуральными параметрами η и параметрами среднего μ. Геометрически: η и μ - два равноправных координатных атласа на одном статистическом многообразии, связанных через «ребро» гиперграфа в пространстве (η, μ, A, A*).

В вариационных автоэнкодерах KL-член между q(z|x) = N(μ, σ²) и p(z) = N(0, I) вычисляется аналитически: KL = (1/2)(μ^T μ + Tr(Σ) − log det Σ − d). Это возможно именно потому, что нормальное распределение - экспоненциальное семейство, и KL выражается через лог-раздел функции.

Чему равна сопряжённая функция Лежандра A*(μ) для экспоненциального семейства?

A*(μ) = sup_η(η^T μ − A(η)) = η*(μ)^T μ − A(η*(μ)) = −H(p_μ). Это следует из подстановки определения H(p) = −∫p log p и тождества ∇A(η) = μ. Связь выпуклой дуальности с теорией информации через шенноновскую энтропию.

Связи с другими темами

Экспоненциальные семейства объединяют статистику, выпуклый анализ и информационную геометрию через структуру A(η).

  • Выпуклый анализ — Связанная тема
  • Вариационный вывод — Связанная тема
  • Принцип максимальной энтропии — Связанная тема

Итоги

  • Форма: p(x|η) = h(x)exp(η^T T(x) − A(η)), где η - натуральный параметр, T(x) - достаточная статистика
  • ∇A(η) = E[T(X)] = μ: градиент лог-раздел функции даёт параметры среднего
  • Hess(A(η)) = Cov(T(X)) = F(η): гессиан - это матрица Фишера и ковариация статистик одновременно
  • Дуальность: η и μ связаны преобразованием Лежандра, A*(μ) = отрицательная энтропия
  • KL в экспоненциальном семействе - расстояние Брегмана, порождённое A(η)
Экспоненциальные семейства

0

1

Войти