Информационная геометрия
IG в RL и bandits
2015: команда Berkeley/OpenAI (Schulman, Levine, Abbeel, Jordan, Moritz) публикует TRPO на ICML. Vanilla policy gradient нестабилен - один большой шаг разрушает политику навсегда. TRPO решает: обновлять не дальше чем на delta по KL-дивергенции. Это геодезический шар на многообразии политик с метрикой Фишера-Рао. В 2017 Schulman et al. упрощают идею до clip-трюка PPO - и он становится стандартом в индустрии. Сегодня PPO обучает ChatGPT, Claude, Gemini через RLHF.
- **Робототехника:** Boston Dynamics и аналоги используют natural policy gradient для управления суставами. Ошибка политики в реальном мире - это физическая поломка. Trust region гарантирует, что каждый шаг обновления политики не разрушает то, что уже работает.
- **RLHF для LLM:** обучение Claude, ChatGPT, Gemini с обратной связью от людей использует PPO как основной алгоритм. KL-ограничение от reference model - прямой аналог trust region из TRPO. Без него модель дрейфует в режим reward hacking.
- **Клинические испытания:** Thompson sampling применяется для адаптивного дизайна исследований - пациентов назначают на лечение с учётом апостериорных оценок эффективности. FDA одобрила такие протоколы: алгоритм направляет больше пациентов к лучшим методам лечения, не дожидаясь финала испытания.
Предварительные знания
- Метрика Фишера-Рао и её смысл как кривизны многообразия
- Натуральный градиент: F^{-1} * grad J
- KL-дивергенция как расстояние между распределениями
- Байесовская статистика: приор, апостериор, MAP
Natural policy gradient
Sham Kakade в 2001 году предложил **Natural Policy Gradient** - первый алгоритм RL, который явно использует геометрию пространства политик. Проблема vanilla policy gradient проста: он обновляет параметры theta пропорционально градиенту по евклидовым координатам. Но пространство политик - не евклидово. Маленький шаг в параметрах может означать огромный сдвиг в поведении агента, и наоборот.
**Fisher information matrix** политики определяется как математическое ожидание внешнего произведения log-градиента: F(theta) = E[grad log pi(a|s) * grad log pi(a|s)^T]. Это в точности метрика Фишера-Рао на многообразии политик. Она измеряет, как быстро меняется распределение при изменении параметров.
Amari (1998) показал, что натуральный градиент **обходит плато** в процессе обучения нейросетей. Ванильный градиент застревает там, где поверхность потерь вытянута - натуральный нет, потому что он компенсирует кривизну пространства. В RL это критично: плато означает длинные периоды, когда политика не улучшается.
**Геометрическая интерпретация:** стандартный gradient descent двигается по прямой в евклидовом пространстве параметров. Natural gradient descent двигается по геодезической на римановом многообразии распределений с метрикой Фишера-Рао. Это кратчайший путь в том смысле, который физически значим - по дивергенции между политиками.
Вычисление F^{-1} в полной форме требует O(d^3) операций и O(d^2) памяти, где d - число параметров политики. Для нейросетей с миллионами параметров это неприемлемо. Поэтому используют аппроксимации: K-FAC (кронекерова факторизация), conjugate gradient, или truncated natural gradient.
Что исправляет натуральный градиент по сравнению с vanilla policy gradient?
TRPO и KL trust regions
Schulman et al. (2015) предложили **Trust Region Policy Optimization (TRPO)** - алгоритм, который формализует интуицию натурального градиента. Ключевое ограничение: KL(pi_old || pi_new) <= delta. Это означает, что новая политика должна лежать внутри геодезического шара радиуса delta вокруг старой политики на многообразии - "доверительный регион" (trust region).
**PPO** (Schulman et al., 2017) заменяет сложную оптимизацию с KL-ограничением простым clip-трюком. Вместо явного ограничения PPO просто обрезает соотношение pi_new/pi_old в диапазоне [1-eps, 1+eps]. Это де-факто стандарт в индустрии: ChatGPT, Claude RLHF, большинство современных RL-систем используют PPO.
**Связь TRPO и natural gradient:** TRPO с бесконечно малым delta эквивалентен шагу натурального градиента. Trust region - это способ адаптивно выбирать размер шага: большой там, где кривизна мала, маленький там, где кривизна велика. KL-penalty версия TRPO добавляет beta * KL(...) к цели вместо жёсткого ограничения - это ещё более явная связь с IG.
PPO clip не гарантирует монотонное улучшение политики (теоретический результат TRPO). На практике PPO иногда регрессирует. Для критически важных задач (робототехника, медицина) TRPO или его вариации с гарантиями безопасности предпочтительнее.
Что представляет собой trust region в TRPO с точки зрения информационной геометрии?
Thompson sampling через IG
William Thompson в 1933 году предложил простой алгоритм для задачи многоруких бандитов: **сэмплируй параметр из апостериорного распределения, выбирай руку с наибольшим ожидаемым выигрышем для этого параметра**. Интуиция простая: при низкой уверенности система исследует, при высокой - эксплуатирует. Информационная геометрия объясняет, почему это оптимально.
**IG-интерпретация:** апостериорное распределение - это точка на статистическом многообразии. Thompson sampling - это случайное блуждание по этому многообразию с шагами, определёнными байесовскими обновлениями. Приближение Лапласа даёт: posterior ~ N(theta_MAP, F^{-1}(theta_MAP)), где F - матрица Фишера в MAP-точке. Это неравенство Крамера-Рао: F^{-1} = нижняя граница дисперсии несмещённых оценок.
**Почему Fisher как ковариация апостериора?** Неравенство Крамера-Рао гласит: Var(theta_hat) >= F^{-1}. Это минимально достижимая дисперсия. Laplace-аппроксимация апостериора через F^{-1} - это апостериор с наименьшей возможной неопределённостью, совместимой с наблюдёнными данными. Чем больше данных по руке - тем больше F - тем меньше дисперсия апостериора - тем меньше исследование.
**Natural exploration:** Fisher information как мера неопределённости создаёт автоматический баланс exploration-exploitation. Рука с малым числом наблюдений имеет малую F (слабая информация) => широкий апостериор => большой шанс сэмплировать высокое значение => исследование. Рука с большим числом наблюдений имеет большую F => узкий апостериор => эксплуатация. Это не эвристика - это прямое следствие геометрии статистического многообразия.
Laplace-аппроксимация корректна только для лог-вогнутых апостериоров (экспоненциальное семейство с сопряжёнными приорами). Для сложных reward-моделей (смеси, нейросети) нужны вариационные методы или MCMC. Также F^{-1} может быть вырожденной в начале обучения - на практике добавляют lambda * I (ridge).
Thompson sampling - это просто рандомный выбор руки с вероятностью, равной частоте её предыдущих побед
Thompson sampling сэмплирует параметр из апостериорного распределения и выбирает оптимальное действие для этого параметра - это принципиально разные операции
Сэмплирование из апостериора учитывает всю неопределённость о параметрах, а не только частоту успехов. При Laplace-аппроксимации апостериор - это Гауссиан с ковариацией F^{-1}; его форма отражает информационно-геометрическую структуру задачи.
Как матрица Фишера связана с исследованием (exploration) в Thompson sampling?
Ключевые идеи
- **Natural policy gradient** - это не просто другой алгоритм оптимизации, а правильный способ двигаться по многообразию политик: шаг в метрике Фишера-Рао, а не в евклидовом пространстве параметров
- **TRPO и PPO** реализуют одну и ту же геометрическую идею - геодезический trust region вокруг текущей политики. TRPO точно через KL-ограничение, PPO приближённо через clip-трюк
- **Thompson sampling** - это байесовская навигация по статистическому многообразию. Матрица Фишера как ковариация апостериора создаёт естественный баланс exploration-exploitation без дополнительных гиперпараметров
Связанные темы
Эта тема объединяет информационную геометрию с практическими алгоритмами RL и байесовской статистикой:
- Natural gradient (теория) — Концептуальная основа - natural PG - это natural gradient Амари, применённый к политикам
- Wasserstein vs Fisher — Сравнение метрик: TRPO использует Fisher-Rao (KL), другие методы используют Wasserstein - разные геодезические, разные trust regions
- KL-дивергенция и Bregman — KL в TRPO-ограничении - это Bregman-дивергенция для экспоненциального семейства; суррогатная цель L - её линеаризация
- Информационная проекция — MAP в Thompson sampling - это I-проекция апостериора; Laplace-аппроксимация строится через геодезическое расстояние от приора
Вопросы для размышления
- Почему одинаковый шаг в пространстве параметров может давать разные изменения поведения политики в разных точках? Что это говорит о форме многообразия политик?
- TRPO даёт монотонное улучшение политики, PPO - нет. В каких задачах (медицина, финансы, игры) это различие критично, а в каких можно пожертвовать гарантиями ради скорости?
- Если Fisher information матрица F велика, это означает, что мы получили много информации о параметрах из данных. Почему тогда широкий апостериор (малая F) приводит к исследованию, а не к случайному шуму?