Автоматы и сознание
Марковский процесс принятия решений
Цели урока
- Понимать отличие MDP от цепей Маркова: агент влияет на переходы через действия
- Знать компоненты MDP: S, A, P, R, gamma и роль дисконт-фактора
- Понимать уравнение оптимальности Беллмана и почему оно решается итеративно
- Различать Value Iteration, Policy Iteration и Q-Learning по применимости
Предварительные знания
- Цепи Маркова (aut-02): матрицы переходов, стационарные распределения
- HMM (aut-03): скрытые состояния, алгоритм Витерби
- Базовое понимание вероятности и математического ожидания
2016. AlphaGo сыграл 40 миллионов партий и победил чемпиона мира 4:1. Каждый ход - MDP. Каждое решение ChatGPT - MDP. Этот урок - теоретическая база всего современного RL.
- **AlphaGo (DeepMind, 2016)** - победил чемпиона мира Ли Седоля 4:1, сыграв 40 млн партий через self-play и MDP
- **DQN (DeepMind, 2013)** - Q-Learning + нейросеть, прошёл 49 игр Atari на уровне человека без знания правил
- **ChatGPT RLHF** - обучение через reward model это MDP: модель как агент, контекст как состояние, токены как действия
- **Tesla Autopilot** - управление автомобилем в реальном времени через policy learned from MDP
- **Рекомендательные системы (YouTube, Netflix)** - какой контент показать следующим: MDP где состояние = история пользователя
Беллман и проклятие размерности
В 1957 году Ричард Беллман, работая в RAND Corporation над задачами оптимизации для ВВС США, опубликовал книгу 'Dynamic Programming'. Он описал рекурсивное разложение задачи оптимизации - принцип оптимальности Беллмана - и сам же назвал главную проблему 'curse of dimensionality': если у системы 10 параметров с 10 значениями каждый, пространство состояний 10^10. Эта проблема актуальна и сегодня - именно против неё работают нейросетевые аппроксиматоры в Deep RL.
От наблюдателя к агенту
**2016. DeepMind AlphaGo сыграл 40 миллионов партий в го против самого себя и победил чемпиона мира Ли Седоля 4:1.** Ли Седоль сказал после матча: «Я думал, что всегда смогу выиграть хотя бы одну партию». Не смог. Цепи Маркова и HMM описывали мир и угадывали скрытые состояния. AlphaGo делал другое - в каждой позиции он выбирал ход. Это суть MDP: не наблюдение, а принятие решений.
| Модель | Роль агента | Пример |
|---|---|---|
| Цепь Маркова | Пассивен - только наблюдает | Погода меняется сама |
| HMM | Пассивен - угадывает скрытое состояние | Доктор ставит диагноз по симптомам |
| MDP | Активен - выбирает действия | AlphaGo выбирает ход в позиции |
**MDP (Markov Decision Process)** - пятёрка (S, A, P, R, gamma): S - множество состояний, A - множество действий, P(s'|s,a) - функция перехода (зависит от действия!), R(s,a,s') - функция награды, gamma - дисконт-фактор. В цепи Маркова переход P(s'|s) зависит только от состояния. В MDP - от состояния и выбранного действия.
В каждом шаге: агент наблюдает состояние s, выбирает действие a, среда переходит в s' с вероятностью P(s'|s,a) и выдаёт награду R(s,a,s'). Задача - найти стратегию выбора действий, максимизирующую суммарную накопленную награду.
MDP - это просто цепь Маркова с большим числом состояний
MDP добавляет действия и награды: агент влияет на траекторию и оптимизирует суммарную награду
В цепи Маркова траектория полностью определяется начальным состоянием и матрицей переходов. В MDP агент в каждом состоянии выбирает действие, и этот выбор меняет вероятности переходов. Это принципиальная разница - задача оптимизации вместо задачи описания.
Чем MDP принципиально отличается от цепи Маркова?
Политика и ценность состояний
**Политика (policy) pi** - функция, определяющая какое действие выбирать в каждом состоянии. Детерминированная политика: pi(s) = a. Стохастическая политика: pi(a|s) = P(A=a|S=s). Цель MDP - найти оптимальную политику pi*, максимизирующую ожидаемую суммарную награду.
Value Function - ценность состояния
**Value Function V^pi(s)** - ожидаемая суммарная дисконтированная награда при старте из состояния s и следовании политике pi. Дисконт-фактор gamma задаёт горизонт планирования: при gamma близком к 0 агент жадный (берёт немедленную награду), при gamma близком к 1 - дальновидный (оптимизирует долгосрочный результат).
| gamma | Горизонт | Пример применения |
|---|---|---|
| gamma = 0.1 | Жадный, 1-2 шага вперёд | Торговый бот на секундных тиках |
| gamma = 0.9 | Умеренный, ~10 шагов | Управление роботом в лабиринте |
| gamma = 0.99 | Дальновидный, ~100 шагов | AlphaGo (партия длится 200+ ходов) |
| gamma = 1.0 | Бесконечный горизонт | Только для эпизодических задач с гарантированным завершением |
При gamma = 0.99 награда через 100 шагов весит 0.99^100 = 0.37 от немедленной. Через 500 шагов - 0.006. Gamma контролирует насколько агент планирует вперёд.
Два агента: gamma=0.1 и gamma=0.99. Пути: (A) немедленная награда +5, потом 0; (B) через 2 шага +20. Что выберет каждый?
Уравнение Беллмана и Q-функция
**1957. RAND Corporation, Санта-Моника.** Ричард Беллман решал задачи оптимизации управления ракетами для ВВС США. Заметил рекурсивную структуру: ценность состояния выражается через ценности следующих состояний. Это наблюдение стало фундаментом всего reinforcement learning - от управления ракетами до AlphaGo.
**Уравнение оптимальности Беллмана для V**: V*(s) = max_a SUM_{s'} P(s'|s,a) * [R(s,a,s') + gamma * V*(s')]. Расшифровка: выбрать лучшее действие (max_a), усреднить по возможным переходам (SUM), получить немедленную награду плюс дисконтированную ценность следующего состояния.
**Q-функция Q^pi(s,a)** - ценность выбора конкретного действия a в состоянии s при следовании политике pi далее. Связь с V: V^pi(s) = SUM_a pi(a|s) * Q^pi(s,a). Оптимальная политика проста, если известна Q*: pi*(s) = argmax_a Q*(s,a). Именно поэтому Q-Learning стал основой современного RL.
Уравнение Беллмана - это система из |S| уравнений с |S| неизвестными. V*(s) зависит от V*(s'), которое зависит от V*(s''). Прямого решения нет - нужна итерация. Беллман сам назвал эту проблему 'проклятием размерности': при 10 состояниях и 10 признаках пространство состояний 10^10.
Уравнение Беллмана даёт формулу для прямого вычисления оптимальной политики
Уравнение Беллмана задаёт условие оптимальности - систему уравнений, которую решают итеративными алгоритмами
V*(s) = max_a SUM P * [R + gamma * V*(s')] - здесь V* стоит по обе стороны равенства. Это не формула, а уравнение с неизвестной V*. Доказано, что итеративное применение оператора Беллмана сходится к единственному решению (теорема сжимающего отображения, gamma < 1).
Почему уравнение Беллмана решается итеративно, а не напрямую?
Алгоритмы решения MDP
**Три классических подхода к решению MDP - каждый применяется в современных системах.** Value Iteration - основа планирования в робототехнике. Policy Iteration - используется в AlphaGo. Q-Learning без модели мира - сердце DQN от DeepMind (2013), который впервые прошёл 49 игр Atari на уровне человека.
| Алгоритм | Требует модель P, R? | Когда использовать |
|---|---|---|
| Value Iteration | Да (model-based) | Модель среды известна, небольшое пространство состояний |
| Policy Iteration | Да (model-based) | Быстрее сходится чем VI, AlphaGo планирование |
| Q-Learning | Нет (model-free) | Модель неизвестна, агент учится из опыта - Atari, роботы |
**Exploration vs Exploitation:** Q-Learning использует epsilon-greedy стратегию: с вероятностью epsilon выбирается случайное действие (exploration), с вероятностью 1-epsilon - лучшее известное (exploitation). Без exploration агент застревает в локальном оптимуме. DQN от DeepMind начинал с epsilon=1.0 и постепенно снижал до 0.1.
**Ограничения MDP:** 1. полная наблюдаемость - агент точно знает состояние. Когда агент не уверен в состоянии - нужен POMDP. 2. марковское свойство - будущее зависит только от текущего состояния. 3. дискретные пространства состояний и действий. Для непрерывных (управление роботом) - нейросети аппроксимируют V и Q (Deep RL).
Q-Learning используют когда функция перехода P(s'|s,a) неизвестна. Как алгоритм обходится без неё?
Вопросы для размышления
- Задача управления роботом-курьером в городе: состояние - позиция + заряд батареи + текущий заказ, действия - движение в 4 направлениях + зарядка + принятие заказа. Как сформулировать функцию награды R, чтобы робот не жертвовал безопасностью ради скорости доставки?