Обучение с подкреплением
RL для игр: Atari - AlphaGo
Предварительные знания
- Deep Q-Networks: value-based архитектура за прорывом на Atari
- Policy gradient и PPO, алгоритм в OpenAI Five и AlphaStar
- Model-based RL и Monte Carlo Tree Search, ядро планирования AlphaZero
- Multi-agent RL и self-play, среда для league training
От пикселей Atari к ходу 37 AlphaGo
Игры стали полигоном для deep RL в плотном шестилетнем рывке. В 2013 году Volodymyr Mnih с коллегами в DeepMind опубликовали DQN, научившись играть в игры Atari напрямую из пикселей единой архитектурой, а затем расширили подход в статье Nature 2015 года, охватившей 49 игр. В 2016 году команда David Silver построила AlphaGo, который обыграл чемпиона мира Lee Sedol со счётом 4-1, и эксперты ожидали такого результата лишь через десятилетие, учитывая огромное пространство состояний го. Продолжения 2017 года, AlphaGo Zero и AlphaZero, полностью убрали человеческие данные, обучаясь сверхчеловеческой игре в го, шахматы и сёги только через self-play. К 2019 году фронтир сместился к играм с неполной информацией в реальном времени: AlphaStar достиг уровня Grandmaster в StarCraft II, а OpenAI Five обыграл чемпионов мира по Dota 2, команду OG.
2016 год. Ли Седоль - один из лучших игроков в Го в мире - проигрывает AlphaGo ход 37 в партии 2. Это ход, который ни один человек не сыграл бы. Ход, который изменил понимание стратегии Го. Ход, который сгенерировала нейросеть, обученная только на самой себе.
- **AlphaFold 2** - тот же AlphaGo принцип (self-play через predicted structures vs. reality) применён к свёртыванию белков: решает 50-летнюю биологическую задачу
- **Tesla FSD** использует MCTS-подобное планирование для autonomous driving: RL агент, обученный на симуляции, управляет реальной машиной
- **OpenAI Codex/Copilot** - RL из human feedback (code review) как аналог лиги AlphaStar: люди-эксперты выступают как оппоненты/судьи
Atari: DQN и рождение Deep RL
2013 год. DeepMind публикует Playing Atari with Deep Reinforcement Learning. Один агент, одна архитектура, без feature engineering - и он побеждает предыдущий state of the art на 7 из 9 игр Atari. Это не просто результат. Это смена парадигмы.
DQN (Deep Q-Network): нейросеть принимает 84x84 пиксели экрана, выдаёт Q-значения для каждого действия. Два трюка, которые сделали это возможным: Experience Replay (хранить миллион переходов, обучаться на случайных батчах) и Target Network (замороженная копия для стабильных таргетов).
Montezuma's Revenge оказалась ахиллесовой пятой DQN: sparse rewards + long-horizon planning = агент застревал в начале. Это мотивировало целую волну исследований: curiosity-driven exploration (Pathak, 2017), Go-Explore (Ecoffet, 2021), которые наконец решили её.
Зачем DQN использует Experience Replay?
AlphaGo/AlphaZero: самообучение с нуля
2016 год. AlphaGo побеждает Ли Седоля 4:1. Это не просто победа в игре. Го - пространство состояний порядка 10^170, игра считалась недоступной для AI ещё минимум 10 лет. AlphaGo использовал три компонента: supervised learning на человеческих партиях, policy gradient RL, и MCTS с neural network guidance.
AlphaGo Zero (2017) - радикальное упрощение: никаких человеческих данных вообще. Только self-play с нуля. Через 40 дней обучения побил AlphaGo 100:0. AlphaZero обобщил подход на шахматы и сёги - превзошёл Stockfish и Elmo, обучаясь без знания правил, кроме легальных ходов.
MuZero (2020) - следующий шаг: агент не знает правил игры вообще. Он строит latent model среды в процессе. Это Model-Based RL в полном смысле. MuZero побеждает AlphaZero в Го и Atari одновременно - один алгоритм без domain knowledge.
В чём ключевое отличие AlphaGo Zero от AlphaGo?
AlphaStar: реальное время и неполная информация
StarCraft II - принципиально другой класс задач: real-time, частичная наблюдаемость (туман войны), тысячи юнитов, горизонт 10,000+ шагов. AlphaGo планирует в ограниченном дереве; AlphaStar должен управлять 200+ юнитами одновременно в реальном времени.
Ключевой инсайт AlphaStar: multi-agent league training. Вместо самоиграния две копии агента, создаётся лига из специализированных агентов: Main Agent (максимизирует win rate), League Exploiter (ищет слабости лиги), Main Exploiter (специализируется против Main Agent). Постоянная ко-эволюция.
AlphaStar побил профессиональных игроков уровня Grandmaster в 2019. Но был замечен спорный момент: APM (Actions Per Minute) ограничивали, но camera movements - нет. Человеческие игроки ограничены скоростью перемещения камеры. DeepMind добавил это ограничение в финальной версии.
Зачем AlphaStar использует лигу агентов (league training) вместо обычного self-play?
OpenAI Five: масштаб побеждает сложность
Dota 2 - ещё сложнее StarCraft: 5v5, координация команды, более 100 героев с уникальными способностями, непрерывное пространство действий. В 2019 году OpenAI Five побил чемпионов мира OG на турнире. Ставки: USD 1M приз, публичная демонстрация.
Главный инсайт OpenAI Five: масштаб compute. 180 лет опыта игры в сутки через 128,000 CPU ядер + 256 GPU. PPO как алгоритм - стандартный. Никакого экзотического RL. Просто больше compute, чем у любого предыдущего RL проекта в два порядка.
Population Based Training (PBT) - метод автонастройки гиперпараметров в процессе обучения. Множество моделей обучаются параллельно; слабые периодически копируют параметры сильных с небольшой мутацией. OpenAI Five использовал PBT для адаптации learning rate и entropy coefficient в ходе тренировки.
RL для игр требует специфической архитектуры под каждую игру
Общие алгоритмы (PPO, MCTS + нейросеть) с достаточным масштабом compute решают игры championship-уровня
AlphaZero одним алгоритмом превзошёл чемпионов в Го, шахматах и сёги. OpenAI Five стандартным PPO победил чемпионов Dota. Generalizable алгоритмы + compute - формула успеха, а не domain-specific tricks
Какой инсайт является главным уроком OpenAI Five?
Связанные темы
Game RL - полигон для алгоритмов, которые переносятся в реальный мир:
- Deep Q-Network (DQN) — Архитектура, с которой начался Atari прорыв
- Multi-Agent RL — AlphaStar и OpenAI Five - flagship multi-agent системы
- RL для робототехники — Техники из игр (sim2real, MCTS) применяются в роботах
Ключевые идеи
- **DQN (2013)** запустил Deep RL революцию: пиксели в действия через CNN + Experience Replay + Target Network
- **AlphaZero (2017)** показал: self-play без человеческих данных превосходит все человеческие знания при достаточном compute
- **AlphaStar** решил partial observability и real-time через league training - разнообразие оппонентов предотвращает cycling
- **OpenAI Five** доказал: стандартный PPO + масштаб compute (180 лет опыта/день) решает championship-level задачи
Вопросы для размышления
- Почему AlphaGo Zero смог превзойти всех людей без использования человеческих данных? Что это говорит о природе экспертного знания?
- League training в AlphaStar требует многократно больше ресурсов. Когда это оправдано, а когда self-play достаточно?
- Compute-scaling approach OpenAI Five работает для игр. Какие ограничения этот подход встречает при переносе в реальный мир?
Связанные уроки
- rl-07 — DQN - архитектура, с которой начался Atari прорыв
- rl-10 — PPO используется в OpenAI Five и AlphaStar
- rl-11 — AlphaGo Zero - чистый Model-Based RL с MCTS
- rl-12 — AlphaStar и OpenAI Five - multi-agent RL в сложных средах
- rl-16 — Техники из игр (sim2real, MCTS) переносятся в робототехнику
- gd-08-skinner-box