Обучение с подкреплением

RL для игр: Atari - AlphaGo

Предварительные знания

Deep Q-Networks: value-based архитектура за прорывом на Atari
Policy gradient и PPO, алгоритм в OpenAI Five и AlphaStar
Model-based RL и Monte Carlo Tree Search, ядро планирования AlphaZero
Multi-agent RL и self-play, среда для league training

От пикселей Atari к ходу 37 AlphaGo

Игры стали полигоном для deep RL в плотном шестилетнем рывке. В 2013 году Volodymyr Mnih с коллегами в DeepMind опубликовали DQN, научившись играть в игры Atari напрямую из пикселей единой архитектурой, а затем расширили подход в статье Nature 2015 года, охватившей 49 игр. В 2016 году команда David Silver построила AlphaGo, который обыграл чемпиона мира Lee Sedol со счётом 4-1, и эксперты ожидали такого результата лишь через десятилетие, учитывая огромное пространство состояний го. Продолжения 2017 года, AlphaGo Zero и AlphaZero, полностью убрали человеческие данные, обучаясь сверхчеловеческой игре в го, шахматы и сёги только через self-play. К 2019 году фронтир сместился к играм с неполной информацией в реальном времени: AlphaStar достиг уровня Grandmaster в StarCraft II, а OpenAI Five обыграл чемпионов мира по Dota 2, команду OG.

2016 год. Ли Седоль - один из лучших игроков в Го в мире - проигрывает AlphaGo ход 37 в партии 2. Это ход, который ни один человек не сыграл бы. Ход, который изменил понимание стратегии Го. Ход, который сгенерировала нейросеть, обученная только на самой себе.

**AlphaFold 2** - тот же AlphaGo принцип (self-play через predicted structures vs. reality) применён к свёртыванию белков: решает 50-летнюю биологическую задачу
**Tesla FSD** использует MCTS-подобное планирование для autonomous driving: RL агент, обученный на симуляции, управляет реальной машиной
**OpenAI Codex/Copilot** - RL из human feedback (code review) как аналог лиги AlphaStar: люди-эксперты выступают как оппоненты/судьи

Atari: DQN и рождение Deep RL

2013 год. DeepMind публикует Playing Atari with Deep Reinforcement Learning. Один агент, одна архитектура, без feature engineering - и он побеждает предыдущий state of the art на 7 из 9 игр Atari. Это не просто результат. Это смена парадигмы.

DQN (Deep Q-Network): нейросеть принимает 84x84 пиксели экрана, выдаёт Q-значения для каждого действия. Два трюка, которые сделали это возможным: Experience Replay (хранить миллион переходов, обучаться на случайных батчах) и Target Network (замороженная копия для стабильных таргетов).

Montezuma's Revenge оказалась ахиллесовой пятой DQN: sparse rewards + long-horizon planning = агент застревал в начале. Это мотивировало целую волну исследований: curiosity-driven exploration (Pathak, 2017), Go-Explore (Ecoffet, 2021), которые наконец решили её.

Зачем DQN использует Experience Replay?

AlphaGo/AlphaZero: самообучение с нуля

2016 год. AlphaGo побеждает Ли Седоля 4:1. Это не просто победа в игре. Го - пространство состояний порядка 10^170, игра считалась недоступной для AI ещё минимум 10 лет. AlphaGo использовал три компонента: supervised learning на человеческих партиях, policy gradient RL, и MCTS с neural network guidance.

AlphaGo Zero (2017) - радикальное упрощение: никаких человеческих данных вообще. Только self-play с нуля. Через 40 дней обучения побил AlphaGo 100:0. AlphaZero обобщил подход на шахматы и сёги - превзошёл Stockfish и Elmo, обучаясь без знания правил, кроме легальных ходов.

MuZero (2020) - следующий шаг: агент не знает правил игры вообще. Он строит latent model среды в процессе. Это Model-Based RL в полном смысле. MuZero побеждает AlphaZero в Го и Atari одновременно - один алгоритм без domain knowledge.

В чём ключевое отличие AlphaGo Zero от AlphaGo?

AlphaStar: реальное время и неполная информация

StarCraft II - принципиально другой класс задач: real-time, частичная наблюдаемость (туман войны), тысячи юнитов, горизонт 10,000+ шагов. AlphaGo планирует в ограниченном дереве; AlphaStar должен управлять 200+ юнитами одновременно в реальном времени.

Ключевой инсайт AlphaStar: multi-agent league training. Вместо самоиграния две копии агента, создаётся лига из специализированных агентов: Main Agent (максимизирует win rate), League Exploiter (ищет слабости лиги), Main Exploiter (специализируется против Main Agent). Постоянная ко-эволюция.

AlphaStar побил профессиональных игроков уровня Grandmaster в 2019. Но был замечен спорный момент: APM (Actions Per Minute) ограничивали, но camera movements - нет. Человеческие игроки ограничены скоростью перемещения камеры. DeepMind добавил это ограничение в финальной версии.

Зачем AlphaStar использует лигу агентов (league training) вместо обычного self-play?

OpenAI Five: масштаб побеждает сложность

Dota 2 - ещё сложнее StarCraft: 5v5, координация команды, более 100 героев с уникальными способностями, непрерывное пространство действий. В 2019 году OpenAI Five побил чемпионов мира OG на турнире. Ставки: USD 1M приз, публичная демонстрация.

Главный инсайт OpenAI Five: масштаб compute. 180 лет опыта игры в сутки через 128,000 CPU ядер + 256 GPU. PPO как алгоритм - стандартный. Никакого экзотического RL. Просто больше compute, чем у любого предыдущего RL проекта в два порядка.

Population Based Training (PBT) - метод автонастройки гиперпараметров в процессе обучения. Множество моделей обучаются параллельно; слабые периодически копируют параметры сильных с небольшой мутацией. OpenAI Five использовал PBT для адаптации learning rate и entropy coefficient в ходе тренировки.

RL для игр требует специфической архитектуры под каждую игру

Общие алгоритмы (PPO, MCTS + нейросеть) с достаточным масштабом compute решают игры championship-уровня

AlphaZero одним алгоритмом превзошёл чемпионов в Го, шахматах и сёги. OpenAI Five стандартным PPO победил чемпионов Dota. Generalizable алгоритмы + compute - формула успеха, а не domain-specific tricks

Какой инсайт является главным уроком OpenAI Five?

Связанные темы

Game RL - полигон для алгоритмов, которые переносятся в реальный мир:

Deep Q-Network (DQN) — Архитектура, с которой начался Atari прорыв
Multi-Agent RL — AlphaStar и OpenAI Five - flagship multi-agent системы
RL для робототехники — Техники из игр (sim2real, MCTS) применяются в роботах

Ключевые идеи

**DQN (2013)** запустил Deep RL революцию: пиксели в действия через CNN + Experience Replay + Target Network
**AlphaZero (2017)** показал: self-play без человеческих данных превосходит все человеческие знания при достаточном compute
**AlphaStar** решил partial observability и real-time через league training - разнообразие оппонентов предотвращает cycling
**OpenAI Five** доказал: стандартный PPO + масштаб compute (180 лет опыта/день) решает championship-level задачи

Вопросы для размышления

Почему AlphaGo Zero смог превзойти всех людей без использования человеческих данных? Что это говорит о природе экспертного знания?
League training в AlphaStar требует многократно больше ресурсов. Когда это оправдано, а когда self-play достаточно?
Compute-scaling approach OpenAI Five работает для игр. Какие ограничения этот подход встречает при переносе в реальный мир?

Связанные уроки

rl-07 — DQN - архитектура, с которой начался Atari прорыв
rl-10 — PPO используется в OpenAI Five и AlphaStar
rl-11 — AlphaGo Zero - чистый Model-Based RL с MCTS
rl-12 — AlphaStar и OpenAI Five - multi-agent RL в сложных средах
rl-16 — Техники из игр (sim2real, MCTS) переносятся в робототехнику
gd-08-skinner-box