Теория игр
Эволюционная теория игр
1973 год: Джон Мэйнард Смит берёт концепции из экономики и применяет их к биологии - без предположения рациональности. Результат: популяции «решают» задачи оптимизации, которые не под силу отдельным особям. Ястребы и голуби сосуществуют не случайно - это математически устойчивое равновесие, где мутант-отклонение всегда проигрывает.
- **Биология поведения:** агрессия, территориальность, брачные ритуалы, альтруизм - всё предсказывается через ESS без предположения «осознанного выбора» у животных
- **Multi-agent RL:** обучение нескольких RL-агентов в одной среде - нестационарная задача. Понимание репликаторной динамики помогает дизайнить алгоритмы, которые сходятся
- **Финансовые рынки:** популяция торговых стратегий (momentum, value, arbitrage) подчиняется эволюционной динамике - прибыльные копируются, убыточные уходят
Предварительные знания
Эволюционно стабильная стратегия (ESS)
Рассмотрим популяцию птиц. Большинство - «голуби» (мирные). Появляется мутант-«ястреб» (агрессивный). Может ли он захватить популяцию? Это зависит от того, выгодно ли быть ястребом в мире голубей - и голубем в мире ястребов. ESS (Evolutionarily Stable Strategy) - стратегия, которую мутанты не могут вытеснить: если большинство играет ESS, редкий мутант проигрывает.
Стратегия I является ESS, если для каждой мутантной стратегии J ≠ I выполняется одно из: 1. u(I, I) > u(J, I) - I лучше J против населения из I 2. u(I, I) = u(J, I) AND u(I, J) > u(J, J) - ничья против I, но I лучше против J ESS ⊆ NE: каждая ESS - NE, но не каждое NE - ESS.
В игре Ястреб-Голубь ни чистая Hawk, ни чистая Dove не является ESS. ESS - смешанная стратегия: доля ястребов p* = v/c. При v=4, c=6: p* = 2/3. Это **стабильный полиморфизм** - в популяции сосуществуют ястребы и голуби. Эволюция «находит» то же равновесие, что и рациональный расчёт!
Джон Мейнард Смит и революция в биологии
Джон Мейнард Смит и Джордж Прайс ввели ESS в 1973 году как способ анализировать поведение животных без предположения рациональности. Вместо «агент выбирает стратегию» - «стратегии размножаются/вымирают в зависимости от успешности». Это объединило теорию игр и эволюционную биологию, изменив понимание ритуальных конфликтов, брачных демонстраций и кооперации.
Эволюционная теория игр применима только к биологии
ESS и репликаторная динамика применяются в экономике (эволюция норм), CS (обучение с подкреплением), социологии (эволюция культурных практик), финансах (эволюция торговых стратегий).
Эволюционная динамика - любой процесс, где успешные стратегии «воспроизводятся». Это относится к фирмам (выжившие копируют прибыльных), алгоритмам (RL), культурам (имитация).
Стратегия I является ESS, если:
Репликаторная динамика
ESS говорит, куда система сойдётся в конечном итоге. Репликаторная динамика описывает, как она туда движется. Идея проста: стратегия размножается быстрее, если её приспособленность выше средней. Это дифференциальное уравнение для доли каждой стратегии в популяции - эволюционный аналог gradient ascent.
Для стратегий {1,...,k} с долями x = (x₁,...,xₖ): dxᵢ/dt = xᵢ · [f(i, x) - φ(x)] где f(i, x) = Σⱼ xⱼ · u(i, j) - приспособленность стратегии i, φ(x) = Σᵢ xᵢ · f(i, x) - средняя приспособленность. Свойство: равновесия репликатора = NE игры. ESS = асимптотически устойчивые точки.
Репликаторная динамика - непрерывная аппроксимация эволюционного отбора. Она имеет прямую связь с алгоритмами машинного обучения: Multiplicative Weights Update (MWU) и некоторые алгоритмы обучения с подкреплением - дискретные версии репликаторной динамики. Онлайн-обучение «открыло» теорию игр с обратной стороны.
Репликаторная динамика всегда сходится к ESS
Репликаторная динамика сходится к NE, не обязательно к ESS. Некоторые NE - нестабильные точки репликатора; от них динамика убегает.
ESS - асимптотически устойчивые равновесия репликатора. Устойчивое NE, но не ESS, будет достигнуто только при точном старте в этой точке.
Что описывает репликаторное уравнение dxᵢ/dt = xᵢ · [f(i,x) - φ(x)]?
Игра Ястреб-Голубь и полиморфизм
Игра Ястреб-Голубь - самый важный пример эволюционной теории игр. Ястреб атакует всегда и рискует получить травму. Голубь отступает перед ястребом, но мирно делит ресурс с другим голубем. Если ресурс ценнее риска - только ястребы, дорогая цена конфликта - только голуби. Но обычно оба сосуществуют в равновесии.
Матрица (для одного игрока): Ресурс v, стоимость травмы c H D H (v-c)/2 v D 0 v/2 Если v < c (конфликт дорог): единственное ESS - смешанная стратегия p* = v/c ястребов. Если v > c (конфликт дёшев): ESS = все ястребы (AllH). При p* в популяции выгода H = выгода D - маргинальный отбор равен нулю.
Полиморфизм (сосуществование стратегий) - одно из ключевых предсказаний эволюционной теории игр. В биологии: разные стратегии спаривания у самцов рыб (агрессивные альфа и «прячущиеся» бета). В поведенческой экономике: разные стратегии доверия и недоверия в экономических экспериментах. Одна стратегия редко «победит» - часто устойчив полиморфизм.
Эволюция всегда ведёт к наилучшему результату для группы
Эволюция оптимизирует индивидуальную приспособленность, не групповое благо. ESS в игре Ястреб-Голубь - не социальный оптимум: все голуби получали бы больший суммарный выигрыш.
Групповой отбор (отбор на уровне групп) слаб по сравнению с индивидуальным. Именно поэтому альтруизм, сотрудничество и снижение конкурентности требуют особых механизмов (родственный отбор, репутация).
В игре Ястреб-Голубь при v < c (конфликт дороже ресурса), каково ESS?
Динамика популяций и мультиагентные системы
Эволюционная теория игр описывает не только биологические популяции. Любая система, где стратегии «размножаются» по успеху - рынок фирм, пул торговых алгоритмов, А/Б тесты в продукте, обучение с подкреплением - подчиняется той же динамике. Это делает ESS и репликаторные уравнения инструментами для анализа многоагентных систем.
Multiplicative Weights Update (MWU): wᵢ(t+1) = wᵢ(t) · exp(η · rᵢ(t)) Это дискретная версия репликаторной динамики! При η → 0, непрерывное время → репликаторное уравнение. Q-learning, Cross learning, и многие online алгоритмы - варианты этой динамики. В мультиагентных системах их взаимодействие анализируется через эволюционную теорию игр.
| Область | Аналог ESS | Репликаторная динамика |
|---|---|---|
| Биология | Стабильные фенотипы | Генетический дрейф + отбор |
| Экономика | Доминирующие рыночные стратегии | Имитация прибыльных фирм |
| ML (Multi-Agent RL) | Nash Equilibrium политики | Policy gradient, Q-learning |
| Культура | Устойчивые нормы поведения | Распространение через имитацию |
Ключевой вопрос для многоагентных систем: сходится ли популяция к ESS, циклически осциллирует или хаотична? В играх с нулевой суммой (RPS: камень-ножницы-бумага) репликаторная динамика порождает постоянные циклы. В играх с координацией - быстрая сходимость к ESS. Это важно для дизайна RL алгоритмов в мультиагентных средах.
В мультиагентном обучении алгоритмы всегда сходятся к Nash Equilibrium
Большинство стандартных RL алгоритмов в мультиагентных играх НЕ сходятся к NE - они циклируют, расходятся или сходятся к другим точкам.
Только специальные алгоритмы (CFR, MCTS с модификациями, PSRO) гарантируют сходимость к NE. Стандартный Q-learning или Policy Gradient в multi-agent среде ведёт себя как нестационарная среда для каждого агента.
Multiplicative Weights Update (MWU) в машинном обучении - это:
Ключевые идеи
- **ESS:** стратегия устойчива против мутантов - эволюционный аналог NE, но более строгий
- **Репликаторная динамика:** dx/dt = x·(f - φ) - успешные стратегии размножаются быстрее средней
- **Игра Ястреб-Голубь:** ESS - полиморфизм p* = v/c ястребов; эволюция не ведёт к социальному оптимуму
- **MWU = репликаторная динамика:** онлайн-алгоритмы ML - дискретная версия эволюционной динамики
Связанные темы
Эволюционная теория игр соединяет биологию, ML и экономику:
- Дилемма заключённого — Эволюция кооперации через повторяемые игры и репликаторную динамику
- Algorithmic Game Theory — Price of Anarchy в системах с эволюционирующими агентами
- Теория игр в ML — GAN training и multi-agent RL через линзу эволюционной теории
Вопросы для размышления
- Если торговые алгоритмы на рынке следуют репликаторной динамике (прибыльные копируются), к чему должен сойтись рынок по теории? Почему на практике этого не происходит?
- В командах разработки тоже происходит «эволюция практик»: успешные инженеры копируют подходы успешных коллег. Это репликаторная динамика? Какое ESS здесь?
- Multi-agent RL часто нестабилен и не сходится к NE. Какие архитектурные решения (централизованное обучение, коммуникация, shared reward) помогают? Как ESS связано с этим?