Теория игр
Игры в развёрнутой форме
«Уволю работника, если он не согласится». «Мы введём санкции, если условия не выполнят». Угрозы в переговорах - повсюду. Но не все угрозы одинаково убедительны. Развёрнутая форма и обратная индукция дают математический ответ: угроза работает только если её выгодно выполнить. Это перевернуло теорию переговоров, дипломатию и корпоративную стратегию.
- **Переговоры о зарплате:** кто делает первое предложение (якорный эффект), кто имеет BATNA лучше - всё определяется структурой дерева игры и обратной индукцией
- **Антимонопольная политика:** Entry Deterrence - модель того, почему угроза ценовой войны иногда сдерживает конкурентов, а иногда нет (зависит от credibility)
- **Покер AI (Libratus, Pluribus):** бот Carnegie Mellon победил лучших игроков в мире, решая задачу с информационными множествами через Counterfactual Regret Minimization
Предварительные знания
Дерево игры
Рассмотрим переговоры о зарплате: сначала работодатель делает предложение, потом кандидат принимает или отклоняет. Нормальная форма (матрица) не показывает, кто ходит первым. Развёрнутая форма - это дерево решений, где каждый узел - чья-то очередь ходить, каждое ребро - выбор действия, а листья - финальные выигрыши.
Определяется элементами: N - игроки, H - узлы истории, Z - терминальные узлы (листья), χ(h) - доступные действия в узле h, ρ(h) - чья очередь ходить, σ - информационные множества, u: Z → Rⁿ - выигрыши в листьях.
Ключевое отличие развёрнутой формы: она явно показывает **информацию** каждого игрока. В шахматах оба видят всю доску - это игра с совершенной информацией. В покере карты соперника скрыты - неполная информация. Структура информационных множеств принципиально меняет оптимальные стратегии.
Игра «Ультиматум» и поведенческая экономика
В эксперименте «Ультиматум» (Güth et al., 1982) игрок 1 предлагает дележ суммы, игрок 2 принимает или отклоняет (при отказе оба получают 0). Рационально: игрок 2 должен принять любое положительное предложение. На практике: предложения ниже 20-30% отвергаются. Люди готовы платить за наказание «несправедливости» - против предсказаний теории.
Нормальная и развёрнутая формы всегда дают одинаковые равновесия
Нормальная форма теряет информацию о порядке ходов - у неё может быть больше равновесий Нэша, включая «нереалистичные» угрозы. SPE доступно только в развёрнутой форме.
Равновесие совершенное по подыграм (SPE) - более сильная концепция, чем NE. Оно отсекает угрозы, которые невыгодно выполнять - и такие угрозы нельзя увидеть в матрице.
Чем развёрнутая форма игры отличается от нормальной формы (матрицы)?
Обратная индукция
Чтобы найти оптимальную стратегию в дереве игры, рассуждай с конца. В последних узлах выбор очевиден: каждый игрок выбирает действие с лучшим выигрышем. Зная это, можно «свернуть» дерево назад - предпоследние узлы решаются, зная, что будет дальше. И так до корня. Это обратная индукция (backward induction).
1. Найди все предтерминальные узлы (чьи дети - листья) 2. В каждом таком узле игрок выбирает действие с max выигрышем 3. Заменяй узел на соответствующий выигрыш 4. Повторяй до корня Результат: стратегический профиль - совершенное равновесие по подыграм (SPE).
| Пример игры | Результат обратной индукции | Интуиция |
|---|---|---|
| Ультиматум | Игрок 1 предлагает минимум, 2 принимает | Любое предложение > 0 лучше отказа |
| Bargaining Рубинштейна | Первый предлагающий получает δ-долю | Нетерпение снижает переговорную силу |
| Конечная ДЗ | Оба предают с первого хода | Backward unraveling кооперации |
Обратная индукция требует, чтобы все решения принимались рационально - включая узлы, которые никогда не будут достигнуты. Это предположение о «совершенности» отсекает «невыгодные угрозы»: обещания выполнить действие, которое иррационально для исполнителя.
Обратная индукция всегда даёт уникальное решение
При равных выигрышах в промежуточных узлах обратная индукция может давать несколько решений. Уникальность гарантирована только при строгих предпочтениях.
Если в узле два действия дают одинаковый выигрыш - оба рациональны. Это ведёт к нескольким равновесиям. Для уникальности нужна строгость предпочтений.
Обратная индукция решает дерево игры, начиная:
Равновесие совершенное по подыграм (SPE)
Нормальная форма игры «Ультиматум» имеет много равновесий Нэша: например, игрок 1 предлагает 10%, игрок 2 угрожает отвергнуть всё меньше 50%. Но это NE нереалистично: если игрок 1 всё-таки предложил 10%, игроку 2 рациональнее принять (10% > 0%). Угроза была «пустой». Равновесие совершенное по подыграм (SPE) запрещает такие угрозы.
Подыгра (subgame) - часть дерева, начинающаяся с одного узла и включающая всех его потомков. Стратегический профиль является SPE, если он является равновесием Нэша в КАЖДОЙ подыгре. SPE ⊂ NE: каждое SPE - NE, но не каждое NE - SPE.
SPE введено Рейнхардом Зельтеном (Нобель 1994) как уточнение NE для игр с последовательными ходами. Оно устраняет равновесия, основанные на «пустых угрозах» - действиях, которые игроку невыгодно выполнять, когда до них доходит очередь.
Убедительная публичная угроза всегда меняет поведение противника
Убедительность угрозы зависит от её credibility - выгодно ли её выполнять. SPE формально отсекает угрозы, которые рационально не выполнять.
Монополист может публично угрожать ценовой войной, но если конкурент знает, что война убыточна для обоих - угроза non-credible. SPE моделирует именно это рассуждение.
SPE отличается от обычного NE тем, что:
Информационные множества
В покере игрок делает ставку, не зная карт соперника. С точки зрения теории игр: игрок не может различить несколько узлов дерева - «был ли у соперника туз или нет». Такая группа неразличимых узлов называется информационным множеством. Стратегия в игре с неполной информацией - план действий для каждого информационного множества.
Совершенная информация: каждое информационное множество содержит ровно один узел - игрок знает историю точно (шахматы, Go). Несовершенная информация: есть информационные множества из нескольких узлов (покер, переговоры). SPE применимо строго только к совершенной информации. Для несовершенной - Perfect Bayesian Equilibrium (PBE).
Информационные множества объясняют, почему блеф в покере рационален. Если игрок ставит только с сильной рукой - соперник всегда сбрасывает при ставке. Оптимальная стратегия: иногда блефовать с нужной частотой, чтобы соперник был безразличен между call и fold. Это классическое смешанное равновесие.
Игра с «закрытыми картами» не может быть формально решена теорией игр
Игры с несовершенной информацией решаются через Perfect Bayesian Equilibrium или NE в смешанных стратегиях. Именно так работают современные покерные боты.
Libratus и Pluribus решают покер через аппроксимацию NE методом Counterfactual Regret Minimization - полностью в рамках теории игр с информационными множествами.
Что такое информационное множество в развёрнутой форме игры?
Ключевые идеи
- **Развёрнутая форма (дерево игры)** явно моделирует порядок ходов и информацию каждого игрока
- **Обратная индукция:** решение от листьев к корню - находит оптимальную стратегию в играх с совершенной информацией
- **SPE:** запрещает «нереалистичные угрозы» - действия, невыгодные к исполнению в соответствующей подыгре
- **Информационные множества:** моделируют неполную информацию; блеф в покере - рациональное смешанное равновесие
Связанные темы
Развёрнутая форма - основа для анализа последовательных переговоров и механизмов:
- Равновесие Нэша — SPE - уточнение NE для игр с порядком ходов
- Mechanism Design — Механизмы часто используют последовательные ходы и revelation principle
- Теория аукционов — Аукционы - игры с заявками при неполной информации о ценности соперников
Вопросы для размышления
- Рубинштейновский торг показывает: чем более нетерпелив игрок (высокий дисконт будущего), тем слабее его позиция на переговорах. Как это применимо к реальным переговорам о зарплате или сделкам M&A?
- «Пустые угрозы» в дипломатии - частое явление. Можно ли привести примеры, когда угроза оказалась non-credible? Почему это произошло?
- Покер - игра с несовершенной информацией. Почему человек-профессионал может иметь преимущество над простым ботом, но проигрывает Libratus? Что именно делает AI-бот принципиально по-другому?