Автоматы и сознание
Общество разумов
Цели урока
- Понимать уровни Theory of Mind от реактивного (0) до Common Knowledge
- Знать как Inverse RL выводит цели агента из наблюдаемого поведения
- Понимать Nash и Stackelberg равновесия и их практические применения
- Видеть как сигнальные игры моделируют возникновение языка
- Знать CTDE как решение нестационарности в мультиагентном обучении
Предварительные знания
- Само-модели и интроспекция (aut-09-self-models)
- MDP и принятие решений (aut-04-mdp)
- Байесовский вывод и HMM (aut-03-hmm)
Шахматист думает: "Он думает, что я пойду ферзём, но он не знает, что я знаю, что он это думает". Libratus в 2016 реализовал именно это - и выиграл 1,7 миллиона долларов у профессионалов.
- **AlphaStar (2019)**: Grandmaster в StarCraft II с CTDE - десятки юнитов координируются через единую обученную политику
- **Libratus (2016)**: poker bot использует Level 2 ToM - моделирует чужую модель себя, постоянно перестраивает стратегию
- **Автономные автомобили**: системы Waymo предсказывают намерения пешеходов и водителей через Inverse RL по историческим траекториям
- **YouTube рекомендации**: IRL по 2 миллиардам пользователей - поведение декодируется в reward function для персонализации
- **OpenAI Multi-Agent Particles (2016)**: агенты выработали собственный язык координации без внешнего определения - чистые сигнальные игры
От теста Тьюринга до Theory of Mind
Тест Тьюринга (1950) проверял Theory of Mind: может ли машина симулировать убеждения и намерения человека? Термин Theory of Mind ввели Premack и Woodruff в 1978, изучая шимпанзе. Ключевой вопрос: понимает ли шимпанзе, что у человека есть цели, отличные от его собственных? Классический тест - задача Салли-Энн (1985): ребёнок до 4 лет не понимает, что другой человек может иметь неверное убеждение. После 4 лет - понимает. Это критический момент развития ToM у людей.
Theory of Mind: уровни рекурсии
**В 2016 году покерный бот Libratus обыграл четырёх профессиональных игроков в Heads-Up No-Limit Texas Hold'em, выиграв 1,7 миллиона долларов в условных фишках. Libratus не просто считал карты - он моделировал, что соперники думают о его стратегии, и систематически эксплуатировал их модели.** Theory of Mind - способность понимать, что у других агентов есть свои убеждения, желания и намерения - это фундамент социального интеллекта.
**Theory of Mind (ToM)** - способность атрибутировать психические состояния другим агентам: убеждения, желания, намерения. Термин ввели Premack и Woodruff в 1978 году, изучая шимпанзе. Вопрос: понимает ли шимпанзе, что у человека есть свои цели, отличные от его собственных?
| Уровень | Описание | Пример в ИИ |
|---|---|---|
| 0 - Реактивный | Другие агенты = объекты среды | Простой бот: видит врага - стреляет |
| 1 - Убеждения других | "Он думает X" | Poker bot: он думает, что у меня блеф |
| 2 - Модель меня | "Он думает, что я думаю Y" | Libratus: соперник думает, что я агрессивен |
| 3+ | "Он думает, что я думаю, что он..." | Переговоры, дипломатия |
| Common Knowledge | Все знают, что все знают... | Светофор, конвенции, язык |
Уровни ToM: от реактивного к рекурсивному
**Level 2 - это блеф в покере.** Игрок делает большую ставку не потому что у него хорошие карты, а потому что хочет, чтобы соперник думал, что у него хорошие карты. Это управление чужой моделью себя - ключевая операция социального интеллекта. **Common Knowledge** - предел рекурсии: "Все знают, что все знают, что все знают". Именно поэтому работают светофоры, деньги и язык.
Задача голубоглазых островитян
На острове 100 человек с голубыми глазами. Никто не говорит о цвете глаз. Правило: узнав свой цвет - покинуть остров в полночь. Турист говорит: "Я вижу человека с голубыми глазами". Все и так это знали! Но изменилось Common Knowledge: теперь все знают, что все знают, что есть голубоглазый. Через 100 ночей все уедут.
Theory of Mind - это просто эмпатия или чтение эмоций
ToM - это формальное моделирование убеждений, желаний и намерений других агентов
Эмпатия - аффективная реакция. ToM - когнитивная операция: построить модель психического состояния другого агента и использовать её для предсказания поведения. Именно поэтому ToM можно формализовать математически и реализовать в ИИ.
Игрок в покер блефует - делает большую ставку с плохими картами. Какой уровень Theory of Mind задействован?
Моделирование других агентов: Inverse RL и теория игр
**Как построить модель другого агента?** Наблюдаемые действия - проекция скрытой reward function. **Inverse Reinforcement Learning (IRL)** разворачивает задачу: по поведению выводит цели. Именно так работают системы рекомендаций YouTube - 2 миллиарда пользователей, чьи действия непрерывно декодируются в предпочтения.
**Inverse RL**: наблюдаем траектории поведения агента → выводим reward function, которую он максимизирует. Предположение: агент примерно оптимален относительно своей скрытой цели. Применения: имитационное обучение, моделирование человеческих предпочтений, автономное вождение.
Nash и Stackelberg: формализм теории игр
**Равновесие Нэша** - набор стратегий, где ни один агент не улучшит результат односторонним отклонением. Классическая дилемма заключённого показывает парадокс: индивидуально рациональное поведение ведёт к коллективно субоптимальному исходу. Оба предают (1,1) - Nash equilibrium, хотя оба молчат (3,3) лучше для обоих.
| Тип игры | Структура | Nash equilibrium |
|---|---|---|
| Дилемма заключённого | 2 игрока, кооперация или предательство | Оба предают - субоптимально |
| Игра на координацию | Выигрыш только при совпадении выборов | Несколько равновесий - проблема выбора |
| Игра с нулевой суммой | Выигрыш одного = проигрыш другого | Минимакс - единственное равновесие |
| Stackelberg | Лидер ходит первым, follower реагирует | Лидер имеет преимущество коммитмента |
Inverse RL наблюдает, что агент всегда выбирает маршрут через парк, даже если он длиннее. Какой вывод корректен?
Коммуникация: от сигналов к прагматике
**Язык возник эволюционно как координационный механизм.** В 2016 году OpenAI запустила эксперимент: агенты в среде должны координировать действия. Без каких-либо инструкций они выработали собственный "язык" - систему сигналов, которые оба интерпретируют одинаково. Сигнальные игры формализуют этот процесс.
**Сигнальная игра (Lewis 1969)**: Sender знает состояние мира, Receiver должен действовать. Sender посылает сигнал. Reward делится - оба заинтересованы в правильной интерпретации. Через повторное взаимодействие возникает конвенция: shared meaning без внешнего определения.
Прагматика: говорящий симулирует слушателя
Люди говорят не буквально: "Можешь передать соль?" - это просьба, не вопрос о способностях. **Rational Speech Act (RSA)** моделирует это математически: говорящий выбирает высказывание не по истинности, а по тому, как слушатель его поймёт. Это требует ToM уровня 1.
Schelling Points: координация без коммуникации
Томас Шеллинг (Нобелевская премия 2005) показал: если двух людей попросить встретиться в Нью-Йорке без указания места, большинство выбирают Grand Central Station в полдень. Никто не договаривался. Это Schelling Point - выделяющаяся точка, которую агенты выбирают через взаимное моделирование: "Что бы он выбрал, зная, что я выбираю то же самое?"
Агенты должны договориться о языке заранее
Язык как координационный механизм возникает эволюционно через повторное взаимодействие
Lewis (1969) формально показал: сигнальные игры с reinforcement learning сходятся к стабильным конвенциям без внешнего определения смысла. OpenAI Multi-Agent Particles (2016) воспроизвели это эмпирически. Язык - не договор, а Nash equilibrium сигнальной игры.
Почему прагматическая коммуникация требует Theory of Mind?
Мультиагентное обучение: CTDE
**AlphaStar (DeepMind, 2019) стал Grandmaster в StarCraft II, играя против людей в реальном времени с несколькими юнитами одновременно.** Это мультиагентная задача: десятки юнитов действуют параллельно, каждый видит только своё окружение. Наивный подход - запустить независимые Q-learning - ломается сразу.
**Проблема Independent Learners**: каждый агент учится как будто среда статичная. Но среда меняется, потому что другие агенты тоже учатся. Каждый видит "движущуюся мишень" - нестационарность делает Q-learning несходящимся в общем случае.
| Алгоритм | Подход | Применение |
|---|---|---|
| Independent Q-learning | Каждый учится отдельно | Простые задачи, нестационарность |
| MADDPG | CTDE с детерминированной политикой | Непрерывные действия, mixed cooperative |
| QMIX | CTDE с монотонным смешением Q-функций | Cooperative, декомпозиция reward |
| MAPPO | CTDE с proximal policy optimization | Сложные cooperative задачи, AlphaStar-уровень |
Почему Independent Q-learning нестабилен в мультиагентных средах?
Вопросы для размышления
- Когда агенту выгодно намеренно ограничить глубину своей рекурсии в Theory of Mind - например, притвориться Level 0 агентом? Как это связано с Nash equilibrium в повторяющихся играх?