Автоматы и сознание

Общество разумов

Цели урока

Понимать уровни Theory of Mind от реактивного (0) до Common Knowledge
Знать как Inverse RL выводит цели агента из наблюдаемого поведения
Понимать Nash и Stackelberg равновесия и их практические применения
Видеть как сигнальные игры моделируют возникновение языка
Знать CTDE как решение нестационарности в мультиагентном обучении

Предварительные знания

Само-модели и интроспекция (aut-09-self-models)
MDP и принятие решений (aut-04-mdp)
Байесовский вывод и HMM (aut-03-hmm)

Шахматист думает: "Он думает, что я пойду ферзём, но он не знает, что я знаю, что он это думает". Libratus в 2016 реализовал именно это - и выиграл 1,7 миллиона долларов у профессионалов.

**AlphaStar (2019)**: Grandmaster в StarCraft II с CTDE - десятки юнитов координируются через единую обученную политику
**Libratus (2016)**: poker bot использует Level 2 ToM - моделирует чужую модель себя, постоянно перестраивает стратегию
**Автономные автомобили**: системы Waymo предсказывают намерения пешеходов и водителей через Inverse RL по историческим траекториям
**YouTube рекомендации**: IRL по 2 миллиардам пользователей - поведение декодируется в reward function для персонализации
**OpenAI Multi-Agent Particles (2016)**: агенты выработали собственный язык координации без внешнего определения - чистые сигнальные игры

От теста Тьюринга до Theory of Mind

Тест Тьюринга (1950) проверял Theory of Mind: может ли машина симулировать убеждения и намерения человека? Термин Theory of Mind ввели Premack и Woodruff в 1978, изучая шимпанзе. Ключевой вопрос: понимает ли шимпанзе, что у человека есть цели, отличные от его собственных? Классический тест - задача Салли-Энн (1985): ребёнок до 4 лет не понимает, что другой человек может иметь неверное убеждение. После 4 лет - понимает. Это критический момент развития ToM у людей.

Theory of Mind: уровни рекурсии

**В 2016 году покерный бот Libratus обыграл четырёх профессиональных игроков в Heads-Up No-Limit Texas Hold'em, выиграв 1,7 миллиона долларов в условных фишках. Libratus не просто считал карты - он моделировал, что соперники думают о его стратегии, и систематически эксплуатировал их модели.** Theory of Mind - способность понимать, что у других агентов есть свои убеждения, желания и намерения - это фундамент социального интеллекта.

**Theory of Mind (ToM)** - способность атрибутировать психические состояния другим агентам: убеждения, желания, намерения. Термин ввели Premack и Woodruff в 1978 году, изучая шимпанзе. Вопрос: понимает ли шимпанзе, что у человека есть свои цели, отличные от его собственных?

Уровень	Описание	Пример в ИИ
0 - Реактивный	Другие агенты = объекты среды	Простой бот: видит врага - стреляет
1 - Убеждения других	"Он думает X"	Poker bot: он думает, что у меня блеф
2 - Модель меня	"Он думает, что я думаю Y"	Libratus: соперник думает, что я агрессивен
3+	"Он думает, что я думаю, что он..."	Переговоры, дипломатия
Common Knowledge	Все знают, что все знают...	Светофор, конвенции, язык

Уровни ToM: от реактивного к рекурсивному

**Level 2 - это блеф в покере.** Игрок делает большую ставку не потому что у него хорошие карты, а потому что хочет, чтобы соперник думал, что у него хорошие карты. Это управление чужой моделью себя - ключевая операция социального интеллекта. **Common Knowledge** - предел рекурсии: "Все знают, что все знают, что все знают". Именно поэтому работают светофоры, деньги и язык.

Задача голубоглазых островитян

На острове 100 человек с голубыми глазами. Никто не говорит о цвете глаз. Правило: узнав свой цвет - покинуть остров в полночь. Турист говорит: "Я вижу человека с голубыми глазами". Все и так это знали! Но изменилось Common Knowledge: теперь все знают, что все знают, что есть голубоглазый. Через 100 ночей все уедут.

Theory of Mind - это просто эмпатия или чтение эмоций

ToM - это формальное моделирование убеждений, желаний и намерений других агентов

Эмпатия - аффективная реакция. ToM - когнитивная операция: построить модель психического состояния другого агента и использовать её для предсказания поведения. Именно поэтому ToM можно формализовать математически и реализовать в ИИ.

Игрок в покер блефует - делает большую ставку с плохими картами. Какой уровень Theory of Mind задействован?

Моделирование других агентов: Inverse RL и теория игр

**Как построить модель другого агента?** Наблюдаемые действия - проекция скрытой reward function. **Inverse Reinforcement Learning (IRL)** разворачивает задачу: по поведению выводит цели. Именно так работают системы рекомендаций YouTube - 2 миллиарда пользователей, чьи действия непрерывно декодируются в предпочтения.

**Inverse RL**: наблюдаем траектории поведения агента → выводим reward function, которую он максимизирует. Предположение: агент примерно оптимален относительно своей скрытой цели. Применения: имитационное обучение, моделирование человеческих предпочтений, автономное вождение.

Nash и Stackelberg: формализм теории игр

**Равновесие Нэша** - набор стратегий, где ни один агент не улучшит результат односторонним отклонением. Классическая дилемма заключённого показывает парадокс: индивидуально рациональное поведение ведёт к коллективно субоптимальному исходу. Оба предают (1,1) - Nash equilibrium, хотя оба молчат (3,3) лучше для обоих.

Тип игры	Структура	Nash equilibrium
Дилемма заключённого	2 игрока, кооперация или предательство	Оба предают - субоптимально
Игра на координацию	Выигрыш только при совпадении выборов	Несколько равновесий - проблема выбора
Игра с нулевой суммой	Выигрыш одного = проигрыш другого	Минимакс - единственное равновесие
Stackelberg	Лидер ходит первым, follower реагирует	Лидер имеет преимущество коммитмента

Inverse RL наблюдает, что агент всегда выбирает маршрут через парк, даже если он длиннее. Какой вывод корректен?

Коммуникация: от сигналов к прагматике

**Язык возник эволюционно как координационный механизм.** В 2016 году OpenAI запустила эксперимент: агенты в среде должны координировать действия. Без каких-либо инструкций они выработали собственный "язык" - систему сигналов, которые оба интерпретируют одинаково. Сигнальные игры формализуют этот процесс.

**Сигнальная игра (Lewis 1969)**: Sender знает состояние мира, Receiver должен действовать. Sender посылает сигнал. Reward делится - оба заинтересованы в правильной интерпретации. Через повторное взаимодействие возникает конвенция: shared meaning без внешнего определения.

Прагматика: говорящий симулирует слушателя

Люди говорят не буквально: "Можешь передать соль?" - это просьба, не вопрос о способностях. **Rational Speech Act (RSA)** моделирует это математически: говорящий выбирает высказывание не по истинности, а по тому, как слушатель его поймёт. Это требует ToM уровня 1.

Schelling Points: координация без коммуникации

Томас Шеллинг (Нобелевская премия 2005) показал: если двух людей попросить встретиться в Нью-Йорке без указания места, большинство выбирают Grand Central Station в полдень. Никто не договаривался. Это Schelling Point - выделяющаяся точка, которую агенты выбирают через взаимное моделирование: "Что бы он выбрал, зная, что я выбираю то же самое?"

Агенты должны договориться о языке заранее

Язык как координационный механизм возникает эволюционно через повторное взаимодействие

Lewis (1969) формально показал: сигнальные игры с reinforcement learning сходятся к стабильным конвенциям без внешнего определения смысла. OpenAI Multi-Agent Particles (2016) воспроизвели это эмпирически. Язык - не договор, а Nash equilibrium сигнальной игры.

Почему прагматическая коммуникация требует Theory of Mind?

Мультиагентное обучение: CTDE

**AlphaStar (DeepMind, 2019) стал Grandmaster в StarCraft II, играя против людей в реальном времени с несколькими юнитами одновременно.** Это мультиагентная задача: десятки юнитов действуют параллельно, каждый видит только своё окружение. Наивный подход - запустить независимые Q-learning - ломается сразу.

**Проблема Independent Learners**: каждый агент учится как будто среда статичная. Но среда меняется, потому что другие агенты тоже учатся. Каждый видит "движущуюся мишень" - нестационарность делает Q-learning несходящимся в общем случае.

Алгоритм	Подход	Применение
Independent Q-learning	Каждый учится отдельно	Простые задачи, нестационарность
MADDPG	CTDE с детерминированной политикой	Непрерывные действия, mixed cooperative
QMIX	CTDE с монотонным смешением Q-функций	Cooperative, декомпозиция reward
MAPPO	CTDE с proximal policy optimization	Сложные cooperative задачи, AlphaStar-уровень

Почему Independent Q-learning нестабилен в мультиагентных средах?

Вопросы для размышления

Когда агенту выгодно намеренно ограничить глубину своей рекурсии в Theory of Mind - например, притвориться Level 0 агентом? Как это связано с Nash equilibrium в повторяющихся играх?

Связанные уроки

dist-03-fallacies