Автоматы и сознание

Зеркало разума: само-модели агентов

Цели урока

Понимать уровни само-моделирования от реактивного до мета-когнитивного
Реализовать калибровку уверенности и вычислять ECE
Различать алеаторную и эпистемическую неопределённость и выбирать метод оценки
Применять интроспективный цикл (Chain-of-Thought, Self-Refine) в агентах

Предварительные знания

MDP и принятие решений под неопределённостью
Мета-обучение: обучение того как учиться
Базовые концепции нейросетей и softmax

GPT-4 галлюцинирует в 20% фактических ответов с одинаковой уверенностью. Chain-of-Thought исправляет это на 39 п.п. без переобучения. Механизм - само-модель.

**OpenAI GPT-4 (2023)** - temperature scaling снижает ECE модели с 0.12 до 0.04 за один post-hoc шаг
**DeepMind AlphaCode** - модель оценивает уверенность в каждом сгенерированном решении и выбирает топ-k для submission
**Tesla Autopilot** - система явно моделирует границы своих способностей и передаёт управление при epistemic uncertainty выше порога
**Anthropic Constitutional AI** - Claude использует само-критику по списку принципов перед финальным ответом
**Meta Llama-3** - встроенная калибровка через RLHF снизила частоту overconfident галлюцинаций на 34%

От 'Познай себя' до Machine Metacognition

"Познай себя" было начертано при входе в храм Аполлона в Дельфах. В 1979 году психолог Джон Флавелл ввёл термин метакогниция - знание о собственном знании. В 2022 году Wei et al. показали что Chain-of-Thought - форма машинной метакогниции: языковая модель, делающая мышление явным, получает возможность его проверить. За 2400 лет от философии к инженерии.

Уровни само-моделирования

**GPT-4 генерирует уверенные ответы в 96% случаев - даже когда ошибается.** Stanford HAI, 2023: языковые модели без механизма само-оценки галлюцинируют примерно в 20% ответов на фактические вопросы, не подавая никакого сигнала о неуверенности. Это не проблема данных или архитектуры - это отсутствие само-модели. Агент с само-моделью знает что умеет, что знает и где ошибается.

**Само-модель** - внутреннее представление агента о самом себе: своих способностях, ограничениях, текущих знаниях и типичных паттернах ошибок. Это не рефлексия ради рефлексии - это механизм управления качеством решений.

Уровень	Название	Что умеет	Пример
0	Реактивный	Только стимул -> реакция	Термостат, простой чат-бот
1	Со состоянием	Помнит историю взаимодействий	Агент с памятью разговора
2	Само-модель	Явно представляет свои способности и ограничения	LLM с uncertainty estimation
3	Мета-когнитивный	Моделирует и оптимизирует процесс своего мышления	Chain-of-Thought + self-critique

Архитектура агента с само-моделью

Само-модель - это рефлексия ради рефлексии, философский концепт без практической ценности

Само-модель - это инженерный механизм управления качеством: агент знает когда отказаться от ответа или запросить помощь

Без само-модели агент не может отличить области уверенного знания от слепых пятен. Результат: одинаково уверенные правильные и галлюцинированные ответы. Именно это наблюдается в GPT без retrieval augmentation.

Агент уровня 1 (со состоянием) отличается от агента уровня 2 (само-модель) тем, что:

Калибровка уверенности

**OpenAI внутреннее исследование 2022: GPT-3 говорил "я уверен" в 91% случаев, но был прав только в 71%.** Это перекалиброванность (overconfidence) - системная ошибка само-оценки. Идеально калиброванный агент, который говорит "я на 70% уверен", должен быть прав ровно в 70% таких случаев.

Calibration curve: плохо vs хорошо

Плохо (overconfident): говорит "90% уверен" -> прав в 60% случаев. Говорит "70% уверен" -> прав в 55% случаев. Кривая лежит ниже диагонали. Хорошо (калиброван): говорит "90% уверен" -> прав в 89-91% случаев. Говорит "50% уверен" -> прав в 48-52% случаев. Кривая совпадает с диагональю. ECE (Expected Calibration Error) = взвешенное среднее отклонений от диагонали. ECE < 0.05 считается хорошей калибровкой.

Метод калибровки	Как работает	Когда применять
Temperature Scaling	Делит логиты на T перед softmax	Post-hoc, один параметр - просто
Platt Scaling	Логистическая регрессия поверх выходов	Бинарная классификация
Isotonic Regression	Монотонное нелинейное преобразование	Достаточно данных для подбора
MC Dropout	Inference с включённым dropout, N forward passes	Оценка epistemic uncertainty

Высокая уверенность модели означает высокое качество

Качество определяется калибровкой: соответствием заявленной уверенности реальной точности

Модель обученная на imbalanced данных или с агрессивной RLHF-настройкой часто становится overconfident. Temperature scaling за 30 минут исправляет ECE с 0.15 до 0.03 без переобучения.

Модель говорит "80% уверен" в 100 разных вопросах. При хорошей калибровке сколько ответов должны быть правильными?

Два типа неопределённости

**В медицинской диагностике ИИ разница между двумя типами неопределённости буквально жизнь и смерть.** Если модель не уверена потому что у пациента редкая болезнь (epistemic - можно собрать больше данных) - нужно больше анализов. Если не уверена потому что биологический процесс стохастичен (aleatoric - неустранимо) - нужно принять вероятностное решение. Смешивать эти два типа нельзя.

Тип	Название	Источник	Можно уменьшить?	Пример
Алеаторная	Случайность в мире	Стохастичность данных	Нет	Бросок монеты, квантовые эффекты
Эпистемическая	Незнание модели	Недостаток обучающих данных	Да - больше данных	Редкая болезнь, новый домен

**Практическое правило:** собирать больше данных имеет смысл только при высокой epistemic uncertainty. При высокой aleatoric - данных уже достаточно, задача принципиально стохастична. Путать эти типы = тратить ресурсы впустую.

Модель прогнозирует цену акции следующего дня. Какой тип неопределённости доминирует и почему?

Интроспективный цикл и само-симуляция

**Chain-of-Thought (Wei et al., NeurIPS 2022) улучшил точность GPT-3 на математических задачах с 18% до 57% - просто добавив экстернализованное рассуждение.** Это форма интроспекции: делая мышление явным, модель получает возможность его проверить и скорректировать. Интроспективный цикл - это архитектурный паттерн, реализующий рефлексию как системный механизм.

**Self-Refine (Madaan et al., NeurIPS 2023):** итеративная само-критика без дополнительного обучения. Модель генерирует ответ, затем критикует его, затем улучшает. На задачах кодирования улучшение составило 13.5 процентных пункта над базовым GPT-4.

Техника	Суть	Улучшение	Применение
Chain-of-Thought	Явное рассуждение пошагово	+39 п.п. math (GPT-3)	Логика, математика
Self-Refine	Генерация -> критика -> улучшение	+13.5 п.п. code (GPT-4)	Код, эссе, решение задач
Constitutional AI	RLHF с само-критикой по принципам	-57% вредных ответов	Safety, alignment
Reflexion	Вербальное подкрепление через рефлексию	+20% HotpotQA	Многошаговые задачи

Само-рефлексия агента - это просто повторный запрос той же задачи

Интроспективный цикл - это структурированный процесс с явной само-критикой, откатом при ошибках и обновлением само-модели по результатам

Простое повторение без механизма проверки даёт похожий ответ с похожими ошибками. Self-Refine работает именно потому, что включает критику с конкретными вопросами к качеству рассуждения.

Chain-of-Thought повысил точность на математических задачах с 18% до 57%. Что является основным механизмом этого улучшения?

Вопросы для размышления

Агент знает что его epistemic uncertainty по теме X высока. Какие три действия он должен предпринять вместо уверенного ответа - и как это реализовать технически?

Связанные уроки

ml-01-intro