Автоматы и сознание
Зеркало разума: само-модели агентов
Цели урока
- Понимать уровни само-моделирования от реактивного до мета-когнитивного
- Реализовать калибровку уверенности и вычислять ECE
- Различать алеаторную и эпистемическую неопределённость и выбирать метод оценки
- Применять интроспективный цикл (Chain-of-Thought, Self-Refine) в агентах
Предварительные знания
- MDP и принятие решений под неопределённостью
- Мета-обучение: обучение того как учиться
- Базовые концепции нейросетей и softmax
GPT-4 галлюцинирует в 20% фактических ответов с одинаковой уверенностью. Chain-of-Thought исправляет это на 39 п.п. без переобучения. Механизм - само-модель.
- **OpenAI GPT-4 (2023)** - temperature scaling снижает ECE модели с 0.12 до 0.04 за один post-hoc шаг
- **DeepMind AlphaCode** - модель оценивает уверенность в каждом сгенерированном решении и выбирает топ-k для submission
- **Tesla Autopilot** - система явно моделирует границы своих способностей и передаёт управление при epistemic uncertainty выше порога
- **Anthropic Constitutional AI** - Claude использует само-критику по списку принципов перед финальным ответом
- **Meta Llama-3** - встроенная калибровка через RLHF снизила частоту overconfident галлюцинаций на 34%
От 'Познай себя' до Machine Metacognition
"Познай себя" было начертано при входе в храм Аполлона в Дельфах. В 1979 году психолог Джон Флавелл ввёл термин метакогниция - знание о собственном знании. В 2022 году Wei et al. показали что Chain-of-Thought - форма машинной метакогниции: языковая модель, делающая мышление явным, получает возможность его проверить. За 2400 лет от философии к инженерии.
Уровни само-моделирования
**GPT-4 генерирует уверенные ответы в 96% случаев - даже когда ошибается.** Stanford HAI, 2023: языковые модели без механизма само-оценки галлюцинируют примерно в 20% ответов на фактические вопросы, не подавая никакого сигнала о неуверенности. Это не проблема данных или архитектуры - это отсутствие само-модели. Агент с само-моделью знает что умеет, что знает и где ошибается.
**Само-модель** - внутреннее представление агента о самом себе: своих способностях, ограничениях, текущих знаниях и типичных паттернах ошибок. Это не рефлексия ради рефлексии - это механизм управления качеством решений.
| Уровень | Название | Что умеет | Пример |
|---|---|---|---|
| 0 | Реактивный | Только стимул -> реакция | Термостат, простой чат-бот |
| 1 | Со состоянием | Помнит историю взаимодействий | Агент с памятью разговора |
| 2 | Само-модель | Явно представляет свои способности и ограничения | LLM с uncertainty estimation |
| 3 | Мета-когнитивный | Моделирует и оптимизирует процесс своего мышления | Chain-of-Thought + self-critique |
Архитектура агента с само-моделью
Само-модель - это рефлексия ради рефлексии, философский концепт без практической ценности
Само-модель - это инженерный механизм управления качеством: агент знает когда отказаться от ответа или запросить помощь
Без само-модели агент не может отличить области уверенного знания от слепых пятен. Результат: одинаково уверенные правильные и галлюцинированные ответы. Именно это наблюдается в GPT без retrieval augmentation.
Агент уровня 1 (со состоянием) отличается от агента уровня 2 (само-модель) тем, что:
Калибровка уверенности
**OpenAI внутреннее исследование 2022: GPT-3 говорил "я уверен" в 91% случаев, но был прав только в 71%.** Это перекалиброванность (overconfidence) - системная ошибка само-оценки. Идеально калиброванный агент, который говорит "я на 70% уверен", должен быть прав ровно в 70% таких случаев.
Calibration curve: плохо vs хорошо
Плохо (overconfident): говорит "90% уверен" -> прав в 60% случаев. Говорит "70% уверен" -> прав в 55% случаев. Кривая лежит ниже диагонали. Хорошо (калиброван): говорит "90% уверен" -> прав в 89-91% случаев. Говорит "50% уверен" -> прав в 48-52% случаев. Кривая совпадает с диагональю. ECE (Expected Calibration Error) = взвешенное среднее отклонений от диагонали. ECE < 0.05 считается хорошей калибровкой.
| Метод калибровки | Как работает | Когда применять |
|---|---|---|
| Temperature Scaling | Делит логиты на T перед softmax | Post-hoc, один параметр - просто |
| Platt Scaling | Логистическая регрессия поверх выходов | Бинарная классификация |
| Isotonic Regression | Монотонное нелинейное преобразование | Достаточно данных для подбора |
| MC Dropout | Inference с включённым dropout, N forward passes | Оценка epistemic uncertainty |
Высокая уверенность модели означает высокое качество
Качество определяется калибровкой: соответствием заявленной уверенности реальной точности
Модель обученная на imbalanced данных или с агрессивной RLHF-настройкой часто становится overconfident. Temperature scaling за 30 минут исправляет ECE с 0.15 до 0.03 без переобучения.
Модель говорит "80% уверен" в 100 разных вопросах. При хорошей калибровке сколько ответов должны быть правильными?
Два типа неопределённости
**В медицинской диагностике ИИ разница между двумя типами неопределённости буквально жизнь и смерть.** Если модель не уверена потому что у пациента редкая болезнь (epistemic - можно собрать больше данных) - нужно больше анализов. Если не уверена потому что биологический процесс стохастичен (aleatoric - неустранимо) - нужно принять вероятностное решение. Смешивать эти два типа нельзя.
| Тип | Название | Источник | Можно уменьшить? | Пример |
|---|---|---|---|---|
| Алеаторная | Случайность в мире | Стохастичность данных | Нет | Бросок монеты, квантовые эффекты |
| Эпистемическая | Незнание модели | Недостаток обучающих данных | Да - больше данных | Редкая болезнь, новый домен |
**Практическое правило:** собирать больше данных имеет смысл только при высокой epistemic uncertainty. При высокой aleatoric - данных уже достаточно, задача принципиально стохастична. Путать эти типы = тратить ресурсы впустую.
Модель прогнозирует цену акции следующего дня. Какой тип неопределённости доминирует и почему?
Интроспективный цикл и само-симуляция
**Chain-of-Thought (Wei et al., NeurIPS 2022) улучшил точность GPT-3 на математических задачах с 18% до 57% - просто добавив экстернализованное рассуждение.** Это форма интроспекции: делая мышление явным, модель получает возможность его проверить и скорректировать. Интроспективный цикл - это архитектурный паттерн, реализующий рефлексию как системный механизм.
**Self-Refine (Madaan et al., NeurIPS 2023):** итеративная само-критика без дополнительного обучения. Модель генерирует ответ, затем критикует его, затем улучшает. На задачах кодирования улучшение составило 13.5 процентных пункта над базовым GPT-4.
| Техника | Суть | Улучшение | Применение |
|---|---|---|---|
| Chain-of-Thought | Явное рассуждение пошагово | +39 п.п. math (GPT-3) | Логика, математика |
| Self-Refine | Генерация -> критика -> улучшение | +13.5 п.п. code (GPT-4) | Код, эссе, решение задач |
| Constitutional AI | RLHF с само-критикой по принципам | -57% вредных ответов | Safety, alignment |
| Reflexion | Вербальное подкрепление через рефлексию | +20% HotpotQA | Многошаговые задачи |
Само-рефлексия агента - это просто повторный запрос той же задачи
Интроспективный цикл - это структурированный процесс с явной само-критикой, откатом при ошибках и обновлением само-модели по результатам
Простое повторение без механизма проверки даёт похожий ответ с похожими ошибками. Self-Refine работает именно потому, что включает критику с конкретными вопросами к качеству рассуждения.
Chain-of-Thought повысил точность на математических задачах с 18% до 57%. Что является основным механизмом этого улучшения?
Вопросы для размышления
- Агент знает что его epistemic uncertainty по теме X высока. Какие три действия он должен предпринять вместо уверенного ответа - и как это реализовать технически?