Автоматы и сознание

Зеркало разума: само-модели агентов

Цели урока

  • Понимать уровни само-моделирования от реактивного до мета-когнитивного
  • Реализовать калибровку уверенности и вычислять ECE
  • Различать алеаторную и эпистемическую неопределённость и выбирать метод оценки
  • Применять интроспективный цикл (Chain-of-Thought, Self-Refine) в агентах

Предварительные знания

  • MDP и принятие решений под неопределённостью
  • Мета-обучение: обучение того как учиться
  • Базовые концепции нейросетей и softmax

GPT-4 галлюцинирует в 20% фактических ответов с одинаковой уверенностью. Chain-of-Thought исправляет это на 39 п.п. без переобучения. Механизм - само-модель.

  • **OpenAI GPT-4 (2023)** - temperature scaling снижает ECE модели с 0.12 до 0.04 за один post-hoc шаг
  • **DeepMind AlphaCode** - модель оценивает уверенность в каждом сгенерированном решении и выбирает топ-k для submission
  • **Tesla Autopilot** - система явно моделирует границы своих способностей и передаёт управление при epistemic uncertainty выше порога
  • **Anthropic Constitutional AI** - Claude использует само-критику по списку принципов перед финальным ответом
  • **Meta Llama-3** - встроенная калибровка через RLHF снизила частоту overconfident галлюцинаций на 34%

От 'Познай себя' до Machine Metacognition

"Познай себя" было начертано при входе в храм Аполлона в Дельфах. В 1979 году психолог Джон Флавелл ввёл термин метакогниция - знание о собственном знании. В 2022 году Wei et al. показали что Chain-of-Thought - форма машинной метакогниции: языковая модель, делающая мышление явным, получает возможность его проверить. За 2400 лет от философии к инженерии.

Уровни само-моделирования

**GPT-4 генерирует уверенные ответы в 96% случаев - даже когда ошибается.** Stanford HAI, 2023: языковые модели без механизма само-оценки галлюцинируют примерно в 20% ответов на фактические вопросы, не подавая никакого сигнала о неуверенности. Это не проблема данных или архитектуры - это отсутствие само-модели. Агент с само-моделью знает что умеет, что знает и где ошибается.

**Само-модель** - внутреннее представление агента о самом себе: своих способностях, ограничениях, текущих знаниях и типичных паттернах ошибок. Это не рефлексия ради рефлексии - это механизм управления качеством решений.

УровеньНазваниеЧто умеетПример
0РеактивныйТолько стимул -> реакцияТермостат, простой чат-бот
1Со состояниемПомнит историю взаимодействийАгент с памятью разговора
2Само-модельЯвно представляет свои способности и ограниченияLLM с uncertainty estimation
3Мета-когнитивныйМоделирует и оптимизирует процесс своего мышленияChain-of-Thought + self-critique

Архитектура агента с само-моделью

Само-модель - это рефлексия ради рефлексии, философский концепт без практической ценности

Само-модель - это инженерный механизм управления качеством: агент знает когда отказаться от ответа или запросить помощь

Без само-модели агент не может отличить области уверенного знания от слепых пятен. Результат: одинаково уверенные правильные и галлюцинированные ответы. Именно это наблюдается в GPT без retrieval augmentation.

Агент уровня 1 (со состоянием) отличается от агента уровня 2 (само-модель) тем, что:

Калибровка уверенности

**OpenAI внутреннее исследование 2022: GPT-3 говорил "я уверен" в 91% случаев, но был прав только в 71%.** Это перекалиброванность (overconfidence) - системная ошибка само-оценки. Идеально калиброванный агент, который говорит "я на 70% уверен", должен быть прав ровно в 70% таких случаев.

Calibration curve: плохо vs хорошо

Плохо (overconfident): говорит "90% уверен" -> прав в 60% случаев. Говорит "70% уверен" -> прав в 55% случаев. Кривая лежит ниже диагонали. Хорошо (калиброван): говорит "90% уверен" -> прав в 89-91% случаев. Говорит "50% уверен" -> прав в 48-52% случаев. Кривая совпадает с диагональю. ECE (Expected Calibration Error) = взвешенное среднее отклонений от диагонали. ECE < 0.05 считается хорошей калибровкой.

Метод калибровкиКак работаетКогда применять
Temperature ScalingДелит логиты на T перед softmaxPost-hoc, один параметр - просто
Platt ScalingЛогистическая регрессия поверх выходовБинарная классификация
Isotonic RegressionМонотонное нелинейное преобразованиеДостаточно данных для подбора
MC DropoutInference с включённым dropout, N forward passesОценка epistemic uncertainty

Высокая уверенность модели означает высокое качество

Качество определяется калибровкой: соответствием заявленной уверенности реальной точности

Модель обученная на imbalanced данных или с агрессивной RLHF-настройкой часто становится overconfident. Temperature scaling за 30 минут исправляет ECE с 0.15 до 0.03 без переобучения.

Модель говорит "80% уверен" в 100 разных вопросах. При хорошей калибровке сколько ответов должны быть правильными?

Два типа неопределённости

**В медицинской диагностике ИИ разница между двумя типами неопределённости буквально жизнь и смерть.** Если модель не уверена потому что у пациента редкая болезнь (epistemic - можно собрать больше данных) - нужно больше анализов. Если не уверена потому что биологический процесс стохастичен (aleatoric - неустранимо) - нужно принять вероятностное решение. Смешивать эти два типа нельзя.

ТипНазваниеИсточникМожно уменьшить?Пример
АлеаторнаяСлучайность в миреСтохастичность данныхНетБросок монеты, квантовые эффекты
ЭпистемическаяНезнание моделиНедостаток обучающих данныхДа - больше данныхРедкая болезнь, новый домен

**Практическое правило:** собирать больше данных имеет смысл только при высокой epistemic uncertainty. При высокой aleatoric - данных уже достаточно, задача принципиально стохастична. Путать эти типы = тратить ресурсы впустую.

Модель прогнозирует цену акции следующего дня. Какой тип неопределённости доминирует и почему?

Интроспективный цикл и само-симуляция

**Chain-of-Thought (Wei et al., NeurIPS 2022) улучшил точность GPT-3 на математических задачах с 18% до 57% - просто добавив экстернализованное рассуждение.** Это форма интроспекции: делая мышление явным, модель получает возможность его проверить и скорректировать. Интроспективный цикл - это архитектурный паттерн, реализующий рефлексию как системный механизм.

**Self-Refine (Madaan et al., NeurIPS 2023):** итеративная само-критика без дополнительного обучения. Модель генерирует ответ, затем критикует его, затем улучшает. На задачах кодирования улучшение составило 13.5 процентных пункта над базовым GPT-4.

ТехникаСутьУлучшениеПрименение
Chain-of-ThoughtЯвное рассуждение пошагово+39 п.п. math (GPT-3)Логика, математика
Self-RefineГенерация -> критика -> улучшение+13.5 п.п. code (GPT-4)Код, эссе, решение задач
Constitutional AIRLHF с само-критикой по принципам-57% вредных ответовSafety, alignment
ReflexionВербальное подкрепление через рефлексию+20% HotpotQAМногошаговые задачи

Само-рефлексия агента - это просто повторный запрос той же задачи

Интроспективный цикл - это структурированный процесс с явной само-критикой, откатом при ошибках и обновлением само-модели по результатам

Простое повторение без механизма проверки даёт похожий ответ с похожими ошибками. Self-Refine работает именно потому, что включает критику с конкретными вопросами к качеству рассуждения.

Chain-of-Thought повысил точность на математических задачах с 18% до 57%. Что является основным механизмом этого улучшения?

Вопросы для размышления

  • Агент знает что его epistemic uncertainty по теме X высока. Какие три действия он должен предпринять вместо уверенного ответа - и как это реализовать технически?

Связанные уроки

  • ml-01-intro
Зеркало разума: само-модели агентов

0

1

Войти