Автоматы и сознание
Predictive Processing и Active Inference
Цели урока
- Понимать мозг как иерархическую предсказательную машину, а не пассивный приёмник
- Знать Free Energy Principle: F = complexity - accuracy, два способа минимизации
- Объяснять Active Inference: epistemic value (curiosity) vs pragmatic value (reward)
- Видеть роль Precision в управлении вниманием и психопатологии
- Видеть параллель между PP и LLM с tool use
Предварительные знания
- POMDP и частично наблюдаемые среды (урок 05)
- Иерархические модели (урок 06)
- Базовое понимание Байесовского обновления убеждений
80% волокон зрительного пути идут сверху вниз. Это не баг эволюции - мозг генерирует «фильм» о мире и сверяет его с реальностью, а не строит изображение из пикселей.
- Почему привычные предметы не замечаются - prediction error близок к нулю
- Галлюцинации как предсказания без коррекции (prior precision слишком высок)
- Тревожность как гиперчувствительность к prediction errors (sensory precision слишком высок)
- LLM и трансформеры как буквальная реализация предсказательной обработки
- Claude Code как Active Inference агент: предсказывает -> действует -> наблюдает -> корректирует
От Гельмгольца до Фристона
В 1860-х Гельмгольц назвал восприятие «бессознательным выводом» - мозг интерпретирует, а не фотографирует. 150 лет спустя Карл Фристон формализовал эту идею в Free Energy Principle (2006), объединив нейронауку, статфизику и машинное обучение в единую математическую рамку.
Мозг как предсказательная машина
**GPT-4 предсказывает следующий токен. Мозг предсказывает следующий сенсорный вход. Это не метафора - Карл Фристон в 2005 году показал: оба механизма описываются одной математикой.** Традиционный взгляд - мозг реагирует на стимулы. Новый: мозг постоянно генерирует гипотезы о мире и обновляет их только при ошибках. Это переворачивает нейронауку: 80% волокон зрительного пути идут сверху вниз, а не снизу вверх.
| Модель | Что делает мозг | Роль сенсоров |
|---|---|---|
| Реактивная (классика) | Ждёт входы, затем обрабатывает | Источник информации |
| Предсказательная (PP) | Генерирует прогнозы постоянно | Источник ошибок коррекции |
| Следствие | Восприятие - интерпретация, не съёмка | Сенсоры сообщают только delta |
Иерархия работает в двух направлениях. **Top-down**: высшие уровни посылают предсказания вниз - "я ожидаю увидеть лицо". **Bottom-up**: низшие уровни посылают только ошибки вверх - "нос чуть другой". При точном предсказании ошибка равна нулю - никакого сигнала нет. Именно поэтому привычные предметы не замечаются: prediction error близок к нулю.
Факт нейронауки: в зрительной коре человека 10x больше нисходящих соединений чем восходящих. Мозг генерирует «фильм» и сравнивает его с реальностью, а не строит изображение из пикселей.
Мозг сначала видит мир, затем строит его модель
Мозг строит модель постоянно, а видит только отклонения от неё
80% зрительных волокон идут сверху вниз. Это не архитектурный курьёз - это говорит о том, что нисходящие предсказания являются основным процессом, а восходящие сенсорные данные лишь корректируют его.
Почему при виде давно знакомого предмета мы практически не обрабатываем его сознательно?
Free Energy Principle
**Карл Фристон в 2006 году предложил единый принцип, объясняющий обучение, восприятие и действие - Free Energy Principle: все живые системы минимизируют свободную энергию F.** Слово «энергия» пришло из физики, но здесь это информационная величина - верхняя граница «удивления» (surprise). Минимизировать F значит минимизировать расхождение между ожиданиями и реальностью.
Ключевой инсайт: есть **два способа** уменьшить F, то есть уменьшить расхождение между моделью и реальностью.
| Способ | Что меняется | Пример |
|---|---|---|
| Перцептивное обновление | Модель подгоняется под мир | Увидел что молока нет - обновил убеждение |
| Активное действие | Мир подгоняется под модель | Сходил в магазин - мир стал соответствовать предсказанию |
| Комбинация | Частично то и другое | Байесовское взвешивание по precision |
Precision (точность/уверенность) - обратная дисперсия: Precision = 1 / Variance. Высокий precision у модели - агент доверяет своим предсказаниям и будет действовать, чтобы мир им соответствовал. Высокий precision у сенсоров - агент доверяет наблюдениям и обновит модель.
Free Energy Principle - это термодинамика применённая к мозгу
Термин заимствован, но речь об информационной величине - KL-дивергенции между убеждениями и реальностью
Фристон намеренно использовал физическую терминологию для связи с принципом минимальной энергии. На практике F = complexity - accuracy, где оба слагаемых - информационные величины, а не джоули.
Согласно Free Energy Principle, что происходит когда prior precision очень высок (модель очень уверена в себе)?
Active Inference и Precision
**Active Inference - это когда агент не пассивно обновляет модель, а активно меняет мир чтобы тот соответствовал предсказаниям.** Действие становится самоисполняющимся пророчеством. Expected Free Energy (G) определяет, какое действие выбрать: балансируется curiosity (epistemic value - узнать новое) и reward (pragmatic value - достичь цели).
| Компонент G | Вопрос | Поведение агента |
|---|---|---|
| Epistemic value | Что можно узнать? | Исследование при высокой неопределённости |
| Pragmatic value | Достигается ли цель? | Эксплуатация при известной модели |
| Баланс | Exploration vs exploitation? | Автоматически по уровню uncertainty |
**Precision Weighting** - механизм управления вниманием. Precision = 1/Variance: высокий precision у сигнала означает «этому доверяй», низкий - «игнорируй». Мозг динамически регулирует precision каждого уровня иерархии.
| Дисбаланс precision | Результат | Клинически |
|---|---|---|
| Слишком высокий sensory precision | Каждый вход пугает | Тревожность, гипербдительность |
| Слишком высокий prior precision | Модель важнее реальности | Бред, галлюцинации |
| Нестабильный precision | Сложности с контекстом | Расстройства аутистического спектра |
Attention в трансформерах (query-key-value) функционально аналогичен Precision Weighting: оба механизма динамически взвешивают, какие сигналы важны для текущего вычисления. Это не случайное сходство - Фристон активно исследует эту параллель.
Агент попал в совершенно незнакомую среду с высокой неопределённостью. Что предскажет Active Inference?
Predictive Processing и LLM
**GPT-4 обучается предсказывая следующий токен. Cross-entropy loss - это prediction error. Трансформер минимизирует «удивление» на текстовом корпусе - точно как мозг по Фристону.** Это не метафора: математика буквально та же. Разница в том, что LLM предсказывает токены, а мозг - состояния мира; LLM без tool use не может изменить мир, мозг может.
Claude Code - пример Active Inference LLM: генерирует предсказание нужного кода, сравнивает с целью, вызывает инструменты (bash, edit), наблюдает результат, корректирует подход. Цикл продолжается до нулевого prediction error (задача решена).
- Мозг (PP) — Предсказывает состояния мира. Иерархия timescales (мс до лет). Active inference через мышцы. Precision через дофамин/норадреналин.
- LLM (трансформер) — Предсказывает токены. Одна временная шкала (forward pass). Active inference через tool use. Precision через attention weights.
Связь с другими темами курса
Predictive Processing объединяет несколько концепций курса.
- Global Workspace (урок 11) — PP объясняет как обновляются убеждения, GWT - что осознаётся. Большие prediction errors выигрывают конкуренцию за workspace.
- Self-Models (урок 9) — Самомодель - это predictive model of self. Интероцепция - предсказание телесных состояний. Ошибки интероцепции = эмоции.
- POMDP (урок 5) — PP обобщает Bayesian inference из POMDP на всю иерархию восприятия и действия.
LLM - это просто стат-машина по частоте слов, не имеющая отношения к мозгу
LLM реализует предсказательную обработку - ту же математику, которую Фристон формализовал для мозга в 2006 году
Cross-entropy loss = surprise minimization = Free Energy в информационном смысле. Это не метафора - это математическая эквивалентность. Различие в субстрате и в наличии active inference через действие.
Чем LLM с tool use принципиально отличается от LLM без него с точки зрения Active Inference?
Вопросы для размышления
- Если осознаётся только prediction error (удивление) - что это говорит о природе рутины и привычки? Как изменить привычку через призму PP?