Автоматы и сознание

Predictive Processing и Active Inference

Цели урока

Понимать мозг как иерархическую предсказательную машину, а не пассивный приёмник
Знать Free Energy Principle: F = complexity - accuracy, два способа минимизации
Объяснять Active Inference: epistemic value (curiosity) vs pragmatic value (reward)
Видеть роль Precision в управлении вниманием и психопатологии
Видеть параллель между PP и LLM с tool use

Предварительные знания

POMDP и частично наблюдаемые среды (урок 05)
Иерархические модели (урок 06)
Базовое понимание Байесовского обновления убеждений

80% волокон зрительного пути идут сверху вниз. Это не баг эволюции - мозг генерирует «фильм» о мире и сверяет его с реальностью, а не строит изображение из пикселей.

Почему привычные предметы не замечаются - prediction error близок к нулю
Галлюцинации как предсказания без коррекции (prior precision слишком высок)
Тревожность как гиперчувствительность к prediction errors (sensory precision слишком высок)
LLM и трансформеры как буквальная реализация предсказательной обработки
Claude Code как Active Inference агент: предсказывает -> действует -> наблюдает -> корректирует

От Гельмгольца до Фристона

В 1860-х Гельмгольц назвал восприятие «бессознательным выводом» - мозг интерпретирует, а не фотографирует. 150 лет спустя Карл Фристон формализовал эту идею в Free Energy Principle (2006), объединив нейронауку, статфизику и машинное обучение в единую математическую рамку.

Мозг как предсказательная машина

**GPT-4 предсказывает следующий токен. Мозг предсказывает следующий сенсорный вход. Это не метафора - Карл Фристон в 2005 году показал: оба механизма описываются одной математикой.** Традиционный взгляд - мозг реагирует на стимулы. Новый: мозг постоянно генерирует гипотезы о мире и обновляет их только при ошибках. Это переворачивает нейронауку: 80% волокон зрительного пути идут сверху вниз, а не снизу вверх.

Модель	Что делает мозг	Роль сенсоров
Реактивная (классика)	Ждёт входы, затем обрабатывает	Источник информации
Предсказательная (PP)	Генерирует прогнозы постоянно	Источник ошибок коррекции
Следствие	Восприятие - интерпретация, не съёмка	Сенсоры сообщают только delta

Иерархия работает в двух направлениях. **Top-down**: высшие уровни посылают предсказания вниз - "я ожидаю увидеть лицо". **Bottom-up**: низшие уровни посылают только ошибки вверх - "нос чуть другой". При точном предсказании ошибка равна нулю - никакого сигнала нет. Именно поэтому привычные предметы не замечаются: prediction error близок к нулю.

Факт нейронауки: в зрительной коре человека 10x больше нисходящих соединений чем восходящих. Мозг генерирует «фильм» и сравнивает его с реальностью, а не строит изображение из пикселей.

Мозг сначала видит мир, затем строит его модель

Мозг строит модель постоянно, а видит только отклонения от неё

80% зрительных волокон идут сверху вниз. Это не архитектурный курьёз - это говорит о том, что нисходящие предсказания являются основным процессом, а восходящие сенсорные данные лишь корректируют его.

Почему при виде давно знакомого предмета мы практически не обрабатываем его сознательно?

Free Energy Principle

**Карл Фристон в 2006 году предложил единый принцип, объясняющий обучение, восприятие и действие - Free Energy Principle: все живые системы минимизируют свободную энергию F.** Слово «энергия» пришло из физики, но здесь это информационная величина - верхняя граница «удивления» (surprise). Минимизировать F значит минимизировать расхождение между ожиданиями и реальностью.

Ключевой инсайт: есть **два способа** уменьшить F, то есть уменьшить расхождение между моделью и реальностью.

Способ	Что меняется	Пример
Перцептивное обновление	Модель подгоняется под мир	Увидел что молока нет - обновил убеждение
Активное действие	Мир подгоняется под модель	Сходил в магазин - мир стал соответствовать предсказанию
Комбинация	Частично то и другое	Байесовское взвешивание по precision

Precision (точность/уверенность) - обратная дисперсия: Precision = 1 / Variance. Высокий precision у модели - агент доверяет своим предсказаниям и будет действовать, чтобы мир им соответствовал. Высокий precision у сенсоров - агент доверяет наблюдениям и обновит модель.

Free Energy Principle - это термодинамика применённая к мозгу

Термин заимствован, но речь об информационной величине - KL-дивергенции между убеждениями и реальностью

Фристон намеренно использовал физическую терминологию для связи с принципом минимальной энергии. На практике F = complexity - accuracy, где оба слагаемых - информационные величины, а не джоули.

Согласно Free Energy Principle, что происходит когда prior precision очень высок (модель очень уверена в себе)?

Active Inference и Precision

**Active Inference - это когда агент не пассивно обновляет модель, а активно меняет мир чтобы тот соответствовал предсказаниям.** Действие становится самоисполняющимся пророчеством. Expected Free Energy (G) определяет, какое действие выбрать: балансируется curiosity (epistemic value - узнать новое) и reward (pragmatic value - достичь цели).

Компонент G	Вопрос	Поведение агента
Epistemic value	Что можно узнать?	Исследование при высокой неопределённости
Pragmatic value	Достигается ли цель?	Эксплуатация при известной модели
Баланс	Exploration vs exploitation?	Автоматически по уровню uncertainty

**Precision Weighting** - механизм управления вниманием. Precision = 1/Variance: высокий precision у сигнала означает «этому доверяй», низкий - «игнорируй». Мозг динамически регулирует precision каждого уровня иерархии.

Дисбаланс precision	Результат	Клинически
Слишком высокий sensory precision	Каждый вход пугает	Тревожность, гипербдительность
Слишком высокий prior precision	Модель важнее реальности	Бред, галлюцинации
Нестабильный precision	Сложности с контекстом	Расстройства аутистического спектра

Attention в трансформерах (query-key-value) функционально аналогичен Precision Weighting: оба механизма динамически взвешивают, какие сигналы важны для текущего вычисления. Это не случайное сходство - Фристон активно исследует эту параллель.

Агент попал в совершенно незнакомую среду с высокой неопределённостью. Что предскажет Active Inference?

Predictive Processing и LLM

**GPT-4 обучается предсказывая следующий токен. Cross-entropy loss - это prediction error. Трансформер минимизирует «удивление» на текстовом корпусе - точно как мозг по Фристону.** Это не метафора: математика буквально та же. Разница в том, что LLM предсказывает токены, а мозг - состояния мира; LLM без tool use не может изменить мир, мозг может.

Claude Code - пример Active Inference LLM: генерирует предсказание нужного кода, сравнивает с целью, вызывает инструменты (bash, edit), наблюдает результат, корректирует подход. Цикл продолжается до нулевого prediction error (задача решена).

Мозг (PP) — Предсказывает состояния мира. Иерархия timescales (мс до лет). Active inference через мышцы. Precision через дофамин/норадреналин.
LLM (трансформер) — Предсказывает токены. Одна временная шкала (forward pass). Active inference через tool use. Precision через attention weights.

Связь с другими темами курса

Predictive Processing объединяет несколько концепций курса.

Global Workspace (урок 11) — PP объясняет как обновляются убеждения, GWT - что осознаётся. Большие prediction errors выигрывают конкуренцию за workspace.
Self-Models (урок 9) — Самомодель - это predictive model of self. Интероцепция - предсказание телесных состояний. Ошибки интероцепции = эмоции.
POMDP (урок 5) — PP обобщает Bayesian inference из POMDP на всю иерархию восприятия и действия.

LLM - это просто стат-машина по частоте слов, не имеющая отношения к мозгу

LLM реализует предсказательную обработку - ту же математику, которую Фристон формализовал для мозга в 2006 году

Cross-entropy loss = surprise minimization = Free Energy в информационном смысле. Это не метафора - это математическая эквивалентность. Различие в субстрате и в наличии active inference через действие.

Чем LLM с tool use принципиально отличается от LLM без него с точки зрения Active Inference?

Вопросы для размышления

Если осознаётся только prediction error (удивление) - что это говорит о природе рутины и привычки? Как изменить привычку через призму PP?

Связанные уроки

prob-04-bayes