Автоматы и сознание

Predictive Processing и Active Inference

Цели урока

  • Понимать мозг как иерархическую предсказательную машину, а не пассивный приёмник
  • Знать Free Energy Principle: F = complexity - accuracy, два способа минимизации
  • Объяснять Active Inference: epistemic value (curiosity) vs pragmatic value (reward)
  • Видеть роль Precision в управлении вниманием и психопатологии
  • Видеть параллель между PP и LLM с tool use

Предварительные знания

  • POMDP и частично наблюдаемые среды (урок 05)
  • Иерархические модели (урок 06)
  • Базовое понимание Байесовского обновления убеждений

80% волокон зрительного пути идут сверху вниз. Это не баг эволюции - мозг генерирует «фильм» о мире и сверяет его с реальностью, а не строит изображение из пикселей.

  • Почему привычные предметы не замечаются - prediction error близок к нулю
  • Галлюцинации как предсказания без коррекции (prior precision слишком высок)
  • Тревожность как гиперчувствительность к prediction errors (sensory precision слишком высок)
  • LLM и трансформеры как буквальная реализация предсказательной обработки
  • Claude Code как Active Inference агент: предсказывает -> действует -> наблюдает -> корректирует

От Гельмгольца до Фристона

В 1860-х Гельмгольц назвал восприятие «бессознательным выводом» - мозг интерпретирует, а не фотографирует. 150 лет спустя Карл Фристон формализовал эту идею в Free Energy Principle (2006), объединив нейронауку, статфизику и машинное обучение в единую математическую рамку.

Мозг как предсказательная машина

**GPT-4 предсказывает следующий токен. Мозг предсказывает следующий сенсорный вход. Это не метафора - Карл Фристон в 2005 году показал: оба механизма описываются одной математикой.** Традиционный взгляд - мозг реагирует на стимулы. Новый: мозг постоянно генерирует гипотезы о мире и обновляет их только при ошибках. Это переворачивает нейронауку: 80% волокон зрительного пути идут сверху вниз, а не снизу вверх.

МодельЧто делает мозгРоль сенсоров
Реактивная (классика)Ждёт входы, затем обрабатываетИсточник информации
Предсказательная (PP)Генерирует прогнозы постоянноИсточник ошибок коррекции
СледствиеВосприятие - интерпретация, не съёмкаСенсоры сообщают только delta

Иерархия работает в двух направлениях. **Top-down**: высшие уровни посылают предсказания вниз - "я ожидаю увидеть лицо". **Bottom-up**: низшие уровни посылают только ошибки вверх - "нос чуть другой". При точном предсказании ошибка равна нулю - никакого сигнала нет. Именно поэтому привычные предметы не замечаются: prediction error близок к нулю.

Факт нейронауки: в зрительной коре человека 10x больше нисходящих соединений чем восходящих. Мозг генерирует «фильм» и сравнивает его с реальностью, а не строит изображение из пикселей.

Мозг сначала видит мир, затем строит его модель

Мозг строит модель постоянно, а видит только отклонения от неё

80% зрительных волокон идут сверху вниз. Это не архитектурный курьёз - это говорит о том, что нисходящие предсказания являются основным процессом, а восходящие сенсорные данные лишь корректируют его.

Почему при виде давно знакомого предмета мы практически не обрабатываем его сознательно?

Free Energy Principle

**Карл Фристон в 2006 году предложил единый принцип, объясняющий обучение, восприятие и действие - Free Energy Principle: все живые системы минимизируют свободную энергию F.** Слово «энергия» пришло из физики, но здесь это информационная величина - верхняя граница «удивления» (surprise). Минимизировать F значит минимизировать расхождение между ожиданиями и реальностью.

Ключевой инсайт: есть **два способа** уменьшить F, то есть уменьшить расхождение между моделью и реальностью.

СпособЧто меняетсяПример
Перцептивное обновлениеМодель подгоняется под мирУвидел что молока нет - обновил убеждение
Активное действиеМир подгоняется под модельСходил в магазин - мир стал соответствовать предсказанию
КомбинацияЧастично то и другоеБайесовское взвешивание по precision

Precision (точность/уверенность) - обратная дисперсия: Precision = 1 / Variance. Высокий precision у модели - агент доверяет своим предсказаниям и будет действовать, чтобы мир им соответствовал. Высокий precision у сенсоров - агент доверяет наблюдениям и обновит модель.

Free Energy Principle - это термодинамика применённая к мозгу

Термин заимствован, но речь об информационной величине - KL-дивергенции между убеждениями и реальностью

Фристон намеренно использовал физическую терминологию для связи с принципом минимальной энергии. На практике F = complexity - accuracy, где оба слагаемых - информационные величины, а не джоули.

Согласно Free Energy Principle, что происходит когда prior precision очень высок (модель очень уверена в себе)?

Active Inference и Precision

**Active Inference - это когда агент не пассивно обновляет модель, а активно меняет мир чтобы тот соответствовал предсказаниям.** Действие становится самоисполняющимся пророчеством. Expected Free Energy (G) определяет, какое действие выбрать: балансируется curiosity (epistemic value - узнать новое) и reward (pragmatic value - достичь цели).

Компонент GВопросПоведение агента
Epistemic valueЧто можно узнать?Исследование при высокой неопределённости
Pragmatic valueДостигается ли цель?Эксплуатация при известной модели
БалансExploration vs exploitation?Автоматически по уровню uncertainty

**Precision Weighting** - механизм управления вниманием. Precision = 1/Variance: высокий precision у сигнала означает «этому доверяй», низкий - «игнорируй». Мозг динамически регулирует precision каждого уровня иерархии.

Дисбаланс precisionРезультатКлинически
Слишком высокий sensory precisionКаждый вход пугаетТревожность, гипербдительность
Слишком высокий prior precisionМодель важнее реальностиБред, галлюцинации
Нестабильный precisionСложности с контекстомРасстройства аутистического спектра

Attention в трансформерах (query-key-value) функционально аналогичен Precision Weighting: оба механизма динамически взвешивают, какие сигналы важны для текущего вычисления. Это не случайное сходство - Фристон активно исследует эту параллель.

Агент попал в совершенно незнакомую среду с высокой неопределённостью. Что предскажет Active Inference?

Predictive Processing и LLM

**GPT-4 обучается предсказывая следующий токен. Cross-entropy loss - это prediction error. Трансформер минимизирует «удивление» на текстовом корпусе - точно как мозг по Фристону.** Это не метафора: математика буквально та же. Разница в том, что LLM предсказывает токены, а мозг - состояния мира; LLM без tool use не может изменить мир, мозг может.

Claude Code - пример Active Inference LLM: генерирует предсказание нужного кода, сравнивает с целью, вызывает инструменты (bash, edit), наблюдает результат, корректирует подход. Цикл продолжается до нулевого prediction error (задача решена).

  • Мозг (PP) — Предсказывает состояния мира. Иерархия timescales (мс до лет). Active inference через мышцы. Precision через дофамин/норадреналин.
  • LLM (трансформер) — Предсказывает токены. Одна временная шкала (forward pass). Active inference через tool use. Precision через attention weights.

Связь с другими темами курса

Predictive Processing объединяет несколько концепций курса.

  • Global Workspace (урок 11) — PP объясняет как обновляются убеждения, GWT - что осознаётся. Большие prediction errors выигрывают конкуренцию за workspace.
  • Self-Models (урок 9) — Самомодель - это predictive model of self. Интероцепция - предсказание телесных состояний. Ошибки интероцепции = эмоции.
  • POMDP (урок 5) — PP обобщает Bayesian inference из POMDP на всю иерархию восприятия и действия.

LLM - это просто стат-машина по частоте слов, не имеющая отношения к мозгу

LLM реализует предсказательную обработку - ту же математику, которую Фристон формализовал для мозга в 2006 году

Cross-entropy loss = surprise minimization = Free Energy в информационном смысле. Это не метафора - это математическая эквивалентность. Различие в субстрате и в наличии active inference через действие.

Чем LLM с tool use принципиально отличается от LLM без него с точки зрения Active Inference?

Вопросы для размышления

  • Если осознаётся только prediction error (удивление) - что это говорит о природе рутины и привычки? Как изменить привычку через призму PP?

Связанные уроки

  • prob-04-bayes
Predictive Processing и Active Inference

0

1

Войти