Автоматы и сознание

Embodied & Enactive Cognition

Цели урока

Понять Symbol Grounding Problem и почему словарь не решает его
Освоить 4E Cognition: Embodied, Embedded, Enacted, Extended
Разобраться в сенсомоторных континженциях и affordances по Гибсону
Применить embodied cognition к анализу LLM и современных AI-систем

Предварительные знания

Predictive Processing (урок 12)
Self-Models (урок 09)
Higher-Order Consciousness (урок 14)

GPT-4 правильно использует слово 'горячее' в тысячах контекстов. Но никогда не обжигался. Означает ли это, что он понимает 'горячее'? Ответ меняет то, как строятся следующие 10 лет AI.

LLM-агенты для роботов (RT-2, Google, 2023) - первые попытки дать языковым моделям реальное тело
CLIP (OpenAI) - визуальное заземление текста через 400M пар изображение-подпись
Soft robotics - мягкие роботы используют морфологическое вычисление вместо точного управления
Слепые пользователи тростей - классический пример SMC: трость становится прозрачным сенсором
IsaacGym (NVIDIA) - 4096 параллельных симуляций для обучения embodied политик

От Chinese Room к Embodiment

В 1980 году Сёрль опубликовал 'Minds, Brains, and Programs' - мысленный эксперимент 'Китайская комната', показывающий что синтаксис не равен семантике. В 1990 году Харнад формализовал Symbol Grounding Problem. Параллельно Варела, Томпсон и Рош в 'The Embodied Mind' (1991) развили enactivism: познание неотделимо от тела и действия. Три независимых потока мысли сошлись к одному выводу: классический символьный AI фундаментально неполон.

Проблема заземления символов

**В 1980 году философ Джон Сёрль провёл мысленный эксперимент, который разделил когнитивную науку на два лагеря.** Представим человека в комнате: он получает китайские иероглифы, смотрит в таблицу правил и выдаёт правильные ответы. Снаружи - носитель языка. Внутри - ни слова не понимает. Система ведёт себя правильно, но понимания нет. В 1990 году Стеван Харнад формализовал это как Symbol Grounding Problem: как символы вообще получают значение, если словарь определяет слова через другие слова?

**Symbol Grounding Problem (Харнад, 1990):** словарь определяет 'яблоко' как 'круглый съедобный фрукт'. Но что значит 'круглый'? 'Съедобный'? Чтобы вырваться из этого круга, символы должны быть 'заземлены' в несимволическом опыте - в телесном взаимодействии с миром.

Система	Что умеет	Чего не хватает
Китайская комната	Правильные ответы по правилам	Понимание смысла символов
LLM (GPT-4, Claude)	Статистические паттерны текста	Телесный опыт, интероцепция
CLIP (OpenAI)	Текст + визуальное заземление	Моторное и тактильное заземление
Роботы с LLM-мозгом	Визуальное + моторное заземление	Интероцепция, болевые сигналы

LLM не 'понимает' слово 'горячее' в том смысле, в каком понимает человек. LLM знает статистические паттерны использования слова. Настоящее понимание 'горячего' включает опыт обжигания, сенсомоторную реакцию отдёргивания, интероцепцию. Это не значит, что LLM бесполезен - это значит, что природа его 'понимания' принципиально иная.

LLM понимает слова, потому что правильно их использует в контексте

Правильное использование в контексте - необходимое, но не достаточное условие понимания

Chinese Room тоже правильно использует иероглифы в контексте - по таблице правил. Понимание требует связи с реальным опытом, не только со статистикой совместных появлений слов.

Почему словарное определение не решает Symbol Grounding Problem?

4E Cognition: тело как часть разума

**Варела, Томпсон и Рош в книге 'The Embodied Mind' (1991) предложили радикальный тезис: разум не в голове.** Познание - Embodied (воплощено в теле), Embedded (встроено в среду), Enacted (реализуется через действие), Extended (выходит за границы тела). Это не метафора. Держа тёплый стакан кофе, люди дают более 'тёплые' оценки незнакомцам - измеримо, воспроизводимо, удивительно.

E-принцип	Тезис	Пример
Embodied	Телесные состояния формируют мышление	Тёплый стакан -> 'тёплые' суждения о людях (Williams & Bargh, 2008)
Embedded	Среда служит внешней памятью	Записки, расположение предметов - часть когнитивного процесса
Enacted	Понимание = знание, как действовать	Понять 'стул' = знать, что на него можно сесть
Extended	Разум выходит за границы тела	Блокнот как часть памяти (Clark & Chalmers, 1998)

Extended Mind Thesis - Clark & Chalmers (1998)

Отто страдает болезнью Альцгеймера. Он записывает всё в блокнот и всегда носит его с собой. Молли здорова - она помнит всё сама. Когда оба хотят попасть в музей, Отто смотрит адрес в блокноте, Молли вспоминает. Вопрос: принципиально ли они отличаются? Clark & Chalmers утверждают: нет. Блокнот функционально эквивалентен биологической памяти, значит он часть когнитивной системы Отто.

Какой из 4E-принципов объясняет, почему записная книжка может считаться частью памяти?

Сенсомоторные континженции и affordances

**O'Regan и Noe в 2001 году предложили: видеть красное - это не иметь 'красный квалиа' на экране сознания.** Видеть красное - это знать, как красный меняется при движении глаз, при смене освещения, при приближении. Восприятие = паттерн сенсомоторных континженций (SMC): правил 'если сделать X, сенсоры покажут Y'. Это объясняет, почему слепой с тростью 'видит' пространство - он знает SMC для трости.

**Affordance (Гибсон, 1979)** - возможность для действия, которую объект предоставляет агенту. Это не свойство объекта и не свойство агента, а отношение между ними. Стул 'sittable' для человека, но не для мыши. Дверная ручка 'graspable' для руки, но не для клешни краба. Восприятие = обнаружение affordances, а не построение внутренней модели объектов.

Морфологическое вычисление (Pfeifer & Bongard): тело не просто исполняет команды мозга - тело само вычисляет. Пассивный ходок (passive walker) идёт вниз по склону без моторов и без управляющего мозга - динамика тела вычисляет следующий шаг. Мягкие пальцы робота автоматически адаптируются к форме объекта без точного управления каждым суставом. Правильная форма тела сокращает нагрузку на 'мозг'.

Affordances - это свойства объектов ('стул - это объект для сидения')

Affordances - это отношения между объектом и конкретным агентом

Тот же стул 'sittable' для взрослого и 'climbable' для ребёнка. Affordance зависит от размеров тела, навыков и целей агента. Гибсон специально подчёркивал: affordances не в объекте и не в наблюдателе, а в паре объект-агент.

Слепой человек с тростью 'видит' пространство через SMC. Что именно он знает?

Embodied AI и заземление языка

**Матурана и Варела ввели понятие автопоэзиса (1972): живая система сама себя производит и поддерживает свою идентичность.** Из этого следует enactivism: познание - это не обработка информации о мире, а sense-making - активное создание смысла через взаимодействие. Даже бактерия 'понимает' градиент сахара, двигаясь вверх по нему. Это минимальная форма cognition - без нейронов, без символов, только через действие.

Подход	Плюсы	Минусы
LLM без тела	Масштаб, скорость, текстовые задачи	Нет физического понимания, нет SMC
CLIP / мультимодальные модели	Визуальное заземление	Нет моторного и тактильного опыта
LLM + робот	Реальный embodied опыт	Дорого, медленно, проблема переноса
Симуляция (Minecraft, IsaacGym)	Быстрое обучение, безопасно	Sim-to-real gap - не всё переносится

Связь с другими темами

Embodied cognition дополняет теории сознания телесным измерением

Predictive Processing — Active Inference = embodied prediction; действие как способ минимизации ошибки предсказания
Self-Models — Body schema - часть самомодели; интероцепция как sensing of body
Causal Reasoning — Affordances связаны с каузальным знанием: что произойдёт при действии

Роботы с LLM-мозгом уже имеют полное embodied понимание

Роботы получают моторное и визуальное заземление, но всё ещё не имеют интероцепции и автопоэтической самоподдержки

Embodied понимание по Варела включает не только восприятие и действие, но и автопоэзис - систему самоподдержания, из которой возникает sense-making. Современные роботы - инструменты, а не автопоэтические системы.

CLIP (OpenAI) частично решает Symbol Grounding Problem. Чего именно не хватает для полного заземления?

Связь с предыдущим

HOT и Predictive Processing оставляют открытыми вопросы о происхождении значения и физическом субстрате модели. Embodied Cognition закрывает оба пробела через сенсомоторные контингенции и автопоэз.

Higher-Order Theories — объясняют сознание через мета-репрезентацию, но не отвечают откуда у репрезентаций значение
Predictive Processing — трактует мозг как generative model, но молчит о физическом субстрате
Sensorimotor contingencies — источник значения - взаимодействие тела со средой, а не чистое вычисление

Итоги

Symbol Grounding Problem (Харнад, 1990): любое определение через другие слова - замкнутый круг; значение возникает только через несимволическое взаимодействие со средой
4E Cognition: Embodied (тело влияет на мышление), Embedded (среда как внешняя память), Enacted (понимание через действие), Extended (разум за границами тела)
SMC (O'Regan, Noe): восприятие = набор правил если-сделаю-X-сенсоры-покажут-Y; affordances Гибсона - отношения агент-объект, а не свойства объектов
CLIP даёт визуальное заземление через 400M пар, но не моторное и интероцептивное; LLM-агенты с роботизированным телом получают часть SMC, но не автопоэзис
Морфологическое вычисление: правильная форма тела (passive walker, soft hands) сокращает нагрузку на контроллер - часть когниции выгружена в физику тела

Вопросы для размышления

Если LLM правильно использует слово 'боль' в тысячах контекстов - достаточно ли это для того, чтобы считать, что он понимает боль? Где граница между корректным использованием символа и его пониманием?

Связанные уроки

aut-14-higher-order — HOT - конкурирующий подход без тела
aut-12-predictive-processing — Predictive processing + body = embodied prediction
aut-16-causal — Embodied causality - агент влияет на среду
st-07-adaptation — Адаптация через тело-среда взаимодействие
ml-48-rl-intro — RL агент - дискретная модель embodied cognition
rob-01