AI-инжиниринг

Будущее: World Models - AI который понимает физику, причинность, время

Цели урока

Понять ограничения языковых моделей в понимании физического мира
Разобраться в подходах к video prediction: Sora (generative) vs Genie (interactive)
Освоить идею JEPA - предсказание в пространстве представлений, а не пикселей
Разграничить корреляцию и причинность и понять, почему это критично для AI

Genie 2 (DeepMind, декабрь 2024) берёт одну фотографию - любую - и за секунды разворачивает из неё интерактивный 3D-мир: нажимаешь «вперёд» - камера движется, параллакс объектов правильный, прыжок - гравитация работает. Никакого заранее написанного кода физики. Модель сама выучила законы мира из видео. Это уже не языковая модель - это симулятор реальности.

Genie 2 (DeepMind): одна фотография превращается в интерактивный мир - нажатие клавиши, физика, параллакс. Потенциальная замена игровых движков без единой строки кода
Sora (OpenAI): 60-секундное фотореалистичное видео из текстового промпта через Diffusion Transformer - революция в рекламе и кинопроизводстве
Tesla FSD: нейросеть ведёт машину через внутреннюю world model - предсказывает поведение пешеходов и машин на горизонт ~3 секунды
V-JEPA (Meta): понимает действия в видео без единой текстовой аннотации - state-of-the-art на action recognition из чистого наблюдения

Линия исследований world models

В марте 2018 года David Ha и Jurgen Schmidhuber опубликовали работу «World Models», показав, что агент может выучить сжатую внутреннюю модель своего окружения (VAE плюс рекуррентная сеть) и затем планировать внутри этого воображаемого мира. В 2022 году Yann LeCun в работе «A Path Towards Autonomous Intelligence» предложил предсказывать в абстрактном латентном пространстве, а не по сырым пикселям, и ввёл JEPA, позже воплощённую в I-JEPA и V-JEPA в Meta. В феврале 2024 года Genie от DeepMind генерировала играбельные 2D-миры из видео без разметки, а Genie 2 (декабрь 2024) расширила это до интерактивных 3D-сцен. Общая ставка: настоящее понимание рождается из моделирования того, как меняется мир, а не из предсказания следующего токена.

Предварительные знания

Multimodal AI: Vision, Audio, Documents - One API for Everything

От языковых моделей к моделям мира

LLM обучены на тексте и понимают мир *через язык*. Но язык - это сжатое, символическое описание реальности. Предложение "мяч падает на пол" не содержит ни траектории, ни скорости, ни упругости. GPT-4 знает правильный ответ из миллиардов текстов - но не вычисляет его. **World model** - это AI-система, которая строит внутреннее представление физического мира и предсказывает следующее состояние, как Sora предсказывает следующий кадр видео или Tesla FSD - поведение пешехода через 3 секунды.

Yann LeCun (Chief AI Scientist, Meta) - главный идеолог world models. Его позиция: **LLM никогда не достигнут human-level AI**, потому что текст содержит ничтожную долю информации о мире. Ребёнок к 4 годам получает через зрение эквивалент `10^15` байт сенсорных данных - больше, чем весь текст в интернете. Поэтому Meta инвестирует в V-JEPA и мультимодальные архитектуры, а не просто масштабирует LLaMA.

A large language model trained on all the text ever written will still understand less about the physical world than a house cat.

Аспект	Language Model	World Model
Обучающие данные	Текст (терабайты)	Видео, сенсорные данные (петабайты)
Понимание физики	Через текстовые описания	Через наблюдение и предсказание
Причинность	Корреляция в текстах	Причинно-следственные связи
Планирование	В пространстве текста	В пространстве действий и состояний
Пример	GPT-4, Claude, Gemini	Sora, Genie, JEPA (исследования)

**Контраргумент:** сторонники LLM-подхода (включая Илью Суцкевера, бывшего Chief Scientist OpenAI) утверждают, что достаточно большая языковая модель *неизбежно* выучит физику мира из текста - потому что текст описывает физику. Этот спор - один из центральных в AI research.

В чём фундаментальное ограничение языковых моделей по мнению Yann LeCun?

Video Prediction: Sora, Genie и симуляция реальности

Генерация видео - промежуточный шаг к world models. Если модель предсказывает следующий кадр достаточно хорошо, она *должна* иметь внутреннюю модель физики: объекты не проходят сквозь стены, вода течёт вниз, тени следуют за источником света. Именно из этой логики вырос Sora: обучить на миллионах часов видео - и физика выучится сама. Вопрос только в том, настоящая ли это физика или очень убедительные корреляции.

**OpenAI Sora** (февраль 2024, публичный релиз декабрь 2024) - генеративная модель видео, обученная на миллионах часов видеоконтента. Архитектура - Diffusion Transformer (DiT): комбинация diffusion process (как в DALL-E) и Transformer attention.

**Google Genie** (февраль 2024) и **Genie 2** (декабрь 2024, DeepMind) - принципиально другой подход. Sora генерирует фиксированное видео - просмотр без возможности вмешательства. Genie создаёт **интерактивные миры**: нажатие клавиши меняет состояние среды, модель предсказывает последствия. По сути - игровой движок, выученный из видео. Один скриншот стола - и уже можно обойти вокруг него, открыть ящик, уронить предмет.

**Является ли Sora world model?** Это предмет активных дебатов. Tim Brooks (один из создателей Sora) утверждает, что да - модель выучила "simulator of the physical world". Критики указывают на систематические нарушения физики: объекты появляются из ниоткуда, жидкости ведут себя неправильно. Вероятнее всего, Sora выучила мощные визуальные prior'ы, но не настоящую физическую модель.

Для AI-инженеров video generation открывает конкретные применения уже сейчас. Самое ценное - синтетические данные для обучения роботов: вместо тысяч реальных экспериментов с физическим манипулятором генерируется видео нужных сценариев. Boston Dynamics и Figure AI уже используют симуляцию для pre-training. Другие применения: тренировочные симуляции для операторов, preview архитектурных проектов, быстрое прототипирование UI/UX без съёмки.

В чём принципиальное отличие Google Genie от OpenAI Sora?

JEPA: архитектура будущего от Meta AI

**JEPA (Joint Embedding Predictive Architecture)** - архитектура, предложенная Yann LeCun как альтернатива и LLM, и generative models. Ключевая идея: вместо предсказания пикселей (как Sora) или токенов (как GPT), предсказывать **абстрактные представления** будущих состояний.

**V-JEPA** (Video Joint Embedding Predictive Architecture, Meta, февраль 2024) - первая реализация JEPA для видео. Модель обучается предсказывать embedding'и замаскированных фрагментов видео - как BERT с masked tokens, но в пространстве видео-представлений. Результат: V-JEPA достигает state-of-the-art на action recognition без единой текстовой аннотации - чисто из наблюдения за последовательностями кадров.

JEPA решает проблему, которая мучает generative models: **предсказание в pixel space неэффективно**. Когда Sora предсказывает следующий кадр, около 90% compute уходит на фон, текстуры, освещение - детали, не влияющие на понимание происходящего. Человеческий мозг не предсказывает каждый фотон - мозг строит абстрактные модели объектов и их взаимодействий. V-JEPA делает то же самое: учится думать категориями «мяч летит вниз-вправо», а не «пиксели [123, 45, 67] смещаются на вектор (2, 3)».

Подход	Предсказывает	Плюсы	Минусы
LLM (GPT)	Следующий токен	Масштабируется, универсален	Только текст, нет физики
Generative (Sora)	Следующие пиксели	Визуально реалистично	Неэффективно, поверхностное понимание
JEPA (V-JEPA)	Абстрактные representations	Эффективно, семантическое понимание	Ранний этап исследований, не генерирует контент
Гибрид (будущее)	Representations + генерация	Лучшее из обоих подходов	Пока не существует

**Статус JEPA (2025):** пока это исследовательский проект, не продукт. V-JEPA показывает state-of-the-art на задачах понимания видео, но не умеет генерировать. LeCun позиционирует JEPA как фундамент для AGI - путь на 5-10 лет. Скептики указывают, что конкретных продуктов на JEPA пока нет.

В чём ключевое отличие JEPA от generative models типа Sora?

Causal Reasoning: от корреляции к пониманию причин

Современные AI-системы - включая LLM и большинство world models - преимущественно работают с **корреляциями**: «X часто встречается вместе с Y». Но для настоящего понимания мира нужна **каузальность**: «X *вызывает* Y». GPT-4 знает, что «мороженое и утопления коррелируют» - но без каузального графа не может объяснить, что общая причина - жаркое лето. Для рекомендательных систем это приводит к систематическим ошибкам: модель рекомендует «лечение», которое лишь сопровождает выздоровление, не вызывая его.

**Judea Pearl** (Тьюринговская премия 2011) формализовал теорию каузальности в AI через «Ladder of Causation». Современные LLM - GPT-4, Claude, Gemini - находятся на уровне 1: **ассоциации** («Что обычно происходит?»). Для AGI необходим уровень 2 - **интервенции** («Что произойдёт, если принять это лекарство?») и уровень 3 - **контрфактуальность** («Выжил бы пациент без операции?»). Разница принципиальна для медицинского AI, финансовых решений, автономных агентов.

Практические последствия для AI-инженеров уже ощутимы. Рекомендательные системы путают корреляцию с причинностью: пользователь купил зонт после просмотра прогноза погоды - модель решает, что прогноз погоды *вызывает* покупки зонтов, и начинает рекомендовать зонты всем, кто смотрит погоду. Medical AI делает ошибочные выводы из observational data. Бизнес-аналитика строится на spurious correlations - A/B тест показывает рост метрик, но реальная причина - внешний фактор, не тест.

Для робототехники каузальное понимание - необходимость, а не абстрактное требование. Робот с одними корреляциями («нажимаю кнопку - дверь открывается») не справится, если кнопка сломана. DeepMind Gato - мультизадачный агент, обученный на сотнях задач одновременно - демонстрирует именно эту хрупкость: перенос между задачами ломается, когда меняется causal structure среды. Робот с каузальной моделью («кнопка → сигнал → мотор → дверь») диагностирует сломанное звено и ищет обходной путь.

**Прогноз:** к 2027-2030 ожидается конвергенция LLM, world models и causal reasoning. Модели будут обучаться на текстах *и* видео *и* интерактивных средах, выстраивая каузальные графы мира. Первые признаки уже видны: Gemini 2.0 объединяет текст, видео и код; Meta работает над JEPA для робототехники; DeepMind интегрирует causal inference в своих research-проектах.

Почему различие корреляции и причинности критично для AI-приложений?

Итоги

LLM работают с символами - текст про физику, но не физика. World model строит внутреннюю симуляцию: видит стакан на краю стола и вычисляет траекторию падения
Sora (DiT) генерирует фотореалистичное видео, но физика иногда ломается - это мощные visual priors, не симулятор. Genie 2 - интерактивный мир из одного фото, физика встроена в модель
JEPA (Meta) предсказывает в latent space, а не в pixel space: 90% compute у Sora уходит на фон и тени - JEPA это игнорирует и фокусируется на семантически значимых изменениях
Каузальность по Judea Pearl - три уровня: ассоциация (LLM сейчас), интервенция (что будет, если...), контрфактуальность (что было бы, если...). AGI требует минимум уровень 2
Конвергенция уже идёт: Gemini 2.0 объединяет текст и видео, Meta строит JEPA для роботов, DeepMind интегрирует causal inference - горизонт конвергенции 2027-2030

Что дальше

World models - ещё одна траектория к AGI. Следующий урок рассматривает сам вопрос AGI: scaling laws, emergence, alignment.

Путь к AGI — World models + reasoning = ключевые компоненты на пути к AGI
Reasoning модели — Reasoning в тексте (o1/o3) дополняет reasoning о физическом мире
Мультимодальные модели — World models строятся на мультимодальных архитектурах

Связанные уроки

aie-25-multimodal — World models расширяют мультимодальность на видео
aie-53-future-reasoning — Физическое рассуждение дополняет языковое
aie-26-image-generation — Предсказание видео строится на генеративных моделях изображений
stat-20-causal — Причинное понимание опирается на causal inference
ml-30-rnn-lstm — Предсказание кадров повторяет временные модели
ml-11