AI-инжиниринг
Будущее: World Models - AI который понимает физику, причинность, время
Цели урока
- Понять ограничения языковых моделей в понимании физического мира
- Разобраться в подходах к video prediction: Sora (generative) vs Genie (interactive)
- Освоить идею JEPA - предсказание в пространстве представлений, а не пикселей
- Разграничить корреляцию и причинность и понять, почему это критично для AI
Genie 2 (DeepMind, декабрь 2024) берёт одну фотографию - любую - и за секунды разворачивает из неё интерактивный 3D-мир: нажимаешь «вперёд» - камера движется, параллакс объектов правильный, прыжок - гравитация работает. Никакого заранее написанного кода физики. Модель сама выучила законы мира из видео. Это уже не языковая модель - это симулятор реальности.
- Genie 2 (DeepMind): одна фотография превращается в интерактивный мир - нажатие клавиши, физика, параллакс. Потенциальная замена игровых движков без единой строки кода
- Sora (OpenAI): 60-секундное фотореалистичное видео из текстового промпта через Diffusion Transformer - революция в рекламе и кинопроизводстве
- Tesla FSD: нейросеть ведёт машину через внутреннюю world model - предсказывает поведение пешеходов и машин на горизонт ~3 секунды
- V-JEPA (Meta): понимает действия в видео без единой текстовой аннотации - state-of-the-art на action recognition из чистого наблюдения
Линия исследований world models
В марте 2018 года David Ha и Jurgen Schmidhuber опубликовали работу «World Models», показав, что агент может выучить сжатую внутреннюю модель своего окружения (VAE плюс рекуррентная сеть) и затем планировать внутри этого воображаемого мира. В 2022 году Yann LeCun в работе «A Path Towards Autonomous Intelligence» предложил предсказывать в абстрактном латентном пространстве, а не по сырым пикселям, и ввёл JEPA, позже воплощённую в I-JEPA и V-JEPA в Meta. В феврале 2024 года Genie от DeepMind генерировала играбельные 2D-миры из видео без разметки, а Genie 2 (декабрь 2024) расширила это до интерактивных 3D-сцен. Общая ставка: настоящее понимание рождается из моделирования того, как меняется мир, а не из предсказания следующего токена.
Предварительные знания
От языковых моделей к моделям мира
LLM обучены на тексте и понимают мир *через язык*. Но язык - это сжатое, символическое описание реальности. Предложение "мяч падает на пол" не содержит ни траектории, ни скорости, ни упругости. GPT-4 знает правильный ответ из миллиардов текстов - но не вычисляет его. **World model** - это AI-система, которая строит внутреннее представление физического мира и предсказывает следующее состояние, как Sora предсказывает следующий кадр видео или Tesla FSD - поведение пешехода через 3 секунды.
Yann LeCun (Chief AI Scientist, Meta) - главный идеолог world models. Его позиция: **LLM никогда не достигнут human-level AI**, потому что текст содержит ничтожную долю информации о мире. Ребёнок к 4 годам получает через зрение эквивалент `10^15` байт сенсорных данных - больше, чем весь текст в интернете. Поэтому Meta инвестирует в V-JEPA и мультимодальные архитектуры, а не просто масштабирует LLaMA.
A large language model trained on all the text ever written will still understand less about the physical world than a house cat.
| Аспект | Language Model | World Model |
|---|---|---|
| Обучающие данные | Текст (терабайты) | Видео, сенсорные данные (петабайты) |
| Понимание физики | Через текстовые описания | Через наблюдение и предсказание |
| Причинность | Корреляция в текстах | Причинно-следственные связи |
| Планирование | В пространстве текста | В пространстве действий и состояний |
| Пример | GPT-4, Claude, Gemini | Sora, Genie, JEPA (исследования) |
**Контраргумент:** сторонники LLM-подхода (включая Илью Суцкевера, бывшего Chief Scientist OpenAI) утверждают, что достаточно большая языковая модель *неизбежно* выучит физику мира из текста - потому что текст описывает физику. Этот спор - один из центральных в AI research.
В чём фундаментальное ограничение языковых моделей по мнению Yann LeCun?
Video Prediction: Sora, Genie и симуляция реальности
Генерация видео - промежуточный шаг к world models. Если модель предсказывает следующий кадр достаточно хорошо, она *должна* иметь внутреннюю модель физики: объекты не проходят сквозь стены, вода течёт вниз, тени следуют за источником света. Именно из этой логики вырос Sora: обучить на миллионах часов видео - и физика выучится сама. Вопрос только в том, настоящая ли это физика или очень убедительные корреляции.
**OpenAI Sora** (февраль 2024, публичный релиз декабрь 2024) - генеративная модель видео, обученная на миллионах часов видеоконтента. Архитектура - Diffusion Transformer (DiT): комбинация diffusion process (как в DALL-E) и Transformer attention.
**Google Genie** (февраль 2024) и **Genie 2** (декабрь 2024, DeepMind) - принципиально другой подход. Sora генерирует фиксированное видео - просмотр без возможности вмешательства. Genie создаёт **интерактивные миры**: нажатие клавиши меняет состояние среды, модель предсказывает последствия. По сути - игровой движок, выученный из видео. Один скриншот стола - и уже можно обойти вокруг него, открыть ящик, уронить предмет.
**Является ли Sora world model?** Это предмет активных дебатов. Tim Brooks (один из создателей Sora) утверждает, что да - модель выучила "simulator of the physical world". Критики указывают на систематические нарушения физики: объекты появляются из ниоткуда, жидкости ведут себя неправильно. Вероятнее всего, Sora выучила мощные визуальные prior'ы, но не настоящую физическую модель.
Для AI-инженеров video generation открывает конкретные применения уже сейчас. Самое ценное - синтетические данные для обучения роботов: вместо тысяч реальных экспериментов с физическим манипулятором генерируется видео нужных сценариев. Boston Dynamics и Figure AI уже используют симуляцию для pre-training. Другие применения: тренировочные симуляции для операторов, preview архитектурных проектов, быстрое прототипирование UI/UX без съёмки.
В чём принципиальное отличие Google Genie от OpenAI Sora?
JEPA: архитектура будущего от Meta AI
**JEPA (Joint Embedding Predictive Architecture)** - архитектура, предложенная Yann LeCun как альтернатива и LLM, и generative models. Ключевая идея: вместо предсказания пикселей (как Sora) или токенов (как GPT), предсказывать **абстрактные представления** будущих состояний.
**V-JEPA** (Video Joint Embedding Predictive Architecture, Meta, февраль 2024) - первая реализация JEPA для видео. Модель обучается предсказывать embedding'и замаскированных фрагментов видео - как BERT с masked tokens, но в пространстве видео-представлений. Результат: V-JEPA достигает state-of-the-art на action recognition без единой текстовой аннотации - чисто из наблюдения за последовательностями кадров.
JEPA решает проблему, которая мучает generative models: **предсказание в pixel space неэффективно**. Когда Sora предсказывает следующий кадр, около 90% compute уходит на фон, текстуры, освещение - детали, не влияющие на понимание происходящего. Человеческий мозг не предсказывает каждый фотон - мозг строит абстрактные модели объектов и их взаимодействий. V-JEPA делает то же самое: учится думать категориями «мяч летит вниз-вправо», а не «пиксели [123, 45, 67] смещаются на вектор (2, 3)».
| Подход | Предсказывает | Плюсы | Минусы |
|---|---|---|---|
| LLM (GPT) | Следующий токен | Масштабируется, универсален | Только текст, нет физики |
| Generative (Sora) | Следующие пиксели | Визуально реалистично | Неэффективно, поверхностное понимание |
| JEPA (V-JEPA) | Абстрактные representations | Эффективно, семантическое понимание | Ранний этап исследований, не генерирует контент |
| Гибрид (будущее) | Representations + генерация | Лучшее из обоих подходов | Пока не существует |
**Статус JEPA (2025):** пока это исследовательский проект, не продукт. V-JEPA показывает state-of-the-art на задачах понимания видео, но не умеет генерировать. LeCun позиционирует JEPA как фундамент для AGI - путь на 5-10 лет. Скептики указывают, что конкретных продуктов на JEPA пока нет.
В чём ключевое отличие JEPA от generative models типа Sora?
Causal Reasoning: от корреляции к пониманию причин
Современные AI-системы - включая LLM и большинство world models - преимущественно работают с **корреляциями**: «X часто встречается вместе с Y». Но для настоящего понимания мира нужна **каузальность**: «X *вызывает* Y». GPT-4 знает, что «мороженое и утопления коррелируют» - но без каузального графа не может объяснить, что общая причина - жаркое лето. Для рекомендательных систем это приводит к систематическим ошибкам: модель рекомендует «лечение», которое лишь сопровождает выздоровление, не вызывая его.
**Judea Pearl** (Тьюринговская премия 2011) формализовал теорию каузальности в AI через «Ladder of Causation». Современные LLM - GPT-4, Claude, Gemini - находятся на уровне 1: **ассоциации** («Что обычно происходит?»). Для AGI необходим уровень 2 - **интервенции** («Что произойдёт, если принять это лекарство?») и уровень 3 - **контрфактуальность** («Выжил бы пациент без операции?»). Разница принципиальна для медицинского AI, финансовых решений, автономных агентов.
Практические последствия для AI-инженеров уже ощутимы. Рекомендательные системы путают корреляцию с причинностью: пользователь купил зонт после просмотра прогноза погоды - модель решает, что прогноз погоды *вызывает* покупки зонтов, и начинает рекомендовать зонты всем, кто смотрит погоду. Medical AI делает ошибочные выводы из observational data. Бизнес-аналитика строится на spurious correlations - A/B тест показывает рост метрик, но реальная причина - внешний фактор, не тест.
Для робототехники каузальное понимание - необходимость, а не абстрактное требование. Робот с одними корреляциями («нажимаю кнопку - дверь открывается») не справится, если кнопка сломана. DeepMind Gato - мультизадачный агент, обученный на сотнях задач одновременно - демонстрирует именно эту хрупкость: перенос между задачами ломается, когда меняется causal structure среды. Робот с каузальной моделью («кнопка → сигнал → мотор → дверь») диагностирует сломанное звено и ищет обходной путь.
**Прогноз:** к 2027-2030 ожидается конвергенция LLM, world models и causal reasoning. Модели будут обучаться на текстах *и* видео *и* интерактивных средах, выстраивая каузальные графы мира. Первые признаки уже видны: Gemini 2.0 объединяет текст, видео и код; Meta работает над JEPA для робототехники; DeepMind интегрирует causal inference в своих research-проектах.
Почему различие корреляции и причинности критично для AI-приложений?
Итоги
- LLM работают с символами - текст про физику, но не физика. World model строит внутреннюю симуляцию: видит стакан на краю стола и вычисляет траекторию падения
- Sora (DiT) генерирует фотореалистичное видео, но физика иногда ломается - это мощные visual priors, не симулятор. Genie 2 - интерактивный мир из одного фото, физика встроена в модель
- JEPA (Meta) предсказывает в latent space, а не в pixel space: 90% compute у Sora уходит на фон и тени - JEPA это игнорирует и фокусируется на семантически значимых изменениях
- Каузальность по Judea Pearl - три уровня: ассоциация (LLM сейчас), интервенция (что будет, если...), контрфактуальность (что было бы, если...). AGI требует минимум уровень 2
- Конвергенция уже идёт: Gemini 2.0 объединяет текст и видео, Meta строит JEPA для роботов, DeepMind интегрирует causal inference - горизонт конвергенции 2027-2030
Что дальше
World models - ещё одна траектория к AGI. Следующий урок рассматривает сам вопрос AGI: scaling laws, emergence, alignment.
- Путь к AGI — World models + reasoning = ключевые компоненты на пути к AGI
- Reasoning модели — Reasoning в тексте (o1/o3) дополняет reasoning о физическом мире
- Мультимодальные модели — World models строятся на мультимодальных архитектурах
Связанные уроки
- aie-25-multimodal — World models расширяют мультимодальность на видео
- aie-53-future-reasoning — Физическое рассуждение дополняет языковое
- aie-26-image-generation — Предсказание видео строится на генеративных моделях изображений
- stat-20-causal — Причинное понимание опирается на causal inference
- ml-30-rnn-lstm — Предсказание кадров повторяет временные модели
- ml-11