Робототехника

Autonomous Vehicles: perception, planning, prediction, V2X

В 2023 году Waymo проехал 7.1 миллиона автономных миль в Phoenix без водителя; Cruise открыл паркинг на сотнях машин в San Francisco до приостановки операций после аварии в октябре. Tesla FSD v12 в 2024 году перевёл планирование на end-to-end neural network. Эти компании демонстрируют разные подходы к одной задаче: трансформировать сенсоры в безопасную траекторию в реальном времени. За кулисами скрывается стек из четырёх компонент - perception, prediction, planning, V2X - каждый со своими алгоритмами и failure modes. Понимание архитектуры стека объясняет, почему Tesla и Waymo получают разные результаты, и почему 'один умный AI' пока недостаточно: безопасность требует системы из нескольких независимых слоёв с резервированием, как в авионике или медицинской технике.

**Waymo Driver**: Hierarchical-стек с multi-modal sensors (5 LiDAR, 29 cameras), 7.1 миллиона driverless миль в 2023 году
**Tesla FSD v12**: end-to-end policy network от camera-input до steering без middle representation, 1 миллиард миль на FSD по состоянию на 2024
**Cruise**: SF-deployment с robotaxi-fleet ~300 машин, приостановлен после аварии октября 2023 - illustrates failure modes сложного стека
**Mobileye**: Multi-tier архитектура с responsibility-sensitive safety модель (RSS) - формальные гарантии безопасности через mathematical proofs

Perception Stack: камера, LiDAR, radar и их fusion

**Perception stack** автономного автомобиля - это конвейер, превращающий сырые сенсорные потоки в семантическую модель окружения: 'там пешеход', 'слева машина едет 60 км/ч'. Стандартный набор сенсоров - 6-8 камер по периметру, 1-4 LiDAR, 6-12 радаров, ультразвуковые на бамперах. Каждый сенсор имеет свои сильные стороны: камера видит цвет и текстуру (знаки, разметка), LiDAR даёт точную 3D-геометрию на 100-200 м, radar работает в тумане и измеряет скорость через Doppler. **Sensor fusion** объединяет их в единую 4D-сцену: 3D-объекты + время. Tesla заявляет vision-only подход без LiDAR, Waymo и Cruise настаивают на multi-modal fusion - этот выбор определяет всю архитектуру.

Современные perception-модели работают в **BEV-пространстве** (Bird's Eye View): сенсорные потоки проецируются в общую top-down плоскость, на которой запускается детектирование. Архитектура **BEVFormer** (Tesla / NIO) использует transformer для пересборки camera-features в BEV-сетку, что упрощает downstream planning. Латентность всего perception-конвейера обычно 30-50 мс при 10-20 Hz обновления. Жёсткое требование - end-to-end deterministic latency: пропустить detection на 100 мс может стоить жизни на скорости 100 км/ч.

Зачем современные autonomous vehicles выполняют детектирование в BEV-пространстве вместо чистого camera-плоскости?

Motion Planning: от точки A к точке B без столкновений

**Motion planning** в автономном автомобиле работает на двух уровнях. **Behavioral planning** решает 'что делать': continue lane, change lane left, yield to pedestrian, stop at traffic light. Обычно реализован через state machine или поведенческое дерево с десятками состояний. **Trajectory planning** решает 'как именно ехать': генерирует траекторию (x(t), y(t), v(t)) на 5-10 секунд вперёд, удовлетворяющую кинематическим constraints (max acceleration, max steering rate) и оптимизирующую smoothness + comfort + progress. Чаще всего это **MPC** (Model Predictive Control) или **lattice-based search** в дискретизированном пространстве. Латентность budget на planning - 50-100 мс при cycle rate 10 Hz.

Главный вызов trajectory planning - **multimodality**: в одной ситуации есть несколько равно валидных решений (объехать слева/справа/затормозить). Классический MPC выберет одно по cost function. Современные end-to-end-системы (Wayve, Comma.ai) тренируют neural network предсказывать множество траекторий и выбирать оптимальную через ranking. Tesla FSD v12 (2024) полностью перешёл на end-to-end policy network - один трансформер от camera-input до steering/throttle, что упростило архитектуру, но усложнило debugging и сертификацию.

Чем end-to-end planning (Tesla FSD v12) отличается от классического hierarchical (behavioral + trajectory) подхода?

Behavior Prediction: что сделают другие участники

**Behavior prediction** отвечает на ключевой вопрос: 'что будут делать другие участники движения в следующие 5-10 секунд?'. Без этого motion planning превращается в реактивное избегание уже произошедшего, а не proactive поведение. Современные prediction-модели - **multi-modal**: для каждого детектированного объекта выдаются 5-10 возможных траекторий с probabilities. Пешеход на тротуаре - 80% продолжит идти, 15% свернёт, 5% выйдет на дорогу. Машина перед светофором - 90% поедет прямо, 5% повернёт направо, 5% остановится. Эти распределения подаются в planning как stochastic obstacles, и MPC оптимизирует expected cost по их совместному распределению.

Leading prediction-модели - graph neural networks (GNN), где узлы - агенты, рёбра - их взаимные влияния, а также transformer-attention над agent-trajectory токенами. **MultiPath++** (Waymo 2021), **Wayformer** (Waymo 2022), **MTR** (CVPR 2023) - публичные подходы. На бенчмарке Waymo Open Motion Dataset достигают minADE@10s около 1.5 м. Однако реальный challenge - не средняя ошибка, а **tail risk**: правильно предсказать редкие, но критичные сценарии (внезапный выход ребёнка, агрессивная езда). Здесь применяются worst-case sampling, robust planning, conformal prediction для гарантированных доверительных интервалов.

Почему multi-modal prediction (несколько возможных траекторий с вероятностями) предпочтительнее single-trajectory prediction?

V2X: автомобиль как часть инфраструктуры

**V2X** (Vehicle-to-Everything) - набор стандартов для коммуникации автономного автомобиля с инфраструктурой и другими участниками. **V2V** (vehicle-to-vehicle): машины обмениваются текущей скоростью, направлением, тормозными намерениями. **V2I** (vehicle-to-infrastructure): светофоры сообщают остаточное время до переключения, дорожные знаки - о работах впереди. **V2P** (vehicle-to-pedestrian): через смартфон-приложение, особенно для уязвимых групп. Стандарты: **DSRC** (Dedicated Short Range Communications, 5.9 GHz) - первое поколение, **C-V2X** на 4G/5G - современное. Дальность до 300-1000 м, латентность 10-50 мс.

V2X решает фундаментальную проблему perception: **occlusion**. Если автомобиль за грузовиком собирается резко затормозить - камера не видит, но V2V сообщение о Emergency Brake Notification доходит за 50 мс. То же для пешехода за автобусом - его смартфон через V2P сообщает координаты. Реальное развёртывание идёт медленнее ожиданий: к 2025 году только Китай (вокруг Шанхая, Wuxi) имеет покрытие V2X на сотнях километров дорог; США и ЕС пилотируют. Главное препятствие - chicken-and-egg: автомобилям V2X бесполезен без инфраструктуры, а инфраструктуре нет смысла строиться без автомобилей.

Автономный автомобиль - это просто сильная нейросеть на сильном железе

Autonomous vehicle - это полный стек из 4 компонент: perception (sensor fusion в BEV), prediction (multi-modal trajectories других агентов), planning (MPC или end-to-end policy) и V2X (cooperative perception). Failure любого слоя ведёт к ошибкам или авариям. Tesla vision-only делает упор на perception+planning, Waymo - на multi-modal sensors+V2X, но никто не обходится без всех четырёх.

Sensor может ошибиться - но prediction компенсирует через consistent tracking; perception может пропустить объект из-за occlusion - V2X сообщит; planning может выбрать неоптимально - prediction даст запас по margins. Это система с независимыми failure modes и резервированием, как ARINC 653 в авиации. Один компонент не определяет качество - его определяет компоновка.

Какое фундаментальное ограничение sensor-only perception решает V2X?

Ключевые идеи

**Perception** объединяет camera/LiDAR/radar в общее BEV-пространство; sensor fusion компенсирует слабости каждого модального сенсора (camera ночью, LiDAR в тумане, radar в разрешении)
**Motion planning** существует на двух уровнях: behavioral (state machine) и trajectory (MPC); Tesla FSD v12 переходит на end-to-end neural network, упрощая стек ценой interpretability
**Behavior prediction** должен быть multi-modal: пешеход у дороги действительно имеет несколько возможных намерений, и single-trajectory prediction теряет эту информацию
**V2X** решает occlusion - принципиальное физическое ограничение sensor-only perception; cooperative perception даёт новый класс safety scenarios
**Autonomous vehicle - это система с redundancy**, как ARINC 653 в авионике; failure любого одного слоя компенсируется другими, и качество определяется компоновкой целого, а не одной 'умной нейросетью'

Связанные темы

Autonomous vehicles находятся на пересечении нескольких глубоких направлений:

Real-time systems — AV perception/planning - типичные real-time задачи с deadlines 50-100 мс; применяются rate monotonic, MPC, sertификация ISO 26262 ASIL D
Sensor fusion — BEV-fusion camera + LiDAR + radar - частный случай multi-sensor estimation, опирается на Kalman filtering, particle filtering, deep learning fusion
Reinforcement learning — Comma.ai и Wayve используют offline RL на логах человеческого вождения для обучения end-to-end policy; CQL и DT находят применение

Вопросы для размышления

Tesla идёт vision-only без LiDAR, Waymo - с full multi-modal sensors и V2X. Какие архитектурные допущения за этим стоят, и какие компромиссы каждый из подходов закрывает?
End-to-end policy network даёт лучшее качество в среднем, но усложняет debugging и сертификацию. Какие методы verification применимы к чёрному ящику автономного вождения?
V2X решает occlusion, но требует развёртывания инфраструктуры. Какие пути преодоления chicken-and-egg проблемы возможны - стандарты, регуляция, гибридные модели?

Связанные уроки

rob-12 — Навигация и планирование - основа для автономных систем
rob-14 — Автономные автомобили - следующий шаг после базового rob-12
ml-20-anomaly-detection — Обнаружение аномалий в восприятии AV
prob-17 — Prediction в AV строится на Марковских моделях движения
net-15-tcp-basics — V2X коммуникация строится на сетевых стеках
alg-37-a-star