AI-инжиниринг

Computer Use и GUI-агенты: AI который видит экран и кликает мышкой

Цели урока

Понять архитектуру Computer Use: screenshot -> LLM -> action цикл
Разобраться с инструментами: Claude Computer Use, browser-use, Stagehand
Узнать production паттерны: sandboxing, лимиты, стоимость
Применять дерево решений: когда Computer Use оправдан, когда нет

Selenium существует с 2004 года. 20 лет веб-автоматизации через CSS-селекторы - и каждый редизайн ломал сотни тестов. Октябрь 2024: Anthropic выпускает Computer Use. Агент смотрит на экран как человек и кликает по визуально найденным элементам. Без знания HTML. Без CSS-селекторов. Просто: вижу кнопку - кликаю.

Anthropic Computer Use (октябрь 2024) - первая public beta frontier модели с управлением GUI через скриншоты
OpenAI Operator (январь 2025) - hosted агент для веб-задач, работает в облаке Anthropic без локальной инфраструктуры
browser-use - Python библиотека 2024 года, 30K+ GitHub звёзд за первые месяцы, используется для автоматизации без API
Stagehand от Browserbase - TypeScript-first браузерная автоматизация через LLM, production-ready с 2024

Появление GUI-агентов

До 2024 автоматизация интерфейсов держалась на хрупких селекторах: Selenium и Playwright находили элементы по HTML и CSS, и любой редизайн ломал сценарии. В октябре 2024 Anthropic выпустила Computer Use - Claude 3.5 Sonnet стал первой frontier-моделью в public beta, которая управляет компьютером как человек: смотрит на скриншот, двигает курсор, кликает и печатает. В январе 2025 OpenAI представила Operator - агента для веб-задач, работающего в браузере. Эти запуски открыли класс GUI- и web-агентов, которые действуют на уровне визуального интерфейса, а не API. Подход дороже и медленнее прямой интеграции, но работает там, где API нет: legacy-системы, чужие сайты, десктопные приложения.

Предварительные знания

Autonomous Agents: Devin, SWE-Agent, OpenHands - AI который пишет код сам

Computer Use: архитектура screenshot -> action цикла

Selenium появился в 2004. Двадцать лет автоматизации через CSS-селекторы, XPath, DOM-инспекцию. Каждый скрипт знал структуру страницы наизусть - и ломался при любом редизайне. Computer Use меняет уровень абстракции. Агент **видит пиксели** - не DOM. Если кнопка переехала - агент её найдёт.

Октябрь 2024: Anthropic выпускает Claude Computer Use в public beta. Впервые - frontier модель, которая принимает скриншот экрана и возвращает действие: click, type, scroll, key. Не команду к DOM, не CSS-селектор. Координаты пикселя.

Anthropic предоставляет Computer Use через специальные tools в API. Три инструмента: `computer` (скриншоты + действия), `bash` (выполнение команд), `text_editor` (редактирование файлов). Вместе они дают агенту полный контроль над окружением.

Computer Use работает только в sandbox-среде. Запуск на production-машине - серьёзный security risk. Агент видит весь экран, включая пароли, токены, открытые терминалы. Стандарт индустрии - изолированная VM с ограниченным сетевым доступом.

Действие	API параметр	Пример
Клик	left_click / right_click	{ action: 'left_click', coordinate: [450, 320] }
Ввод текста	type	{ action: 'type', text: 'hello world' }
Скрол	scroll	{ action: 'scroll', coordinate: [640, 400], direction: 'down', amount: 3 }
Нажатие клавиши	key	{ action: 'key', text: 'Return' }
Скриншот	screenshot	{ action: 'screenshot' }

Чем Computer Use принципиально отличается от Selenium?

browser-use и веб-автоматизация через LLM

browser-use - Python-библиотека (2024, open-source), которая даёт LLM полный контроль над браузером через Playwright. Не скриншоты пикселей - структура DOM + скриншот вместе. Это даёт лучшую точность при меньшей стоимости по сравнению с чистым Computer Use.

Для TypeScript - Stagehand от Browserbase (2024). Playwright + LLM в одном SDK. Ключевой примитив: `act()` - описание действия на естественном языке, а не CSS-селектор.

Инструмент	Язык	Подход	Когда использовать
Claude Computer Use	Python/TS	Чистый screenshot	Любой GUI, десктоп, нет Playwright
browser-use	Python	DOM + screenshot	Веб-задачи, открытый код
Stagehand	TypeScript	Playwright + LLM	TypeScript-стек, точность важна
OpenAI Operator	Hosted	Облачный агент	Готовый продукт, не нужна инфраструктура

Комбинация DOM + screenshot (как в browser-use и Stagehand) стабильнее чистого Computer Use для веб-задач. DOM даёт точные координаты элементов, скриншот помогает с динамическим контентом (canvas, SVG, custom web components).

Почему browser-use точнее чистого Computer Use для веб-автоматизации?

Production паттерны: sandboxing, надёжность, стоимость

Одна задача Computer Use - это 10-50 скриншотов. Каждый скриншот - vision API вызов. GPT-4o Vision: ~USD 0.01 за изображение. 30 шагов = USD 0.30 за одну задачу. При 1000 задач в день - USD 300/день, USD 9000/месяц. Стоимость требует осознанной архитектуры.

Запуск агентов без изоляции - критическая уязвимость. Агент видит весь экран: пароли в терминале, открытые вкладки с токенами, SSH-ключи в файл-менеджере. Стандарт - ephemeral VM, уничтожаемая после каждой задачи.

Проблема	Симптом	Решение
Бесконечный цикл	Агент кликает одно и то же снова и снова	MAX_STEPS лимит + детектор повторяющихся действий
Высокая стоимость	USD 5+ за задачу	Уменьшить разрешение скриншота, добавить text-only режим
Security breach	Агент видит чужие данные	Ephemeral VM, network sandbox, screen region masking
Нестабильность	50% задач не завершаются	Retry с новым контекстом, human-in-the-loop fallback

Computer Use не подходит для задач с требованием 100% надёжности. Accuracy современных агентов на WebArena benchmark - 14-38% (2024). Для критических бизнес-задач нужен человек в петле или fallback на традиционную автоматизацию.

Почему в Computer Use системах обязательно нужен MAX_STEPS лимит?

Когда Computer Use, когда API, когда нет ни того ни другого

Computer Use - это последнее средство, не первое. Дерево принятия решений перед тем как запускать агента с экраном:

Реальные use cases, где Computer Use оправдан в production:

**Legacy enterprise systems** - SAP, Oracle Forms, старые CRM без API. Миграция данных без API занимала месяцы ручной работы
**Scraping SPA без API** - Angular/React-приложения, требующие JS-рендеринга и авторизации
**QA-тестирование** - запись и воспроизведение пользовательских сценариев без хрупких селекторов
**Accessibility automation** - задачи, где визуальный слой - единственный интерфейс

Самый быстрый путь проверить нужен ли Computer Use: поискать unofficial API или мобильное приложение. Многие "API-free" сервисы имеют неофициальные endpoints, которые используют их мобильные приложения - это легальнее и надёжнее screenshot-автоматизации.

Для какой задачи Computer Use НАИБОЛее оправдан?

Computer Use заменит традиционную автоматизацию (Selenium, Playwright)

Computer Use дополняет традиционную автоматизацию. Для задач с предсказуемым HTML Playwright надёжнее, быстрее и в 30x дешевле

WebArena benchmark 2024: лучшие Computer Use агенты выполняют 14-38% задач успешно. Playwright с правильными селекторами - близко к 100%. Computer Use нужен там, где селекторы не работают: legacy systems, dynamic SPA, canvas-based UI, desktop apps.

Computer Use безопасен по умолчанию - агент только читает экран

Агент имеет полный контроль: клавиатура, мышь, командная строка. Запуск без sandbox - это полный доступ к системе

Computer Use tools включают не только скриншоты, но и bash-выполнение и редактирование файлов. Без изоляции агент может удалить файлы, отправить данные наружу, изменить конфигурацию системы. Обязательно: ephemeral VM, network restrictions, no-secrets-on-screen.

Итоги

Computer Use - цикл: скриншот -> LLM vision -> action (click/type/scroll) -> следующий скриншот
Инструменты: Claude Computer Use (любой GUI), browser-use (Python+веб), Stagehand (TypeScript+веб)
Стоимость: 20-50 шагов x USD 0.01-0.02 = USD 0.20-1.00 за задачу - дорого для массовых операций
Обязательно: ephemeral sandbox, MAX_STEPS лимит, security isolation
Применять только когда нет API, нет официальных интеграций, и HTML непредсказуем

Вопросы для размышления

Какие задачи в существующих проектах не имеют API и сейчас решаются ручным трудом - и могли бы быть автоматизированы через Computer Use?
Почему точность Computer Use агентов на benchmark-ах 14-38%, а не 90%+? Что мешает надёжности?
Если задача стоит USD 0.50/запрос через Computer Use и USD 0.001/запрос через API - при каком объёме Computer Use перестаёт быть экономически оправданным?

Что дальше

Агент управляет браузером. Следующий уровень - агенты общаются друг с другом через стандартный протокол.

A2A Protocol — Протокол для коммуникации между агентами - следующий урок
Автономные агенты — Фундамент: как агент принимает решения в multi-step задачах
MCP Protocol — Стандарт для подключения инструментов к агентам

Связанные уроки