AI-инжиниринг
Computer Use и GUI-агенты: AI который видит экран и кликает мышкой
Цели урока
- Понять архитектуру Computer Use: screenshot -> LLM -> action цикл
- Разобраться с инструментами: Claude Computer Use, browser-use, Stagehand
- Узнать production паттерны: sandboxing, лимиты, стоимость
- Применять дерево решений: когда Computer Use оправдан, когда нет
Selenium существует с 2004 года. 20 лет веб-автоматизации через CSS-селекторы - и каждый редизайн ломал сотни тестов. Октябрь 2024: Anthropic выпускает Computer Use. Агент смотрит на экран как человек и кликает по визуально найденным элементам. Без знания HTML. Без CSS-селекторов. Просто: вижу кнопку - кликаю.
- Anthropic Computer Use (октябрь 2024) - первая public beta frontier модели с управлением GUI через скриншоты
- OpenAI Operator (январь 2025) - hosted агент для веб-задач, работает в облаке Anthropic без локальной инфраструктуры
- browser-use - Python библиотека 2024 года, 30K+ GitHub звёзд за первые месяцы, используется для автоматизации без API
- Stagehand от Browserbase - TypeScript-first браузерная автоматизация через LLM, production-ready с 2024
Появление GUI-агентов
До 2024 автоматизация интерфейсов держалась на хрупких селекторах: Selenium и Playwright находили элементы по HTML и CSS, и любой редизайн ломал сценарии. В октябре 2024 Anthropic выпустила Computer Use - Claude 3.5 Sonnet стал первой frontier-моделью в public beta, которая управляет компьютером как человек: смотрит на скриншот, двигает курсор, кликает и печатает. В январе 2025 OpenAI представила Operator - агента для веб-задач, работающего в браузере. Эти запуски открыли класс GUI- и web-агентов, которые действуют на уровне визуального интерфейса, а не API. Подход дороже и медленнее прямой интеграции, но работает там, где API нет: legacy-системы, чужие сайты, десктопные приложения.
Предварительные знания
Computer Use: архитектура screenshot -> action цикла
Selenium появился в 2004. Двадцать лет автоматизации через CSS-селекторы, XPath, DOM-инспекцию. Каждый скрипт знал структуру страницы наизусть - и ломался при любом редизайне. Computer Use меняет уровень абстракции. Агент **видит пиксели** - не DOM. Если кнопка переехала - агент её найдёт.
Октябрь 2024: Anthropic выпускает Claude Computer Use в public beta. Впервые - frontier модель, которая принимает скриншот экрана и возвращает действие: click, type, scroll, key. Не команду к DOM, не CSS-селектор. Координаты пикселя.
Anthropic предоставляет Computer Use через специальные tools в API. Три инструмента: `computer` (скриншоты + действия), `bash` (выполнение команд), `text_editor` (редактирование файлов). Вместе они дают агенту полный контроль над окружением.
Computer Use работает только в sandbox-среде. Запуск на production-машине - серьёзный security risk. Агент видит весь экран, включая пароли, токены, открытые терминалы. Стандарт индустрии - изолированная VM с ограниченным сетевым доступом.
| Действие | API параметр | Пример |
|---|---|---|
| Клик | left_click / right_click | { action: 'left_click', coordinate: [450, 320] } |
| Ввод текста | type | { action: 'type', text: 'hello world' } |
| Скрол | scroll | { action: 'scroll', coordinate: [640, 400], direction: 'down', amount: 3 } |
| Нажатие клавиши | key | { action: 'key', text: 'Return' } |
| Скриншот | screenshot | { action: 'screenshot' } |
Чем Computer Use принципиально отличается от Selenium?
browser-use и веб-автоматизация через LLM
browser-use - Python-библиотека (2024, open-source), которая даёт LLM полный контроль над браузером через Playwright. Не скриншоты пикселей - структура DOM + скриншот вместе. Это даёт лучшую точность при меньшей стоимости по сравнению с чистым Computer Use.
Для TypeScript - Stagehand от Browserbase (2024). Playwright + LLM в одном SDK. Ключевой примитив: `act()` - описание действия на естественном языке, а не CSS-селектор.
| Инструмент | Язык | Подход | Когда использовать |
|---|---|---|---|
| Claude Computer Use | Python/TS | Чистый screenshot | Любой GUI, десктоп, нет Playwright |
| browser-use | Python | DOM + screenshot | Веб-задачи, открытый код |
| Stagehand | TypeScript | Playwright + LLM | TypeScript-стек, точность важна |
| OpenAI Operator | Hosted | Облачный агент | Готовый продукт, не нужна инфраструктура |
Комбинация DOM + screenshot (как в browser-use и Stagehand) стабильнее чистого Computer Use для веб-задач. DOM даёт точные координаты элементов, скриншот помогает с динамическим контентом (canvas, SVG, custom web components).
Почему browser-use точнее чистого Computer Use для веб-автоматизации?
Production паттерны: sandboxing, надёжность, стоимость
Одна задача Computer Use - это 10-50 скриншотов. Каждый скриншот - vision API вызов. GPT-4o Vision: ~USD 0.01 за изображение. 30 шагов = USD 0.30 за одну задачу. При 1000 задач в день - USD 300/день, USD 9000/месяц. Стоимость требует осознанной архитектуры.
Запуск агентов без изоляции - критическая уязвимость. Агент видит весь экран: пароли в терминале, открытые вкладки с токенами, SSH-ключи в файл-менеджере. Стандарт - ephemeral VM, уничтожаемая после каждой задачи.
| Проблема | Симптом | Решение |
|---|---|---|
| Бесконечный цикл | Агент кликает одно и то же снова и снова | MAX_STEPS лимит + детектор повторяющихся действий |
| Высокая стоимость | USD 5+ за задачу | Уменьшить разрешение скриншота, добавить text-only режим |
| Security breach | Агент видит чужие данные | Ephemeral VM, network sandbox, screen region masking |
| Нестабильность | 50% задач не завершаются | Retry с новым контекстом, human-in-the-loop fallback |
Computer Use не подходит для задач с требованием 100% надёжности. Accuracy современных агентов на WebArena benchmark - 14-38% (2024). Для критических бизнес-задач нужен человек в петле или fallback на традиционную автоматизацию.
Почему в Computer Use системах обязательно нужен MAX_STEPS лимит?
Когда Computer Use, когда API, когда нет ни того ни другого
Computer Use - это последнее средство, не первое. Дерево принятия решений перед тем как запускать агента с экраном:
Реальные use cases, где Computer Use оправдан в production:
- **Legacy enterprise systems** - SAP, Oracle Forms, старые CRM без API. Миграция данных без API занимала месяцы ручной работы
- **Scraping SPA без API** - Angular/React-приложения, требующие JS-рендеринга и авторизации
- **QA-тестирование** - запись и воспроизведение пользовательских сценариев без хрупких селекторов
- **Accessibility automation** - задачи, где визуальный слой - единственный интерфейс
Самый быстрый путь проверить нужен ли Computer Use: поискать unofficial API или мобильное приложение. Многие "API-free" сервисы имеют неофициальные endpoints, которые используют их мобильные приложения - это легальнее и надёжнее screenshot-автоматизации.
Для какой задачи Computer Use НАИБОЛее оправдан?
Computer Use заменит традиционную автоматизацию (Selenium, Playwright)
Computer Use дополняет традиционную автоматизацию. Для задач с предсказуемым HTML Playwright надёжнее, быстрее и в 30x дешевле
WebArena benchmark 2024: лучшие Computer Use агенты выполняют 14-38% задач успешно. Playwright с правильными селекторами - близко к 100%. Computer Use нужен там, где селекторы не работают: legacy systems, dynamic SPA, canvas-based UI, desktop apps.
Computer Use безопасен по умолчанию - агент только читает экран
Агент имеет полный контроль: клавиатура, мышь, командная строка. Запуск без sandbox - это полный доступ к системе
Computer Use tools включают не только скриншоты, но и bash-выполнение и редактирование файлов. Без изоляции агент может удалить файлы, отправить данные наружу, изменить конфигурацию системы. Обязательно: ephemeral VM, network restrictions, no-secrets-on-screen.
Итоги
- Computer Use - цикл: скриншот -> LLM vision -> action (click/type/scroll) -> следующий скриншот
- Инструменты: Claude Computer Use (любой GUI), browser-use (Python+веб), Stagehand (TypeScript+веб)
- Стоимость: 20-50 шагов x USD 0.01-0.02 = USD 0.20-1.00 за задачу - дорого для массовых операций
- Обязательно: ephemeral sandbox, MAX_STEPS лимит, security isolation
- Применять только когда нет API, нет официальных интеграций, и HTML непредсказуем
Вопросы для размышления
- Какие задачи в существующих проектах не имеют API и сейчас решаются ручным трудом - и могли бы быть автоматизированы через Computer Use?
- Почему точность Computer Use агентов на benchmark-ах 14-38%, а не 90%+? Что мешает надёжности?
- Если задача стоит USD 0.50/запрос через Computer Use и USD 0.001/запрос через API - при каком объёме Computer Use перестаёт быть экономически оправданным?
Что дальше
Агент управляет браузером. Следующий уровень - агенты общаются друг с другом через стандартный протокол.
- A2A Protocol — Протокол для коммуникации между агентами - следующий урок
- Автономные агенты — Фундамент: как агент принимает решения в multi-step задачах
- MCP Protocol — Стандарт для подключения инструментов к агентам