Что такое агент по использованию компьютера?

A агент по использованию компьютеров — это агент на базе искусственного интеллекта, который управляет браузером или графическим интерфейсом пользователя на рабочем столе, анализируя снимки экрана и выполняя действия, включая нажатие кнопок, ввод текста и прокрутку, для выполнения задач без использования структурированного API. Агент визуально воспринимает текущее состояние экрана, анализирует цепочку прошлых и настоящих снимков экрана, а затем выполняет следующее действие до тех пор, пока задача не будет завершена или не потребуется ввод данных со стороны пользователя (OpenAI, 2025). Поскольку агент ведет себя так же, как человек, просматривающий веб-страницы, он сталкивается с теми же средствами обнаружения ботов, с которыми сталкивается любой реальный посетитель.

Как работает компьютерный агент?

Агент получает задачу, сформулированную на естественном языке, после чего вступает в цикл: делает снимок экрана, анализирует отображаемое на экране и события, произошедшие до этого момента, выбирает действие (щелчок, ввод текста, прокрутка, переход) и выполняет его. Агент OpenAI по работе с компьютером (CUA) сочетает зрительное восприятие с логическим мышлением для управления графическим интерфейсом, перед каждым действием анализируя текущие и прошлые снимки экрана посредством цепочки рассуждений (OpenAI, 2025). Цикл повторяется до тех пор, пока агент не сочтёт задачу выполненной или не потребует ввода данных со стороны пользователя.

Результаты тестирования демонстрируют значительные, но ограниченные возможности. На момент запуска система CUA продемонстрировала показатель успешности 38,1 % в тесте OSWorld (задачи, связанные с полноценным использованием компьютера), 58,1 % в тесте WebArena и 87 % в тесте WebVoyager для веб-задач (OpenAI, 2025). Эти показатели высоки по сравнению с предыдущими системами, однако они также означают, что при выполнении сложных многоэтапных задач по-прежнему наблюдается значительный процент неудач.

Почему агенты, использующие компьютеры, блокируются

Агенты, имитирующие работу компьютеров, используют реальные браузеры, однако их IP-адреса, отпечатки TLS и шаблоны запросов зачастую отличаются от обычного потребительского трафика. IP-адрес центра обработки данных, предсказуемая хронология взаимодействия или несоответствующий отпечаток браузера могут сработать системы обнаружения ботов ещё до того, как агент завершит свой первый шаг. Чередование IP-адресов из частных сетей, реалистичные профили браузеров и полная визуализация JavaScript являются практическими требованиями для агентов, работающих в больших масштабах на сайтах с активными средствами защиты от ботов.

Случаи использования

  • Исследование в области электронной коммерции. Агенты посещают страницы товаров, сравнивают цены и извлекают структурированные данные без использования специального API розничного продавца.
  • Заполнение форм и автоматизация задач. Агенты заполняют многоэтапные формы, проходят регистрацию или взаимодействуют с веб-интерфейсами, не предоставляющими доступ к API.
  • Тестирование в рамках контроля качества. Агенты воспроизводят пользовательские сценарии в произвольных веб-интерфейсах с целью выявления регрессий.
  • Сбор данных из открытых источников в Интернете. Агенты следуют по динамическим навигационным путям и просматривают результаты, недоступные для статических скрейперов.

Для решения этих задач сеть прокси-серверов Massive для частных пользователей (реальные потребительские устройства в более чем 195 странах) и Web Render API обеспечивают агентам разнообразие IP-адресов и полную визуализацию на JavaScript, необходимые для выполнения заданий на сайтах, блокирующих трафик из центров обработки данных.

Часто задаваемые вопросы

Традиционная автоматизация работы браузера (Selenium, Playwright) осуществляется на основе скрипта, написанного разработчиком: она вызывает определённые селекторы и методы. Агент компьютерного взаимодействия визуально анализирует экран и на основе логических выводов решает, на что нажать дальше, при этом не требуя использования жестко запрограммированных селекторов. Это позволяет ему адаптироваться к макетам, с которыми он ранее не сталкивался.

Точность зависит от сложности задачи. Показатель CUA компании OpenAI достиг 87 % в тестах, ориентированных на веб-задачи (WebVoyager), но составил лишь 38,1 % при решении более широких задач, предполагающих полное использование компьютерных ресурсов (OpenAI, 2025). Многоэтапные задачи с неоднозначными состояниями или строгими временными ограничениями по-прежнему регулярно заканчиваются неудачей.

Большинство сайтов используют системы обнаружения ботов, которые анализируют репутацию IP-адресов, отпечатки TLS, временные параметры поведения браузера и сигналы JavaScript. Агент, запущенный с IP-адреса центра обработки данных или с использованием браузера без графического интерфейса, который передает сигналы автоматизации, скорее всего, будет заблокирован до того, как завершит выполнение своей задачи.

Сети прокси-серверов с резиденционными адресами предоставляют «чистые» потребительские IP-адреса и направляют трафик через реальные устройства, пользователи которых дали на это согласие, что позволяет снизить характерные особенности сигнала, вызывающие срабатывание систем обнаружения ботов. Сочетание резиденционных IP-адресов с полноценной средой браузера позволяет обойти два наиболее распространённых вектора обнаружения: репутацию IP-адреса и отсутствие выполнения JavaScript.