Что такое агентный просмотр?
Просмотр с использованием агентов — это когда ИИ-агент самостоятельно перемещается по веб-сайтам, считывает информацию и выполняет действия, заполняя формы, нажимая кнопки и выполняя многоэтапные задачи без участия человека за клавиатурой. В отличие от статического веб-парсинга, агент следует поставленной цели, а не фиксированным инструкциям. К примерам из реальной жизни относятся Perplexity Comet и ChatGPT Atlas от OpenAI, которые оба представили режимы работы агентов в октябре 2025 года (Skywork AI, 2025 г.).
Как работает агентный просмотр?
Агентный браузер сочетает в себе крупную языковую модель и активную сессию браузера. Модель считывает DOM текущей страницы, принимает решение о следующем действии (клик, ввод текста, прокрутка, отправка), выполняет это действие, а затем считывает обновленную страницу. Этот цикл продолжается до тех пор, пока цель не будет достигнута.
Поскольку агент отображает страницы целиком, включая одностраничные приложения с интенсивным использованием JavaScript, ему требуется полноценная среда выполнения браузера, а не простой HTTP-фетчер. Идентификация по отпечаткам, CAPTCHA-барьеры и отслеживание сеансов — вот основные препятствия, с которыми операторам приходится сталкиваться при масштабном развертывании агентов.
Случаи использования
- Исследование и обобщение. Агент просматривает несколько страниц на сайте и возвращает структурированное резюме, автоматически обрабатывая пагинацию и страницы авторизации.
- Мониторинг цен и запасов. Агент проверяет страницы товаров у десятков розничных продавцов и фиксирует изменения без необходимости проведения выборочных проверок вручную.
- Заполнение форм и автоматизация рабочих процессов. Агенты заполняют и отправляют многоэтапные формы (процессы бронирования, запросы на расчет стоимости, заявки) от имени пользователя.
- Анализ конкурентной среды. Команды настраивают агент на страницы конкурентов и сайты с отзывами для сбора структурированных данных по расписанию.
Для команд, выполняющих задачи с использованием агентов в больших масштабах, Web Render API от Massive обеспечивает полностраничную визуализацию на реальных бытовых устройствах в более чем 195 странах. Он обеспечивает выполнение JavaScript и сохранение сеанса (до 12 минут на одном и том же выходе), благодаря чему агенты получают точные и полные данные о состоянии страницы на каждом этапе.
Часто задаваемые вопросы
Веб-скрейпинг позволяет извлекать и анализировать HTML-код с целью получения структурированных данных. Агентный просмотр идет дальше: агент на базе искусственного интеллекта интерпретирует содержание страницы, принимает решения и взаимодействует с элементами (щелчки мышью, заполнение форм) для достижения поставленной цели. Скрейпинг является операцией только для чтения; агентный просмотр же ориентирован на достижение цели и носит интерактивный характер.
Инструменты автоматизации браузера, такие как Playwright и Puppeteer, выполняют детерминированные скрипты с заранее заданными шагами. Агентный подход к работе с браузером использует LLM для динамического принятия решений о каждом действии на основе содержимого страницы, что позволяет ему адаптироваться к неожиданным макетам или контенту, с которыми фиксированный скрипт не смог бы справиться.
По состоянию на 2025 год к числу наиболее заметных реализаций относятся Perplexity Comet, ChatGPT Atlas от OpenAI и Opera Neon. В октябре 2025 года и Comet, и Atlas запустили режимы работы в качестве агентов (Skywork AI, 2025 г.). Эта категория быстро расширяется по мере того, как большие языковые модели (LLM) совершенствуются в интерпретации визуальных макетов страниц.
Современные веб-страницы загружают контент с помощью JavaScript после получения первоначального HTML-ответа. Настоящий браузер выполняет этот JavaScript, отправляет сетевые запросы и формирует окончательный DOM. Агент, анализирующий только исходный HTML-код, упустит большую часть интерактивного контента, что приведет к неполным или некорректным действиям.