¿Qué es un agente de uso informático?

A agente de uso de ordenadores es un agente de inteligencia artificial que controla un navegador o una interfaz gráfica de usuario de escritorio mediante la lectura de capturas de pantalla y la ejecución de acciones —como hacer clic, escribir y desplazarse— para completar tareas sin necesidad de una API estructurada. El agente percibe visualmente el estado actual de la pantalla, analiza una cadena de capturas de pantalla pasadas y presentes y, a continuación, ejecuta la siguiente acción hasta que la tarea finaliza o requiere la intervención del usuario (OpenAI, 2025). Dado que el agente se comporta como un ser humano que navega por Internet, se enfrenta a las mismas medidas de detección de bots a las que se enfrentaría cualquier visitante real.

¿Cómo funciona un agente informático?

El agente recibe un objetivo expresado en lenguaje natural y, a continuación, entra en un bucle: captura una captura de pantalla, analiza lo que muestra la pantalla y lo que ha sucedido hasta ese momento, elige una acción (hacer clic, escribir, desplazarse, navegar) y la ejecuta. El agente de uso informático (CUA) de OpenAI combina la visión con el razonamiento para manejar una interfaz gráfica, analizando mediante una cadena de razonamiento las capturas de pantalla actuales y anteriores antes de cada acción (OpenAI, 2025). El bucle se repite hasta que el agente considere que la tarea ha finalizado o necesite la intervención del usuario.

Las pruebas comparativas muestran una capacidad significativa, aunque limitada. CUA alcanzó una tasa de éxito del 38,1 % en OSWorld (tareas completas de uso del ordenador), del 58,1 % en WebArena y del 87 % en WebVoyager para tareas basadas en la web en el momento de su lanzamiento (OpenAI, 2025). Esas cifras son elevadas en comparación con los sistemas anteriores, pero también indican que las tareas complejas de varios pasos siguen fallando en una gran proporción de los casos.

Por qué se bloquean los agentes que utilizan ordenadores

Los agentes de simulación de uso informático controlan navegadores reales, pero sus direcciones IP, huellas TLS y patrones de solicitud suelen diferir del tráfico habitual de los usuarios particulares. Una dirección IP de centro de datos, unos tiempos de interacción predecibles o una huella digital del navegador que no coincida pueden activar los sistemas de detección de bots antes de que el agente complete su primer paso. La rotación de direcciones IP residenciales, los perfiles de navegador realistas y la representación completa de JavaScript son requisitos prácticos para los agentes que operan a gran escala en sitios web con medidas activas de mitigación de bots.

Casos de uso

Investigación sobre el comercio electrónico. Los agentes visitan las páginas de productos, comparan precios y extraen datos estructurados sin necesidad de una API específica del minorista.
Cumplimentación de formularios y automatización de tareas. Los agentes rellenan formularios de varios pasos, realizan inscripciones o interactúan con interfaces de usuario web que no ofrecen ninguna superficie de API.
Pruebas de control de calidad. Los agentes reproducen los recorridos de los usuarios en interfaces web arbitrarias para detectar regresiones.
Recopilación de datos de la web abierta. Los agentes siguen rutas de navegación dinámicas y navegan por los resultados que los rastreadores estáticos no pueden alcanzar.

Para estas tareas, la red de proxies residenciales de Massive (dispositivos reales de consumidores en más de 195 países) y la Web Render API proporcionan a los agentes la diversidad de direcciones IP y la representación completa en JavaScript que necesitan para completar los trabajos en sitios web que bloquean el tráfico procedente de centros de datos.

Preguntas frecuentes

La automatización tradicional de navegadores (Selenium, Playwright) se basa en un script escrito por un desarrollador: invoca selectores y métodos específicos. Un agente de uso informático observa la pantalla de forma visual y decide dónde hacer clic a continuación mediante el razonamiento, sin necesidad de selectores codificados de forma fija. Esto le permite adaptarse a diseños que nunca ha visto antes.

La precisión depende de la complejidad de la tarea. El CUA de OpenAI alcanzó el 87 % en pruebas de referencia centradas en la web (WebVoyager), pero solo el 38,1 % en tareas más amplias relacionadas con el uso general del ordenador (OpenAI, 2025). Las tareas de varios pasos con estados ambiguos o requisitos temporales estrictos siguen fallando con frecuencia.

La mayoría de los sitios web utilizan sistemas de detección de bots que analizan la reputación de las direcciones IP, las huellas de TLS, los tiempos de comportamiento del navegador y las señales de JavaScript. Es probable que un agente que se ejecute desde una dirección IP de un centro de datos o con un navegador sin interfaz gráfica que revele señales de automatización sea bloqueado antes de que complete su tarea.

Las redes de proxies residenciales proporcionan direcciones IP de consumidores «limpias» y desvían el tráfico a través de dispositivos reales que han dado su consentimiento, lo que reduce los patrones de señal que activan los sistemas de detección de bots. La combinación de direcciones IP residenciales con un entorno de navegador totalmente renderizado cubre los dos vectores de detección más comunes: la reputación de la IP y la falta de ejecución de JavaScript.