Qu'est-ce qu'un agent d'utilisation informatique ?
A agent chargé de l'utilisation des ordinateurs est un agent d'IA qui contrôle un navigateur ou une interface graphique de bureau en analysant des captures d'écran et en effectuant des actions, notamment cliquer, taper du texte et faire défiler la page, afin d'accomplir des tâches sans recourir à une API structurée. L'agent perçoit visuellement l'état actuel de l'écran, effectue un raisonnement à partir d'une chaîne de captures d'écran passées et présentes, puis exécute l'action suivante jusqu'à ce que la tâche soit terminée ou qu'une intervention de l'utilisateur soit nécessaire (OpenAI, 2025). Comme cet agent se comporte comme un utilisateur humain naviguant sur le Web, il est confronté aux mêmes mesures de détection des robots qu'un véritable visiteur.
Comment fonctionne un agent informatique ?
L'agent reçoit un objectif formulé en langage naturel, puis entre dans une boucle : il réalise une capture d'écran, analyse ce que l'écran affiche et ce qui s'est passé jusqu'à présent, choisit une action (clic, saisie, défilement, navigation) et l'exécute. L'agent d'utilisation informatique (CUA) d'OpenAI combine la vision et le raisonnement pour exploiter une interface graphique, en effectuant une chaîne de raisonnement à partir des captures d'écran actuelles et passées avant chaque action (OpenAI, 2025). La boucle se répète jusqu'à ce que l'agent estime que la tâche est terminée ou qu'il ait besoin d'une intervention de l'utilisateur.
Les tests de performance montrent des capacités significatives mais limitées. À son lancement, CUA a atteint un taux de réussite de 38,1 % sur OSWorld (tâches complètes d'utilisation d'un ordinateur), de 58,1 % sur WebArena et de 87 % sur WebVoyager pour les tâches liées au Web (OpenAI, 2025). Ces chiffres sont élevés par rapport aux systèmes précédents, mais ils signifient également que les tâches complexes comportant plusieurs étapes échouent encore dans une grande proportion des cas.
Pourquoi les agents utilisant un ordinateur sont-ils bloqués ?
Les agents de simulation d'utilisation d'ordinateurs pilotent de véritables navigateurs, mais leurs adresses IP, leurs empreintes TLS et leurs modèles de requêtes diffèrent souvent du trafic habituel des particuliers. Une adresse IP de centre de données, un timing d’interaction prévisible ou une empreinte de navigateur non conforme peuvent déclencher les systèmes de détection de bots avant même que l’agent n’ait terminé sa première étape. La rotation des adresses IP résidentielles, des profils de navigateur réalistes et un rendu JavaScript complet constituent des exigences pratiques pour les agents fonctionnant à grande échelle sur des sites dotés de mesures actives de lutte contre les bots.
Cas d'usage
- Étude sur le commerce électronique. Les agents consultent les pages produits, comparent les prix et extraient des données structurées sans recourir à une API dédiée aux détaillants.
- Remplissage de formulaires et automatisation des tâches. Les agents remplissent des formulaires comportant plusieurs étapes, effectuent des inscriptions ou interagissent avec des interfaces utilisateur Web qui ne proposent aucune API.
- Tests d'assurance qualité. Les agents reproduisent les parcours des utilisateurs sur des interfaces Web arbitraires afin de détecter les régressions.
- Collecte de données sur le Web ouvert. Les agents suivent des chemins de navigation dynamiques et parcourent les résultats page par page, ce que les robots d'indexation statiques ne peuvent pas faire.
Pour ces tâches, le réseau de proxys résidentiels de Massive (composé d'appareils utilisés par de vrais consommateurs dans plus de 195 pays) et la Web Render API offrent aux agents la diversité d'adresses IP et le rendu JavaScript complet dont ils ont besoin pour mener à bien leurs missions sur des sites qui bloquent le trafic provenant des centres de données.
Foire aux questions
L'automatisation traditionnelle des navigateurs (Selenium, Playwright) suit un script écrit par un développeur : elle fait appel à des sélecteurs et à des méthodes spécifiques. Un agent d'automatisation observe l'écran de manière visuelle et décide, par raisonnement, sur quoi cliquer ensuite, sans qu'il soit nécessaire de recourir à des sélecteurs codés en dur. Cela lui permet de s'adapter à des mises en page qu'il n'a jamais vues auparavant.
La précision dépend de la complexité de la tâche. Le CUA d'OpenAI a atteint 87 % sur des tests de référence axés sur le Web (WebVoyager), mais seulement 38,1 % sur des tâches plus générales impliquant l'utilisation complète d'un ordinateur (OpenAI, 2025). Les tâches en plusieurs étapes comportant des états ambigus ou des contraintes de temps strictes échouent encore régulièrement.
La plupart des sites utilisent des systèmes de détection des bots qui analysent la réputation des adresses IP, les empreintes TLS, le comportement temporel des navigateurs et les signaux JavaScript. Un agent s'exécutant à partir d'une adresse IP de centre de données ou utilisant un navigateur sans interface graphique qui laisse transparaître des signaux d'automatisation risque fort d'être bloqué avant d'avoir terminé sa tâche.
Les réseaux de proxys résidentiels fournissent des adresses IP grand public « propres » et acheminent le trafic via de véritables appareils dont les utilisateurs ont donné leur accord, ce qui réduit les signatures qui déclenchent les systèmes de détection des bots. L'association d'adresses IP résidentielles à un environnement de navigation entièrement rendu permet de contourner les deux vecteurs de détection les plus courants : la réputation de l'adresse IP et l'absence d'exécution de JavaScript.