Qu'est-ce que la navigation « agentique » ?
Navigation agentique C'est le cas lorsqu'un agent d'IA navigue, lit et effectue des actions sur des sites web de manière autonome, en remplissant des formulaires, en cliquant sur des boutons et en accomplissant des tâches en plusieurs étapes sans qu'un humain ne soit aux commandes. Contrairement au web scraping statique, l'agent poursuit un objectif plutôt que de suivre des instructions fixes. Parmi les exemples concrets, on peut citer Perplexity Comet et ChatGPT Atlas d’OpenAI, qui ont tous deux lancé leurs modes « agent » en octobre 2025 (Skywork AI, 2025).
Comment fonctionne la navigation agentique ?
Un navigateur agentique associe un modèle linguistique de grande envergure à une session de navigation en temps réel. Le modèle analyse le DOM de la page actuelle, décide de l'action à effectuer ensuite (cliquer, taper, faire défiler, valider), exécute cette action, puis analyse la page mise à jour. Cette boucle se poursuit jusqu'à ce que l'objectif soit atteint.
Comme l'agent affiche des pages complètes, y compris des applications monopages faisant un usage intensif de JavaScript, il a besoin d'un véritable environnement d'exécution de navigateur plutôt que d'un simple outil de récupération HTTP. L'empreinte numérique, les barrières CAPTCHA et le suivi des sessions constituent les principaux obstacles que les opérateurs doivent surmonter lors du déploiement d'agents à grande échelle.
Cas d'usage
- Recherche et synthèse. Un agent parcourt plusieurs pages d'un site et génère un résumé structuré, en gérant automatiquement la pagination et les pages de connexion.
- Suivi des prix et des stocks. L'agent vérifie les pages produits chez des dizaines de détaillants et enregistre les modifications sans avoir à effectuer de contrôles ponctuels manuels.
- Remplissage de formulaires et automatisation des processus. Les agents remplissent et envoient des formulaires comportant plusieurs étapes (processus de réservation, demandes de devis, dossiers de demande) pour le compte d'un utilisateur.
- Veille concurrentielle. Les équipes configurent un agent pour qu'il analyse les pages des concurrents et les sites d'avis afin de collecter des données structurées selon un calendrier défini.
Pour les équipes qui exécutent des tâches via des agents à grande échelle, la Web Render API de Massive permet le rendu de pages complètes sur de véritables appareils résidentiels dans plus de 195 pays. Elle gère l'exécution du JavaScript et la persistance de session (jusqu'à 12 minutes sur la même connexion sortante), ce qui permet aux agents de recevoir un état précis et complet de la page à chaque étape.
Foire aux questions
Le « web scraping » récupère et analyse le code HTML afin d'extraire des données structurées. La « navigation par agent » va plus loin : l'agent basé sur l'IA interprète le contenu des pages, prend des décisions et interagit avec les éléments (clics, remplissage de formulaires) pour atteindre un objectif. Le « web scraping » est une opération en lecture seule ; la « navigation par agent » est orientée vers un objectif et interactive.
Les outils d'automatisation de navigation tels que Playwright et Puppeteer suivent des scripts déterministes comportant des étapes prédéfinies. La navigation « agentique » utilise un modèle de langage de grande capacité (LLM) pour décider de chaque action de manière dynamique en fonction du contenu de la page, ce qui lui permet de s'adapter à des mises en page ou à des contenus inattendus qui poseraient problème à un script fixe.
En 2025, Perplexity Comet, ChatGPT Atlas d'OpenAI et Opera Neon constituent trois implémentations notables. Comet et Atlas ont tous deux lancé leurs modes « agent » en octobre 2025 (Skywork AI, 2025). Ce secteur connaît une expansion rapide à mesure que les modèles de langage à grande échelle (LLM) parviennent de mieux en mieux à interpréter la mise en page visuelle des pages.
Les pages web modernes chargent leur contenu via JavaScript après la réponse HTML initiale. Un véritable navigateur exécute ce code JavaScript, envoie des requêtes réseau et construit le DOM final. Un agent qui se contenterait de lire le code HTML brut passerait à côté de la plupart des contenus interactifs, ce qui entraînerait des actions incomplètes ou erronées.