Classement des réponses de l'IA mesuré par l'API, comparé à ce que voient les utilisateurs réels dans l'application Gemini
Tous les articles

Les appels d'IA basés sur des API constituent-ils un bon indicateur de ce que vos utilisateurs voient réellement ?

Ryan Turner
Ryan Turner · Head of Growth

Si vous gérez un programme GEO, vous suivez la position de votre marque dans les réponses générées par l’IA via une API. Vos clients, eux, procèdent différemment : ils ouvrent l’application Gemini et saisissent leur requête. Cette pratique repose donc entièrement sur une hypothèse que peu de personnes ont vérifiée : un appel API renvoie-t-il la même réponse que celle qu’une personne réelle voit s’afficher ? Nous avons mené ce test sur 30 catégories de marques. L’API a reproduit le classement des marques affiché par l’application en temps réel dans 87 % des cas, soit à peu près aussi souvent que l’application est cohérente avec elle-même.

Un proxy fiable pour le Web ? Oui ! Des résultats similaires dans 87 % des cas

Pourquoi la mesure GEO repose-t-elle sur une hypothèse qui n'a pratiquement pas été vérifiée ?

La plupart des suivis de visibilité des marques dans les réponses générées par l’IA s’effectuent via des API, alors que la plupart des requêtes réelles ont lieu au sein des applications grand public, et rares sont ceux qui ont mesuré l’écart entre les deux. Cet écart est important, car un tableau de bord GEO présente un chiffre, une part de voix, un classement, un « gagnant » désigné, et une marque agit en fonction de ces informations. Si l’API affichait systématiquement une réponse différente de celle perçue par les clients, tous les rapports élaborés à partir de celle-ci seraient discrètement erronés.

Le problème est d'ordre structurel, et non lié à un manque de volonté. La gestion d'une véritable session de navigation comportant des milliers de requêtes est lente et instable. Les API sont rapides, reproductibles et peu coûteuses ; c'est donc ce que les outils de suivi utilisent. La question n'a jamais été de savoir si les API sont pratiques. Il s'agissait plutôt de savoir si cette commodité se fait au détriment de la précision.

Notre approche : Le bon critère n'est pas de savoir si « l'API est-elle parfois en désaccord avec l'application ? ». Les modèles génératifs sont en désaccord avec eux-mêmes lors d'exécutions répétées. Le véritable critère consiste à déterminer si l'API est en désaccord avec l'application, ne serait-ce qu'une seule fois. plus l'application se contredit déjà elle-même.

Comment vérifiez-vous si une API correspond à l'application réelle ?

Un modèle génératif ne fournit pas une réponse unique et fixe ; le test doit donc tenir compte directement de cette variance. Nous avons pris une consigne de classement de marques, l’avons transmise via les deux canaux dans 30 catégories, et l’avons exécutée trois fois par canal. Chaque sujet comprenait une marque cible ainsi que ses quatre concurrents les plus proches ; la liste a été mélangée une fois puis figée, de sorte que les deux canaux aient reçu un texte identique à l’octet près.

La consigne était délibérément simple : « Classez ces entreprises [du secteur] par ordre décroissant, de la meilleure à la pire [cinq marques]. Ne citez que les cinq entreprises, dans l'ordre recommandé. » L'un des canaux était celui de Massive /ai point de terminaison (modèle=gemini, pays=us). L'autre était gemini.google.com, avec une session ouverte, le sélecteur de modèle réglé sur la même version 3.5 de Flash, et une nouvelle conversation à chaque exécution.

La mesure clé est le bruit de fond. Chaque canal présente des divergences par rapport à lui-même lors de ses propres séries de répétitions, et ces divergences internes constituent la référence objective. On ne peut pas s'attendre à ce que deux canaux soient plus en accord entre eux qu'ils ne le sont chacun avec eux-mêmes. Nous avons donc mesuré ces deux paramètres : la cohérence inter-canaux et la cohérence intra-canal de chaque canal. Nous avons ensuite cherché à déterminer dans quelle mesure le premier paramètre se rapprochait du second.

Nous avons analysé chaque thème comme une observation distincte plutôt que de regrouper l’ensemble des 270 paires d’essais, car ces paires se regroupent en seulement 30 thèmes indépendants. Leur regroupement gonfle la précision apparente. La présentation des résultats au niveau des thèmes garantit l’exactitude des intervalles de confiance, même si cela rend les chiffres moins impressionnants.

L'API correspond-elle à l'application Gemini en ligne ?

Oui. Sur 30 catégories, l’API et l’application en direct ont produit des classements statistiquement indiscernables sur 26 des 30 thèmes (87 %), et ont désigné la même marque en tête pour ces mêmes 26 thèmes sur 30 (Expérience Massive, 2026). La concordance moyenne entre les canaux s’est établie à un coefficient de Kendall de 0,79, contre un seuil minimal de 0,82 au sein d’un même canal. Mesurée par thème, l’API a conservé 93 % de la concordance que chaque canal présente avec lui-même (intervalle de confiance à 95 % : 86 % à 98 %).

Agreement on brand rankings (Kendall tau, 0 to 1) Higher is closer. The cross-channel bar nearly reaches the channel's own noise floor. API vs live Gemini app 0.79 Live app vs itself (noise floor) 0.82
Source : Massive Computing, Expérience « API vs Gemini en direct », 2026.

Selon l’expérience « Massive » de 2026, une API interrogeant Gemini a donné des résultats identiques à ceux de l’application grand public en ligne pour le classement des marques dans 26 des 30 catégories, et l’écart moyen entre les résultats se situait à moins de sept points de pourcentage par rapport à la variation inhérente à l’application elle-même d’une exécution à l’autre. En matière de visibilité des marques et d’identification des gagnants, il s’agit d’une mesure qui reflète ce que voient les clients.

Où votre marque se positionne réellement

C'est le chiffre réellement communiqué par le programme GEO, et il n'a pratiquement pas varié d'une plateforme à l'autre. Sur 13 des 30 thèmes, la marque ciblée s'est classée exactement à la même place, tant sur l'API que sur l'application en direct. Sur l’ensemble des 30 cibles, l’écart moyen était de 0,32 position, et une seule marque, Kraft Heinz, a varié de plus d’une place.

How far the target brand moved (30 categories) 13 16 Identical rank (13) Drifted under one position (16) Moved more than a position (1) Mean absolute drift across all 30 targets: 0.32 positions.
Source : Massive Computing, Expérience « API vs Gemini en direct », 2026.

Un tiers d'une position se situe largement en deçà du bruit lié à l'échange de paires adjacentes que les deux canaux présentent chacun de leur côté. Si votre tableau de bord indique que votre marque occupe la deuxième place dans une catégorie, un client qui ouvre l'application a de très fortes chances de la voir également en deuxième position. Les résultats sont fiables là où cela compte vraiment.

Test de résistance des quatre valeurs aberrantes sur dix exécutions

Quatre sujets semblaient « anormaux » après trois essais ; nous avons donc refait les deux plus mauvais jusqu’à dix essais sur les deux canaux, et il s’est avéré que la majeure partie de l’écart était due au bruit d’échantillonnage. Tesla, qui semblait présenter un écart de prédiction clairement favorable à la hausse à n = 3, est devenu identique à n = 10 : Tesla s’est classé premier dans 8 des 10 essais sur les deux canaux, avec une concordance inter-canaux de 0,87 contre un seuil minimal de 0,86. L’écart s’est avéré être une fausse alerte.

Kraft Heinz a reculé mais a survécu. Son excès de désaccord est passé de +0,33 après trois simulations à +0,12 après dix, et l'écart entre le classement cible et le classement réel est passé de 1,85 à 1,0 position (Expérience Massive, 2026). Ces deux canaux présentent simplement un certain bruit dans les secteurs de l’alimentation et des produits de grande consommation, et tous deux ont tout de même désigné Nestlé comme le vainqueur de la catégorie dans 9 des 10 simulations. Il s’agit d’une légère fluctuation réelle, spécifique à cette catégorie, et non d’un biais inhérent au canal.

Le test « Massive deep-run » de 2026 a montré qu’un « décalage » de trois séries constitue un indice à vérifier, et non une conclusion : sur les quatre thèmes signalés, un échantillonnage plus approfondi en a éliminé un purement et simplement et en a réduit un autre de deux tiers. En pratique, cela signifie que le proxy API est encore plus performant que ne le laissaient entendre les résultats des trois séries de tests. Le secteur de l’alimentation et des produits de grande consommation est une catégorie intrinsèquement bruyante sur les deux canaux, et non une catégorie biaisée.

Notre conclusion : Considérez tout écart constaté lors d'un seul cycle ou de trois cycles comme une hypothèse, et jamais comme une conclusion définitive. Effectuez au moins trois cycles, rendez compte du consensus obtenu et analysez en profondeur tout élément qui semble systématique avant de prendre des mesures.

Dans quels cas faut-il tout de même effectuer des vérifications ponctuelles du site web en ligne ?

Dans l'ensemble, l'API est un reflet fidèle de la réalité, mais quatre situations spécifiques justifient tout de même un examen manuel de l'application réelle. Dans nos données, les écarts résiduels se concentraient à des endroits prévisibles ; vous pouvez donc cibler vos vérifications ponctuelles au lieu de tout remettre en question.

Consultez l'application en direct lorsque :

  • Soit la catégorie concerne l'alimentation ou les produits de grande consommation, soit le choix du lauréat fait l'objet d'une controverse. Kraft Heinz, Mars et Tesla ont toutes suscité la polémique dans ces milieux particulièrement bruyants.
  • Le contexte du compte a son importance. L'API exécute une session Flash anonyme. La personnalisation ou l'adaptation au contexte liées à la connexion peuvent modifier ce que voit un utilisateur connecté, et un appel API anonyme ne peut pas reproduire cela.
  • Un classement complet et exact permet de calculer un score pondéré. Seule la moitié des paires inter-chaînes correspondait à l'ordre complet des cinq marques, car ce sont les positions en fin de liste qui changent le plus souvent. Les choix en tête de liste et les choix gagnants sont bien plus stables que la séquence complète.
  • Vous n'avez qu'une seule chance. Les deux canaux échangent souvent une paire adjacente. Effectuez au moins trois séries et communiquez le résultat consensuel ; ne communiquez jamais le résultat d'une seule série.

Pourquoi la mesure géographique basée sur les API est désormais réalisable à grande échelle

C'est ce résultat de validité qui transforme la mesure GEO d'une tâche manuelle fastidieuse en un programme que vous pouvez réellement exécuter à grande échelle. Le traitement de quelques centaines de requêtes via un navigateur prend des heures et s’interrompt lorsque la page limite les saisies automatisées. Le même volume de requêtes via l’API s’effectue en quelques minutes avec le même niveau de bruit, ce qui fait toute la différence entre le suivi manuel de cinq catégories et celui de cinq cents selon un calendrier défini.

La géographie constitue le deuxième avantage. Les réponses générées par l'IA varient d'un pays à l'autre, et un client situé à Berlin, à São Paulo ou à Jakarta obtient une réponse adaptée au contexte local. Massive's /ai L'endpoint renvoie des générations de LLM provenant d'appareils d'utilisateurs réels situés dans plus de 195 pays, ce qui vous permet de mesurer la visibilité de votre marque telle qu'elle est réellement perçue par les habitants locaux, et non à partir d'un seul centre de données situé en Virginie.

La raison pour laquelle il suit l'application en direct est d'ordre technique, et mérite d'être précisée. Le /ai Endpoint n'utilise pas de modèle de sandbox sécurisé ni de point de contrôle différent. Il exécute la même application grand public Gemini à partir d'un appareil réel situé dans la zone géographique de votre choix, et lors de ce test, sa liste de modèles a affiché 3,5 Flash à chaque appel. Vous mesurez la même interface que celle utilisée par vos clients, accessible de la même manière que le ferait l’appareil d’un client. C’est pourquoi les résultats concordent.

Si vous développez une plateforme AEO ou d'IA dédiée à la veille de marque, il s'agit de la couche d'infrastructure qui sous-tend vos analyses. Vous conservez vos tableaux de bord, vos systèmes de notation et vos rapports. La couverture géographique, l'émulation des appareils et la gestion des sources sont gérées en amont. Pour tester la plateforme avec vos propres catégories, vous pouvez effectuer un test de performance sur le /ai point de terminaison et comparez-le aux résultats que vous obtenez aujourd'hui.

En résumé

Les requêtes d’IA basées sur l’API constituent un reflet fidèle de ce que vos utilisateurs voient réellement. Dans 30 catégories, l’API a donné les mêmes résultats que l’application Gemini en temps réel concernant le classement des marques dans 87 % des cas ; elle a placé la marque cible à la même position dans 13 des 30 thèmes, avec un écart moyen d’un tiers de position. Les divergences observées correspondent à peu près à celles que l’application présente en son sein même. Faites confiance à l’API pour la visibilité des marques, l’identification des gagnants et l’analyse des tendances, en particulier lorsque vous analysez simultanément plusieurs catégories et plusieurs pays. Réservez les vérifications manuelles aux secteurs de l’alimentation et des produits de grande consommation, aux gagnants contestés et à tout ce qui dépend d’une session de connexion.

Pour évaluer la visibilité des réponses générées par l'IA telle que la perçoivent vos clients, quel que soit leur pays, découvrez Point de terminaison du chat IA de Massive.

Vous souhaitez consulter les détails du rapport ?


Sources

  • Massive Computing, « Les appels d'IA basés sur des API constituent-ils un bon indicateur de ce que vos utilisateurs voient réellement ? » (étude GEO, Web Render API), expérience datée du 17 juin 2026, consultée le 18 juin 2026. 30 catégories de marques réparties dans 18 secteurs d'activité, Gemini 3.5 Flash, 3 exécutions par canal (n = 10 exécutions approfondies sur deux thèmes), intervalles de confiance de type bootstrap au niveau des thèmes.

Foire aux questions

Un appel API renvoie-t-il la même réponse générée par l'IA que celle qu'un utilisateur réel voit ?+

Lors d'un test réalisé en 2026 portant sur 30 catégories de marques, une API interrogeant Gemini a reproduit le classement des marques de l'application grand public en temps réel sur 26 des 30 thèmes (87 %), et a désigné le même gagnant dans la même proportion (Expérience Massive, 2026). Les légers écarts résiduels provenaient principalement du bruit propre à chaque catégorie, et non du canal.

Pourquoi évaluer la concordance par rapport à un « seuil de bruit » ?+

Les modèles génératifs sont non déterministes ; ainsi, une même instruction peut donner lieu à des classements différents lors d'exécutions successives. Chaque canal présente donc une incohérence interne. Cette incohérence interne (0,82 dans notre test) constitue la référence objective, car deux canaux ne peuvent pas être plus en accord l'un avec l'autre qu'ils ne le sont chacun avec eux-mêmes. La cohérence inter-canaux a atteint 0,79.

Quelles sont les catégories les moins fiables à mesurer via l'API ?+

Les catégories « Alimentation » et « Produits de grande consommation » ont été les plus fluctuantes lors de notre test de 2026, et les gagnants contestés ont présenté les écarts les plus importants. Les deux canaux ont montré davantage de divergences entre eux dans ces catégories ; il s'agit donc d'une variance intrinsèque, et non d'un biais lié au canal. Vérifiez ponctuellement l'application en ligne pour ces catégories, ainsi que pour tout résultat dépendant de la personnalisation liée à la connexion.

Combien d'itérations un programme GEO doit-il effectuer par requête ?+

Effectuez au moins trois exécutions par requête et indiquez le résultat consensuel, jamais celui d'une seule exécution. Dans nos données, tant l'API que l'application en production permutaient fréquemment une paire adjacente lors d'une exécution donnée. Trois exécutions ont permis de lisser ce phénomène, et des séries approfondies de dix exécutions ont confirmé que la plupart des divergences portant sur un seul indicateur étaient dues au bruit d'échantillonnage.

L'API de mesure permet-elle de recueillir des réponses provenant d'autres pays ?+

Oui, si l'API passe par des origines locales. Massive's /ai Endpoint fournit des données de performance provenant d'appareils réels utilisés par les consommateurs dans plus de 195 pays, avec un ciblage par pays, région et ville. Vous pouvez ainsi évaluer la manière dont une marque s'affiche pour un utilisateur sur un marché spécifique, plutôt qu'à partir d'un seul emplacement de centre de données.