Schéma de pipeline illustrant le flux des invites provenant de sessions d'utilisateurs réels réparties géographiquement vers un ensemble de données de publicités sponsorisées, thème sombre rehaussé de touches orange
Tous les articles

Comment extraire les publicités de ChatGPT à grande échelle : une architecture technique

Ryan Turner
Ryan Turner · Head of Growth
Ouvrir le markdown

Comment extraire les publicités de ChatGPT à grande échelle : une architecture technique

Le 9 février 2026, OpenAI a commencé à tester des publicités au sein de ChatGPT pour les adultes américains connectés aux formules « Free » et « Go » (OpenAI, « Test de publicités dans ChatGPT »). Il n'existe pas de répertoire public à interroger, et la mise en correspondance s'effectue au sein de chaque thread privé. Ainsi, apprendre à extraire les publicités de ChatGPT n'est pas un problème d'analyse syntaxique. Il s'agit d'un problème d'échantillonnage : exécutez un ensemble de prompts spécialement conçus au cours de sessions éligibles et géolocalisées avec précision, capturez chaque encadré sponsorisé, puis répétez l'opération jusqu'à ce que les chiffres se stabilisent.

Points clés à retenir
  • Les publicités ne s'affichent que pour les adultes américains connectés aux formules Free et Go ; les formules Pro, Business et Enterprise restent sans publicité. Les sessions de collecte doivent donc être associées à une formule éligible (TechCrunch, « ChatGPT lance des publicités », 9 février 2026).
  • Il n'existe pas de centre de transparence publicitaire, et l'appariement s'effectue au cas par cas ; par conséquent, la seule façon d'observer les publicités consiste à tester de nombreuses requêtes variées et à enregistrer les résultats (Search Engine Journal, 2026).
  • Pour chaque apparition, vous enregistrez le titre de l'annonce, sa description et l'URL finale, puis vous calculez le taux d'impression en divisant le nombre d'apparitions par le nombre total de diffusions (Search Engine Land, 2026).
  • Les publicités sont diffusées pays par pays ; ainsi, la collecte de données précises s'effectue pour chaque marché à partir de sources locales (Euronews, 2026).
  • Les adresses IP des centres de données sont rapidement bloquées ; les adresses IP résidentielles provenant de véritables FAI ressemblent à du trafic utilisateur normal (DataImpulse, « Les meilleurs serveurs proxy pour le scraping par IA en 2026 »).

Il s'agit du guide technique accompagnant le guide stratégique consacré à Comment surveiller les publicités de ChatGPT. Nous allons ici parcourir étape par étape le processus dans son ensemble.

[IMAGE : écran d'un ingénieur affichant un pipeline de données avec des files d'attente de requêtes, des zones géographiques et un tableau de publicités sponsorisées, avec des touches de couleur orange foncé dans l'interface utilisateur — mots-clés de recherche : écran d'ingénieur en pipeline de données, couleur foncée]

Pourquoi est-il difficile d'extraire les publicités de ChatGPT ?

Les publicités ChatGPT sont difficiles à extraire, car leur affichage est à la fois fermé, contextuel et régional. Elles apparaissent dans des encadrés intitulés « Sponsorisé » sous la réponse, et sont sélectionnées en fonction du sujet de la conversation, de l'historique du chat et des interactions publicitaires antérieures, plutôt qu'en fonction de mots-clés précis (StackAdapt, « Comment faire de la publicité sur ChatGPT »). Deux requêtes identiques peuvent renvoyer des annonceurs différents ; une seule observation ne vous apprend donc pratiquement rien.

Trois contraintes déterminent chaque décision de conception. Premièrement, les publicités ne s’affichent que pour les adultes américains connectés aux versions « Free » ou « Go » ; vos sessions doivent donc remplir les conditions requises. Deuxièmement, la mise en correspondance s’effectue par fil de discussion privé, sans répertoire de référence (Search Engine Journal, 2026). Troisièmement, le déploiement s'effectue pays par pays, en commençant par les États-Unis, puis le Royaume-Uni, le Japon, la Corée du Sud, le Canada, l'Australie et la Nouvelle-Zélande, le Mexique et le Brésil étant prévus (Euronews, 2026).

Résumé : lors du test du 9 février 2026, les publicités ChatGPT ne s’affichaient qu’aux adultes américains connectés aux formules « Free » et « Go » ; elles apparaissaient dans des encadrés portant la mention « Sponsored », adaptés au contexte de chaque fil de discussion privé, et ne disposaient d’aucun répertoire public ; leur visibilité ne pouvait donc être observée qu’en testant diverses requêtes lors de sessions éligibles (OpenAI, « Test de publicités dans ChatGPT »; Search Engine Journal, 2026).

La surface fermée renverse la logique économique habituelle du web scraping. Dans le web scraping classique, l'analyse syntaxique est peu coûteuse et c'est l'accès qui représente le coût. Ici, l'analyse syntaxique de l'encadré sponsorisé est insignifiante, et le véritable coût est d'ordre statistique : vous estimez une distribution cachée, votre architecture doit donc privilégier la taille de l'échantillon et la stabilité des conditions plutôt que des sélecteurs sophistiqués.

Comment extraire les publicités de ChatGPT de bout en bout ?

Vous collectez les publicités ChatGPT à l'aide d'un pipeline en huit étapes qui transforme un ensemble de prompts en courbe de tendance. Ces étapes vont de la conception à la diffusion : conception des prompts, sélection des sessions, répartition par zone géographique, rendu, capture, normalisation, calcul du taux d'impression, puis planification et stockage. Chaque étape alimente la suivante, et l’ensemble du cycle se répète à un rythme régulier, de sorte que le bruit lié à une exécution ponctuelle s’équilibre pour former un signal mesurable.

Voici en quoi consiste chaque étape :

  1. Concevez l'ensemble de consignes. Créez des suggestions liées au parcours de l'acheteur (« le meilleur CRM pour les petites équipes ») et des suggestions liées à la marque (« [marque] en vaut-elle la peine ? »). La formulation influe sur les publicités déclenchées ; considérez donc cet ensemble comme une variable contrôlée. Nous abordons la création de ces suggestions dans Mise en correspondance des invites pour les publicités ChatGPT.
  2. Vérifiez la validité de la session. Chaque session doit être effectuée par un adulte américain connecté à la version gratuite ou « Go ». Les versions Pro, Business et Enterprise ne comportent aucune publicité (TechCrunch, 2026). Variez les historiques de session afin qu'un thread atypique ne fausse pas l'échantillon.
  3. Répartir par zone géographique. Le déploiement s'effectuant pays par pays, la collecte des données s'effectue par marché à partir de sources locales. Une vision limitée aux États-Unis ne tient pas compte des annonceurs du Royaume-Uni, du Japon ou du Canada à mesure que le test prend de l'ampleur.
  4. Rendez la conversation. Envoyez la requête et enregistrez la réponse complète, y compris tout bloc sponsorisé. C'est à cette étape qu'il faut utiliser des origines d'utilisateurs réels, comme expliqué ci-dessous.
  5. Récupérez la boîte sponsorisée. À partir du résultat généré, extrayez le titre de l'annonce, la description de l'annonce et l'URL finale pour chaque emplacement sponsorisé (Search Engine Land, 2026).
  6. Analyser et normaliser. Mettez en correspondance les champs bruts avec un schéma stable. Normalisez les noms des annonceurs et les URL finales afin qu'un même annonceur ne soit pas réparti sur plusieurs lignes.
  7. Calculez le taux d'impression. Totalisez les apparitions par rapport au nombre total de courses, par demande et par marché. Nous reviendrons sur les calculs dans un instant.
  8. Planifier et stocker. Exécutez la campagne à une cadence fixe et enregistrez des lignes horodatées, afin que la part d'impression reflète une tendance plutôt qu'un instantané.

Comment pouvez-vous exécuter des invites en tant que sessions éligibles et géolocalisées avec précision ?

Vous exécutez les invites en tant que sessions éligibles en les lançant à partir d’adresses IP d’utilisateurs réels sur le marché cible, puis en capturant la conversation générée. C’est cette étape qui détermine si vous parvenez à collecter des données publicitaires IA à grande échelle ou si vous êtes bloqué dès le début. La plupart des plateformes signalent rapidement les adresses IP de centres de données, tandis que les adresses IP résidentielles provenant de véritables FAI grand public ressemblent à du trafic ordinaire ; de plus, les résultats générés par l’IA varient selon la région et la langue, ce qui nécessite des adresses IP locales sur l’ensemble des marchés (DataImpulse, « Les meilleurs serveurs proxy pour le scraping par IA en 2026 »). Le choix de ce réseau relève d'une décision distincte, comparée à Proxys résidentiels vs proxys de centres de données pour les publicités basées sur l'IA.

C'est là que Massive s'intègre directement dans le pipeline. Massive est à la fois un réseau d'accès aux appareils et une pile de rendu qui génère du code HTML ou Markdown propre à partir de n'importe quelle source publique, où qu'elle se trouve, et qui fonctionne sur de véritables appareils grand public dans plus de 195 pays. Son Web Render API /ai L'endpoint renvoie les réponses générées par ChatGPT provenant d'appareils d'utilisateurs réels situés dans la zone géographique de votre choix, sous forme de conversation complète au format HTML, de prompt au format HTML, de réponse au format HTML, de sources au format HTML et d'un tableau de sous-requêtes. Le mode synchrone renvoie directement la réponse ; le mode asynchrone /ai/suggestions Le processus consiste à mettre en file d'attente puis à récupérer les données, avec un ciblage géographique par pays, collectivité territoriale ou ville.

Massive fournit les fonctionnalités nécessaires ; votre équipe conçoit l'ensemble de prompts et gère l'opération. En ce qui concerne le pipeline associé, le point de terminaison « Browsing » (/navigateur) offre un rendu Markdown de premier ordre et des sessions persistantes pouvant aller jusqu'à 12 minutes. Chaque adresse IP est enregistrée via le SDK Massive, et la plateforme est auditée selon la norme SOC 2, conforme au RGPD et certifiée AppEsteem, avec une piste d'audit complète.

La boucle de contrôle est concise. Les parties complexes (origines éligibles, données géographiques, rendu) sont gérées en arrière-plan lors de l'appel de rendu, ce qui permet à votre code de se concentrer sur l'échantillonnage et l'agrégation :

python
# Illustrative sampling loop. The render_chatgpt() call abstracts an
# eligible, geo-targeted session; see your render provider's docs for
# exact endpoint parameters before wiring it up.
from collections import Counter
def sample_prompt(prompt, market, runs=25):
appearances = Counter()
for _ in range(runs):
convo = render_chatgpt(prompt=prompt, geo=market) # rendered HTML
for box in find_sponsored_boxes(convo): # may be zero
ad = {
"advertiser": normalize(box.title),
"description": box.description,
"final_url": canonical(box.final_url),
"prompt": prompt,
"market": market,
}
store(ad) # stage 8
appearances[ad["advertiser"]] += 1
# stage 7: impression share = appearances / total runs
return {a: round(n / runs, 3) for a, n in appearances.items()}

La boucle est volontairement simple. Une version de production intègre des tentatives de réessai, une détection des encadrés sponsorisés capable de s'adapter aux changements de mise en page, une validation qui élimine les rendus vides, ainsi qu'une planification spécifique à chaque marché.

Comment calculez-vous le taux d'impression lors de campagnes répétées ?

Vous calculez le taux d'impression en divisant le nombre d'apparitions d'un annonceur par le nombre total de diffusions pour un message et un marché donnés. Si un annonceur apparaît dans 12 diffusions sur 25, cela correspond à un taux d'impression de 48 % pour ce message et cette fenêtre (Search Engine Land, 2026). C'est ce ratio unique qui permet de transformer une surface bruyante, calculée par thread, en un chiffre que vous pouvez suivre et comparer.

La taille de l'échantillon est importante. Une poignée de tests produit une estimation instable, tandis que des dizaines de tests par consigne permettent d’obtenir un résultat stable. Veillez à maintenir des conditions de collecte fixes (même marché, même niveau et même formulation de la consigne), afin que toute variation du nombre reflète bien l’enchère publicitaire plutôt que votre configuration. Le suivi de l’URL finale parallèlement au taux de partage permet également d’identifier la page de destination exacte vers laquelle un concurrent redirige pour chaque conversation.

Résumé : Le taux d'impression d'une publicité ChatGPT correspond au nombre d'apparitions de l'annonceur divisé par le nombre total d'exécutions pour cette requête et ce marché ; 12 apparitions sur 25 exécutions représentent un taux d'impression de 48 % pour cette requête et cette fenêtre temporelle (Search Engine Land, « Ce que les données publicitaires de ChatGPT révèlent sur vos concurrents », 2026).

À quelle fréquence faut-il le collecter, et où est-il acheminé ?

Vous effectuez vos collectes à une fréquence fixe et enregistrez chaque observation sous forme de ligne horodatée, car c'est la tendance qui importe, et non l'instantané. Une exécution hebdomadaire ou quotidienne du même ensemble de requêtes, par marché, permet de constituer un historique qu'il vous sera impossible de compléter a posteriori. Considérez le calendrier lui-même comme faisant partie intégrante de la méthode : modifier la fréquence en cours de route rend difficile la comparaison entre deux périodes.

Le stockage est simple une fois que le schéma est stabilisé. Une seule table large suffit : invite, marché, horodatage de l'exécution, annonceur, titre de l'annonce, description de l'annonce, URL finale. Le taux d’impression correspond alors à une requête sur cette table, regroupée par « prompt », « marché » et « fenêtre ». Comme vous contrôlez les conditions de collecte, la même requête réexécutée le mois suivant produit un chiffre comparable, ce qui est justement l’intérêt de récupérer les résultats sponsorisés de l’IA selon un calendrier défini.

Remarque concernant les termes relatifs au champ d'application et à la plateforme

Ne collectez que les contenus publicitaires accessibles au public et ne dépassez pas ce cadre. L'encart sponsorisé visible par tout utilisateur éligible relève de l'information publique, et c'est là la limite qu'il convient de respecter. Ne collectez pas de données à caractère personnel, ne tentez pas de contourner l'authentification au-delà d'une session de connexion normale, et adaptez votre rythme de collecte à une cadence raisonnable plutôt que de surcharger le service. Respectez les conditions générales de chaque plateforme, veillez à ce que votre message soit parfaitement adapté à l’objectif visé et, si vous exercez une activité commerciale ou à grande échelle, faites examiner votre utilisation spécifique par un juriste. La législation en la matière varie selon les juridictions et évolue constamment.

Qu'est-ce que cela signifie pour vous ?

Le scraping des publicités ChatGPT relève d’un échantillonnage rigoureux, et non d’une ingénierie de sélection. Le pipeline en huit étapes maintient des conditions constantes : un ensemble de prompts prédéfini, des sessions éligibles, une zone géographique appropriée et un rendu conforme à celui des utilisateurs réels. Ainsi, les chiffres de part d’impression que vous calculez ont une valeur significative sur plusieurs semaines. Créez la boucle une seule fois, exécutez-la à un rythme régulier et enregistrez chaque ligne.

La condition qui fait toute la différence réside dans la couche de collecte : des sessions éligibles, géolocalisées avec précision et qui ressemblent à celles d'utilisateurs réels. C'est là que réside la force de Massive : /ai Une couverture de plus de 195 pays et de nombreux points de terminaison, permettant d'obtenir les réponses générées par ChatGPT à partir d'appareils d'utilisateurs réels sur le marché de votre choix. Commencez dès maintenant à effectuer des tests, respectez l'espace public publicitaire, et vous disposerez de données sur les tendances qu'il sera impossible de recréer a posteriori. Pour le cadre stratégique, revenez à Comment surveiller les publicités de ChatGPT.

Foire aux questions

Comment extraire les publicités de ChatGPT s'il n'existe pas de répertoire public ?+

Vous procédez par échantillonnage plutôt que par recherche. Étant donné que la mise en correspondance s'effectue au niveau de chaque thread privé, sans centre de transparence, vous exécutez de manière répétée un ensemble de prompts prédéfinis dans les sessions américaines éligibles et enregistrez chaque case sponsorisée (Search Engine Journal, 2026). Le volume et le nombre de répétitions permettent de transformer une surface cachée, propre à chaque fil de discussion, en un indicateur mesurable de part d'impression que vous pouvez suivre au fil du temps.

Pourquoi avez-vous besoin d'adresses IP résidentielles pour collecter des données publicitaires sur ChatGPT ?+

Les adresses IP des centres de données sont rapidement bloquées, tandis que les adresses IP résidentielles provenant de véritables FAI grand public ressemblent à du trafic utilisateur normal (DataImpulse, « Les meilleurs serveurs proxy pour le scraping par IA en 2026 »). Les surfaces publicitaires générées par l'IA s'affichent également en fonction de la région et de la langue, et leur déploiement s'effectue pays par pays ; par conséquent, pour obtenir des données géolocalisées précises, vous devez disposer d'adresses IP locales sur chaque marché que vous souhaitez observer.

Quels sont les niveaux de ChatGPT qui affichent réellement des publicités ?+

Uniquement les formules « Free » et « Go », et uniquement pour les adultes américains connectés, dans le cadre du test du 9 février 2026 (OpenAI, « Test de publicités dans ChatGPT »). Les formules Pro, Business et Enterprise restent sans publicité (TechCrunch, 2026). Les sessions de collecte qui ne relèvent pas d'un niveau éligible ne donneront lieu à aucune boîte sponsorisée.

Quels champs devez-vous saisir pour chaque annonce ?+

Enregistrez le titre de l'annonce, sa description et l'URL finale pour chaque emplacement sponsorisé, ainsi que le message d'invitation, le marché et l'horodatage de la campagne (Search Engine Land, 2026). Ces champs vous permettent de normaliser les annonceurs, de suivre les pages de destination et de calculer le taux d'impression, qui correspond au nombre d'apparitions divisé par le nombre total de diffusions pour chaque message et chaque marché.

Le « scraping » des publicités de ChatGPT est-il autorisé ?+

Ne collectez que les encadrés publicitaires publics visibles par tout utilisateur éligible, évitez de collecter des données à caractère personnel et respectez les conditions d'utilisation énoncées par chaque plateforme ainsi qu'une fréquence raisonnable. L'espace publicitaire public constitue la limite à ne pas franchir. Considérez le « scraping » comme une observation des emplacements publicitaires publics, et non comme une collecte massive ; veillez à obtenir un avis juridique en cas d'utilisation commerciale ou à grande échelle, car les règles varient selon les juridictions.