Qu'est-ce qu'une empreinte numérique ?

A empreinte numérique Il s'agit de l'ensemble des signaux provenant du réseau, du navigateur, de l'appareil et du comportement qui permettent d'identifier de manière unique un utilisateur ou une session en ligne, sans recourir aux cookies. Ce système fonctionne de manière passive : tout site que vous visitez peut collecter ces signaux et les relier entre différentes visites ou différents comptes. Il en résulte un identifiant persistant qui subsiste même en mode de navigation privée, après la suppression des cookies et lors de l'utilisation d'un VPN.

Comment est créée une empreinte numérique ?

Les empreintes numériques sont des ensembles d'informations, et non des signaux isolés. Les navigateurs divulguent des dizaines d'attributs lors du rendu normal d'une page : la chaîne « user-agent », les polices installées, la résolution en pixels du canevas, le moteur de rendu WebGL, le comportement de traitement audio, la résolution d'écran, le fuseau horaire, etc. Chaque attribut réduit l'éventail des utilisateurs potentiels ; ensemble, ils permettent d'identifier un appareil spécifique.

Les recherches confirment l'efficacité de cette association. Une étude de 2024 (Évaluation des risques liés au « fingerprinting » sur le Web, WWW 2024, arXiv 2403.15607, 2024) ont passé en revue plusieurs corpus et ont constaté que les taux d’unicité variaient de 33,6 % (Gomez-Boix, environ 2 millions d’échantillons) à 89,4 % (Laperdrix et al., environ 118 000 échantillons), les travaux antérieurs d’Eckersley situant ce chiffre à 83,6 % sur environ 470 000 échantillons. Cet écart montre à quel point la méthodologie et la composition du corpus influencent le niveau d’unicité mesuré. Cette même étude de 2024 s’est appuyée sur des dizaines de millions de sessions Chrome réelles sur des centaines de milliers de sites et a confirmé que les signaux combinés des API Web comportent encore suffisamment d’entropie pour identifier les utilisateurs, même lorsque les navigateurs ajoutent des éléments aléatoires (Évaluation des risques liés au « fingerprinting » sur le Web, WWW 2024, arXiv 2403.15607, 2024).

L'adresse IP fait également partie de l'empreinte numérique. Les systèmes de détection des bots recoupent les signaux du navigateur avec l'ASN, la géolocalisation et la réputation de l'adresse IP. Une incohérence entre un profil de navigateur réaliste et une adresse IP de centre de données constitue en soi un signal de détection.

Cas d'usage

Détection des fraudes. Les banques et les plateformes de commerce électronique procèdent à l'identification des appareils afin de détecter les attaques par « credential stuffing », les prises de contrôle de comptes et les fraudes aux paiements. L'apparition d'une nouvelle empreinte numérique sur un compte connu déclenche des étapes de vérification supplémentaires.

Limitation de la fréquence d'affichage des publicités. Les annonceurs limitent le nombre d'impressions par utilisateur sur l'ensemble des navigateurs et après la suppression des cookies, en associant l'exposition publicitaire à l'empreinte numérique de l'appareil plutôt qu'à un cookie.

Collecte de données sur le Web. Les clients automatisés doivent présenter une empreinte cohérente et plausible afin d'éviter les blocages liés à la détection des bots. Chaque signal, notamment l’adresse IP, la version du navigateur, le hachage du canvas et l’empreinte TLS, doit être cohérent. L’utilisation d’une adresse IP résidentielle provenant d’un réseau d’accès aux appareils garantit que la couche réseau correspond à ce que présenterait un véritable appareil grand public, ce qui réduit le risque que l’adresse IP elle-même déclenche un signalement de non-correspondance.

Vérification d'identité. Les solutions de lutte contre la fraude et de conformité associent les empreintes digitales à des contrôles de présence pour établir un lien entre une session et une personne identifiée de manière vérifiée, et ce, sur l'ensemble des interactions.

Foire aux questions

L'empreinte digitale du navigateur ne constitue qu'une composante de l'empreinte digitale globale. Le tableau complet comprend également la couche réseau (adresse IP, ASN, géolocalisation), les signaux au niveau de l'appareil (taille de l'écran, simultanéité matérielle) et les signaux comportementaux (rythme de frappe, mouvements de la souris). L'empreinte digitale du navigateur ne couvre que les signaux exposés par les API de rendu et JavaScript du navigateur.

La navigation privée efface les cookies, mais ne modifie pas les signaux liés au matériel ou à l'API du navigateur. Un VPN modifie l'adresse IP, mais laisse intacts les éléments liés à Canvas, aux polices et à WebGL. La plupart des systèmes d'empreinte numérique combinent suffisamment de signaux pour qu'aucune de ces mesures, prise isolément, ne suffise à elle seule à éviter la détection.

Le « fingerprinting » s'appuie sur les signaux que les navigateurs divulguent par défaut lors du rendu normal d'une page : l'en-tête « user-agent », le contenu du canvas, les capacités WebGL, le comportement audio, etc. Aucune demande d'autorisation n'est requise. Certaines lois sur la protection de la vie privée considèrent le « fingerprinting » comme un traitement de données à caractère personnel, mais son application varie selon les juridictions.

La taille et la composition du corpus constituent les principaux facteurs. Les échantillons plus petits et homogènes présentent des taux d’unicité plus élevés que les corpus volumineux et diversifiés comprenant de nombreux appareils mobiles identiques. L’étude WWW de 2024 a confirmé que la méthodologie revêt une importance plus grande que la technique sous-jacente lors de la mesure de l’entropie des empreintes numériques (Évaluation des risques liés au « fingerprinting » sur le Web, arXiv 2403.15607, 2024).