O que é uma impressão digital?

A impressão digital é o conjunto combinado de sinais de rede, navegador, dispositivo e comportamento que identificam de forma exclusiva um usuário ou uma sessão online, sem a necessidade de cookies. Funciona de maneira passiva: qualquer site que você visitar pode coletar esses sinais e associá-los entre visitas ou contas. O resultado é um identificador persistente que permanece mesmo durante a navegação em modo privado, a exclusão de cookies e o uso de VPN.

Como é criada uma impressão digital

As impressões digitais são conjuntos de dados, não sinais isolados. Os navegadores revelam dezenas de atributos durante a renderização normal de uma página: a string do agente do usuário, as fontes instaladas, a saída de pixels do canvas, o renderizador WebGL, o comportamento do processamento de áudio, a resolução da tela, o fuso horário e muito mais. Cada atributo restringe o conjunto de usuários possíveis; juntos, eles podem identificar um dispositivo específico.

Pesquisas confirmam a eficácia dessa combinação. Um estudo de 2024 (Avaliação do risco de identificação digital na Web, WWW 2024, arXiv 2403.15607, 2024) analisaram diversos corpora e constataram taxas de exclusividade que variavam de 33,6% (Gomez-Boix, ~2 milhões de amostras) a 89,4% (Laperdrix et al., ~118 mil amostras), com o trabalho anterior de Eckersley situando esse valor em 83,6% em ~470 mil amostras. Essa variação demonstra o quanto a metodologia e a composição do corpus afetam a exclusividade medida. O mesmo estudo de 2024 baseou-se em dezenas de milhões de sessões reais do Chrome em centenas de milhares de sites e confirmou que os sinais combinados da Web API ainda contêm entropia suficiente para identificar usuários, mesmo com a adição de aleatorização pelos navegadores (Avaliação do risco de identificação digital na Web, WWW 2024, arXiv 2403.15607, 2024).

O endereço IP também faz parte da “impressão digital”. Os sistemas de detecção de bots cruzam os sinais do navegador com o ASN, a geolocalização e a reputação do endereço IP. Uma incompatibilidade entre um perfil realista do navegador e um endereço IP de data center já constitui, por si só, um sinal de detecção.

Casos de uso

Detecção de fraudes. Os bancos e as plataformas de comércio eletrônico realizam a identificação de dispositivos para detectar ataques de “credential stuffing”, apropriação de contas e fraudes em pagamentos. Uma nova identificação em uma conta conhecida aciona etapas adicionais de verificação.

Limite de exibição de anúncios. Os anunciantes limitam o número de exibições por usuário em todos os navegadores e após a exclusão de cookies, vinculando a exposição ao anúncio a uma impressão digital do dispositivo, em vez de a um cookie.

Coleta de dados na web. Os clientes automatizados devem apresentar uma assinatura consistente e plausível para evitar bloqueios decorrentes da detecção de bots. Todos os sinais, incluindo o endereço IP, a versão do navegador, o hash do canvas e a impressão digital TLS, devem ser coerentes. O uso de um IP residencial proveniente de uma rede de acesso a dispositivos garante que a camada de rede corresponda ao que um dispositivo de consumidor real apresentaria, reduzindo a chance de que o próprio IP acione um sinalizador de incompatibilidade.

Verificação de identidade. Os produtos de combate à fraude e de conformidade combinam impressões digitais com verificações de autenticidade para vincular uma sessão a uma pessoa verificada ao longo de várias interações.

Perguntas frequentes

A identificação por impressão digital do navegador é uma das camadas da impressão digital. O quadro completo inclui também a camada de rede (endereço IP, ASN, geolocalização), sinais no nível do dispositivo (tamanho da tela, simultaneidade de hardware) e sinais comportamentais (ritmo de digitação, movimento do mouse). A identificação por impressão digital do navegador abrange apenas os sinais expostos pelas APIs de renderização e JavaScript do navegador.

A navegação privada apaga os cookies, mas não altera os sinais do hardware nem da API do navegador. Uma VPN altera o endereço IP, mas mantém intactas as saídas do canvas, das fontes e do WebGL. A maioria dos sistemas de identificação digital combina sinais suficientes para que nenhuma dessas medidas, por si só, seja suficiente para evitar a detecção.

A identificação por impressão digital baseia-se em sinais que os navegadores expõem por padrão durante a renderização normal das páginas: o cabeçalho user-agent, a saída do canvas, os recursos do WebGL, o comportamento de áudio e outros. Não é necessária nenhuma solicitação de permissão. Algumas leis de privacidade tratam a identificação por impressão digital como processamento de dados pessoais, mas a aplicação dessas leis varia de acordo com a jurisdição.

O tamanho e a composição do corpus são os principais fatores. Amostras menores e homogêneas apresentam taxas de exclusividade mais elevadas do que corpora grandes e diversificados, que incluem muitos dispositivos móveis idênticos. O estudo WWW de 2024 confirmou que a metodologia é mais importante do que a técnica subjacente na medição da entropia da impressão digital (Avaliação do risco de identificação digital na Web, arXiv 2403.15607, 2024).