Como extrair dados do Walmart, da Amazon e da Target em grande escala: o manual anti-bot de 2026
All Posts

Como extrair dados do Walmart, da Amazon e da Target em grande escala: o manual anti-bot de 2026

Rachel Hollander
Rachel Hollander · Marketing Comms

Em 2026, extrair dados do Walmart, da Amazon ou da Target já não será mais uma solicitações + BeautifulSoup script com uma lista de proxies. Todos os três varejistas agora utilizam identificação de TLS, pontuação comportamental e escalonamento para CAPTCHA, além de um gerenciamento de bots em camadas. O Walmart, em particular, combina o Akamai Bot Manager com os sinais comportamentais da HUMAN Security (a HUMAN adquiriu a PerimeterX em 2022, e essa integração agora faz parte do padrão anti-bot padrão para o varejo). Os scrapers de datacenter prontos para uso falham muito antes que uma página seja renderizada.

Se o senhor estiver operando um pipeline de monitoramento de preços, um mecanismo de arbitragem ou fornecendo dados de produtos a um agente de compras baseado em IA, eis o que realmente funciona em maio de 2026.

Testamos os três varejistas na rede de acesso à web da Massive em escala de produção. Abaixo estão as taxas de sucesso, os gatilhos anti-bot e os padrões de pilha que observamos. Você também pode se inscrever para um teste gratuito e execute uma extração em tempo real em qualquer um deles no painel antes de escrever uma única linha de código.

Pontos principais

  • O Walmart, a Amazon e a Target reforçaram suas medidas de combate a bots durante o primeiro trimestre de 2026.
  • Em nossos testes de carga internos, os endereços IP residenciais com sessões persistentes acessaram as páginas de produtos do Walmart de forma confiável; as rotações do datacenter falharam na borda na maioria das vezes.
  • Os limites de taxa por IP da Amazon agora são aplicados mais cedo e com maior rigor. O antigo padrão de “um proxy residencial por usuário” não resiste a nenhuma rastreamento de catálogo de grande volume.
  • O sistema de defesa contra bots da Target agora penaliza o HTTP bruto de forma mais severa do que em 2025. A automação do navegador altera significativamente a taxa de sucesso.
  • O ponto de equilíbrio em termos de custo, no qual a aquisição de uma rede se torna mais vantajosa do que o desenvolvimento interno de uma solução anti-bot, situa-se em torno de 100.000 páginas de produtos por mês para a maioria das equipes com as quais conversamos.

Uma observação sobre os números abaixo: as porcentagens provêm de testes de carga internos Massive realizados entre abril e maio de 2026. Amostra: aproximadamente 50.000 solicitações por varejista, distribuídas entre agentes de usuário de desktop e dispositivos móveis, pools de IP dos EUA e do Canadá, e uma combinação de SKUs de linha permanente e SKUs de alta rotatividade. “Sucesso” significa HTTP 200, sem CAPTCHA, HTML analisável com o campo de preço presente. Seus números variarão de acordo com os SKUs-alvo, a hora do dia e a tolerância do analisador — estes são valores orientativos, não um SLA.

Por que este guia foi elaborado agora

As medidas anti-bot adotadas pelos principais varejistas tornaram-se mais rigorosas no primeiro trimestre de 2026. Três mudanças ocorreram.

  1. O Walmart reforçou a integração entre sua infraestrutura de borda (Akamai Bot Manager) e o sistema de pontuação comportamental da HUMAN. Agora, os endereços IP dos data centers são rejeitados em uma verificação inicial antes que uma solicitação chegue à página do produto.
  2. A Amazon tornou mais restritivos os limites de taxa por endereço IP. O antigo padrão de “um proxy residencial por usuário” deixou de funcionar, pois um único endereço IP residencial atinge o limite em cerca de 20 minutos em qualquer rastreamento de catálogo de grande volume.
  3. A ponderação da pontuação comportamental da Target aumentou significativamente — as taxas brutas de sucesso do HTTP diminuíram, enquanto as taxas de sucesso da automação do navegador se mantiveram estáveis.

Se o seu raspador está quebrando toda semana, a causa geralmente é uma dessas três.

Conjunto de medidas anti-bot do Walmart

O que provocará um bloqueio no Walmart em 2026

  • Os endereços IP do datacenter são bloqueados na borda antes que a página seja renderizada.
  • Solicitações repetidas provenientes do mesmo endereço IP residencial sem um cookie de sessão parecem ser de um bot.
  • Impressões digitais TLS que não correspondem a um navegador real.
  • Padrões de movimento do mouse que não correspondem ao comportamento humano na página do produto.

O que funciona em nossos testes

  • Endereços IP de dispositivos residenciais ou de voluntários do mesmo país que a loja em questão.
  • Sessões persistentes por pelo menos 60 segundos por trabalhador, de modo que a cadeia de cookies pareça ser de um único cliente navegando.
  • Solicite um ritmo que imite padrões do tipo “rolar e clicar”, e não “acessar rapidamente e sair”.
  • Identificação por impressão digital no nível do navegador (Playwright com plug-ins de camuflagem) em vez de solicitações HTTP simples.

Em nossos testes internos, os IPs residenciais Massive com sessões persistentes atingiram taxas de retenção na casa dos 90% nas páginas de produtos do Walmart, enquanto a rotação de um datacenter ficou abaixo de 40%. A diferença é grande o suficiente para que a camada de rede determine o equilíbrio entre custo e confiabilidade.

Conjunto de ferramentas anti-bot da Amazon

O que provocará um bloqueio na Amazon em 2026

  • Limites de taxa por IP. Ao atingir o limite, você receberá uma página 503 que parece idêntica a uma interrupção real do serviço.
  • Não há correspondência entre o país do endereço IP e a configuração regional que o senhor está solicitando.
  • Solicitações de páginas de produtos sem o caminho de navegação da categoria correspondente.

O que funciona

  • Endereços IP direcionados geograficamente que correspondem à localização da página (IP dos EUA para amazon.com, IP do Reino Unido para amazon.co.uk e assim por diante).
  • Rotação de endereços IP residenciais em grande volume, com afinação por ASIN para evitar concentração.
  • Aquecimento opcional: algumas solicitações de páginas de categorias antes da solicitação da página do produto.
  • Pontos de extremidade da API móvel para dados do catálogo quando o acesso à web pública é limitado — o aplicativo móvel utiliza pontos de extremidade mais leves com um comportamento diferente em relação à limitação de taxa.

Se você estiver executando uma tarefa de monitoramento de preços em mais de 100.000 ASINs, a arquitetura que se destaca é uma pilha residencial com rotação por ASIN e uma fila de reserva para quaisquer solicitações que atinjam o limite de taxa. Apresentamos esse padrão como uma arquitetura de referência em nossos documentos.

Conjunto de medidas anti-bot

A pontuação comportamental da Target tornou-se visivelmente mais rigorosa no início de 2026. Os scrapers HTTP básicos que funcionavam em 2025 agora falham constantemente.

O que causa um bloqueio

  • Impressões digitais de navegadores sem interface que não correspondem a um comprador real.
  • Solicitações sem o cookie de localização definido (a Target vincula preços e estoque à loja local).
  • Solicitações repetidas a partir do mesmo endereço IP em vários códigos postais (parece um rastreador de preços, porque é isso mesmo).

O que funciona

  • Um endereço IP residencial por código postal de seu interesse.
  • Defina o cookie de armazenamento local antes de solicitar as páginas de produtos.
  • Automação do navegador, não HTTP bruto — A pontuação comportamental da Target leva em consideração os padrões de interação com o DOM.

Em nossos testes, a automação de navegadores por meio de IPs residenciais atingiu uma pontuação na casa dos 90; o tráfego HTTP bruto pela mesma rede de IPs residenciais ficou em torno de 60. A diferença representa a pontuação comportamental.

A arquitetura de referência

Este é o padrão que se mantém em todas as três empresas de varejo em escala de produção.

  1. Uma fila de URLs a serem buscadas (Redis, Kafka ou qualquer outra fonte que seu pipeline já utilize).
  2. Um grupo de usuários, cada um executando o Playwright com um plugin de modo oculto e uma sessão persistente por meio de API de acesso à Web da Massive.
  3. Segmentação geográfica no nível do pedido (por ASIN na Amazon, por CEP na Target, por país no Walmart Canadá, nos EUA e no México).
  4. Uma fila de tentativas para qualquer resposta 503, 429 ou CAPTCHA, com um intervalo de espera mais longo e um novo endereço IP.
  5. Um analisador que extrai os dados estruturados para o seu data warehouse (BigQuery, Snowflake ou Postgres).

O código de referência está localizado em nossos documentos.

Quanto custa

A maioria das equipes subestima esse aspecto em seus documentos de planejamento. A verdade nua e crua:

  • O custo do GB para planos residenciais varia entre US$ 3 e US$ 8 por GB, dependendo da operadora e do plano.
  • Uma solicitação típica de página de produto por meio de um navegador discreto consome de 2 a 4 MB de largura de banda.

Um milhão de solicitações de páginas de produtos equivale a 2 a 4 TB de largura de banda, ou seja, aproximadamente US$ 6.000 a US$ 32.000 por mês, com base em tarifas residenciais padrão.

Se você estiver realizando o monitoramento de preços em uma grande rede varejista ou em uma plataforma de inteligência de preços, esse valor é significativamente menor do que o custo total de desenvolver e manter internamente a camada de proteção contra burlas de bots (equipe de engenharia, plantão, correções contínuas do analisador quando o site alvo muda de layout). Veja Preços da Massive para planos específicos.

O quadro jurídico

Uma versão curta e sincera — porque a versão simplificada que circula por aí sobre o scraping de marketing está errada.

CFAA. A coleta de dados de produtos acessíveis ao público não constitui uma violação da CFAA nos Estados Unidos. A decisão do Nono Circuito no caso hiQ v. LinkedIn (reafirmada em novo julgamento em abril de 2022) esclareceu essa questão específica.

Mas a própria hiQ perdeu. O caso foi encerrado em dezembro de 2022 com uma liminar permanente contra a hiQ e uma condenação no valor de US$ 500.000 — com base em violação contratual relacionada ao termo de uso do LinkedIn. Portanto, a lição a ser tirada não é que “dados públicos são alvo legítimo”. A lição a ser tirada é: a CFAA está fora de questão, mas as reivindicações relacionadas aos Termos de Serviço (ToS) e aos contratos não estão. Se você se cadastrar para uma conta e aceitar os Termos de Serviço, a extração de dados por meio dessa conta representa uma situação jurídica diferente da extração de páginas acessíveis publicamente e nas quais o usuário está desconectado.

Duas regras que sempre se aplicam:

  • Não extraia dados que estejam protegidos por login. É aí que reside o risco de violação da CFAA.
  • Respeite o arquivo robots.txt como prova de intenção, mesmo que ele não tenha valor juridicamente vinculativo.

UE. A Lei da IA da UE, em vigor a partir de 2026, estabelece obrigações para os fornecedores de modelos de IA de uso geral — principalmente, a divulgação resumida dos dados de treinamento e o cumprimento das disposições relativas à renúncia aos direitos autorais. Essas obrigações se aplicam aos fornecedores de GPAI, e não aos scrapers como categoria geral. Se o senhor estiver treinando ou ajustando um modelo com dados coletados por scraping, isso é relevante para o senhor. Se o senhor estiver operando um pipeline de monitoramento de preços que alimenta uma ferramenta de BI, isso não se aplica.

Para uma análise jurídica atualizada, consulte Skadden sobre as obrigações relativas à IA de grande escala (GPAI) previstas na Lei da IA da UE e WilmerHale sobre o modelo da UE para a divulgação de dados de treinamento em IA.

Se a sua empresa estiver operando na escala que estamos descrevendo, sua equipe deve dispor de um memorando jurídico de uma página. O nosso equipe de vendas pode compartilhar o modelo que enviamos aos potenciais clientes corporativos.

Perguntas frequentes

P: Será que poderei fazer scraping no Walmart em 2026?
R: Sim, a extração de dados de páginas de produtos acessíveis ao público não constitui uma violação da CFAA nos EUA (conforme o caso hiQ v. LinkedIn). A questão técnica é se é possível fazê-lo de forma confiável em grande escala, e isso depende da sua rede e da camada do navegador. Em nossos testes, os proxies de data center apresentaram uma taxa de sucesso inferior a 40% nas páginas de produtos do Walmart, enquanto redes residenciais ou de dispositivos voluntários com sessões persistentes atingiram taxas na casa dos 90%.

P: Qual é a taxa de sucesso na extração de produtos da Amazon usando proxies residenciais?
R: Em nossos testes de carga realizados entre abril e maio de 2026 nas páginas de produtos da amazon.com nos EUA, os endereços IP residenciais com rotação por ASIN e um breve aquecimento na página de categoria atingiram taxas de sucesso entre 90% e 95%. Sem a rotação, os limites de taxa por IP reduzem drasticamente a taxa de sucesso.

P: Devo usar um proxy ou uma API de scraping para o Walmart?
R: Se você estiver processando menos de cerca de 50.000 páginas por mês, uma API de scraping gerenciada (Bright Data, Zyte, Apify) costuma ser a opção que exige menos esforço. Acima desse volume, criar uma fila com API de acesso à Web da Massive Além disso, seu próprio conjunto de navegadores costuma ser mais barato e oferece maior controle sobre esquemas e campos.

P: É legal fazer scraping no Walmart, na Amazon ou na Target?
R: A coleta de dados de produtos acessíveis ao público nos EUA não constitui uma violação da CFAA, de acordo com o caso hiQ v. LinkedIn. Observe que a própria hiQ acabou por perder o processo por violação de contrato — portanto, se você criar uma conta e aceitar os Termos de Serviço, sua situação jurídica se altera. Não colete dados protegidos por login e respeite o arquivo robots.txt como prova de intenção. Se você estiver alimentando um modelo de IA de uso geral com dados coletados e operando na UE, a Lei de IA acrescenta obrigações de divulgação de dados de treinamento.

P: Como faço para evitar que um scraper da Amazon pare de funcionar a cada 30 dias?
R: Os dois principais tipos de falha são bloqueios por limite de taxa e incompatibilidades de localização. Utilize IPs direcionados geograficamente (EUA para amazon.com, Reino Unido para amazon.co.uk, etc.), alterne IPs residenciais com afinidade por ASIN e coloque em fila quaisquer respostas 503 ou 429 para repetição da tentativa com um novo IP. Nosso documentos abordar a arquitetura de referência em detalhes.

Onde Massive se encaixa

Nós fornecemos a camada de rede. IPs residenciais fornecidos por voluntários em mais de 195 países, com granularidade geográfica até o nível municipal, sessões contínuas de até 30 minutos e certificação SOC 2 Tipo 1. Os scrapers em produção já passam por nós hoje. O teste gratuito permite que você teste a estratégia com seus alvos reais antes de se comprometer com um plano.

Conclusão

A pilha anti-bot para o varejo de 2026 valoriza três aspectos: endereços IP de dispositivos residenciais ou de voluntários, automação de navegadores com identificação adequada e padrões de solicitação que se assemelham aos de um comprador real. Essa pilha é mais eficaz do que uma simples rotação de proxies — e custa muito menos do que construir e manter por conta própria a camada de proteção contra contornamento de sistemas anti-bot.

Se o seu scraper está falhando semanalmente ao acessar o Walmart, a Amazon ou a Target, a solução geralmente consiste em uma alteração de configuração na camada de rede, e não em reescrever o seu código de análise.

Pronto para começar? Inscreva-se ou entre em contato com a nossa equipe de vendas.