Cómo extraer datos de Walmart, Amazon y Target a gran escala: la guía anti-bots de 2026

Rachel Hollander · Marketing CommsMay 11, 2026

En 2026, extraer datos de Walmart, Amazon o Target ya no será una requests + BeautifulSoup script con una lista de proxies. Los tres minoristas utilizan ahora el análisis de huellas digitales TLS, la puntuación de comportamiento y la escalación mediante CAPTCHA, además de la gestión de bots por capas. Walmart, en particular, combina Akamai Bot Manager con las señales de comportamiento de HUMAN Security (HUMAN adquirió PerimeterX en 2022, y esa integración forma ahora parte del patrón antibots predeterminado para el sector minorista). Los rastreadores de centros de datos estándar fallan mucho antes de que se cargue la página.

Si gestiona un proceso de seguimiento de precios, un motor de arbitraje o proporciona datos de productos a un agente de compras basado en IA, esto es lo que realmente funciona en mayo de 2026.

Hemos sometido a los tres minoristas a pruebas en la red de acceso web de Massive a escala real. A continuación se muestran las tasas de éxito, los mecanismos de detección de bots y los patrones de tráfico que hemos observado. También puede registrarse en un prueba gratuita y ejecutar un rastreo en tiempo real sobre cualquiera de ellos en el panel de control antes de escribir una sola línea de código.

Puntos clave

Walmart, Amazon y Target reforzaron sus sistemas de protección contra los bots durante el primer trimestre de 2026.
En nuestras pruebas de carga internas, las direcciones IP residenciales con sesiones persistentes accedieron a las páginas de productos de Walmart de forma fiable; en cambio, las rotaciones de los centros de datos fallaron en el perímetro en la mayoría de los casos.
Los límites de velocidad por IP de Amazon ahora se aplican antes y con mayor severidad. El antiguo modelo de «un proxy residencial por usuario» ya no resiste ningún rastreo de catálogos de gran volumen.
El sistema de defensa contra bots de Target ahora penaliza el uso de HTTP sin procesar con mayor severidad que en 2025. La automatización del navegador modifica de manera significativa la tasa de éxito.
El punto de equilibrio en el que resulta más rentable adquirir una red que desarrollar internamente un sistema antibots se sitúa, aproximadamente, en unas 100 000 páginas de producto al mes para la mayoría de los equipos con los que hemos hablado.

Nota sobre las cifras que figuran a continuación: los porcentajes proceden de pruebas de carga internas que Massive llevó a cabo entre abril y mayo de 2026. Muestra: aproximadamente 50 000 solicitudes por minorista, repartidas entre agentes de usuario de escritorio y móviles, grupos de direcciones IP de EE. UU. y Canadá, y una combinación de referencias permanentes y de alta rotación. «Éxito» significa HTTP 200, sin CAPTCHA, HTML analizable con el campo de precio presente. Sus cifras variarán en función de las referencias objetivo, la hora del día y la tolerancia del analizador; se trata de valores orientativos, no de un SLA.

Por qué se ha elaborado esta guía ahora

Las medidas contra los bots en los principales minoristas se endurecieron en el primer trimestre de 2026. Se produjeron tres cambios.

Walmart ha reforzado la integración entre su infraestructura periférica (Akamai Bot Manager) y el sistema de puntuación de comportamiento de HUMAN. Las direcciones IP de los centros de datos ahora no superan una primera comprobación antes de que una solicitud llegue a la página de un producto.
Amazon ha endurecido los límites de velocidad por dirección IP. El antiguo modelo de «un proxy residencial por usuario» ha dejado de funcionar, ya que una sola dirección IP residencial alcanza el límite en unos 20 minutos al rastrear cualquier catálogo de gran volumen.
La ponderación de la puntuación de comportamiento de Target aumentó de forma significativa: las tasas brutas de éxito de HTTP descendieron, mientras que las tasas de éxito de la automatización del navegador se mantuvieron estables.

Si su rascador se rompe cada semana, la causa suele ser una de esas tres.

Conjunto de medidas antibots de Walmart

¿Qué provocará un colapso en Walmart en 2026?

Las direcciones IP de los centros de datos se bloquean en el perímetro antes de que se cargue la página.
Las solicitudes repetidas procedentes de la misma dirección IP residencial sin una cookie de sesión parecen proceder de un bot.
Huellas digitales TLS que no coinciden con las de un navegador real.
Patrones de movimiento del ratón que no se corresponden con el comportamiento humano en la página del producto.

Qué resultados han dado nuestras pruebas

Direcciones IP de dispositivos particulares o de voluntarios del mismo país que la tienda de destino.
Sesiones persistentes durante al menos 60 segundos por usuario, de modo que la cadena de cookies parezca la de un solo comprador navegando por la web.
Solicite un ritmo que imite los patrones de «desplazarse y luego hacer clic», y no los de «entrar en ráfagas y luego salir».
Identificación de navegadores (Playwright con complementos de ocultación) en lugar de simples solicitudes HTTP.

En nuestras pruebas internas, las direcciones IP residenciales Massive con sesiones persistentes alcanzaron un índice de 90 % en las páginas de productos de Walmart, mientras que la rotación del centro de datos se situó por debajo del 40 %. La diferencia es lo suficientemente amplia como para que la capa de red sea determinante en la relación entre coste y fiabilidad.

Conjunto de medidas antibots de Amazon

¿Qué provocará un bloqueo en Amazon en 2026?

Límites de tráfico por IP. Si se alcanza el límite, aparecerá una página 503 que parece idéntica a una interrupción real del servicio.
No coincide el país de la dirección IP con la configuración regional que está solicitando.
Solicitudes de páginas de productos sin la ruta de navegación por categorías correspondiente.

Lo que funciona

Direcciones IP geolocalizadas que coinciden con la configuración regional de la página (una dirección IP de EE. UU. para amazon.com, una dirección IP del Reino Unido para amazon.co.uk, y así sucesivamente).
Rotación de direcciones IP residenciales a gran escala, con asignación específica por ASIN para evitar la concentración.
Calentamiento opcional: unas cuantas solicitudes de páginas de categorías antes de la solicitud de la página del producto.
Puntos de conexión de la API móvil para los datos del catálogo cuando se limita el acceso a la web pública: la aplicación móvil utiliza puntos de conexión más ligeros con un comportamiento de limitación de velocidad diferente.

Si está ejecutando una tarea de monitorización de precios que abarca más de 100 000 ASIN, la estructura que mejor se adapta es una «piscina residencial» con rotación por ASIN y una cola de reserva para las solicitudes que alcancen el límite de frecuencia. Ofrecemos este modelo como arquitectura de referencia en nuestra documentación.

Conjunto de medidas contra los bots

El sistema de puntuación de comportamiento de Target se volvió notablemente más estricto a principios de 2026. Los rastreadores HTTP básicos que funcionaban en 2025 ahora fallan con frecuencia.

¿Qué provoca un bloqueo?

Huellas digitales de navegadores sin interfaz gráfica que no coinciden con las de un comprador real.
Solicitudes sin la cookie de localización activada (Target vincula los precios y el stock a la tienda local).
Solicitudes repetidas desde la misma dirección IP en numerosos códigos postales (parece un rastreador de precios, porque lo es).

Lo que funciona

Una dirección IP residencial por cada código postal que le interese.
Establezca la cookie de almacenamiento local antes de solicitar las páginas de productos.
Automatización del navegador, no HTTP sin procesar: la puntuación de comportamiento de Target tiene en cuenta los patrones de interacción con el DOM.

En nuestras pruebas, la automatización de navegadores a través de direcciones IP residenciales obtuvo una puntuación de alrededor del 90 %; el tráfico HTTP sin procesar a través del mismo grupo de direcciones IP residenciales se situó en torno al 60 %. La diferencia corresponde a la puntuación de comportamiento.

La arquitectura de referencia

Este es el patrón que se mantiene en los tres minoristas a escala de producción.

Una cola de URL que se deben recuperar (Redis, Kafka o cualquier otra fuente que ya utilice su canalización).
Un grupo de trabajadores, cada uno de los cuales ejecuta Playwright con un complemento de modo oculto y una sesión persistente a través de API de acceso web de Massive.
Segmentación geográfica a nivel de solicitud (por ASIN en el caso de Amazon, por código postal en el caso de Target, y por país en el caso de Walmart Canadá, EE. UU. y México).
Una cola de reintentos para cualquier respuesta 503, 429 o CAPTCHA, con un intervalo de espera más largo y una nueva dirección IP.
Un analizador sintáctico que extrae los datos estructurados y los envía a su almacén de datos (BigQuery, Snowflake o Postgres).

El código de referencia se encuentra en nuestra documentación.

Cuánto cuesta

La mayoría de los equipos subestiman este aspecto en sus documentos de planificación. La realidad es la siguiente:

El coste del GB para particulares oscila entre 3 y 8 dólares por GB, dependiendo del proveedor y del plan.
Una solicitud típica de una página de producto a través de un navegador sigiloso consume entre 2 y 4 MB de ancho de banda.

Un millón de solicitudes de páginas de productos supone entre 2 y 4 TB de ancho de banda, lo que equivale aproximadamente a entre 6.000 y 32.000 dólares al mes, según las tarifas residenciales habituales.

Si se encarga del seguimiento de precios en una gran cadena minorista o en una plataforma de inteligencia de precios, esta cifra es considerablemente inferior al coste total que supone desarrollar y mantener internamente la capa de protección contra eludir los bots (personal de ingeniería, guardias de guardia, correcciones continuas del analizador sintáctico cuando el sitio web cambia de diseño). Véase Precios de Massive para planes concretos.

El marco jurídico

Una versión breve y sincera, porque la versión simplificada que circula sobre el scraping de marketing es errónea.

CFAA. La recopilación de datos de productos de acceso público no constituye una infracción de la CFAA en los Estados Unidos. La sentencia del Noveno Circuito en el caso hiQ contra LinkedIn (reafirmada tras la devolución del caso en abril de 2022) zanjó esa cuestión concreta.

Pero la propia hiQ salió perdiendo. El caso concluyó en diciembre de 2022 con una orden judicial permanente contra hiQ y una indemnización de 500 000 dólares, por incumplimiento de contrato en relación con el acuerdo de usuario de LinkedIn. Por lo tanto, la conclusión no es que «los datos públicos sean de libre acceso». La conclusión es: la CFAA queda descartada, pero las reclamaciones basadas en los Términos de Servicio y en el contrato no. Si se crea una cuenta y se aceptan los Términos de Servicio, el scraping de esa cuenta tiene un tratamiento jurídico diferente al del scraping de páginas a las que se puede acceder públicamente sin haber iniciado sesión.

Dos reglas que siempre se aplican:

No extraiga datos de páginas que requieran iniciar sesión. Ahí es donde reside el riesgo de infringir la CFAA.
Respete el archivo robots.txt como prueba de su intención, aunque no sea jurídicamente vinculante.

UE. La Ley de IA de la UE, que entrará en vigor en 2026, establece una serie de obligaciones para los proveedores de modelos de IA de uso general; entre ellas, destacan la divulgación resumida de los datos de entrenamiento y el cumplimiento de la cláusula de exclusión voluntaria en materia de derechos de autor. Dichas obligaciones se aplican a los proveedores de modelos de IA de uso general, no a los rastreadores de datos como categoría general. Si está entrenando o ajustando un modelo con datos extraídos, esto le afecta. Si está ejecutando un proceso de monitorización de precios que alimenta una herramienta de BI, no le afecta.

Para consultar un análisis jurídico actualizado, véase Skadden sobre las obligaciones relativas a la IA general (GPAI) de la Ley de IA de la UE y WilmerHale sobre el modelo de la UE para la divulgación de datos de entrenamiento en materia de IA.

Si su empresa se encuentra en la situación que describimos, su equipo debería disponer de un memorándum jurídico de una página. Nuestro equipo de ventas puede compartir la plantilla que enviamos a los posibles clientes empresariales.

Preguntas frecuentes

P: ¿Podré rastrear la web de Walmart en 2026?
R: Sí, la extracción de datos de páginas de productos de acceso público no constituye una infracción de la CFAA en EE. UU. (según el caso hiQ contra LinkedIn). La cuestión técnica es si se puede hacer de forma fiable a gran escala, y eso depende de su red y de la capa del navegador. En nuestras pruebas, los proxies de centros de datos obtuvieron una tasa de éxito inferior al 40 % en las páginas de productos de Walmart, mientras que las redes residenciales o de dispositivos de voluntarios con sesiones persistentes se situaron en torno al 90 %.

P: ¿Cuál es la tasa de éxito a la hora de extraer datos de productos de Amazon utilizando proxies residenciales?
R: En nuestras pruebas de carga realizadas entre abril y mayo de 2026 en las páginas de productos de amazon.com en EE. UU., las direcciones IP residenciales con rotación por ASIN y un breve periodo de calentamiento en la página de categoría alcanzaron tasas de éxito de entre el 90 % y el 95 %. Sin rotación, los límites de velocidad por IP reducen drásticamente la tasa de éxito.

P: ¿Debería utilizar un proxy o una API de scraping para Walmart?
R: Si procesa menos de unas 50 000 páginas al mes, una API de scraping gestionada (Bright Data, Zyte, Apify) suele ser la opción que requiere menos esfuerzo. Por encima de esa cifra, crear una cola con API de acceso web de Massive Además, disponer de su propio conjunto de navegadores suele resultar más económico y le ofrece un mayor control sobre los esquemas y los campos.

P: ¿Es legal extraer datos de Walmart, Amazon o Target?
R: La extracción de datos de productos de acceso público en EE. UU. no constituye una infracción de la CFAA según el caso hiQ contra LinkedIn. Tenga en cuenta que la propia hiQ perdió finalmente el caso por incumplimiento de contrato, por lo que, si crea una cuenta y acepta los Términos de Servicio, su situación jurídica cambia. No recopile datos protegidos por un inicio de sesión y respete el archivo robots.txt como prueba de su intención. Si está alimentando un modelo de IA de uso general con datos recopilados y opera en la UE, la Ley de IA añade obligaciones de divulgación de los datos de entrenamiento.

P: ¿Cómo puedo evitar que mi rastreador de Amazon deje de funcionar cada 30 días?
R: Los dos principales motivos de fallo son los bloqueos por límite de velocidad y las discrepancias de configuración regional. Utilice direcciones IP geolocalizadas (EE. UU. para amazon.com, Reino Unido para amazon.co.uk, etc.), alterne direcciones IP residenciales con afinidad por ASIN y ponga en cola cualquier respuesta 503 o 429 para volver a intentarlo con una dirección IP nueva. Nuestro documentos tratar la arquitectura de referencia en detalle.

Donde encaja «MASSIVE_BRAND_0»

Ofrecemos la capa de red. Direcciones IP residenciales proporcionadas por voluntarios en más de 195 países, con un nivel de detalle geográfico que llega hasta el nivel de ciudad, sesiones persistentes de hasta 30 minutos y certificación SOC 2 Tipo 1. Los rastreadores en entorno de producción ya se conectan a través de nosotros. El prueba gratuita le permite probarlo con sus objetivos reales antes de comprometerse con un plan.

Para terminar

La solución antibots para el comercio minorista de 2026 premia tres aspectos: direcciones IP de dispositivos domésticos o de voluntarios, la automatización del navegador con una identificación adecuada, y patrones de solicitud que se asemejan a los de un comprador real. Esta solución es más eficaz que una simple rotación de proxies, y resulta mucho más económica que desarrollar y mantener por cuenta propia la capa de protección contra eludir los sistemas antibots.

Si su rastreador falla cada semana al intentar extraer datos de Walmart, Amazon o Target, la solución suele consistir en un cambio de configuración en la capa de red, no en reescribir el código de análisis.

¿Está listo para empezar? Regístrese o póngase en contacto con nuestro equipo de ventas.