7 días extrayendo datos de Amazon: tácticas y lecciones respaldadas por datos (2025)
Rastreando 100 SKU dos veces al día, 1400 solicitudes en total, 0 bloqueos de IP.
El desafío
Monitoreamos 100 páginas de productos de Amazon cada 12 horas durante una semana completa, recopilando cada cambio de precio, stock y calificación: 1400 intentos de scraping contra uno de los sitios más difíciles de la web. El éxito significaba dos cosas:
- Pasar desapercibido. Evadir verificaciones de TLS, tokens y comportamiento.
- Mantener la consistencia. Capturar cada cambio a pesar de las variaciones en el diseño.
Metodología (estadísticas rápidas)
<table class="GeneratedTable"><thead><tr><th>Métrica</th><th>Valor</th></tr></thead><tbody><tr><td>Productos rastreados</td><td>100</td></tr><tr><td>Solicitudes</td><td>1400</td></tr><tr><td>Duración</td><td>7 días</td></tr><tr><td>Tipo de proxy</td><td>Residencial de Massive</td></tr><tr><td>Cliente HTTP</td><td><em>curl_cffi</em> Python</td></tr></tbody></table>
Hallazgos clave
- 41.9 % – mayor alza semanal de precio (guitarra)
- 14 % de los SKU cambiaron de precio al menos una vez
- 22 % de los SKU mostraron un cambio visible (precio, calificación o stock)
- 0 bloqueos de IP con proxies residenciales rotativos + suplantación de TLS
El sistema de defensa de Amazon
- Verificación de huella TLS. Los hashes JA3 y JA4 de cada solicitud se comparan con los patrones permitidos de Chrome/Firefox; las discrepancias se puntúan o bloquean antes de que se analicen los encabezados.
- Token de navegador encriptado. Un desafío silencioso de JavaScript emite un aws-waf-token que agrupa canvas, WebGL, zona horaria y entropía de eventos táctiles; el tráfico sin un token válido y reciente es desafiado o descartado.
- AWS WAF Bot Control (basado en ML). Los modelos de aprendizaje automático en tiempo real monitorean las rutas de clics y la cadencia de solicitudes; las sesiones anómalas se fuerzan a pasar por CAPTCHA o se limitan automáticamente.
- Limitación de velocidad adaptativa. Los límites no son solo "N solicitudes por IP"; Amazon puede limitar usando claves compuestas como JA3 + method o ZIP + ASIN, deteniendo enjambres de proxies residenciales que rotan lentamente.
Nota: Evita las bibliotecas genéricas de User-Agent falsos, ya que extraen UAs aleatorios de listas públicas. Aproximadamente la mitad del pool es móvil/Linux. Si construyes selectores en Windows o Mac, pero la siguiente solicitud sale como iPhone Safari, caerás en el DOM móvil y tus selectores fallarán.
Descubrimientos clave de los datos
Consulta el gráfico de resultados de pruebas de Amazon a continuación para un desglose visual:
Aquí está la tabla con más detalles.
<table class="GeneratedTable"><thead><tr><th>Hallazgo</th><th>Detalle</th></tr></thead><tbody><tr><td>Precio</td><td>14% de los SKU cambiaron de precio; alza máxima +41.9%.</td></tr><tr><td>Inventario</td><td>2% de los SKU alternaron entre "Solo queda 1" y stock normal.</td></tr><tr><td>Calificación</td><td>6% de los SKU variaron entre 0.1 y 0.3 estrellas.</td></tr></tbody></table>
Además, el 22 % de los SKU cambiaron de precio, calificación o stock al menos una vez durante la ventana de 7 días.
Lecciones y mejores prácticas
- Proxies residenciales para objetivos difíciles – los proxies de centros de datos funcionan bien para sitios de bajo riesgo, pero contra las defensas de nivel Amazon, acumulan más reintentos que ahorros.
- Calidad sobre cantidad – un grupo selecto de IPs limpias y de alta reputación supera a miles de direcciones desconocidas.
- La imitación del comportamiento supera a la velocidad – solicitudes a ritmo humano, sesiones de navegación cortas y huellas digitales realistas reducen los bloqueos mucho más que la frecuencia por fuerza bruta.
Aplicaciones más amplias
Estas mismas tácticas resuelven otros escenarios de alta defensa:
- Tiendas Shopify Plus que ejecutan protección contra bots en ventas flash.
- Marketplaces regionales con reglas de precios basadas en ubicación.
- Motores de reservas y portales financieros que restringen contenido por ubicación geográfica.
