7 días extrayendo datos de Amazon: tácticas y lecciones respaldadas por datos (2025)
All Posts

7 días extrayendo datos de Amazon: tácticas y lecciones respaldadas por datos (2025)

Rastreando 100 SKU dos veces al día, 1400 solicitudes en total, 0 bloqueos de IP.

El desafío

Monitoreamos 100 páginas de productos de Amazon cada 12 horas durante una semana completa, recopilando cada cambio de precio, stock y calificación: 1400 intentos de scraping contra uno de los sitios más difíciles de la web. El éxito significaba dos cosas:

  • Pasar desapercibido. Evadir verificaciones de TLS, tokens y comportamiento.
  • Mantener la consistencia. Capturar cada cambio a pesar de las variaciones en el diseño.

Metodología (estadísticas rápidas)

<table class="GeneratedTable">
<thead>
<tr>
<th>Métrica</th>
<th>Valor</th>
</tr>
</thead>
<tbody>
<tr>
<td>Productos rastreados</td>
<td>100</td>
</tr>
<tr>
<td>Solicitudes</td>
<td>1400</td>
</tr>
<tr>
<td>Duración</td>
<td>7 días</td>
</tr>
<tr>
<td>Tipo de proxy</td>
<td>Residencial de Massive</td>
</tr>
<tr>
<td>Cliente HTTP</td>
<td><em>curl_cffi</em> Python</td>
</tr>
</tbody>
</table>

Hallazgos clave

  • 41.9 % – mayor alza semanal de precio (guitarra)
  • 14 % de los SKU cambiaron de precio al menos una vez
  • 22 % de los SKU mostraron un cambio visible (precio, calificación o stock)
  • 0 bloqueos de IP con proxies residenciales rotativos + suplantación de TLS

El sistema de defensa de Amazon

  • Verificación de huella TLS. Los hashes JA3 y JA4 de cada solicitud se comparan con los patrones permitidos de Chrome/Firefox; las discrepancias se puntúan o bloquean antes de que se analicen los encabezados.
  • Token de navegador encriptado. Un desafío silencioso de JavaScript emite un aws-waf-token que agrupa canvas, WebGL, zona horaria y entropía de eventos táctiles; el tráfico sin un token válido y reciente es desafiado o descartado.
  • AWS WAF Bot Control (basado en ML). Los modelos de aprendizaje automático en tiempo real monitorean las rutas de clics y la cadencia de solicitudes; las sesiones anómalas se fuerzan a pasar por CAPTCHA o se limitan automáticamente.
  • Limitación de velocidad adaptativa. Los límites no son solo "N solicitudes por IP"; Amazon puede limitar usando claves compuestas como JA3 + method o ZIP + ASIN, deteniendo enjambres de proxies residenciales que rotan lentamente.

Nota: Evita las bibliotecas genéricas de User-Agent falsos, ya que extraen UAs aleatorios de listas públicas. Aproximadamente la mitad del pool es móvil/Linux. Si construyes selectores en Windows o Mac, pero la siguiente solicitud sale como iPhone Safari, caerás en el DOM móvil y tus selectores fallarán.

Descubrimientos clave de los datos

Consulta el gráfico de resultados de pruebas de Amazon a continuación para un desglose visual:

Aquí está la tabla con más detalles.

<table class="GeneratedTable">
<thead>
<tr>
<th>Hallazgo</th>
<th>Detalle</th>
</tr>
</thead>
<tbody>
<tr>
<td>Precio</td>
<td>14% de los SKU cambiaron de precio; alza máxima +41.9%.</td>
</tr>
<tr>
<td>Inventario</td>
<td>2% de los SKU alternaron entre "Solo queda 1" y stock normal.</td>
</tr>
<tr>
<td>Calificación</td>
<td>6% de los SKU variaron entre 0.1 y 0.3 estrellas.</td>
</tr>
</tbody>
</table>

Además, el 22 % de los SKU cambiaron de precio, calificación o stock al menos una vez durante la ventana de 7 días.

Lecciones y mejores prácticas

  • Proxies residenciales para objetivos difíciles – los proxies de centros de datos funcionan bien para sitios de bajo riesgo, pero contra las defensas de nivel Amazon, acumulan más reintentos que ahorros.
  • Calidad sobre cantidad – un grupo selecto de IPs limpias y de alta reputación supera a miles de direcciones desconocidas.
  • La imitación del comportamiento supera a la velocidad – solicitudes a ritmo humano, sesiones de navegación cortas y huellas digitales realistas reducen los bloqueos mucho más que la frecuencia por fuerza bruta.

Aplicaciones más amplias

Estas mismas tácticas resuelven otros escenarios de alta defensa:

  • Tiendas Shopify Plus que ejecutan protección contra bots en ventas flash.
  • Marketplaces regionales con reglas de precios basadas en ubicación.
  • Motores de reservas y portales financieros que restringen contenido por ubicación geográfica.
7 Days Scraping Amazon: Data-Backed Tactics & Lessons (2025)