7 дней парсинга Amazon: тактики и уроки на основе данных (2025)
All Posts

7 дней парсинга Amazon: тактики и уроки на основе данных (2025)

Отслеживание 100 SKU дважды в день, 1400 запросов, 0 блокировок IP.

Задача

Мы отслеживали 100 товарных страниц Amazon каждые 12 часов в течение полной недели, фиксируя все изменения цен, наличия и рейтинга — 1400 попыток парсинга одного из самых защищённых сайтов в интернете. Успех означал две вещи:

  • Оставаться незаметным. Обходить проверки TLS, токенов и поведенческого анализа.
  • Оставаться стабильным. Фиксировать каждое изменение, несмотря на смену макета страницы.

Методология (краткая статистика)

<table class="GeneratedTable">
<thead>
<tr>
<th>Metric</th>
<th>Value</th>
</tr>
</thead>
<tbody>
<tr>
<td>Products tracked</td>
<td>100</td>
</tr>
<tr>
<td>Requests</td>
<td>1400</td>
</tr>
<tr>
<td>Duration</td>
<td>7 days</td>
</tr>
<tr>
<td>Proxy type</td>
<td>Massive residential</td>
</tr>
<tr>
<td>HTTP client</td>
<td><em>curl_cffi</em> Python</td>
</tr>
</tbody>
</table>

Ключевые выводы

  • 41.9 % — максимальный недельный скачок цены (гитара)
  • 14 % SKU хотя бы раз изменили цену
  • 22 % SKU показали видимое изменение (цена, рейтинг или наличие)
  • 0 блокировок IP при использовании ротации резидентных прокси + имитации TLS

Система защиты Amazon

  • Шлюз TLS-отпечатков. Хеши JA3 и JA4 каждого запроса сверяются с допустимыми шаблонами Chrome/Firefox; несовпадения оцениваются или блокируются ещё до анализа заголовков.
  • Зашифрованный токен браузера. Скрытый JavaScript-вызов выдаёт токен aws-waf-token, который объединяет данные canvas, WebGL, часового пояса и события касания; трафик без свежего и валидного токена отклоняется или блокируется.
  • AWS WAF Bot Control (на основе МО). Модели машинного обучения в реальном времени отслеживают клик-пути и частоту запросов; аномальные сессии автоматически перенаправляются на CAPTCHA или ограничиваются по скорости.
  • Адаптивное ограничение скорости. Лимиты — это не просто «N запросов на IP»; Amazon может ограничивать по составным ключам, таким как JA3 + method или ZIP + ASIN, что останавливает рои резидентных прокси с медленной ротацией.

Примечание: Избегайте стандартных библиотек для подмены User-Agent — они берут случайные UA из публичных списков. Примерно половина пула — это мобильные/Linux. Если вы создаёте селекторы для Windows или Mac, а следующий запрос уходит от имени iPhone Safari, вы попадёте на мобильную DOM-структуру, и ваши селекторы не сработают.

Ключевые открытия из данных

Смотрите диаграмму результатов тестирования Amazon ниже для наглядного разбора:

Вот таблица с подробностями.

<table class="GeneratedTable">
<thead>
<tr>
<th>Insight</th>
<th>Detail</th>
</tr>
</thead>
<tbody>
<tr>
<td>Price</td>
<td>14% of SKUs repriced; top jump +41.9%.</td>
</tr>
<tr>
<td>Inventory</td>
<td>2% of SKUs toggled between “Only 1 left” and normal stock.</td>
</tr>
<tr>
<td>Rating</td>
<td>6% of SKUs shifted 0.1–0.3 stars.</td>
</tr>
</tbody>
</table>

При этом 22 % SKU изменили цену, рейтинг или наличие хотя бы один раз за 7-дневный период.

Уроки и лучшие практики

  • Резидентные прокси для сложных целей — дата-центровые прокси подходят для сайтов с низким уровнем защиты, но против защит уровня Amazon они приводят к большему количеству повторных запросов, чем экономии.
  • Качество важнее количества — проверенный пул чистых IP-адресов с хорошей репутацией превосходит тысячи неизвестных адресов.
  • Имитация поведения важнее скорости — запросы с человеческой скоростью, короткие сессии просмотра и реалистичные отпечатки снижают блокировки гораздо эффективнее, чем грубая частота запросов.

Более широкое применение

Те же тактики решают и другие задачи с высоким уровнем защиты:

  • Магазины на Shopify Plus с защитой от ботов при флеш-распродажах.
  • Региональные маркетплейсы с правилами ценообразования на основе геолокации.
  • Системы бронирования и финансовые порталы, ограничивающие контент по географическому признаку.