7 дней парсинга Amazon: тактики и уроки на основе данных (2025)
All Posts

7 дней парсинга Amazon: тактики и уроки на основе данных (2025)

Отслеживание 100 SKU дважды в день, 1400 запросов, 0 блокировок IP.

Задача

Мы отслеживали 100 товарных страниц Amazon каждые 12 часов в течение полной недели, фиксируя все изменения цен, наличия и рейтинга — 1400 попыток парсинга одного из самых защищённых сайтов в интернете. Успех означал две вещи:

  • Оставаться незаметным. Обходить проверки TLS, токенов и поведенческого анализа.
  • Оставаться стабильным. Фиксировать каждое изменение, несмотря на смену макета страницы.

Методология (краткая статистика)

MetricValue
Products tracked100
Requests1400
Duration7 days
Proxy typeMassive residential
HTTP clientcurl_cffi Python

Ключевые выводы

  • 41.9 % — максимальный недельный скачок цены (гитара)
  • 14 % SKU хотя бы раз изменили цену
  • 22 % SKU показали видимое изменение (цена, рейтинг или наличие)
  • 0 блокировок IP при использовании ротации резидентных прокси + имитации TLS

Система защиты Amazon

  • Шлюз TLS-отпечатков. Хеши JA3 и JA4 каждого запроса сверяются с допустимыми шаблонами Chrome/Firefox; несовпадения оцениваются или блокируются ещё до анализа заголовков.
  • Зашифрованный токен браузера. Скрытый JavaScript-вызов выдаёт токен aws-waf-token, который объединяет данные canvas, WebGL, часового пояса и события касания; трафик без свежего и валидного токена отклоняется или блокируется.
  • AWS WAF Bot Control (на основе МО). Модели машинного обучения в реальном времени отслеживают клик-пути и частоту запросов; аномальные сессии автоматически перенаправляются на CAPTCHA или ограничиваются по скорости.
  • Адаптивное ограничение скорости. Лимиты — это не просто «N запросов на IP»; Amazon может ограничивать по составным ключам, таким как JA3 + method или ZIP + ASIN, что останавливает рои резидентных прокси с медленной ротацией.

Примечание: Избегайте стандартных библиотек для подмены User-Agent — они берут случайные UA из публичных списков. Примерно половина пула — это мобильные/Linux. Если вы создаёте селекторы для Windows или Mac, а следующий запрос уходит от имени iPhone Safari, вы попадёте на мобильную DOM-структуру, и ваши селекторы не сработают.

Ключевые открытия из данных

Смотрите диаграмму результатов тестирования Amazon ниже для наглядного разбора:

Вот таблица с подробностями.

InsightDetail
Price14% of SKUs repriced; top jump +41.9%.
Inventory2% of SKUs toggled between “Only 1 left” and normal stock.
Rating6% of SKUs shifted 0.1–0.3 stars.

При этом 22 % SKU изменили цену, рейтинг или наличие хотя бы один раз за 7-дневный период.

Уроки и лучшие практики

  • Резидентные прокси для сложных целей — дата-центровые прокси подходят для сайтов с низким уровнем защиты, но против защит уровня Amazon они приводят к большему количеству повторных запросов, чем экономии.
  • Качество важнее количества — проверенный пул чистых IP-адресов с хорошей репутацией превосходит тысячи неизвестных адресов.
  • Имитация поведения важнее скорости — запросы с человеческой скоростью, короткие сессии просмотра и реалистичные отпечатки снижают блокировки гораздо эффективнее, чем грубая частота запросов.

Более широкое применение

Те же тактики решают и другие задачи с высоким уровнем защиты:

  • Магазины на Shopify Plus с защитой от ботов при флеш-распродажах.
  • Региональные маркетплейсы с правилами ценообразования на основе геолокации.
  • Системы бронирования и финансовые порталы, ограничивающие контент по географическому признаку.