7 дней парсинга Amazon: тактики и уроки на основе данных (2025)
Отслеживание 100 SKU дважды в день, 1400 запросов, 0 блокировок IP.
Задача
Мы отслеживали 100 товарных страниц Amazon каждые 12 часов в течение полной недели, фиксируя все изменения цен, наличия и рейтинга — 1400 попыток парсинга одного из самых защищённых сайтов в интернете. Успех означал две вещи:
- Оставаться незаметным. Обходить проверки TLS, токенов и поведенческого анализа.
- Оставаться стабильным. Фиксировать каждое изменение, несмотря на смену макета страницы.
Методология (краткая статистика)
| Metric | Value |
|---|---|
| Products tracked | 100 |
| Requests | 1400 |
| Duration | 7 days |
| Proxy type | Massive residential |
| HTTP client | curl_cffi Python |
Ключевые выводы
- 41.9 % — максимальный недельный скачок цены (гитара)
- 14 % SKU хотя бы раз изменили цену
- 22 % SKU показали видимое изменение (цена, рейтинг или наличие)
- 0 блокировок IP при использовании ротации резидентных прокси + имитации TLS
Система защиты Amazon
- Шлюз TLS-отпечатков. Хеши JA3 и JA4 каждого запроса сверяются с допустимыми шаблонами Chrome/Firefox; несовпадения оцениваются или блокируются ещё до анализа заголовков.
- Зашифрованный токен браузера. Скрытый JavaScript-вызов выдаёт токен aws-waf-token, который объединяет данные canvas, WebGL, часового пояса и события касания; трафик без свежего и валидного токена отклоняется или блокируется.
- AWS WAF Bot Control (на основе МО). Модели машинного обучения в реальном времени отслеживают клик-пути и частоту запросов; аномальные сессии автоматически перенаправляются на CAPTCHA или ограничиваются по скорости.
- Адаптивное ограничение скорости. Лимиты — это не просто «N запросов на IP»; Amazon может ограничивать по составным ключам, таким как JA3 + method или ZIP + ASIN, что останавливает рои резидентных прокси с медленной ротацией.
Примечание: Избегайте стандартных библиотек для подмены User-Agent — они берут случайные UA из публичных списков. Примерно половина пула — это мобильные/Linux. Если вы создаёте селекторы для Windows или Mac, а следующий запрос уходит от имени iPhone Safari, вы попадёте на мобильную DOM-структуру, и ваши селекторы не сработают.
Ключевые открытия из данных
Смотрите диаграмму результатов тестирования Amazon ниже для наглядного разбора:
Вот таблица с подробностями.
| Insight | Detail |
|---|---|
| Price | 14% of SKUs repriced; top jump +41.9%. |
| Inventory | 2% of SKUs toggled between “Only 1 left” and normal stock. |
| Rating | 6% of SKUs shifted 0.1–0.3 stars. |
При этом 22 % SKU изменили цену, рейтинг или наличие хотя бы один раз за 7-дневный период.
Уроки и лучшие практики
- Резидентные прокси для сложных целей — дата-центровые прокси подходят для сайтов с низким уровнем защиты, но против защит уровня Amazon они приводят к большему количеству повторных запросов, чем экономии.
- Качество важнее количества — проверенный пул чистых IP-адресов с хорошей репутацией превосходит тысячи неизвестных адресов.
- Имитация поведения важнее скорости — запросы с человеческой скоростью, короткие сессии просмотра и реалистичные отпечатки снижают блокировки гораздо эффективнее, чем грубая частота запросов.
Более широкое применение
Те же тактики решают и другие задачи с высоким уровнем защиты:
- Магазины на Shopify Plus с защитой от ботов при флеш-распродажах.
- Региональные маркетплейсы с правилами ценообразования на основе геолокации.
- Системы бронирования и финансовые порталы, ограничивающие контент по географическому признаку.
