Как массово собирать данные с сайтов Walmart, Amazon и Target: руководство по борьбе с ботами на 2026 год
All Posts

Как массово собирать данные с сайтов Walmart, Amazon и Target: руководство по борьбе с ботами на 2026 год

Rachel Hollander
Rachel Hollander · Marketing Comms

В 2026 году сбор данных с сайтов Walmart, Amazon или Target уже не будет запросы + BeautifulSoup скрипт со списком прокси-серверов. Все три ритейлера в настоящее время используют идентификацию по TLS-отпечаткам, поведенческую оценку и эскалацию с помощью CAPTCHA в дополнение к многоуровневой системе защиты от ботов. В частности, Walmart сочетает Akamai Bot Manager с поведенческими сигналами HUMAN Security (в 2022 году HUMAN приобрела PerimeterX, и эта интеграция теперь является частью стандартной схемы защиты от ботов в розничной торговле). Готовые скрейперы для центров обработки данных терпят неудачу задолго до того, как страница отобразится.

Если вы используете систему мониторинга цен, механизм арбитража или передаете данные о товарах в торговый агент на базе искусственного интеллекта, вот что действительно работает в мае 2026 года.

Мы протестировали всех трех ритейлеров в производственной среде через сеть веб-доступа Massive. Ниже приведены показатели успешности, триггеры защиты от ботов и модели стека, которые мы зафиксировали. Вы также можете подписаться на бесплатная пробная версия и запустить тестовый скрапинг для любого из них в панели управления, не написав ни одной строчки кода.

Основные выводы

  • В первом квартале 2026 года компании Walmart, Amazon и Target усилили свои системы защиты от ботов.
  • В ходе наших внутренних нагрузочных тестов IP-адреса частных пользователей с фиксированными сессиями стабильно обращались к страницам товаров Walmart; в то же время переключение IP-адресов из центров обработки данных в большинстве случаев заканчивалось сбоем на периферии.
  • Ограничения Amazon по скорости на IP-адрес теперь вступают в силу раньше и действуют более жестко. Старая схема «один прокси-сервер для частного доступа на одного пользователя» не выдерживает сканирования каталогов с большим объемом данных.
  • Система защиты Target от ботов теперь более строго реагирует на необработанные HTTP-запросы, чем в 2025 году. Использование средств автоматизации браузера существенно влияет на успешность запросов.
  • По данным большинства команд, с которыми мы беседовали, порог рентабельности, при котором покупка готового решения становится выгоднее разработки собственной системы защиты от ботов, составляет примерно 100 000 страниц продуктов в месяц.

Примечание по приведенным ниже цифрам: указанные процентные показатели получены в ходе внутренних нагрузочных тестов Massive, проведённых в апреле–мае 2026 года. Выборка: примерно 50 000 запросов на каждого ритейлера, распределенных между пользовательскими агентами настольных и мобильных устройств, пулами IP-адресов США и Канады, а также смесью постоянных и быстрооборачиваемых SKU. Под «успехом» понимается статус HTTP 200, отсутствие CAPTCHA, анализируемый HTML-код с наличием поля цены. Ваши показатели будут варьироваться в зависимости от целевых SKU, времени суток и допустимой погрешности анализатора — эти данные носят ориентировочный характер и не являются SLA.

Почему это руководство появилось именно сейчас

В первом квартале 2026 года система защиты от ботов у крупнейших ритейлеров стала более сложной. Произошли три изменения.

  1. Компания Walmart усовершенствовала интеграцию между своей периферийной системой (Akamai Bot Manager) и механизмом поведенческой оценки HUMAN. Теперь IP-адреса центров обработки данных не проходят первичную проверку ещё до того, как запрос поступает на страницу продукта.
  2. Amazon ужесточила ограничения на пропускную способность по IP-адресам. Старая схема «один прокси-сервер с частного IP-адреса на одного пользователя» перестала работать, поскольку при сканировании каталога с большим объёмом данных лимит по одному частному IP-адресу исчерпывается примерно за 20 минут.
  3. Вес поведенческой оценки Target значительно вырос — показатели успешности необработанных HTTP-запросов снизились, в то время как показатели успешности автоматизации браузера остались на прежнем уровне.

Если ваш скребок ломается каждую неделю, причиной, как правило, является одна из этих трёх.

Комплекс мер Walmart по борьбе с ботами

Что вызовет блокировку в Walmart в 2026 году

  • IP-адреса центров обработки данных блокируются на границе сети до начала отображения страницы.
  • Повторные запросы с одного и того же домашнего IP-адреса без сессионного файла cookie выглядят как действие бота.
  • Отпечатки TLS, не совпадающие с отпечатками реального браузера.
  • Характер движения мыши, не соответствующий поведению пользователей на странице продукта.

Что показало хорошие результаты в наших тестах

  • IP-адреса частных пользователей или устройств волонтёров из той же страны, что и целевой магазин.
  • Использование «закрепленных» сеансов продолжительностью не менее 60 секунд для каждого пользователя, чтобы цепочка файлов cookie выглядела так, как будто один и тот же покупатель просматривает страницы.
  • Следует обеспечить такт, имитирующий поведение «прокрутить, а затем нажать», а не «нажать сразу и уйти».
  • Использование технологии «фингерпринтинга» на уровне браузера (Playwright с плагинами Stealth) вместо обычных HTTP-запросов.

В ходе наших внутренних тестов показатели Massive с использованием частных IP-адресов и фиксированных сессий на страницах товаров Walmart достигали 90 %, в то время как при ротации IP-адресов из дата-центра этот показатель не превышал 40 %. Разница настолько значительна, что на сетевом уровне определяется соотношение между затратами и надежностью.

Набор средств Amazon для борьбы с ботами

Что станет причиной блокировки на Amazon в 2026 году

  • Ограничения по количеству запросов на один IP-адрес. При достижении этого предела вы получите страницу с кодом 503, которая выглядит точно так же, как при реальном сбое в работе.
  • Несоответствие между страной, из которой принадлежит IP-адрес, и языковым настроем, который вы запрашиваете.
  • Запросы на страницы товаров без соответствующего пути просмотра по категориям.

Что работает

  • IP-адреса с географической привязкой, соответствующие региону страницы (IP-адреса из США для amazon.com, из Великобритании для amazon.co.uk и т. д.).
  • Массовая ротация IP-адресов частных пользователей с учетом аффинности по ASIN для предотвращения концентрации.
  • Дополнительная подготовка: несколько запросов на страницы категорий перед запросом на страницу товара.
  • Конечные точки мобильного API для данных каталога в случае ограничения пропускной способности общедоступного веб-интерфейса — мобильное приложение использует более «облегченные» конечные точки с иными настройками ограничения пропускной способности.

Если вы запускаете задание по мониторингу цен для более чем 100 000 ASIN, наиболее эффективной конфигурацией будет использование общего пула с ротацией по ASIN и резервной очереди для всех запросов, достигших лимита частоты обращений. Мы предлагаем эту схему в качестве эталонной архитектуры в наша документация.

Стек мер по борьбе с ботами

В начале 2026 года система оценки поведения Target стала заметно более агрессивной. Простые HTTP-скрейперы, которые работали в 2025 году, теперь регулярно дают сбой.

Что вызывает блокировку

  • Отпечатки браузера без интерфейса, не совпадающие с данными реального покупателя.
  • Запросы без установленного файла cookie локализации (Target привязывает цены и наличие товара к местному магазину).
  • Повторяющиеся запросы с одного и того же IP-адреса из различных почтовых индексов (похоже на программу для сбора цен — и это действительно так).

Что работает

  • Один домашний IP-адрес на каждый интересующий вас почтовый индекс.
  • Перед запросом страниц с товарами установите файл cookie локального хранилища.
  • Автоматизация браузера, а не «сырой» HTTP — поведенческий рейтинг Target учитывает модели взаимодействия с DOM.

В ходе наших тестов показатели автоматизации браузеров с использованием частных IP-адресов составили около 90 баллов; показатели необработанных HTTP-запросов через тот же пул частных IP-адресов составили около 60 баллов. Разница между этими показателями и отражает оценку поведения.

Эталонная архитектура

Вот схема, которая сохраняется у всех трёх розничных сетей при производстве в промышленных масштабах.

  1. Список URL-адресов для извлечения данных (из Redis, Kafka или любого другого источника, который уже используется в вашем конвейере).
  2. Группа пользователей, каждый из которых запускает Playwright с плагином стелс-режима и постоянной сессией через API веб-доступа Massive.
  3. Географическая таргетировка на уровне запроса (по ASIN для Amazon, по почтовому индексу для Target, по стране для Walmart в Канаде, США и Мексике).
  4. Очередь повторных попыток для любых ответов 503, 429 или CAPTCHA с увеличенным интервалом повторной попытки и использованием нового IP-адреса.
  5. Парсер, который извлекает структурированные данные в ваш хранилище (BigQuery, Snowflake или Postgres).

Ссылочный код находится в наша документация.

Сколько это стоит

Большинство команд занижают стоимость этого в своих плановых документах. Вот реальные цифры:

  • Стоимость 1 ГБ трафика для частных пользователей составляет от 3 до 8 долларов в зависимости от оператора и тарифного плана.
  • Типичный запрос страницы продукта через браузер-стелс занимает от 2 до 4 МБ трафика.

Один миллион запросов на страницы товаров соответствует 2–4 ТБ трафика, что при стандартных тарифах для частных пользователей составляет примерно от 6 000 до 32 000 долларов в месяц.

Если вы занимаетесь мониторингом цен в крупной розничной сети или на платформе ценовой аналитики, эта цифра значительно ниже, чем полная стоимость создания и обслуживания собственного уровня защиты от обхода ботов (затраты на инженерный персонал, дежурства, постоянные исправления парсера при смене внешнего вида целевого сайта). См. Цены на продукцию Massive для конкретных планов.

Правовые рамки

Краткая и честная версия — ведь упрощённая версия, которая циркулирует в сфере скрейпинга, неверна.

Закон о компьютерных мошенничестве и злоупотреблениях (CFAA). Сбор общедоступных данных о продуктах не является нарушением Закона о компьютерных мошенничестве и злоупотреблениях (CFAA) в США. Решение Девятого окружного апелляционного суда по делу «hiQ против LinkedIn» (подтвержденное при повторном рассмотрении в апреле 2022 года) разрешило этот конкретный вопрос.

Но сама компания hiQ потерпела поражение. Дело завершилось в декабре 2022 года вынесением постоянного судебного запрета в отношении компании hiQ и присуждением ей выплатить 500 000 долларов США — на основании нарушения договорных обязательств, связанных с пользовательским соглашением LinkedIn. Таким образом, вывод заключается не в том, что «открытые данные — это добыча, на которую можно охотиться». Вывод заключается в следующем: CFAA не применяется, но иски, основанные на Условиях предоставления услуг и контрактных обязательствах, остаются в силе. Если вы регистрируете аккаунт и принимаете Условия предоставления услуг, сбор данных с этого аккаунта представляет собой иную правовую ситуацию, чем сбор данных с общедоступных страниц, на которые можно зайти без входа в систему.

Два правила, которые действуют всегда:

  • Не извлекайте данные, доступ к которым ограничен авторизацией. Именно в этом и заключается риск нарушения Закона о компьютерных мошенничестве и злоупотреблениях (CFAA).
  • Учитывайте файл robots.txt как доказательство намерения, даже если он не имеет юридической силы.

ЕС. Закон ЕС об искусственном интеллекте, вступающий в силу в 2026 году, устанавливает обязательства для поставщиков моделей ИИ общего назначения — в частности, обязательства по раскрытию сводной информации об обучающих данных и соблюдению требований об отказе от авторских прав. Эти обязательства распространяются на поставщиков моделей ИИ общего назначения, но не на пользователей инструментов для сбора данных в целом. Если вы обучаете или настраиваете модель на основе данных, полученных с помощью скрейперов, это имеет для вас значение. Если же вы используете конвейер мониторинга цен, который питает инструмент бизнес-аналитики, это не имеет значения.

Актуальный правовой анализ см. Компания Skadden о обязательствах в отношении общих принципов искусственного интеллекта (GPAI) в рамках Закона ЕС об искусственном интеллекте и Компания WilmerHale о шаблоне ЕС по раскрытию информации об обучающих данных в сфере искусственного интеллекта.

Если вы работаете в масштабах, о которых мы говорим, у вашей команды должна быть одностраничная юридическая справка. Наша отдел продаж можете поделиться шаблоном, который мы отправляем потенциальным корпоративным клиентам.

Часто задаваемые вопросы

Вопрос: Смогу ли я заниматься веб-парсингом сайта Walmart в 2026 году?
Ответ: Да, сбор данных с общедоступных страниц товаров не является нарушением Закона о компьютерном мошенничестве и злоупотреблении (CFAA) в США (согласно делу «hiQ против LinkedIn»). Технический вопрос заключается в том, можно ли выполнять это надежно в больших масштабах, и это зависит от вашей сети и уровня браузера. В ходе наших тестов прокси-серверы центров обработки данных показали успешность менее 40 % на страницах товаров Walmart, в то время как сети частных пользователей или сети устройств добровольцев с постоянными сессиями демонстрировали успешность на уровне 90 %.

Вопрос: Каков процент успешного сбора данных о товарах на Amazon с использованием прокси-серверов для частных пользователей?
Ответ: В ходе наших нагрузочных тестов, проведённых в апреле–мае 2026 года на страницах товаров сайта amazon.com в США, показатели успешности для частных IP-адресов с ротацией по ASIN и краткой предварительной обработкой на странице категории составили от 90 до 95 %. Без ротации ограничения по количеству запросов на один IP-адрес приводят к резкому снижению показателя успешности.

Вопрос: Что лучше использовать для работы с Walmart: прокси или API для сбора данных?
Ответ: Если вы обрабатываете менее ~50 000 страниц в месяц, наиболее простым решением зачастую станет использование управляемого API для сбора данных (Bright Data, Zyte, Apify). При более высоких объемах целесообразно создать очередь с помощью API веб-доступа Massive Кроме того, использование собственного пула браузеров, как правило, обходится дешевле и обеспечивает вам больший контроль над схемами и полями.

Вопрос: Является ли скрапинг сайтов Walmart, Amazon или Target законным?
Ответ: Согласно делу «hiQ против LinkedIn», сбор общедоступных данных о продуктах в США не является нарушением Закона о компьютерном мошенничестве и злоупотреблении (CFAA). Обратите внимание, что компания hiQ в конечном итоге проиграла дело по причине нарушения условий договора — поэтому, если вы создадите учетную запись и примете Условия предоставления услуг, ваше правовое положение изменится. Не собирайте данные, доступные только после входа в систему, и соблюдайте файл robots.txt как доказательство намерения. Если вы используете собранные данные для обучения универсальной модели искусственного интеллекта и ведете деятельность в ЕС, Закон об искусственном интеллекте налагает на вас обязательства по раскрытию данных обучения.

Вопрос: Как сделать так, чтобы скрейпер Amazon не выходил из строя каждые 30 дней?
A: Двумя основными типами сбоев являются блокировки из-за превышения лимита запросов и несоответствие языковых настроек. Используйте IP-адреса с географической привязкой (США для amazon.com, Великобритания для amazon.co.uk и т. д.), чередуйте частные IP-адреса с привязкой к конкретному ASIN и помещайте в очередь все ответы 503 или 429 для повторной попытки с новым IP-адресом. Наш документы подробно рассмотреть эталонную архитектуру.

Где подходит Massive

Мы обеспечиваем сетевой уровень. IP-адреса частных пользователей, предоставленные добровольцами из более чем 195 стран с географической детализацией вплоть до уровня города, сеансы с фиксацией до 30 минут и сертификат SOC 2 Type 1. Производственные скрейперы уже сегодня проходят через нашу сеть. бесплатная пробная версия позволяет вам проверить его на реальных целях, прежде чем принять окончательное решение.

В заключение

Антибот-стек для розничной торговли 2026 года поощряет три фактора: IP-адреса частных пользователей или устройств волонтеров, автоматизацию браузера с надлежащей идентификацией устройства, а также шаблоны запросов, напоминающие поведение реального покупателя. Такой надежный стек обходится дороже, чем простое чередование прокси-серверов, но при этом значительно дешевле, чем самостоятельная разработка и обслуживание уровня защиты от обхода антибот-систем.

Если ваш скрейпер еженедельно терпит неудачу при работе с сайтами Walmart, Amazon или Target, то, как правило, проблему можно решить путем изменения настроек на сетевом уровне, а не переписыванием кода для анализа данных.

Готовы начать? Зарегистрироваться или свяжитесь с нами отдел продаж.