使用 Scrapoxy & Massive 掌握网页抓取技巧:避免封禁并实现无缝扩展

Jason Grad
创始人
February 13, 2025

準備好測試高級代理的效能了嗎?

使用 Scrapoxy & Massive 掌握网页抓取技巧:避免封禁并实现无缝扩展

Jason Grad
创始人
February 13, 2025

大规模的网络抓取需要强大的代理管理和可靠的IP。在本指南中,学习如何将Scrapoxy与Massive的高级住宅代理集成,以简化代理管理、IP轮换和封禁预防。这种集成将使您的网络抓取操作更加高效和可扩展。

什么是 Scrapoxy?

Scrapoxy 是一个开源代理聚合器,可将代理管理集中到一个界面中。它充当网络抓取操作的统一端点,消除了独立处理多个代理服务的复杂性。

Scrapoxy 的主要特点

  1. 统一控制面板: 通过单个仪表板管理所有代理
  2. 智能流量分配:自动代理轮换和智能请求路由
  3. 成本降低:动态代理扩展,最多可降低 80% 的成本
  4. 高级禁令预防: 自动检测和删除被屏蔽的 IP
  5. 多提供商支持: 与住宅、数据中心和移动代理兼容

欲了解更多详情,请查看 Scrapoxy 官方文档

为什么要在 Scrapoxy 中使用大规模代理?

将Scrapoxy的智能代理管理与Massive的高性能住宅代理集成在一起,可创建强大的抓取基础架构。原因如下:

  • 合乎道德的高性能代理: 100% 符合道德标准的住宅知识产权,分布在 195 多个地点。
  • 可靠性和速度: 成功率为 99.8%,响应时间小于 0.8 秒,正常运行时间为 99.9%。
  • 高级定位: 按国家、州、城市、ASN 和 ZIP 进行筛选。
  • 无缝自动化: 支持粘性和轮换会话、实时统计数据和无限线程。
  • 灵活性 安全: 它支持 HTTP (S) 和 SOCKS5,符合 GDPR/CCPA 标准,易于集成。
  • 经济实惠且可扩展: 起价为4.49美元/GB,可无限量并发会话。如需每月超过 1 TB 的折扣价格,请联系我们的销售团队。

如何使用 Scrapoxy 设置大规模代理

按照以下步骤轻松设置所有内容。

第 1 步:获取大规模住宅代理

  1. 注册大规模代理: 如果你是 Massive 的新手, 注册一个账号。根据您的需求选择套餐。
  2. 访问您的代理凭证: 注册后,前往 大型仪表板 检索您的代理凭证(用户名和密码)。保存这些凭据以进行 Scrapoxy 配置。

第 2 步:安装 Scrapoxy

先决条件:安装 Docker 桌

  1. 启动 Docker 桌面
  2. 在终端中执行以下命令(替换占位符值):
docker run -d -p 8888:8888 -p 8890:8890 -v ./scrapoxy:/cfg -e AUTH_LOCAL_USERNAME=admin -e AUTH_LOCAL_PASSWORD=password -e BACKEND_JWT_SECRET=secret1 -e FRONTEND_JWT_SECRET=secret2 -e STORAGE_FILE_FILENAME=/cfg/scrapoxy.json scrapoxy/scrapoxy
  1. 访问 Scrapoxy 用户界面: 导航至 http://localhost:8890 并使用您在上述命令中提供的用户名和密码登录。

第 3 步:在 Scrapoxy 中创建新项目

登录后,系统会提示你创建一个新项目。请按照以下步骤操作:

  1. 为您的项目命名: 为您的项目分配一个自定义名称。
  2. 设置最低代理数量: 定义项目状态为 CALM 时保持在线状态的最小代理数量。
  3. 启用自动旋转代理: 设置自动代理轮换的延迟范围。
  4. 启用自动向上/向下缩放: 根据需求自动调整活跃代理的数量。
  5. 配置高级设置: 启用诸如此类的功能 HTTPS 的 MITM粘饼干用户代理覆盖,以及 TLS 密码洗牌 以增强您的抓取设置。
  6. 创建项目: 点击 创建 以完成设置。

第 4 步:设置 Massive Connector

1。从市场中选择 Massive: 在 Scrapoxy 界面中,搜索并选择 巨大。点击 创建 来设置连接器。

2。输入您的海量凭证(步骤 1 中的用户名和密码)。点击 创建 保存凭证。

3.创建连接器: 使用以下设置配置连接器:

  • 证书: 选择您刚刚创建的证书。
  • 姓名: 为连接器分配自定义名称。
  • # 代理: 根据您的需求定义代理限制。
  • 代理超时: 设置 Scrapoxy 在重试代理之前等待多长时间。
  • 国家: 从特定位置选择代理或全部允许。
  • 点击 创建 完成连接器。

4。启动连接器: 切换 启动/停止此连接器 按钮以启用连接器。

第 5 步:将 Scrapoxy 集成到您的代码中

现在一切都设置好了,你可以将Scrapoxy集成到你的抓取脚本中。以下是使用 Python 和 请求 图书馆:

import requests‍

ca = "scrapoxy-ca.crt"
proxy = "http://username:password@localhost:8888"
r = requests.get(
	"https://fingerprint.scrapoxy.io",
	proxies={"http": proxy, "https": proxy},
	verify=ca

)‍

print("Proxy Instance:", r.headers["x-scrapoxy-proxyname"])
print(r.text)
  • 将您的用户名和密码替换为 Scrapoxy 项目证书(在 设置 选项卡)。
  • 从中下载 CA 证书 设置 在 Scrapoxy 中添加选项卡并将其与脚本放在同一个目录中。

如需更多集成示例,请访问 Scrapoxy 官方文档

步骤 6:监控使用情况数据

Scrapoxy 提供有关代理使用情况的详细见解。使用 代理覆盖范围,以及 指标 选项卡,用于监控活动代理、其位置、上传/下载速度、请求数量和状态。

总结

通过整合 Scrapoxy海量代理,您可以创建具有成本效益、防封禁且可轻松扩展的刮擦设置。Scrapoxy的智能代理管理与Massive的高性能住宅代理相结合,可确保快速、可靠和合规地访问网络。

准备好开始了吗? 立即注册大规模代理 🚀

接下来的步骤

  1. 有问题吗? 请通过以下方式联系我们 support@joinmassive.com 要么 提交票证
  2. 了解有关大规模代理的更多信息 — 查看我们易于理解的内容 文档 以充分利用您的代理设置。
  3. 对定价、免费试用或定制解决方案感兴趣? 填写我们的 免费试用表 开始吧。
  4. 想深入探索 Scrapoxy 吗? 参观 Scrapoxy 的官方文档 用于高级设置和功能。
作者简介
Jason Grad
创始人

我是Massive的联合创始人兼首席执行官。除了在创业公司工作外,我还是一名音乐家、运动员、导师、活动主持人和志愿者。

经常问的问题

+

+

+

+

+

+

+

+

+

+

Ready to test premium proxy performance?