“封闭之网”：AI爬虫封锁与代理访问

Ryan Turner · Head of InnovationJune 5, 2026

曾经向匿名爬虫开放的网络正逐渐关闭。默认屏蔽机制和付费访问平台正在取代过去那种“谁来谁取”的局面。因此，爬虫的访问途径如今分为两条：在支持的情况下进行授权或付费爬取，其余情况下则以真实用户身份访问。如果您的爬虫仍认为可以通过数据中心IP获取任何公共URL，那么它所依赖的基础正在逐渐消失。

要点总结

2025年7月1日，Cloudflare开始在约20%的网络范围内默认屏蔽AI爬虫，并推出了按爬取次数付费的市场（Cloudflare，Cloudflare 刚刚改变了 AI 爬虫抓取整个互联网的方式).
主要新闻网站已采取“默认拒绝”策略：约79%的网站屏蔽了AI训练机器人，约49%的网站明确禁止了GPTBot。
诱因在于经济因素：某大型爬虫的爬取与推荐流量之比已达到约38,000:1。网站只是被爬取，而非获得流量。
爬虫的训练和实时代理检索被同一套防护机制拦截。那些能继续运行的代理要么位于正确的地理位置，看起来像真实用户，要么已付费获得授权访问权限。

发生了什么变化：网络转为“默认拒绝”模式

2025年，默认设置发生了逆转。其中最具影响力的单一事件是Cloudflare——该公司自7月1日起，在约20%的网络范围内默认开始屏蔽AI爬虫，并推出了按爬取次数付费的市场（Cloudflare，Cloudflare 刚刚改变了 AI 爬虫抓取整个互联网的方式).按抓取次数付费这是一个市场，网站向机器人收取访问费用，而此前这些访问权限是免费提供的。实际上，仅通过一次配置变更，就将五分之一的网络从“默认允许”模式转变为“默认禁止”模式。

这并非一项小范围的政策调整。机器人流量已不再是少数。2024年，自动化机器人流量首次在十年内超过了全部网络流量的51%，其中恶意机器人占比达37%（Imperva，《2025年恶意机器人报告》). 当访问您源服务器的请求大多来自机器时，默认阻止机器访问就不再显得过于激进，反而更像是基本的防护措施。

新闻行业率先采取行动，且力度最大。到2025年，全球约79%的大型新闻网站屏蔽了AI训练机器人，约49%的网站明确禁止了GPTBot（《新闻公报》，目前，全球十大新闻网站中有八成已屏蔽用于训练AI的机器人)。因此，对于AI类别而言，robots.txt已从一种礼貌性的建议转变为“默认拒绝”的立场。开放抓取的局面并非一夕之间终结。尽管如此，趋势线已然清晰，且指向同一个方向。

原因：爬行流量向推荐流量的骤降

原因在于经济因素，而非意识形态。过去的默契很简单。爬虫会收录你的内容，作为回报，搜索引擎会为你带来访客。人工智能爬虫打破了这一循环。2025年年中，Anthropic的爬虫每引荐一位访客平均爬取约38,000个页面，而OpenAI的GPTBot的爬取比例约为3,700:1（Cloudflare，引荐量下滑前的缓慢增长). 因此，出版商经过一番核算后发现，内容流出了，却几乎没有任何回报。

如果看看抓取的目的是什么，情况就更清楚了。AI抓取大致分为80%的训练、18%的搜索，以及仅占2%的用户操作（Cloudflare，深入探讨AI爬虫). 其中五分之四用于模型训练，而该模型按设计不会返回任何推荐结果。因此，从网站所有者的角度来看，这纯粹是数据榨取，而屏蔽则是理性的应对措施。

流量也在攀升，这使得 stakes 更高。到 2025 年，人工智能和搜索爬虫流量同比增长了 18%，而 GPTBot 在人工智能爬虫请求中的占比在一年内从 5% 跃升至 30%，原始请求量增长了 305%（Cloudflare，从 Googlebot 到 GPTBot：2025 年谁在抓取你的网站). 流量增加、无回程流量，且封堵起来非常容易。因此，采用“默认拒绝”策略是不可避免的。

这对经纪人意味着什么：同样被卷入其中

这就是让工程团队陷入困境的陷阱。训练爬虫和实时代理检索是两码事。训练爬虫会抓取数百万个网页来构建数据集。相比之下，你的代理只是为了当下回答一位用户的问题而检索三个网页。然而，网站无法识别用户意图。它只会看到来自已知机器人用户代理或被标记IP范围的自动化请求，并针对两者应用相同的“默认拒绝”规则。这就是为什么“网络正对AI关闭大门”这一现象，甚至会波及那些从未接触过训练数据的代理。这些封锁机制无法区分检索代理和爬虫。相反，它们区分的是人类与机器人，并且越来越多地将已知合法的IP地址范围与数据中心IP范围区分开来。简而言之，一个使用云IP的正常代理在系统看来，与一个恶意爬虫毫无二致。

数据中心 IP 地址 这些是云服务和主机提供商拥有的IP地址，反机器人系统会首先标记这些地址范围，因为普通用户不会从这些地址浏览网页。具体来说，在2026年，这些正是现代反机器人检测系统首先标记的目标，这也是代理程序在受保护目标上无法正常运行的核心原因。我们将在代理为何会被数据中心IP地址屏蔽，但简而言之，一个使用云IP的诚实代理会被识别为敌对目标。

因此，访问问题可以分为两种情况，两者都有其存在的合理性。如果存在授权或付费途径，例如按爬取次数付费的协议或官方 API，就应优先采用。这是最干净利落的方案，而且从定义上讲，它能够经受住“封闭网络”的考验。在其他所有情况下，最稳妥的做法是伪装成真实用户：从内容预期所在地理区域的家用或移动设备发起请求，并像真实用户的浏览器那样渲染页面。住宅代理 这些连接是通过真实的终端设备进行路由的，因此请求中携带的由互联网服务提供商（ISP）分配的地址会被网站视为普通访问者。在这些网络类型之间进行选择是网站自身的决定，我们将在住宅代理与数据中心代理的对比.

这是大多数团队都会低估的环节，直到它导致生产环境出现故障时才意识到。随着开放爬行路径的关闭，能够继续正常工作的代理，恰恰是那些完全不像是爬虫的代理。根据我们在各类代理工作负载中的经验，当“默认拒绝”成为常态时，以自然本地访客身份访问并呈现干净HTML的真实用户设备，才是能够保持可靠性的访问方式。这正是 Massive 设备访问网络加渲染堆栈背后的定位：覆盖 195 多个国家的真实消费者设备，支持国家、行政区划和城市级别的地理定位，能够从任何地点的任何公开来源返回干净的 HTML 或 Markdown 内容。通过与各团队的合作，我们发现他们会先将其作为目标访问失败时的备用方案，待工单队列清空后，再将其提升为主方案。当自建的“代理+无头浏览器”架构无法再实现成本回收时，下一步通常是采用托管基础设施，我们将在托管式浏览器基础设施.

要了解为代理提供持久实时访问权限的完整架构，请从关于如何……这一核心部分开始为人工智能代理提供实时网络访问权限. 这一趋势是该设计的一个参考因素，但并非全部。

接下来该怎么做：为“闭环网络”而建

在规划时应将“默认拒绝”视为基准，因为到2025年，这一原则已成为行业标准。Cloudflare通过一次举措，便将大约20%的网络内容设置为“主动选择加入”访问模式（Cloudflare，Cloudflare 刚刚改变了 AI 爬虫抓取整个互联网的方式)，而且这种采用趋势只会日益增长。因此，在设计访问层时，应假设那些容易被攻击的目标会加强防护，而不是假设当前开放的URL会一直保持开放状态。

根据这些数据，可以采取以下三项切实可行的措施。首先，将目标用户分为“可使用授权/付费路径”和“必须以真实用户身份访问”两类，然后分别进行路由。其次，停止从原始云IP发送代理流量，因为检测边缘会在请求正文被读取之前就将其标记出来。第三，优先使用干净的Markdown或HTML输出，而非原始页面转储，因为您向大语言模型（LLM）输入的每个冗余令牌都会产生费用。例如，我们在受保护的网站上对比测试了住宅网络与数据中心出站流量，结果显示住宅网络的成功访问率远高于数据中心（粗略范围：住宅网络约85%-99%，数据中心约20%-40%）。请将此视为供应商基准数据，而非独立研究结果。话虽如此，这一趋势与检测趋势的预测方向一致。

来源

Imperva，《2025年恶意机器人报告》, 2025年。https://www.imperva.com/resources/resource-library/reports/2025-bad-bot-report/
Cloudflare，Cloudflare 刚刚改变了 AI 爬虫抓取互联网内容的方式, 2025年。https://www.cloudflare.com/press/press-releases/2025/cloudflare-just-changed-how-ai-crawlers-scrape-the-internet-at-large/
Cloudflare，引荐量下滑前的缓慢增长, 2025年。https://blog.cloudflare.com/crawlers-click-ai-bots-training/
Cloudflare，深入探讨AI爬虫, 2025年。https://blog.cloudflare.com/ai-crawler-traffic-by-purpose-and-industry/
Cloudflare，从 Googlebot 到 GPTBot：2025 年谁在抓取你的网站, 2025年。https://blog.cloudflare.com/from-googlebot-to-gptbot-whos-crawling-your-site-in-2025/
《新闻公报》，目前，全球十大新闻网站中有八成已屏蔽用于训练AI的机器人, 2025年。https://pressgazette.co.uk/platforms/eight-in-ten-of-worlds-biggest-news-websites-now-block-ai-training-bots/

常见问题解答

开放的网络真的正在封闭，还是这只是炒作？+

默认设置发生了变化，这才是关键所在。2025年，Cloudflare将约20%的网站默认设置为屏蔽AI爬虫，目前约79%的主要新闻网站都屏蔽了AI训练机器人（Cloudflare;《新闻公报》). 公开的URL仍然存在。不过，默认拒绝现已成为主流趋势，而非例外情况。

我的代理只检索了几个页面，并没有检索训练数据。为什么会被屏蔽？+

因为屏蔽基础设施无法识别意图。它会将机器人用户代理和数据中心IP范围标记为可疑，并且对仅检索三页内容的代理和检索一百万页内容的训练爬虫都采用相同的规则。AI爬取工作大约有80%是训练（Cloudflare). 因此，网站默认会拒绝整个分类。

为什么出版商要采取屏蔽措施，而不是直接收费呢？+

两者都有，而且程度越来越明显。触发因素是“爬取量与引荐流量”的崩溃：2025年，某大型爬虫每引荐一位访客，其爬取的页面数量达到了约38,000页（Cloudflare). 与此同时，“按抓取次数付费”的市场模式让网站能够对过去免费提供的访问权限收取费用，这正是新模式中付费部分的一半。

目前代理的持久访问路径是什么？+

有两种途径。如果存在授权或付费访问渠道，请使用它。在其他情况下，请以真实用户的身份访问：从预期地理区域内的家用或移动设备发起请求，并确保页面渲染正常。这样一来，您就能规避数据中心IP标识，从而避免在受保护的网站上被大多数检测工具识别出来。