封闭之网:AI爬虫封锁与代理访问
曾经向匿名爬虫开放的网络正逐渐关闭。默认屏蔽机制和付费访问平台正在取代昔日那种无限制的开放状态。因此,爬虫的访问路径如今分为两条:在允许的情况下进行授权或付费爬取,其余时间则以真实用户的身份访问。 如果您的爬虫仍以为可以通过数据中心IP获取任何公开URL,那它所立足的根基正在逐渐消失。
要点
- 2025年7月1日,Cloudflare开始在约20%的网络范围内默认屏蔽AI爬虫,并推出了按爬取次数付费的市场(Cloudflare,Cloudflare 刚刚改变了 AI 爬虫抓取互联网数据的方式).
- 各大新闻网站已采取“默认拒绝”策略:约79%的网站屏蔽了AI训练机器人,约49%的网站明确禁止了GPTBot。
- 导火索在于经济因素:某大型爬虫的爬取与推荐流量之比已达到约38,000:1。网站只是被爬取,而非获得流量。
- 爬虫训练和实时代理检索被一网打尽。那些仍在运行的代理要么在正确的地理位置上表现得像真实用户,要么支付费用获取授权访问权限。
发生了什么变化:网络转为默认拒绝模式
2025年,默认设置发生了逆转。最重大的单一事件是Cloudflare——该公司自7月1日起,在约20%的网络范围内默认屏蔽了AI爬虫,并推出了按次付费的爬取服务市场(Cloudflare,Cloudflare 刚刚改变了 AI 爬虫抓取互联网数据的方式).按抓取次数付费 这是一个市场,网站向机器人收取访问费用,而这些访问权限过去是免费提供的。实际上,仅通过一次配置变更,就将五分之一的网络从“默认允许”模式转变为“需主动许可”模式。
这绝非一次小范围的政策调整。机器人流量已不再是少数。2024年,自动化机器人流量首次在十年内突破总网络流量的51%,其中恶意机器人占比达37%(Imperva,《2025年恶意机器人报告》). 当访问源服务器的绝大多数请求都来自机器时,默认阻止机器访问就不再显得过于激进。相反,这反而像是一种基本的防护措施。
新闻行业率先采取行动,且力度最大。到2025年,全球约79%的主要新闻网站已屏蔽了AI训练机器人,其中约49%的网站明确禁止了GPTBot(《新闻公报》,目前,全球十大新闻网站中有八家已屏蔽用于训练人工智能的机器人)。因此,对于AI类别而言,robots.txt已从一种礼貌性的建议转变为默认拒绝的立场。虽然开放抓取的通道并未在一夜之间消失,但趋势已然明朗,且指向同一个方向。
原因:爬行流量向推荐流量的崩溃
原因在于经济因素,而非意识形态。过去的交易很简单。 爬虫会收录你的内容,作为回报,搜索引擎会为你带来访客。人工智能爬虫打破了这一循环。2025年年中,Anthropic的爬虫平均每引荐一位访客会爬取约38,000个页面,而OpenAI的GPTBot的爬取比例约为3,700:1(Cloudflare,引荐量下滑前的缓慢增长). 因此,出版商经过一番盘算后发现,内容流出了,却几乎没有任何回报。
如果仔细看看爬取的用途,情况就更清楚了。AI爬取大致分为80%的训练、18%的搜索,以及仅占2%的用户操作(Cloudflare,深入探讨AI爬虫). 其中五分之四用于模型训练,而该模型按设计不会返回任何推荐结果。因此,从网站所有者的角度来看,这纯粹是数据榨取,而屏蔽则是理性的应对之策。
流量也在持续增长,这使得 stakes 更高。到 2025 年,AI 和搜索爬虫流量同比增长了 18%,而 GPTBot 在 AI 爬虫请求中的占比一年内从 5% 跃升至 30%,原始请求量增长了 305%(Cloudflare,从 Googlebot 到 GPTBot:2025 年谁在抓取你的网站). 流量增加、没有回程流量,而且很容易通过工具进行阻断。因此,采用“默认拒绝”策略是不可避免的。
这对经纪人意味着什么:同样难逃一劫

这正是让工程团队陷入困境的陷阱。训练爬虫和实时代理检索是两码事。训练爬虫会抓取数百万个网页来构建数据集。相比之下,你的代理只需检索三个网页,就能立即回答一个用户的问题。 然而,网站无法识别用户意图。它只会看到来自已知机器人用户代理或被标记IP范围的自动化请求,并针对两者应用相同的默认拒绝规则。这就是为什么“网络正对AI关闭大门”这一现象,甚至会波及那些从未接触过训练数据的代理。 这些封锁机制无法区分检索代理与爬虫。它们只区分人类与机器人,且越来越倾向于区分已知合法的IP空间与数据中心IP范围。简而言之,一个使用云端IP的正常代理,在系统看来与恶意爬虫毫无二致。
数据中心 IP 地址 这些是云服务和主机提供商拥有的地址,反机器人系统会首先标记这些地址范围,因为普通用户不会从这些地址浏览网页。具体来说,在2026年,这些正是现代反机器人检测系统首先标记的目标,这也是代理程序在受保护目标上无法正常运行的核心原因。我们将在代理为何会被数据中心IP地址屏蔽……简而言之,一个位于云端IP上的诚实代理会被识别为敌对目标。
因此,访问问题可以分为两类,两者都有其存在的合理性。如果存在授权或付费途径,例如按爬取次数付费的协议或官方 API,就应优先采用。这是最干净利落的选择,而且从本质上讲,它能够经受住“封闭网络”的考验。 在其他所有情况下,持久的解决方案是伪装成真实用户:从内容预期所在地理区域的家用或移动设备发起请求,并像人类浏览器那样渲染页面。住宅代理 这些连接会经过真实的终端设备,因此请求中携带的由 ISP 分配的地址会被网站视为普通访客。选择哪种网络类型由网站自行决定,我们将在家庭代理与数据中心代理.
这是大多数团队往往低估的环节,直到它导致生产环境崩溃时才意识到。随着开放爬行路径的关闭,能够继续工作的爬虫正是那些完全不像是爬虫的爬虫。 根据我们在各类代理工作负载中的经验,当“默认拒绝”成为常态时,以本地自然访客身份访问、且渲染结果正常的真实用户设备,才是能够保持稳定性的关键。 这正是 Massive 设备访问网络加渲染堆栈背后的定位:覆盖 195 多个国家的真实消费者设备,支持国家、行政区划和城市的地理定位,可从任何地点的公开来源返回干净的 HTML 或 Markdown 内容。 通过与各团队的合作,我们观察到他们通常先将其作为故障目标的备用方案,待工单队列清空后,再将其提升为主方案。当自建的代理加无头浏览器方案不再具备成本效益时,下一步通常是采用托管基础设施,我们将在托管浏览器基础设施.
要了解为代理提供持久实时访问权限的完整架构,请从关于如何……的支柱部分开始为 AI 代理提供实时网络访问权限. 这一趋势是该设计的一个参考因素,但并非全部。
下一步该怎么做:为“闭环网络”而建
请以“默认拒绝”为基准进行规划,因为到了2025年,这已成为行业标准。Cloudflare仅通过一次调整,就将约20%的网站置于“主动选择加入”的访问模式之下(Cloudflare,Cloudflare 刚刚改变了 AI 爬虫抓取互联网数据的方式),而这种做法的普及程度只会与日俱增。因此,在设计访问层时,应假设那些容易受攻击的目标会加强防护,而不是假设当前开放的 URL 会一直保持开放状态。
根据这些数据,可以采取以下三项实用措施。首先,将目标分为“可使用授权/付费路径”和“必须以真实用户身份访问”两类,然后分别进行路由。 其次,停止从原始云IP发送代理流量,因为检测边缘会在读取请求正文之前就将其标记。第三,优先使用干净的Markdown或HTML输出,而非原始页面转储,因为您向大语言模型(LLM)输入的每个冗余令牌都会产生额外成本。 例如,我们在受保护的网站上对比测试了住宅网络与数据中心出站流量,结果显示住宅网络的成功访问率远高于数据中心(粗略范围:住宅网络约85%-99%,数据中心约20%-40%)。请将此数据视为供应商基准,而非独立研究。尽管如此,这一趋势与检测系统的预测方向一致。
来源
- Imperva,《2025年恶意机器人报告》,2025年。https://www.imperva.com/resources/resource-library/reports/2025-bad-bot-report/
- Cloudflare,Cloudflare 刚刚改变了 AI 爬虫抓取互联网数据的方式,2025年。https://www.cloudflare.com/press/press-releases/2025/cloudflare-just-changed-how-ai-crawlers-scrape-the-internet-at-large/
- Cloudflare,引荐量下滑前的缓慢增长,2025年。https://blog.cloudflare.com/crawlers-click-ai-bots-training/
- Cloudflare,深入探讨AI爬虫,2025年。https://blog.cloudflare.com/ai-crawler-traffic-by-purpose-and-industry/
- Cloudflare,从 Googlebot 到 GPTBot:2025 年谁在抓取你的网站,2025年。https://blog.cloudflare.com/from-googlebot-to-gptbot-whos-crawling-your-site-in-2025/
- 《新闻公报》,目前,全球十大新闻网站中有八家已屏蔽用于训练人工智能的机器人,2025年。https://pressgazette.co.uk/platforms/eight-in-ten-of-worlds-biggest-news-websites-now-block-ai-training-bots/
Frequently Asked Questions
开放的网络真的正在封闭,还是这只是炒作?
关键在于默认设置发生了变化。2025年,Cloudflare将约20%的网站默认设置为屏蔽AI爬虫,目前约79%的主要新闻网站已屏蔽AI训练机器人(Cloudflare;《新闻公报》). 公开的URL仍然存在。不过,默认拒绝现在已成为主流趋势,而非特例。
我的代理只获取了几个页面,并没有获取训练数据。为什么会被屏蔽?
因为屏蔽系统无法识别意图。它会将机器人用户代理和数据中心IP范围标记为可疑,并且对仅检索三页内容的代理和检索百万页内容的训练爬虫一视同仁。AI爬取工作大约80%是训练(Cloudflare)。因此,网站默认会拒绝整个分类。
为什么出版商要采取屏蔽措施,而不是直接收费?
两者都有,而且这种情况越来越普遍。其导火索是“爬取量与引荐流量的崩溃”:2025年,某大型爬虫的爬取量达到每名引荐访客约38,000页(Cloudflare). 与此同时,按爬取次数付费的市场平台让网站能够对以往免费提供的访问权限收取费用,这正是新模式中付费部分的来源。
目前代理的持久访问路径是什么?
有两条路径。如果存在授权或付费访问渠道,请使用它。在其他情况下,请以真实用户的身份访问:从预期地理区域内的家用或移动设备发起请求,并确保页面渲染正常。这样一来,您就能规避数据中心IP标识,从而避免在受保护的网站上被大多数检测工具识别出来。
