什么是AI爬虫?

一个AI爬虫 这是一种自动化的机器人,用于抓取公开可访问的网页以构建训练数据集或填充人工智能搜索索引,其运行完全独立于任何人类的浏览会话。 GPTBot(OpenAI)、ClaudeBot(Anthropic)和PerplexityBot是当前最活跃的代表。这些机器人如今在自动化网络流量中占据着快速增长且往往不受欢迎的份额,促使内容发布商重新思考如何控制内容访问。

AI爬虫是如何工作的?

AI爬虫的工作原理与传统搜索引擎蜘蛛类似:它们追踪链接、下载HTML(或渲染后的页面内容),并将这些内容存储起来以供后续处理。 关键区别在于它们的目的。根据 Cloudflare 的分析,过去一年中约 80% 的人工智能爬取活动用于模型训练,约 18% 用于人工智能搜索索引,仅有 2% 与用户触发的操作相关(Cloudflare 博客文章《从抓取到点击的差距》(2025年)。这一数据分解表明,发布商收到的绝大多数AI机器人请求其实是用于语言模型的训练流程,而非实时搜索查询。

这些机器人的数量正在急剧上升。2024年5月至2025年5月期间,OpenAI的GPTBot在所有AI爬虫流量中的占比从5%上升至30%,原始请求量增长了305%(Cloudflare 博客文章《从 Googlebot 到 GPTBot》(2025年)。这种增长速度已超过传统爬虫的增长速度,并正在改变网站运营商对访问控制的看法。

发布商可以通过 robots.txt 指令限制 AI 爬虫(各大 AI 实验室均支持专用的 User-agent 标识符,例如GPTBotClaudeBot) 或通过较新的llms.txt 该公约为人工智能系统提供了内容所有者希望被收录内容的结构化摘要。这两种机制都无法阻止爬虫忽略相关规则,因此一些发布商还采取了显示挑战页面、基于IP的信誉封锁或速率限制等措施。

使用场景

AI模型训练。 语言模型开发者会进行大规模爬取,从公开网络中收集数据以构建训练语料库。各服务提供商对 robots.txt 的遵守情况各不相同,且这种大规模爬取可能会给源服务器带来相当大的负载。

AI搜索索引。 Perplexity、SearchGPT 和谷歌的 AI Overviews 等搜索产品会使用专用爬虫来保持检索索引的实时更新。与训练爬虫相比,这些爬虫通常会更具选择性地进行爬取,重点关注最近更新的内容。

网络数据管道与研究。 负责构建用于微调或评估的结构化数据集的数据团队,通常会编写自定义爬虫程序,以模拟人工智能公司的行为模式。当目标网站屏蔽已知的机器人用户代理或数据中心IP范围时,这些团队可能会通过住宅IP转发请求,使流量看起来像自然产生的浏览器会话。 Massive的住宅代理网络从195多个国家的真实、自愿加入的消费者设备中获取IP地址,对于既需要合规性又需要广泛访问范围的使用场景而言,是一个不错的选择。

常见问题解答

两者都会跟踪链接并抓取页面,但目的各不相同。搜索引擎爬虫(如Googlebot、Bingbot)会构建排名索引,以便为用户呈现内容;而AI爬虫则主要收集原始文本,用于模型训练或生成式搜索功能。随着各大搜索引擎将生成式AI功能整合到自身的工作流程中,这两类爬虫的界限正逐渐模糊。

是的,可以通过针对每个爬虫的 User-agent 字符串设置 robots.txt 规则来实现。大多数主要的人工智能实验室都会公布其爬虫名称,并承诺遵守 robots.txt 规则。网站所有者还可以使用 IP 信誉服务,来阻止或验证来自爬虫常用数据中心 IP 范围的请求,不过这也会影响其他自动化客户端。

这一份额正在迅速增长。仅GPTBot一项,在十二个月内,其在“搜索加AI爬虫”总流量中的占比就从2.2%上升至7.7%,原始请求量增长了305%(Cloudflare 博客文章《从 Googlebot 到 GPTBot》(2025年)。分析师预计,随着越来越多的人工智能产品推出依赖爬虫的功能,这一趋势将持续下去。

那些屏蔽所有数据中心 IP 或未识别用户代理的网站,可能会在屏蔽不需要的训练爬虫的同时,无意中也将所需的 AI 索引功能一并屏蔽。要区分这两者,需要制定细粒度的机器人管理规则,并定期审查网站所有者希望允许或阻止哪些用户代理。