在开发最熟练的人工智能模型的竞赛中,一个因素一直是至关重要的:数据。大型语言模型(LLM)突显了这一点,消耗了大量令牌进行训练。随着这些人工智能模型复杂性和能力的提高,通常由住宅代理促进的网络抓取已成为一种重要工具,可确保访问他们所需的广泛而多样的数据集。
代币:基本积木
在深入研究之前,必须了解代币是什么。在 LLM 中,代币可以代表各种语言单位,从单个字符到整个单词。可以将代币视为拼图中的独特部分;每一个都包含特定的信息,当它们组合在一起时,它们形成了一幅连贯的画面——或者就人工智能而言,是对语言的全面理解。视方法而定,如果将标点符号和较小的子字符串分开考虑,则诸如 “网页抓取必不可少” 之类的句子可能会分成五个标记(每个单词作为标记)或更多。
LLM 对数据的渴望
这篇论文的标题是”训练计算最优大型语言模型” 探讨了训练变形金刚语言模型所需的最佳模型大小和令牌数量。研究人员训练了400多个语言模型,其参数从7000万到超过160亿不等,使用了50亿到5000亿个代币1。他们发现,对于计算最优训练,模型大小和训练令牌的数量应均等扩展。换句话说,模型大小每增加一倍,训练令牌的数量也应该增加一倍。
LLM 凸显了人们对人工智能数据的渴望与日俱增。OpenAI 自 2020 年起的模型以 3,000 亿个代币为基础进行训练,有 1750 亿个参数。这意味着每个参数 1.7 个代币2。2022年,DeepMind对参数最佳比率的调查有利于更多的代币和更少的参数,每个参数的比率为20个代币。一个拥有700亿个参数和1.4万亿个代币的模型的表现优于OpenAI的1750亿个参数模型,并且需要更少的微调和更低的推理成本。1 这些数字强调了现代人工智能训练所需的数据的深度和广度。
网页抓取的作用
在这里,网络抓取占据了中心位置。它充当数字矿工,在从电子商务网站到论坛的广阔互联网环境中进行筛选,以提取宝贵的数据黄金。多样性是关键。为了进行全面的训练,模型需要广泛的信息,这使得网络抓取的作用更加重要。
住宅代理在网络抓取中的作用
但是,网络抓取工具如何在不被屏蔽或标记的情况下访问所需的大量数据呢?这就是住宅代理的用武之地。这些代理掩盖了抓取器的活动,使其显示为真实的用户请求。通过真实的住宅IP地址路由数据提取过程,这些代理为网络抓取者披上了合法的外衣。它们通过提供对各种数据源的稳定、未被发现的访问来确保在数据收集方面占据优势。
人工智能和网络抓取:互惠演变
但是人工智能和网络抓取之间的关系是共生的。随着数字空间变得越来越复杂,基本的抓取工具可能会遇到困难。人工智能驱动的算法应对这些挑战,识别模式并确保高效的数据提取。
代币化和数据馈送
对代币有了更清晰的了解,它们对LLM的关键就显而易见了。网络抓取工具必须确保 AI 模型可以有效地对它们检索的数据进行代币化和处理。令牌是单词还是字符都会影响提取和理解信息的方式。
合乎道德和负责任的数据提取
随着网络抓取巩固其在向人工智能提供数据方面的作用,责任的负担越来越重。抓取工具不仅必须在法律和道德范围内运行,而且还需要确保他们提取的数据不会在人工智能模型上留下偏见。在考虑 LLM 时,挑战会加深:这些模型充斥着大量数据,通常会将其分解并以错综复杂的方式重新创建,以至于辨别抄袭几乎是不可能的。
法律后果已经浮出水面,各种法庭案件开始仔细审查LLMs在灵感和模仿之间的细微差别。请继续关注即将发布的文章,我们将深入探讨围绕LLM的有趣法律格局。
总而言之
在人工智能演变的错综复杂的舞蹈中,网络抓取作为领先的合作伙伴脱颖而出,它采购和交付为人工智能引擎提供动力的数据。随着人工智能不断突破界限,数据提取和高级模型之间的关系只会越来越紧密,更加紧密地交织在一起。
资料来源
1https://arxiv.org/abs/2203.15556
2https://www.mssqltips.com/sqlservertip/7786/large-language-models-train-ai-tools-chatgpt/

我是Massive的联合创始人兼首席执行官。除了在创业公司工作外,我还是一名音乐家、运动员、导师、活动主持人和志愿者。