什么是合成数据?
合成数据 这是一种人工生成的信息,它模拟了现实世界数据的统计特性,但并非从实际事件或用户处收集而来。人工智能团队创建此类数据,旨在补充稀缺的训练数据集、填补涉及隐私的空白,或对模型进行大规模压力测试。
合成数据是如何生成的?
合成数据是通过多种技术生成的,包括生成对抗网络(GAN)、变分自编码器(VAE)、统计模拟,以及通过提示大型语言模型生成标注示例等。根据下游模型的需求,生成的数据可以是文本、图像、表格记录或传感器读数。
其应用速度迅速加快。Gartner预测,到2024年底,合成数据将占用于训练AI模型的数据总量的60%以上,而2021年这一比例仅为1%(Gartner,据《Tech Monitor》报道(2024年)。这种转变反映出各团队面临着必须快速行动、而无需等待耗时且成本高昂的手动标注流程的压力。
合成数据与真实世界网络数据
合成数据虽然有用,但也有其局限性。由于它是基于现有数据或模型假设生成的,因此可能会放大现有的偏见,或者遗漏那些仅在实际应用中才会出现的边界情况。仅基于合成文本训练的模型,在处理当前的俚语、新造的产品名称或不断演变的真实搜索查询模式时,可能会遇到困难。
真实世界的网络数据具有合成数据管道难以复现的新鲜度和多样性。通过抓取当前的公开网络内容(并以浏览器实际显示的形式呈现),可以捕捉到当下存在的语言模式、市场信号以及实体关系。 合成数据和实时爬取的数据通常结合使用:合成样本填补了覆盖范围的空白,而最新的网络内容则使模型扎根于当前的现实之中。
使用场景
- 训练数据增强。 各团队会为罕见类别、敏感类别(如医疗记录、金融交易)或资源匮乏的语言生成合成示例,因为这些领域中的真实数据稀缺或受监管。
- 人工智能评估与红队演练。 合成对抗输入用于测试模型面对边缘案例时的鲁棒性,而这些边缘案例若从真实用户处获取,往往既困难又危险。
- 管道开发。 在真实数据集准备就绪之前,合成数据可让工程师构建并验证端到端的预处理和训练管道。
- Web数据基准测试。 研究人员利用合成HTML和结构化内容,在受控条件下对网页抓取工具和数据提取工具进行测试,随后通过与实际网页进行比对来验证结果。
常见问题解答
并非总是如此。当需要大量数据或符合隐私保护要求的标签时,合成数据表现良好,但它无法捕捉近期事件、领域漂移或真实用户行为的复杂性。大多数生产环境中的AI系统都会将合成数据与真实数据相结合,以在规模和准确性之间取得平衡。
最大的风险是模型崩溃:当模型基于另一个模型生成的数据进行训练时,错误和偏差会在连续几代中不断累积。合成数据还可能忽略分布变化,导致模型在处理其未曾接触过的真实世界输入时表现不佳。
当无法共享真实用户记录时,合成数据可以满足隐私要求。由于它与实际个人无关,因此可以降低在《通用数据保护条例》(GDPR)和《健康保险流通与责任法案》(HIPAA)等框架下的信息泄露风险。但是,如果生成过程使用真实记录作为源数据,则这些源记录仍须按照相同的规则加以保护。
它们满足不同的需求。新鲜的网络数据提供了合成数据管道所缺乏的、反映现实世界的最新信号。合成数据则补充了标注示例,并涵盖了原始网络内容无法可靠包含的场景。将两者结合使用,通常能构建出比仅依赖其中任何一种数据源更强大的模型。