什么是合成数据？

合成数据 这是一种人工生成的信息，它模拟了现实世界数据的统计特性，但并非从实际事件或用户处收集而来。人工智能团队创建此类数据，旨在补充稀缺的训练数据集、填补涉及隐私的空白，或对模型进行大规模压力测试。

合成数据是如何生成的？

合成数据是通过多种技术生成的，包括生成对抗网络（GAN）、变分自编码器（VAE）、统计模拟，以及通过提示大型语言模型生成标注示例等。根据下游模型的需求，生成的数据可以是文本、图像、表格记录或传感器读数。

其应用速度迅速加快。Gartner预测，到2024年底，合成数据将占用于训练AI模型的数据总量的60%以上，而2021年这一比例仅为1%（Gartner，据《Tech Monitor》报道（2024年）。这种转变反映出各团队面临着必须快速行动、而无需等待耗时且成本高昂的手动标注流程的压力。

合成数据虽然有用，但也有其局限性。由于它是基于现有数据或模型假设生成的，因此可能会放大现有的偏见，或者遗漏那些仅在实际应用中才会出现的边界情况。仅基于合成文本训练的模型，在处理当前的俚语、新造的产品名称或不断演变的真实搜索查询模式时，可能会遇到困难。

真实世界的网络数据具有合成数据管道难以复现的新鲜度和多样性。通过抓取当前的公开网络内容（并以浏览器实际显示的形式呈现），可以捕捉到当下存在的语言模式、市场信号以及实体关系。合成数据和实时爬取的数据通常结合使用：合成样本填补了覆盖范围的空白，而最新的网络内容则使模型扎根于当前的现实之中。

并非总是如此。当需要大量数据或符合隐私保护要求的标签时，合成数据表现良好，但它无法捕捉近期事件、领域漂移或真实用户行为的复杂性。大多数生产环境中的AI系统都会将合成数据与真实数据相结合，以在规模和准确性之间取得平衡。

最大的风险是模型崩溃：当模型基于另一个模型生成的数据进行训练时，错误和偏差会在连续几代中不断累积。合成数据还可能忽略分布变化，导致模型在处理其未曾接触过的真实世界输入时表现不佳。

当无法共享真实用户记录时，合成数据可以满足隐私要求。由于它与实际个人无关，因此可以降低在《通用数据保护条例》（GDPR）和《健康保险流通与责任法案》（HIPAA）等框架下的信息泄露风险。但是，如果生成过程使用真实记录作为源数据，则这些源记录仍须按照相同的规则加以保护。

它们满足不同的需求。新鲜的网络数据提供了合成数据管道所缺乏的、反映现实世界的最新信号。合成数据则补充了标注示例，并涵盖了原始网络内容无法可靠包含的场景。将两者结合使用，通常能构建出比仅依赖其中任何一种数据源更强大的模型。