博客

使用合成数据加速模型训练

Chris Ford 缩略图
克里斯·福特
2025 年 2 月 13 日发布

F5 的 AI Data Fabric正在帮助我们加速针对各种用例的机器学习 (ML) 模型的训练和部署。 AI Data Fabric 有助于解决的关键挑战之一是优质训练数据的稀缺性。 对于任何机器学习计划而言,数据的质量、多样性和数量对于构建有效的模型都至关重要。  

真实世界数据一直是训练机器学习算法的首选资源。 AI Data Fabric 无疑受益于 F5 广泛客户群的技术足迹以及对高质量真实数据的访问。 毕竟,F5 位于全球近一半applications的数据路径中,每天有 550 PB 的数据流经 F5 产品。 

然而,在过去几年中,合成数据已成为一种引人注目的训练数据来源,并且对我们的机器学习生态系统的重要性正在迅速增长。  

什么是合成数据?

合成数据是指模仿现实世界数据集特征的人工生成的数据。 在了解真实数据的统计特性和结构之后,我们可以生成具有与真实数据相同属性的人工数据。 利用这些技术,AI Data Fabric 可以生成类似于我们从客户那里收集的大量数据。  

为什么要使用合成数据?

使用合成数据有许多好处。 首先,是隐私和合规性问题。 合成数据可以在不包含敏感信息的情况下生成,这使其成为受严格隐私法规或安全政策约束的客户的绝佳选择。 通过使用敏感数据集的合成版本,我们可以共享和分析数据,而不会危及客户数据。 我们还可以肯定模型不是用客户数据进行训练的。

其次,处理现实世界的数据可能非常耗时且成本高昂——收集和标记大量数据是一项真正的负担,这限制了创新速度。 生成数据显著降低了成本并加快了我们的模型开发生命周期。

现实世界的数据也可能受到可用性的限制。 良好的训练数据很少,尤其是对于罕见事件而言。 合成数据有助于填补空白,并平衡特定场景中代表性不足的类别。 例如,在用于检测攻击的数据集中,常规交易的数量可能远远超过恶意交易的数量。 利用合成数据,我们可以克服这种稀缺性——我们的团队可以测试现实世界数据中未曾体现的边缘情况,并更轻松地探索假设情况。  

最后,还有安全性。 利用合成数据,我们可以生成对抗性示例,然后用来测试模型是否能够抵御攻击。 合成数据甚至有助于防范数据中毒等攻击,攻击者操纵训练数据来破坏人工智能模型。

合成数据的弊端

虽然合成数据有很多好处,但也有一些需要注意的。  例如,生成合成数据需要先进的算法和高水平的专业知识才能实现。 合成数据在现实方面也面临着挑战——仅使用合成数据训练的模型在现实世界中可能表现不佳。 要么训练数据可能过于简单,缺乏真实数据的复杂性和细微差别,要么模型过度拟合真实场景中可能不存在的合成数据中的模式。

尽管存在这些警告,但在真实数据稀缺、昂贵或敏感的情况下,合成数据仍然非常有用。 如果我们了解它的局限性并在模型开发过程中考虑到它们,那么合成数据生成就是 F5 机器学习库中的一个强大工具。 合成数据帮助我们更快地发展,并以可靠的 ML 模型的形式为客户提供更好的结果。