合成数据定义：重大的机会和陷阱详解-合成数据集

译者 | 布加迪

审校 | 孙淑娟

去年Gartner预测，到2024年，用于开发人工智能（AI）和分析项目的数据中60%将是合成数据。从那时起，合成数据变得越来越受欢迎，这种方案可以解决这个问题：缺少访问高质量的实际数据以训练机器学习算法的途径。但是随着合成数据日益用于代替不可访问的分布式数据，有必要问一个问题：合成数据真的是合适的解决方案吗？

1.何时使用合成数据、何时不使用？

在知道合成数据是不是训练算法的最佳解决方案之前，重要的是要全面了解合成数据何时有用、何时没用。

尽管人类每天生成海量数据，但仍然缺乏可用的真实数据。当建模目标只有少量的真实数据或根本没有数据时，合成数据用作解决方案最好不过了。比如说，它是冷启动问题以及基于文本和图像的模型训练的有用资源。此外，合成数据在已经在不同问题之间有标准化数据的数据集中显示出了价值——比如测试用例中存在单词和语法以及存在像素，这允许模型将数据的本质抽象出来。

然而，合成数据不适合这种用例：真实数据已经存在，但因隐私法规、集中成本或互操作性障碍而隔离孤立。此外，在大多数这些用例中，数据集并不得益于该输入单元，因此很难确定用于创建合成数据的合适的抽象级别。因此，挑战就出现了，因为问题的性质与合成数据适合解决的问题有着根本上的不同。

2.合成数据存在的问题

由于大多数源数据天生就有未知的方面，生成高质量的合成数据总是一个挑战。合成数据就好比模糊的图像。目前还不清楚它如何影响训练和学习模型的结果，这使得将来调试任何问题都很困难。

合成数据还存在大多数机器学习项目都存在的问题：将错误的问题与错误的工具联系起来，然后得出模型没有效果的结论，而实际情况可能是合成数据根本不合标准。

未知偏差也是使用合成数据方面的一个问题，因为用户无法保证模型学会的表示具有的质量。如果开发人员无法访问真实数据，只能看到真实数据的局部情况，增加的抽象层可能会为固有的偏见带来机会。

最后，机器学习训练模型中使用合成数据的成本很高。若使用合成数据，团队常常需要运行计算、调整模型数百次（如果不是数千次），以获得最精确的结果。加上传输全面训练所需的大量数据的额外成本，从时间和投入角度来看，合成数据最终会比利用使用来自数据源的真实数据的其他方法更烧钱，比如隐私增强技术。

3.联合学习是未来

在真实数据存在但孤立的情况下，解决使用合成数据的数据访问挑战与联合学习解决方案相比稍逊一筹。联合学习通过将一个或多个模型的版本发送到环境中的数据，而不是要求数据移动到模型中，从而实现对AI模型的出色训练。因为联合学习能够安全访问真实的高质量数据，同时允许数据托管者对相应数据保留完全控制度和安全性，它在互操作性、隐私法规或集中成本这几个障碍的用例中不需要生成和使用合成数据。

联合学习真正大放异彩的地方是在医疗保健和金融等高度监管行业的用例中；在这些行业，开发人员基本上无法访问机密的、受保护的数据集。想象这一幕：由于现在可以访问之前因敏感性而无法访问的数据，现在拥有更好的癌症诊断、病毒爆发预测和欺诈检测。突破性的AI进步可以让这一幕成为现实，但这种现实有赖于访问大量数据，这些数据目前分布在各个业务部门、组织和国家，每个国家都有不同的隐私法规。现在能够安全地获取这些数据的价值，但目前只有大型科技公司这个群体才能访问这些数据，因为它们有丰富的资源。

虽然合成数据解决了无法访问数据来训练模型的问题，但对于大多数其他用例来说，它将不如针对使用联合学习工具访问的数据进行模型训练，后者可以更好地保护隐私；通过能够处理细粒度的高质量源数据，获得更准确的结果；并且避免合成数据不可避免的固有的、附加的抽象层。

通过联合学习，隐私增强技术的普及打破了组织内部和组织之间在协作方面的障碍，加大了对高质量数据的访问。力求创新的数据科学家和工程师可以用最好的数据无缝地构建最好的AI系统，无论数据在何处，同时为提供相应数据的组织和个人保持最高标准的信任和安全。

原文链接：https://solutionsreview.com/data-management/synthetic-data-definition-key-opportunities-and-pitfalls-explained/?utm_source=rss&utm_medium=rss&utm_campaign=synthetic-data-definition-key-opportunities-and-pitfalls-explained