为什么合成数据是人工智能的必备条件？-51CTO.COM

企业正在收集拍字节、艾字节甚至泽字节数量级的数据。

但数据是混乱的，往往是分散和孤立的。许多企业对于在某些环境中使用数据犹豫不决，因为其具有高度专有性。在电信等受监管行业中，由于其高度敏感的性质，许多数据甚至无法被触及。

由于这些原因和其他原因，包括缺乏人工智能所需的大规模可用数据、数据偏差或数据漂移，越来越多的企业正在转向合成数据。合成数据，顾名思义，这不是真实数据，但与真实数据非常相似。

合成数据在数学和统计上反映了现实世界的数据。但它不是从现实世界中收集和测量的，而是通过计算机模拟、算法、简单规则、统计建模、模拟和其他基于小型、匿名的现实世界样本的技术创建出来的。

虽然真实数据几乎总是从数据中获取洞察的最佳来源，但由于隐私法规，真实数据往往价格昂贵、不平衡、不可用或无法使用。合成数据可以成为真实数据的有效补充或替代。

人工数据可以帮助减轻真实数据的弱点，或者可以在不存在实时数据、数据高度敏感或存在偏见、或无法使用、共享或移动的情况下使用。但它并不总是需要接受真实数据的训练：它可以通过查看领域或机构知识或真实数据的痕迹来生成。

随着数据密集型生成人工智能模型的大量使用以及隐私和安全的必要性，各行业领域的企业正在认识到合成数据的潜力：2021年其全球市场价值仅为1.689亿美元，但预计将增长到2031年将达到35亿美元，复合年增长率接近36%。

Gartner甚至预测，到2030年，人工智能模型中的合成数据将完全盖过真实数据。

Vodafone作为一家跨国企业，在多个不同的司法管辖区运营，有着不同的规则和法规，自然会在数据使用方面受到阻碍。主要由于隐私问题，对数据的访问通常受到限制，当涉及到跨地理边界的数据流动时，也存在限制。

在这方面，Vodafone与总部位于伦敦的合成数据初创企业Hazy合作。该企业于3月份宣布获得900万美元的A轮种子融资，主要与Vodafone、Accenture、PwC、BMW Group和Wells Fargo等大型组织合作，因为他们都在数据方面面临最大的问题。

这些大型企业拥有“大量敏感数据”，以及分散在不同地区的“大量数据孤岛”。

这些企业的工具采用结构化数据集，并使用机器学习(ML)来进行扫描，以识别列之间的趋势、模式、相关性、差异和关系。无论数据落在哪里，都可以要求它生成一个真实的数据点。

该工具可以生成比源数据集中更多的数据，并且在保留数据特征但不包含敏感细节的安全环境中生成数据。

Vodafone正在寻求进行更全面的数据分析，研究不同国家的不同广告活动是如何运作的，并从这些数据集中学习。

“宏伟计划”是在每个国家创建合成数据资产，并将其聚合到一个中心位置，以便进行更广泛、更大规模的分析。例如，客户流失分析。

其他感兴趣的领域包括负载预测和欺诈预测，以及网络中断的检测和预测。

人工数据的一大用例是机器学习：加快创建和改进模型，以及执行快速实验的内部开发流程。

通常没有足够的数据访问权限，虽然可以使用开源数据，但这通常不是需要的，不适合情况。需要创建反映网络现实的合成数据。

人工数据有助于改善和加速数据访问，并更快地启动项目，从而提高生产力和企业的敏捷性。

数据就像机器学习的燃料。没有数据，就无法进行监督学习。

Vodafone庞大的移动网络供应商生态系统也在进行机器学习创新，如果想要训练新的机器学习模型，就需要数据。

但要分发网络数据并不容易。相反，提供合成数据，可以消除这些障碍。

软件测试是另一个重要的用例。Vodafone正在内部开发更多软件，这需要进行测试。人工数据可以帮助确定何时可能发生故障、特定网络软件组件上的负载如何随时间变化、如何将计算资源最佳地分配给软件组件，以及如何将能耗降至最低。

测试每个大企业的基本业务可能需要数年时间，最大的障碍是获取代表性生产数据。

此外，合成数据对于网络自动化很重要。因此，希望尽可能实现自动化，以进行预测。

当然，合成数据不仅仅在电信领域有用例。它被一些企业用来微调大型语言模型(LLM)，而不会泄露企业特定的数据，这些数据对ChatGPT等公共模型“超级敏感”。

与此同时，在银行业，人工数据已被用作沙盒系统的一部分，以帮助开发围绕欺诈检测和洗钱的新技术。与此同时，BMW利用合成数据，对潜在客户的信用状况做出了更快、更准确的决策。Accenture开发了一款应用，旨在根据客户的信用卡和借记卡交易记录，识别易受影响的客户，以便及早干预，防止出现不良财务状况。

同样，该技术可用于生成数据集的某些区域，以更能反映现实。例如，假设一个数据集只有20%是女性，组织可以再生成30%，以更好地服务其用户群。

人工数据提高了企业创新的强度，可以快速进行实验和创新。

从文化的角度来看，使用合成数据可以帮助隐私官员放松心情，并消除其阻碍创新甚至是数据科学家敌人的看法。

我们可以将合成数据视为真正的匿名数据。但尽管如此，由于它改变了数据在组织中移动的方式，因此必须得到首席信息安全官、首席信息官、首席执行官、安全和法律团队以及其他高管和部门领导的支持。

从小事做起，建立证据点。为了支持这一点，Hazy创建了一个合成数据成熟度模型。成熟阶段包括探索、评估、操作化、扩展和嵌入。

不过，同样重要的是，要解决人工数据是“假的”或不准确的反弹。

有一些误解认为，使用合成材料会失去一些准确性。合成数据永远不会像真实数据那样100%准确。

的确。通过将数据保密，会在准确性上有所牺牲。但尽管略有下降，但还是有很多有用之处。

最终，合成数据将迎来它的时代：监管机构正在开始探索其可能性，随着越来越多的企业接受它，围绕数据使用和共享的行业标准将出现。

这对于合成数据来说，是一个有趣的时刻。合成数据是一个复杂的产品，企业不太容易采用。但未来几年将是一个相当重要的转折点。