这些令人毛骨悚然的“假人”预示着人工智能新时代的到来-假人的假

【51CTO.com快译】你可以清晰看到“他”嘴唇上的胡茬，前额的皱纹，皮肤上的斑点，但“他”并不是一个真实的人。“他”是被制造出来的，他“诞生”于Datagen公司。这个公司制造了成千上万的“假人”。这些“人”不是游戏或电影中的虚拟角色，而是为了满足深度学习算法日益增长的需求而制作的合成数据。

[[408114]]

　　对使用人工智能感兴趣的公司往往会面临一个巨大的挑战——需要足够正确的数据来训练他们的系统。这类公司需要大量带有标签的历史示例来训练AI系统，尤其是那些使用图像和视频的系统。这种需求催生了一个专门帮助其他企业注释数据的子行业。但是还有另一种方法来产生足够的数据来训练AI系统：“制造”它。

　　真实世界数据的收集不仅耗时且昂贵，像Datagen这样的公司提供了一个引人注目的替代方案——他们会为你制造合成数据：以你想要的方式，在你想要的时候——而且相对便宜。

　　为了制造合成数据，首要先扫描真实的人类。Datagen与供应商合作，以付费方式招募志愿者，让志愿者进入巨大的全身扫描仪，捕捉从虹膜、皮肤纹理到手指弯曲的每一个细节。获得原始数据后再通过一系列算法处理，开发出人体、面部、眼睛和手的3D模型。

　　这家总部位于以色列的初创公司表示，它已经和美国四大科技巨头（未公开）达成合作。和它最对标的公司合成人工智能(Synthesis AI)也提供按需数字人类。此外，也有其他公司生成用于金融、保险和医疗保健的数据。有多少种类型的数据需求，就有多少种合成数据公司。

　　曾经，合成数据被认为不如真实数据令人满意，但现在却被一些人视为“灵丹妙药”。真实数据杂乱无章且充满偏见，而新的数据隐私条例又让数据收集“雪上加霜”。相比之下，合成数据是原始的，可以用来构建更多样化的数据集。你可以制作出完美标记的人脸，比如不同年龄、脸型和种族的人脸，从而构建一个可以跨人群工作的人脸检测系统。

　　但合成数据也有其局限性。如果它不能反映现实，它最终会产生比混乱的、有偏见的真实数据更糟糕的AI——或者继承同样的问题。数据科学家、算法审计公司ORCAA的创始人凯西·奥尼尔说:“我不想对这种模式表示赞许，然后说‘哦，这能解决很多问题’。”“因为它也会忽略很多事情。”

　　现实，而非真实

　　深度学习一直与数据有关。在过去几年里，人工智能领域已逐渐形成一种共识：好的数据比大数据更重要。即使是少量正确的、标签清晰的数据，对提高AI系统的性能所起的作用也要比大量未经整理的数据或更先进的算法高得多。

　　Datagen首席执行官兼联合创始人Ofir Chakon表示，合成数据改变了企业开发人工智能模型的方式。起初，他们从获取尽可能多的数据开始，然后调整算法以期获得更好的性能；而现在他们或许应该尝试另一种方式：使用相同的算法，同时改进他们的数据组成。但是收集真实数据来执行这种迭代实验的成本过高而且耗时也长。Datagen的作用就在于此。有了合成数据生成器，团队可以每天创建和测试几十个新数据集，以确定哪一个能最大限度地提高模型的性能。

　　为了确保数据的现实性，Datagen向其供应商提供了详细的说明，说明每个年龄层、BMI范围和种族需要扫描多少人，以及他们要执行的一系列动作，比如在房间里走动或喝汽水。供应商发回这些动作的高保真静态图像和动作捕捉数据。然后，Datagen的算法将这些数据扩展为成千上万种组合。有时合成数据会再次复检，比如，将合成人脸与真实人脸进行对比，看它们是否贴合现实。

　　Datagen公司目前正在通过生成面部表情来监测智能汽车中的驾驶员的警觉性，通过生成身体动作来跟踪在无人商店中的顾客，通过生成虹膜和手势来提高VR头盔的眼手跟踪能力。该公司表示，其数据已经被用于开发为数千万用户服务的计算机视觉系统。

　　大规模生产的不仅仅是合成“人”。Click-Ins是一家使用合成人工智能执行车辆自动检测的初创公司。通过设计软件，它重新创建了所有汽车标识和模型，其人工智能需要识别在不同光照条件或不同背景下，以不同的颜色、损伤和变形加以渲染的各种形态。这使得该公司可以在汽车制造商推出新车型时更新其人工智能，并帮助其避免在一些国家被视为侵犯隐私。在这些国家，车牌被视为私人信息，因此不能出现在用于训练AI的照片中。

　　当下人工智能在金融、电信和保险公司的应用较为广泛。某些情况下，企业需要以合法的方式与外部供应商共享他们的客户数据库，但匿名化并不能充分保护人们的隐私。而合成数据却可以用来生成详细的虚假数据集，这些数据集与公司的真实数据具有相同的统计属性。它还可以用来模拟公司尚未拥有的数据，包括更多样化的客户群体或欺诈活动场景。

　　伪装的极限：合成数据是否被过度炒作了?

　　当涉及到隐私问题时，宾夕法尼亚大学计算机和信息科学教授艾伦·罗斯说:“虽然这些数据是‘合成的’，没有直接对应真实用户数据，但这并不意味着它没有对真实人物的敏感信息进行编码。”例如，一些数据生成技术已经被证明可以近距离再现训练数据中的图像或文本，而另一些技术则容易受到攻击，使它们完全重现这些数据。

　　对于Datagen这样的公司来说，这可能没什么问题，因为它的合成数据并不意味着要隐藏同意被扫描的个人的身份。但对于那些提供解决方案以保护敏感财务或患者信息的公司来说，这将是一个坏消息。

　　华盛顿大学科学研究所的数据科学家贝尔尼斯·赫尔曼说，研究表明，两种合成数据技术——差分隐私和生成式对抗网络——的结合可以产生最强的隐私保护。但持怀疑态度的人担心，这种细微差别可能会在合成数据供应商的营销行话中消失，因为他们不会总是透露自己使用的是什么技术。

　　与此同时，几乎没有证据表明，合成数据可以有效地减少人工智能系统的偏见。首先，从一个有偏差的现有的数据集中推断出新的数据并不一定会产生更有代表性的数据。例如，Datagen的原始数据包含的少数民族按比例减少，这意味着它使用更少的真实数据点从这些群体中生成假人。虽然生成过程并不完全是猜测，但这些假人仍然更有可能脱离现实。

　　另一方面，东北大学计算机科学副教授克里斯托·威尔逊表示，即使是完美平衡的数据集也不会自动转化为完全公平的人工智能系统。如果一家信用卡放贷机构试图开发一种为潜在贷款者评分的人工智能算法，仅仅在其数据中代表白人和黑人，是无法消除所有可能的歧视的。歧视仍然可能由于白人和黑人申请者之间的差异无声蔓延。

　　更复杂的是，早期研究表明，在某些情况下，用合成数据实现私人和公平的人工智能甚至是不可能的。在近期的一篇论文中，多伦多大学和维克托研究所的研究人员发现，当他们试图通过差分隐私和生成式对抗网络的结合来制作多样化的合成数据集时，他们无法创建一个精确的医疗AI系统。

　　当然这些事实的存在并不意味着不应该使用合成数据。事实上，它很可能成为一种必需品。奥尼尔表示，当要面对人工智能系统是否符合法律要求的质询时，这可能是唯一一种方法，使他们能够灵活地生成按需的、有针对性的测试数据。但这使得关于其局限性的问题变得更加重要。“随着时间的推移，合成数据可能会变得更好，但这绝非出于偶然。”

　　These creepy fake humans herald a new age in AI | MIT Technology Review by Karen Hao

　　https://www.technologyreview.com/2021/06/11/1026135/ai-synthetic-data/?utm_campaign=Artificial%2BIntelligence%2BWeekly&utm_medium=email&utm_source=Artificial_Intelligence_Weekly_220

【51CTO译稿，合作站点转载请注明原文译者和出处为51CTO.com】