【51CTO.com快译】首先请在脑海中想象一只橙色的猫。然后,想象同一只猫,皮毛已经变成了煤黑色。现在,想象这样一只猫在长城上昂首阔步。
在上述一系列想象活动中,你大脑中的一系列神经元会基于你之前对世界的认知,快速呈现出不同的图像。也就是说,作为人类,其实很容易一个具有不同属性的对象。但对于计算机来说,尽管深度神经网络在某些任务上取得了可以与人类表现相匹敌甚至超越的突破,但始终无法与人类的“想象力”相抗衡。
如今,一个来自南加州大学的研究团队开发出了一种新的人工智能,可以利用类人的能力想象出某个前所未有的具有不同属性的物体。这篇以Zero-Shot Synthesis with Group-Supervised Learning为题的论文于今年5月7日发表在ICLR2021(深度学习领域的顶级学术会议)会上。
“我们受到人类视觉泛化能力的启发,尝试在机器上模拟人类的想象力,”该研究的主要作者葛云浩说,“人类可以通过不同的属性(例如形状、姿势、位置、颜色)来分离所学知识,然后将它们重新组合,从而想象出一个新的物体。我们的论文试图用神经网络来模拟这个过程。”
人工智能的泛化
假如,你想创建一个生成汽车图像的人工智能系统。理想情况下,你可以为算法提供一些汽车图片,从而让它可以从不同角度生成各种型号、外形、颜色的汽车,从保时捷到庞蒂亚克到皮卡,不一而足。
这是人工智能长期追求的目标之一:创建可以进行推理的模型。达成这一目标就意味着,给定几个示例,模型就能够提取基本规则,并将它们应用到大量前所未见的新示例中。但机器通常是根据样本特征进行训练的,比如像素,而不考虑对象的属性。
关于“想象”的科学
在这项新研究中,研究人员试图用一种“退纠缠(disentanglement)”的概念来克服这一限制。“退纠缠”可以用于“深度伪造(deepfake)”,葛云浩提到,通过“退纠缠”人的脸部表情和特征进行“换脸”,人们可以合成新的图像和视频,用另一个人替换原主身份,同时保留原来的动作。与之相似,新方法采用一组样本图像——而不是像传统算法那样一次一个样本——并挖掘它们之间的相似性以实现所谓的“可控退纠缠表征学习”。然后通过重新组合这些知识来实现“可控的新图像合成”,或者你可以称之为“想象”。
他以《变形金刚》为例进行了说明:它可以在电影中取材——威震天的形状、大黄蜂的颜色、纽约时代广场的背景。合成结果就是一辆大黄蜂颜色的威震天汽车在时代广场上飞驰,即使训练期间并没有出现过这个样本。
这个过程类似于人类的推理:当一个人看到一个物体的颜色时,我们可以轻松地通过用新颜色替换原始色来将其应用于任何其他物体。使用他们的技术,这个团队生成了一个包含 156 万张图像的新数据集,有助于该领域的未来研究。
理解世界
虽然“退纠缠”并不是个新点子,但研究人员表示,他们的框架几乎可以和任何类型的数据或知识兼容,这就扩大了应用机会。比如,通过将敏感属性从等式中完全移除,将种族和性别相关知识分解,从而推进人工智能更加公平。
再比如,在医学领域,它可以帮助医生和生物学家发现更多有用的药物,通过将药物功能与其他特性分开,然后将它们重新组合以合成新药;在自动驾驶领域,允许自动驾驶汽车想象并避免在训练过程中从未见过的危险场景,从而推进创建更安全的人工智能。
计算机科学教授洛伦·伊蒂说:“深度学习已经在很多领域展示了无与伦比的性能和前景,但这往往是通过浅层模仿达成,并没有更深入地了解使每个个体独一无二的属性。这种新的‘退纠缠’方法第一次真正释放了人工智能系统的想象力,使它们更接近人类对世界的理解。”
原文链接:Enabling the 'imagination' of artificial intelligence
【51CTO译稿,合作站点转载请注明原文译者和出处为51CTO.com】