数字人点燃亚运主火炬，从这篇ICCV论文透视蚂蚁的生成式AI黑科技-51CTO.COM

9 月 23 日晚，杭州亚运会开幕式点燃主火炬的环节，上亿线上数字火炬手的「小火苗」汇聚在钱塘江上形成一个数字人形象。随后，数字人火炬手和现场的第六棒火炬手走到火炬台前，共同点燃了主火炬。

作为开幕式的核心创意，数实互联的火炬点燃形式冲上了热搜，引发了人们的重点关注。

上亿人参与的数字人点火是一个前所未有的创举，涉及了大量先进且复杂的技术，其中最重要的莫过于如何让数字人「动起来」。不难看出，在生成式 AI 与大模型迅速发展，数字人研究也出现了更多新变化。

在 10 月初即将举行的全球计算机视觉顶会 ICCV 2023 上，我们关注到一篇生成 3D 数字人运动研究被大会收录。相关论文题为《Hierarchical Generation of Human-Object Interactions with Diffusion Probabilistic Models》，由浙江大学、蚂蚁集团联合发布。

据介绍，这项研究一定程度上解决了数字人远距离合成复杂运动的问题，能做到原有模型或路径规划无法实现的效果。数字人驱动相关的技术，也被用在了亚运会 1 亿数字人线上传递。

生成式 AI 驱动，让数字人动起来

很多时候，我们需要在给定的 3D 场景中合成 3D 人体运动，使虚拟人能够自然地在场景中漫步并与物体交互，这种效果在 AR/VR、电影制作和视频游戏中都存在多种应用。

在这里，传统的角色控制运动生成方法旨在由用户的控制信号引导生成短期或重复的运动，新研究则专注于在给定起始位置和目标对象模型的情况下生成更加长时间的人机交互内容。

这种思路虽然效果更好，但显然挑战更大。首先，人与物体的交互应该是连贯的，这需要对人与物体之间的远程交互进行建模的能力。其次，在内容生成的背景下，生成模型应该能够合成大小不同的运动，因为真人存在多种接近目标对象并与之交互的方式。

图 1. 人与物体交互形象的生成。给定一个对象，新方法首先预测一组里程碑（milestone）事件，其中环表示位置，粉红色衣服的人代表原姿势。算法在里程碑之间填充动作。该图显示新方法使用同一对象生成不同的里程碑和动作。时间的流动用颜色代码显示，越深的蓝色表示越往后的帧。

在生成数字人动作的方法上，现有的合成方法大致可分为在线生成和离线生成。大多数在线方法侧重于角色的实时控制。给定一个目标对象，他们通常使用自回归模型通过反馈预测来循环生成未来的运动。尽管这种方法已广泛用于视频游戏等交互场景，但其质量对于长期生成来说还难以令人满意。

为了提高运动质量，最近的一些离线方法采用多级框架，首先生成轨迹，然后合成运动。尽管这种策略可以产生合理的路径，但路径多样性是有限的。

在新研究中，作者提出了一种新的离线方法来综合长期且多样化的人与物体交互，其创新在于分层生成策略，该策略首先预测一组里程碑，然后生成里程碑之间的人体动作。

具体来说，给定起始位置和目标对象，作者设计了一个里程碑生成模块来合成沿着运动轨迹的一组节点，每个里程碑对局部姿势进行编码并指示人体运动过程中的过渡点。基于这些里程碑，算法采用运动生成模块来生成完整的运动序列。由于这些里程碑的存在，我们可以将长序列的生成简化为合成几个短运动序列。

此外，每个里程碑的局部姿态是由考虑全局依赖性的 transformer 模型生成的，进而产生时间一致的结果，这进一步有助于相干运动。

除了分层生成框架之外，研究人员还进一步利用扩散模型来合成人与物体的交互。此前的一些运动合成扩散模型结合了 transformer 和去噪扩散概率模型（DDPM）。

值得一提的是，由于运动序列较长，直接将它们应用到新设置中需要大量的计算，可能导致 GPU 内存爆炸。由于新的分层生成框架将长期生成转换为多个短序列的合成，因此所需的 GPU 内存减少到了与短期运动生成相同的水平。

因此，研究者可以有效地利用 Transformer DDPM 来合成长期运动序列，从而提高生成质量。

为此，研究者设计了一个分层运动生成框架，如下图所示。

首先，他们使用 GoalNet 来预测对象上的交互目标，然后生成目标姿态来显式建模人与物体的交互，接下来使用里程碑生成模块来估计里程碑的长度，使其产生从起点到目标的里程碑轨迹，并放置里程碑姿态。

这样一来，长距离运动生成就被分解为多个短距离运动生成的组合。最后，作者设计了一个运动生成模块，用于合成里程碑之间的轨迹并填充动作。

AI 姿态生成

研究者将人与物体互动并保持静止的姿态称为目标姿态。之前，大多数方法使用 cVAE 模型生成人体姿态，但研究者发现该方法在自己的研究中表现不佳。

为了克服这一挑战，他们引入了 VQ-VAE 模型来建模数据分布，该模型利用离散表示将数据聚类在有限的点集中。此外，根据观察，不同的人体姿态可能具有相似的属性（比如人在坐下时，手的动作可能不相同，但腿部位置可能相同），于是，他们把关节分为 L (L = 5) 个不同的非重叠组。

如图 3 所示，目标姿态被分成独立的关节组。

根据起始姿态和目标姿态，我们可以让算法生成里程碑轨迹，并合成里程碑处的局部姿势。由于运动数据的长度是未知的，而且可以是任意的（例如，人可能快速走向椅子并坐下，也可能绕着椅子慢慢走一圈后坐下），因此需要预测里程碑的长度，用 N 表示。然后，合成 N 个里程碑点，并在这些点上放置局部姿态。

最后是动作生成，研究者用到的方法不是逐帧预测动作，而是根据生成的里程碑分层合成整个序列。他们首先生成轨迹，然后合成动作。具体来说，在两个连续的里程碑内，他们首先完成轨迹。然后，在连续里程碑姿态的引导下填充运动。这两个步骤分别使用两个 Transformer DDPM 完成。

对于每个步骤，研究者都会精心设计 DDPM 的条件，以生成目标输出。

效果领先

研究人员在 SAMP 数据集上比较了不同方法的结果。可以看到，论文所提方法具有更低的 FD、更高的用户研究得分和更高的 APD。此外，他们的方法实现了比 SAMP 更高的轨迹多样性。

新方法在杂乱的场景中也可以生成令人满意的结果。该方法生成的穿模的帧（frames with penetration）百分比为 3.8%，SAMP 为 4.9%。

在 SAMP、COUCH 等数据集上，论文所提到的方法均取得了比基线方法更好的结果。

完成全链路布局

数字人是融合语音、语义、视觉等多模态技术的集大成者。在最近生成式 AI 突破的同时，数字人领域正在经历跨越式发展，过去需要手工制作的建模、生成交互、渲染等环节正在全面 AI 化。

随着工程师不断优化，这项技术在移动端的体验也在变得更好，刚刚结束的亚运火炬线上传递活动就是个很好的例子：想要成为火炬手，我们只需要点开支付宝 App 的小程序。

据说，为确保开幕式项目顺畅进行，蚂蚁集团的工程师们针对上百款不同型号的手机进行了超过 10 万次测试，敲下了 20 多万行代码，并通过自研 Web3D 互动引擎 Galacean、AI 数字人、云服务、区块链等多种技术结合，保证了人人都可以成为数字火炬手，参与火炬传递。亚运数字火炬手平台，能做到亿级用户规模覆盖，并支持 97% 的常见智能手机设备。

为了给数字火炬手们带来真实的参与感，蚂蚁的技术团队开发了 58 个捏脸控制器，通过 AI 算法根据人脸识别画出数字火炬手的面孔之后，可对脸型、头发、鼻子、嘴巴、眉毛等进行调整，实现自由换装，该技术可提供 2 万亿种数字形象。

另外，开幕式点火仪式后，每位数字火炬手都可以收到一张数字点火专属证书，绘有每位数字火炬手独一无二的形象，这张证书会通过分布式技术存储在区块链上。

从研究论文内容和亚运项目不难看出，背后都有完整数字人技术体系的支撑。据了解，蚂蚁集团正积极开展数字人技术探索，并已完成数字人的全链路核心技术自研布局。

与市面上多数公司不同，蚂蚁集团的数字人技术自研，选择与生成式 AI 结合的发展方向。从技术部署上，则涵盖数字人建模、渲染、驱动、交互的全生命周期，结合 AIGC 与大模型，大幅降低了数字人全链路生产成本。目前可支持 2D、3D 数字人，提供了播报型、交互型等多种解决方案。

根据公开资料，可以总结蚂蚁数字人平台目前具备四方面技术优势和特色：

低成本建模：与清华大学合作推出亚洲人脸 3D 参数化模型，基于照片重建 3D 人脸，更符合亚洲人脸型特点。
生成式驱动：驱动生成和动作捕捉结合，对比传统动作制作流程有效降低成本和提升动作丰富度。
高适配渲染：自研 Web3D 渲染引擎 Galacean，覆盖 97% 常见手机终端；在神经渲染方面搭建了动态驱动和静态建模解耦的 NeRF 框架，应用于数字人动态视频场景。
智能化交互：基于预训练的音色克隆，支持分钟级音频输入生成个性化数字人音色；并布局基于大模型的数字人交互。

亚运会开幕式之前，中国信通院发布最新数字人标准符合性验证结果，蚂蚁集团灵境数字人平台，成为业界首个通过金融数字人评测的产品，获得了最高评级「杰出级 (L4)」。

而在亚运之外，蚂蚁数字人平台还支持了蚂蚁集团支付宝、数字金融、政务、五福等业务，并在今年开始应用于短视频、直播、小程序等载体向合作伙伴提供基础服务。

可以预见在不久之后，伴随生成式 AI 加持的数字人不断升级，我们也会在更多场景中体验到更好的交互，真正进入数实融合的智能生活。