在数字时代,发型不仅是时尚的标志,更是个人文化身份的彰显。但传统3D发型生成技术往往难以捕捉复杂发型的细腻之美。为此,上海科技大学和华中科技大学推出了ANGLED技术,能从任意风格、视角的图像中,轻松生成逼真3D发型。依托457种多样发型的MultiHair数据集,TANGLED通过三步管道,灵活适应各种风格与视角,让卷发、辫子等高难度发型栩栩如生。这一突破不仅提升了发型生成的多样性,更促进了文化包容性的表达,让每个人的独特风采,在数字世界得以完美呈现。
相关链接
- 论文:http://arxiv.org/abs/2502.06392v1
- 主页:https://sites.google.com/view/tangled1
- 代码&数据:即将推出
论文介绍
发型错综复杂,具有各种几何形状、纹理和结构,具有重要的文化意义。现有的文本或图像引导生成方法无法处理丰富而复杂的各种发型。我们提出了 TANGLED,这是一种用于生成 3D 发束的新方法,可适应不同风格、视点和输入视图数量的各种图像输入。
TANGLED 采用三步流程: 首先,我们的 MultiHair 数据集提供了 457 种不同的发型,并标注了 74 种属性,强调复杂且具有重要文化意义的发型,以提高模型的泛化能力。其次,我们提出了一个以多视图线条图为条件的扩散框架,该框架可以捕捉拓扑线索(例如,发束密度和分型线)并滤除噪音。通过利用对线条图特征具有交叉注意的潜在扩散模型,我们的方法可以在不同的输入条件下实现灵活而强大的 3D 头发生成。最后,理模块强制执行特定于辫子的约束,以保持复杂结构的一致性。该框架不仅提高了发型的真实感和多样性,而且还实现了文化包容性的数字化身和新颖的应用,如基于草图的动画 3D 发束编辑和增强现实。
概述
我们的模型以任意样式和视角的头发图像为条件,通过扩散过程生成 3D 头发潜在图。条件被随机屏蔽并与潜在图交叉注意。在推理时,我们对头发潜在图进行采样,并将上采样的头发潜在图输入发束解码器以提取 3D 发束。
结果
TANGLED 可以根据各种风格的图像条件生成逼真的发型,包括照片、动漫和油画。有关更多结果,请参阅补充视频。请注意,我们在渲染过程中手动指定了生成的头发的颜色。
第 1 行显示了从手绘草图生成的发型。第 2 行通过改变第 1 行草图中的特定部分展示了发型修改(添加辫子)。第 3-4 行描绘了使用指导线(以红色突出显示)生成带有辫子的输出的过程。
结论
TANGLED是一种用于3D发束生成的新型多视图线性条件扩散模型。MultiHair数据集是一个多样化的集合,它扩展了具有代表性不足的纹理和复杂几何形状的发型表示。该模型的扩散框架以多视图线性为条件,可以跨各种风格和视点灵活而准确地生成。此外,参数化后处理改进了特定于辫子的约束,增强了复杂风格的连贯性。
虽然 TANGLED 取得了重大进展,但挑战依然存在。首先,MultiHair 数据集虽然更加多样化,但仍然缺乏对超高频发束细节进行建模的能力。其次,由于锚点遮挡,辫子生成管道难以应对极端头部姿势,即偏航/俯仰 >75°。最后,生成的头发和输入图像之间的像素级对齐是有限的,这在很大程度上受到数据集大小的限制。