2018年7月,快手上线萌面魔法表情,首次将iphoneX的Animoji玩法普及到全部机型。2018年12月,快手又进一步上线了“萌面Kmoji”魔法表情,通过该功能,用户能够用相机拍摄生成自己的专属脸部AR虚拟形象,同时可以捕捉用户表情,眨眼、张嘴、抬眉毛、吐舌头等细微动作都能精准还原。这是短视频平台首次实现用户自定义AR虚拟形象进行拍摄的玩法。
用户用萌面Kmoji制作的手工耿形象
“萌面Kmoji”生成的虚拟形象表情生动逼真,与苹果推的memoji效果观感几无二致。不过对“萌面Kmoji”而言,iPhoneX或更新型的苹果设备或系统并非必需,同样在任意一部智能手机上都可以流畅使用。
另一方面,相比于苹果设备Memoji复杂的捏脸步骤,“萌面Kmoji”则简单得多:打开最新版快手APP的拍摄页面,在魔法表情“萌面”表情中选择“创建专属萌面”进行拍摄,系统就会根据用户面部特征,一键自动生成和用户肖似的AR形象。
用户也可凭喜好对虚拟形象的五官、皮肤、发型、装饰等进行自由调整,打造独一无二的AR形象,“萌面Kmoji”的捏脸选项中提供了超过160余种素材选项,给用户更丰富的个性化选择。
“萌面Kmoji” 背后是快手技术团队大量的研发工作。首先,基于人脸关键点、图像特征提取等AI技术,“萌面Kmoji”不需要iPhoneX等设备才支持的3D结构光信息,仅凭2D视觉信息即可识别用户的发型、脸型、五官形状、肤色、口红颜色、胡须等面部属性信息,构建用户专属的3D AR形象,并通过表情参数驱动3D形象做出各种细微表情,例如微笑、闭眼、张嘴、吐舌头等50余种表情,是多模态技术的成功应用。
此外,“萌面Kmoji”采用了基于物理的真实感渲染算法,金属、皮革等模型材质更加真实更具质感,大大提升模型的表现力。同时,快手技术团队通过对算法的优化,大大降低了运行“萌面Kmoji”对CPU、GPU资源的占用,提升了运行效率,普通千元手机也可顺利运行。
萌面Kmoji背后的人工智能技术方案详解
基于3D分析和2D信息融合的人脸属性和表情识别
个性化萌面系统的实现基础是人脸属性和表情识别,这需要3D分析以及与2D信息的融合。
对于图像信息,快手技术团队会利用3D重建技术恢复出3D结构,同时和2D信息做有机的融合,并基于这些重建、分析和融合,做人脸属性的分析,从各个维度分析出人脸特征,生成个性化的虚拟形象。同时也会实时进行人脸的表情分析,用于驱动生成的虚拟形象。
在此之上,快手技术团队还会借助人体进行相关分析,比如头发,肩部等,为和现实场景融合打下基础,并通过自研的手机端真实感渲染引擎,将活动的个性化萌面实时呈现给用户。
3D人脸重建
3D人脸重建是整个系统中非常重要的一环。快手技术团队采集了上万人脸三维数据,包含各种年龄段,人种,脸型等,以及每个个体对应的人脸各种表情,从而建立了几乎涵盖所有人脸空间和表情空间的三维人脸数据库。通过该数据库,可以建模出任意人脸的任意表情。快手技术团队研发了人脸关键点技术,通过百余个关键点刻画人脸的表情变化,从而重建每个个体各种表情下的三维人脸。另一方面,通过高效的神经网络技术,保证3D人脸重建在性能较低的手机上也能实时运行。
人脸属性感知
在人脸属性感知方面,快手技术团队采用神经网络感知人脸细粒度属性,包含了性别,年龄,肤色,脸型,眼睛,嘴巴细粒度信息,相比同类产品,可做到自动的人脸定制化,同时利用海量人脸数据,多任务协同学习,捕捉人脸细微特征。细粒度属性的区分是非常困难的,有些问题即使是人眼本身都难以区分,为此快手技术团队做了很多精细的设计,融合了分类/回归/分割等技术,提高自动捏脸的准确度。
人脸表情识别
人脸表情是一种复杂且细微的信息,人对表情的感知是非常灵敏的。让机器识别细微/夸张/灵活/稳定的人脸表情信号,单靠图像信息是难以达到的。
快手技术团队通过 2D 的 RGB 视觉信息对问题进行建模、求解,获得人脸关键点以及实时重建的三维模型,求解出人脸的表情,驱动虚拟形象做各种逼真的动作。同时,得益于深度神经网络模型的量化,通过压缩和加速解决手机性能问题,该方案可适配任意机型。
高质量渲染
萌面效果的最终呈现离不开渲染, 为了获得高质量的渲染,快手技术团队采用了先进的Pp技术,在移动端实现了PC游戏级画质;同时,依托深厚的AI技术积累,萌面能够根据外部环境和用户的形象特征智能化地选择最适合用户的材质,达到最优的渲染效果。
为了获得更加真实的体验效果,快手技术团队引入了物理引擎实现头发、布料等柔体的运动效果。为了使用户获得最优的体验,渲染引擎会根据不同机型选择合适的渲染质量。
移动端预测模型优化
为了让AI模型在手机端能够流畅地运行,快手技术团队主要做了三方面的优化:
首先是图像预处理环节,我们将图像各种预处理操作合并起来,以及对预处理所涉及到的图像内存进行统一分配和回收,以减少内存资源的消耗,提高分配使用的效率。
同时,我们充分利用了NEON加速以及苹果自带的accelerate加速,整个运行库只占用2M的空间。
最后,我们在保证预测精度的前提下,对AI模型进行局部的INT8量化,经过优化后,运行速度可提高1倍以上,同时AI预测模型的占用空间也压缩到将近原来的四分之一。
除了虚拟形象之外,基于萌面所使用的这套系统,快手技术团体还进行了扩展应用:人像3D打光、世界上另一个你
人像3D打光
人像3D打光主要利用了实时人脸三维重建技术,该技术利用了人脸参数化先验模型,根据输入图,自动匹配人脸几何信息,得到人脸3D模型参数,获得人脸3D网格模型。可以根据不同的场景设置不同的光源,利用实时渲染技术对虚拟人脸进行渲染,得到面部光影图;同时,对输入人像进行前景分割,得到前景分割蒙版,也可以根据原图得到其他蒙版信息;这些蒙版分别作为不同的图层按照场景需求特定的方式叠加到原图上,就可以得到打光结果。
世界上的另一个你
“世界上另一个你”是整套系统的另一个线下应用,体验者走到屏幕前,点击拍摄按钮,3s倒计时后,左边屏幕镜头拍摄定格参会者的面部图像,右边屏幕通过与视频库内的数十亿快手用户公开视频进行检索匹配,百毫秒内匹配出结果,显示播放1个快手端内相似长相的用户视频。
核心技术:
- 基于几十亿的公开人脸数据,进行人脸属性分析和识别,提取人脸特征并做数据结构化,建立了高效的索引,并针对低对比度、模糊、大角度等人脸做了专门的优化。
- 对前端拍摄的人脸图像进行检测,同样基于人脸分析模型,提取人脸特征,并在后台索引中进行检索,找到相似度最高的三个人脸图像。
- 对检索出的三个人脸图像进行更细粒度的属性分析,得出对应的年龄、性别、表情等属性,基于属性对检索结果进行重排。
- 最后前端展示出相似度最高的的人脸。
相比于其他的通用图片检索平台,快手优势在于:
- 数据量极大
- 数据分布相对均匀
- 数据多样性:不同场景,姿态、光照、表情等数据十分丰富