“特效”已经成为抖音用户在作品投稿时最常见的玩法,而这些五花八门的特效究竟是怎样制作出来的,却鲜有人知。
7月28日,抖音联合火山引擎在北京举办智能特效技术开放日。火山引擎相关特效技术专家分享了抖音特效的生产流程和技术原理。
在影视领域,人们对“特效”并不陌生,而且随着科技的进步,影视特效越来越令人震撼,特别是AI技术的兴起,在动画建模、渲染、编辑合成等特效制作环节带来了巨大的提升。例如大家熟知的《复仇者联盟》系列,就用了机器学习的方法,通过捕捉演员的面部表情来制作灭霸的表情,让虚拟角色的表情特效达到非常生动、逼真的效果。
然而,在另一方面,影视特效的制作成本也非常高。此前有媒体报道好莱坞视觉大片的特效费用至少占总制作费的60%以上。即便在如此高的成本之下,效率也并不尽如人意,据说1秒的特效镜头,如果只用一台高性能的机器渲染,可能需要50天之久。
考虑到抖音特效的用户都是普通消费者,火山引擎在开发抖音特效相关技术时严格遵循了两个原则:一是要用前沿的技术来实现好的特效效果,二是尽量降低特效创作和使用的门槛,让每个人都能用特效更好地表达,做出具有想象力和表现力的内容。
具体到技术层面来说,抖音特效主要使用了计算机视觉(CV)和计算机图形学(CG)技术。
其中,CV代表对现实世界、对真实画面内容的理解,可以理解画面里是一个全身人像、还是只是一只手做了某种手势;也可以去理解画面里面有没有天空、地面或者建筑物等等等。
深度学习技术的发展对于CV技术有非常大的推动作用。深度学习是通过人工神经网络去理解训练样本内在更深层次的规律,通过数据以及模型结构,进行结构化的表达。通过深度学习的技术,可以帮助CV在检测、分割、智能生成以及SLAM(即时定位与地图构建)等方面,都可以达到更好的精度、准确率以及适应面。
火山引擎特效技术专家在分享中也强调,CV技术中达到的“人脸贴合”,有别于日常所说的人脸识别技术,它本质上是通过对人脸的关键锚点进行检测来实现,这些点位的信息,无法还原出人的相貌;而且这些点位数据,都只是在手机端上进行检测,不会上传到服务器。
除了CV之外,要完成演示中的特效,还需要把一些虚拟的素材,显示或者叠加渲染到真实画面上,这就是CG技术。
比如我们在很多抖音特效中会看到,画面中人脸边上一直有一个水果,右边也有很多的水果随机飞出,这些水果的动画,还有最后人头上戴着的3D菠萝头饰,都是通过CG技术叠加上去的。
这样,有了CV与CG技术之后,可以简单的生成很多特效。CV提供了对真实场景的理解,告诉你应该在哪里叠加虚拟素材;CG技术完成虚拟素材的叠加任务。比如把一顶假的帽子戴在头上,或者做一个假的口红涂在嘴唇上等等,都是如此。
但仅有CV和CG技术,还不能达到让用户以更低门槛使用特效的目标。在进一步发展特效技术的过程中,火山引擎又引入了模版或者剧本的概念,也就是说用户可以作为主角带入到故事情节当中,按照一定的规则最终形成比较高质量的视频。
比如在某些特效中,画面左边的水果与右边飞出来的水果进行碰撞,就会变成一个新的水果,变化多次之后,进入到下一个阶段,就会让用户头上戴了一个菠萝的帽子——这就是在一定规则下,CV与CG之间的互动技术。
火山引擎特效技术专家表示,除了CV、CG、互动技术之外,抖音的特效功能还要通过反复的工程与产品化的迭代,最终才能够在抖音当中集成、上线,面向所有的用户。