撰稿 | 伊风
整个2月,Sora 可谓是当之无愧的 AI 明星,公布的两波 AI 视频吸睛无数。没想到在2月末尾,还能有另一位视频生成“选手”让我们感到惊喜!
那就是阿里新推出的视频生成框架——EMO (Emote Portrait Alive) 。EMO 基于扩散模型,只需要提供图像和音频就可以生成富有表现力的肖像视频。从公布的视频来看,EMO 在生成肖像的动作、口型及表情等方面均表现不俗,展现了与 Sora 一样丰富的“可玩性”,能完成许多具有想象力和创造性的各类视频。
EMO 驱动的肖像不仅可以唱歌、口语对白,甚至还能为你秀一段快嘴说唱。示例视频中展现了 EMO 多样的生成能力和优越的实现效果,含有阿里团队的大量“官方整活”。
通过 EMO,你可以让蒙娜丽莎不再只是神秘微笑,转而纵情高歌一首时下的热曲《flowers》;让蔡徐坤去秀一段快嘴,成为比肩姆爷的“rap god”;或者让反派高启强改邪归正加入普法队伍……不得不说,每一支视频都脑洞大开。
1.歌声驱动,人人都能当歌星
画面中 AI 生成的蒙娜丽莎,正站在她那神秘、幽静的山峦之间,远处是无际的绿植与道路。置身于这样的美景之间,蒙娜丽莎情不自禁地唱起麦莉·赛勒的《flowers》。唱到陶醉之时的蒙娜丽莎不仅会流露自信的笑容,还间或闭上眼睛,完全沉醉在歌唱之中,给人非常真实的视听体验。
Sora 视频中那位走在巴黎街头的皮衣女士也来体验了一把 EMO 的生成效果。在该视频中“Sora 女士”不仅头部运动自然,发力时眉毛的运动及换气的感觉也都让人十分惊喜。此外, EMO 对于耳环的摆动、甚至墨镜中反光的倒影也进行了较为逼真的还原。
2.二次元到三次元,多个语种都能唱
视频中银发绿瞳的精致女孩正面朝阳光,唱着宁艺卓翻唱版本的《Melody》,中英文切换时自然流畅。值得一提的是,驱动这支视频的图像也由 AI 生成,但整体呈现的效果犹如一位真实的美女主播。
画面中的“哥哥”张国荣正唱着 Eason 的那首《无条件》。有网友认为,这支视频暴露了EMO 在跟随粤语时生成的口型不够自然。不知道大家欣赏这支视频时,是否会有“音画不同步”的感觉。当然,这支视频中哥哥愉悦的积极情绪与《无条件》歌词的情感基调有断裂,这可能也是让我们感到“哪里不对”的原因之一。
3.语速快如rap god,也不留破绽
视频中还没成为中年大叔的貌美版“小李子”,正唱着阿姆的《GODZILLA》。从驱动视频来看,肖像人物的表情与说唱的节奏配合自然,中间停顿时的神情也极具感染力。
以下视频来源于
往事如歌
没有比让坤坤唱《rap god》更抽象的整活了。不知道为何,两个说唱的示例都选择了“姆爷”的歌曲,这可能也是阿里团队的一种炫技。
4.对白也能 hold 住,反派普法不是梦
视频采用了《The Dark Knight》 2008 Jocker 的经典台词,“Why so serious? Let's put a smile on that face ” 驱动了 2019 版 Jocker 。小丑脸上的油彩随着肌肉的运动而自然运动着。
这支视频让强哥和“法外狂徒张三”联动了一把。视频中的高启强为大家解读“紧急避险”的概念,看来强哥不仅可以吃鱼,饿到快死的时候吃点熊猫、金丝猴也是可以的。
视频来源:https://humanaigc.github.io/emote-portrait-alive/