当很多 AI 公司还就是否该走开源路线而感到左右为难时,阿里的技术团队又开源了一个新的模型 —— 万相(Wan)视频生成大模型(包括全部推理代码和权重,最宽松的开源协议)。
经常玩视频生成模型的同学应该知道,当前的很多模型仍然面临多方面挑战,比如难以还原复杂的人物动作,处理不好物体交互时的物理变化,遇到长文本指令就「选择性遵循」等。如果三个方面都做得比较好,那模型厂商多半是不舍得开源的。
业界翻车 case,体操等复杂运动对于视频生成模型来说充满挑战。
阿里的做法与之不同。新开源的万相视频生成大模型不仅能展现旋转、跳跃、转身、翻滚等复杂动作,精准还原碰撞、反弹、切割等真实物理场景,还能准确理解中英文长文本指令,还原各种场景切换、角色互动。
我们先来看看官方的 demo:
Prompt:一名男子在跳台上做专业跳水动作。全景平拍镜头中,他穿着红色泳裤,身体呈倒立状态,双臂伸展,双腿并拢。镜头下移,他跳入水中,溅起水花。背景中是蓝色的泳池。
Prompt:体育摄影风格,骑手在场地障碍赛中引导马匹快速通过障碍物。骑手身着专业比赛服,头戴安全帽,表情专注而坚定,双手紧握缰绳,双腿夹紧马腹,与马匹完美配合。马匹腾空跃起,动作连贯且准确,四蹄有力地踏过每一个障碍物,保持速度和平衡。背景是自然的草地和蓝天,画面充满动感和紧张感。4K, 高清画质,动作完整。
Prompt:红色橡胶球从高处自由下落到水泥地面,弹跳后静止,摄像机固定视角侧拍,写实风格,慢动作细节。
Prompt:两只拟人化的猫咪身穿紧身拳击服,戴着鲜艳的手套,在聚光灯下的拳击台上激烈对决。它们眼神坚定,肌肉紧绷,展现出专业拳击手的力量与敏捷。一只花斑狗裁判站在一旁,吹着哨子,公正地掌控比赛节奏。四周观众席上的动物们欢呼雀跃,为比赛增添热烈氛围。猫咪的拳击动作迅速而有力,爪子在空中划出一道道模糊的轨迹。画面采用动感模糊效果,捕捉瞬间的激烈交锋,展现出比赛的紧张与刺激。近景特写,聚焦于拳台上的激烈对抗。
Prompt:美妆短视频,特写镜头下,一位年轻女性正在细致涂抹睫毛膏。画面聚焦于她的眼部,只见她从睫毛根部开始,缓缓而均匀地向上刷动,睫毛膏的质地轻薄,轻易附着于每一根睫毛。每一次刷动都能明显看到睫毛变得更加纤长卷翘,根根分明的效果如同小扇子般逐渐展现,整个过程流畅自如。视频精准捕捉了睫毛膏带来的惊艳效果。近景特写,细腻清晰的画面质感。
有同学可能说,这种视频生成模型开源了有什么用,根本跑不动?这点不需要担心,因为本次开源的模型分为 14B 和 1.3B 两个参数规格。大尺寸 14B 版本主打高性能,但 1.3B 小版本适合消费级显卡,其生成视频质量超过其他更大尺寸的开源模型,但同时仅需 8.2GB 显存就可以生成 480P 高质量视频,特别适用于二次模型开发和学术研究。
万相不同参数量模型在不同 GPU 卡型上的推理耗时 (s)/ 显存消耗,可以看到 1.3B 版本仅需 8.19GB 显存,就可以在 4090 等消费级显卡上运行。
而对于有条件跑 14B 版本的同学,新模型可以提供更强的性能。权威评测集 VBench 的信息显示,万相大模型大幅领先 Sora、HunyuanVideo、Minimax、Luma、Gen3、Pika 等国内外视频生成模型,以总分 86.22% 的成绩登上榜首位置,成为视频生成领域的全新标杆。
为了了解新模型的性能,机器之心在第一时间进行了测试,并深挖了其背后的技术细节。
一手实测阿里万相
新开源的万相不仅在文字视频生成、复杂运动、指令遵循以及物理建模等方面表现突出,还提供了丰富的功能支持,包括文生视频、图生视频、首尾帧、视频配乐等。
文字视频生成
俗话说,一招鲜,吃遍天。
对于万相大模型来说,「会写字」就是它的「拿手绝活」。
它不仅是首个具备支持中文文字生成能力,还是同时支持中英文文字特效生成的视频生成模型。
我们只需输入简短的文字描述,它就能生成具有电影级效果的文字和动画。
什么特效字体、海报字体或者是其他真实场景下的字体,它通通能搞定。
比如,随着浅绿色烟雾缓缓消散,「机器之心」四个大字逐渐显露,没有出现「鬼画符」,也没有错别字。
Prompt:动态电影镜头,浅绿色烟雾从画面顶部缓缓向下弥漫,逐渐覆盖整个屏幕。随着烟雾的扩散,画面慢慢淡出,切换到中央位置出现 “机器之心” 四个大字。烟雾与 logo 之间的过渡自然流畅,营造出神秘而专业的氛围。背景为深色,突出 logo 的清晰度和视觉冲击力。近景特写镜头,缓慢推进效果。
再比如让极具赛博朋克风的霓虹招牌上写着英文单词「Welcome」,拼写也没什么 bug。
Prompt:赛博朋克的城市里,夜晚霓虹灯闪烁,大楼上的招牌写着 “Welcome”,街道上车辆快速行驶。
复杂运动生成
复杂运动一向是衡量视频生成模型性能的「试金石」。
历经一年多的进化,尽管大部分视频生成模型已经有了长足的进步,但面对旋转、跳跃、奔跑等复杂动作时仍会时不时「翻车」。
万相在这方面下了狠功夫,如今它能够在多种场景下实现稳定的复杂运动生成,甚至还通过了部分视频生成中的图灵测试。
我们让它生成一段男生在篮球场上投篮的画面,看似简单的场景,实则蕴含着复杂的运动规律和动态细节。
一方面,投篮动作包含复杂的肢体协调和精细的手部动作,模型需要捕捉到运动员的跳跃、手臂的伸展、手腕的翻转以及手指对篮球的控制等。
另一方面,篮球的运动轨迹也要符合物理规律,篮球形状不能出现扭曲或不自然的变化等。
万相生成的视频中,球员弹跳、投篮的动作行云流水,篮球的运动轨迹也符合现实场景。
Prompt:球场上,一个健壮的男生弹跳起来投篮,篮球从篮筐中掉落下来。
再比如下面这则视频中,脸上涂满厚厚油彩的小丑,叼着一根雪茄,还迈着六亲不认的步伐。无论是手部的摆动,还是眼神的变化都相当逼真,很有电影的质感。
Prompt:夜晚,一个小丑抽着雪茄,从一辆着火的面包车旁走过,黑色电影风格。
还有这则小狗在雪地里奔跑的视频。
它的小短腿快速交替着,耳朵也随之上下颠动,整个运动过程丝滑自然。在细节方面,万相生成的小狗毛发也根根分明,清晰可见,几乎可以「以假乱真」。
Prompt:一只小狗在白雪覆盖的街道上欢快奔跑的生动场景。镜头捕捉到狗在中途奔跑的身影,它的皮毛上闪烁着雪花,展现出一种动感和活力。背景是轻轻飘落的雪花,营造出宁静的冬日氛围。街道两旁是被雪覆盖的树木和古色古香的房屋,房屋的屋顶被白色覆盖。光线柔和而漫射,仿佛是阴天,增强了舒适的寒冬感。构图采用低角度拍摄,突出小狗的顽皮精神,景深较浅,背景略显模糊,将焦点吸引到小狗身上。场景无缝循环,让狗狗在冬日仙境中的欢快情绪得以持续展现。
长文本遵循
复杂的指令遵循也是视频生成模型的一项关键能力。
而万相在这方面,既听得懂「人话」,还能确保细节上不丢三落四。
Prompt:欢乐派对现场,一群多元种族的年轻人在宽敞明亮的客厅中央尽情舞动,活力四射。彩色气球与彩带装点空间,闪烁的灯光投射出迷幻光影,营造出节日般的氛围。他们穿着休闲时尚,随着节奏摆动身体,脸上洋溢着灿烂笑容,彼此眼神交流,流露出亲密与喜悦。背景中,有人倚靠沙发聊天,举杯畅饮,空气中弥漫着欢声笑语。纪实摄影风格,快门捕捉动态瞬间,中景广角视角。
在这段视频中,万相严格遵循了文本描述。为了呈现多元种族,画面里有白人小哥、黑人小姐姐,他们跳舞、畅饮。即使生成多主体的运动镜头,画面也并未崩坏。
Prompt:夜幕下的都市脉动,第一人视角 FPV 无人机穿梭于摩天大楼之间,高速飞行轨迹捕捉霓虹灯海。城市夜景如同流动的彩色画卷,灯火阑珊,光影交织。无人机镜头紧贴建筑表面,快速掠过玻璃幕墙与霓虹广告牌,展现现代都市的繁华与神秘。动态模糊效果强化速度感,营造出未来科技氛围。近景至全景的连续变化,呈现壮观的城市夜景。
面对这一长串文本描述,万相不仅模拟出无人机的运行轨迹,给人一种身临其境的感觉,还逼真地呈现出复杂的灯光效果和建筑风格。
Prompt:一个孤独的探险者小心翼翼地穿过一个狭窄的洪水泛滥的洞穴,在狭小的空间里蹲伏着前进。她手中闪烁的火把散发出阴森的金色光芒,在她的脸上形成戏剧性的底光,同时也照亮了上方嶙峋的岩层。每走一步,水面都会泛起涟漪,火把的光芒在天花板上反射出闪闪发光的图案。阴影在洞壁上舞动,随着火焰的摇曳而变幻。空气中弥漫着浓浓的湿气,雾气在火炬的光芒中翻腾。镜头在探险者前方移动,位置较低,以突出幽闭的紧张气氛和前方的神秘深渊。超现实的纹理、电影般的灯光,以及神秘和探索的氛围。
这段提示词则考察了万相在复杂场景构建、氛围营造和细节呈现上的综合能力。
它需要生成逼真的探险者形象和其小心翼翼的动作,同时渲染出狭窄且洪水泛滥的洞穴环境,包括嶙峋的岩层、水面的涟漪以及火把的动态光影效果。
此外还需融入低角度镜头、超现实纹理、电影级灯光以及湿气和雾气的环境效果,显然万相的表现还不错。
此外,万相不仅能看懂中文,还能 get 到英文。
Prompt:A young man, ginger hair, sings a song in front of various urban backgrounds, 80s hairstyle and outfit, wild dancing gyrations, background dancers, 80s video resolution, photorealistic, pop video.
物理建模
让模型从大量的视频数据中学到物理规律是所有视频生成模型的共同目标,因为违背物理规律的视频(比如椅子凭空飞起)会被鉴定为「一眼 AI」。万相大模型在这方面的表现让我们看到了视频生成大模型在学习物理规律方面的进展。
如下所示,我们给出的 prompt:透明玻璃杯在桌面倾倒,牛奶缓慢流出,液体在桌面形成蜿蜒流动轨迹,微距镜头展现液体表面张力,写实风格。
可以看到,模型展示出了牛奶流到桌上之后的动态痕迹,而且考虑了牛奶的粘稠度。杯子的反光特性以及牛奶与杯子接触留下的液膜也在视频中得到了还原。
而在下面这个草莓入水的视频中,模型则很好地展示了草莓和水之间复杂的相互作用力以及水珠的透明感,结合对特写和微距摄影的技巧运用,完整还原了草莓坠入水中那一刻的物理之美。
Prompt: 一颗草莓坠入清澈透明的水中,草莓轻轻旋转下沉,特写镜头捕捉这一刻的动态美,微距摄影风格,强调水珠的透明感和草莓的鲜艳色泽。
当然,除了下载开源模型,我们还可以通过通义万相的网页端直接体验新模型。
该网页端功能十分强大,支持文生视频、图生视频、首尾帧生成以及视频配乐等多种功能。在实际测试中,这些功能都展现出了良好的效果,凸显了其在广告、短视频等领域的应用潜力。
譬如我们上传一张图片,然后输入 Prompt:女生随着音乐跳舞。
通义万相立马就能让静态的画面动起来,主角的动作表情也更加丰富。
再来一个,效果也非常不错:
Prompt:复古胶片质感的视频片段,一位穿着鲜艳彩色条纹毛衣的女性成为焦点,她的黑色秀发自然垂落,银色项链与耳环在柔和灯光下闪烁。背景是朦胧的城市夜景,霓虹灯与街灯交织出梦幻般的氛围。女性脸上挂着温暖的笑容,她拿起复古相机,对着镜头捕捉这一刻的美好,眼神中透露出对生活的热爱与满足。中景,平视视角,女性的动作流畅自然,仿佛在讲述一段属于自己的故事。
万相大模型核心技术创新
那么,问题来了,万相大模型是如何实现生成能力突破的呢?主要是两大核心创新。一个是高效的因果 3D VAE,另一个则是视频 Diffusion Transformer 。
高效的因果 3D VAE
万相团队自研了一种专为视频生成设计的新型因果 3D VAE 架构,并结合多种策略来改进时空压缩、降低内存使用以及确保时间因果性。
万相大模型视频 VAE。
实验结果表明,万相的视频 VAE 在各项指标上均表现出极具竞争力的性能。在相同的硬件环境(单个 A800 GPU)下,万相的 VAE 重建速度比现有的最先进方法(如 HunYuanVideo)快 2.5 倍。
视频 Diffusion Transformer
万相模型架构基于主流的视频 DiT 结构,通过 Full Attention 机制确保长时程时空依赖的有效建模,实现时空一致的视频生成。模型的整体训练则采用了线性噪声轨迹的流匹配(Flow Matching)方法。
如以下模型架构图所示,模型首先使用多语言 umT5 编码器对输入文本进行语义编码,并通过逐层的交叉注意力层,将文本特征向量注入到每个 Transformer Block 的特征空间,实现细粒度的语义对齐。此外,研究者通过一组在所有 Transformer Block 中共享参数的 MLP,将输入的时间步特征 T 映射为模型中 AdaLN 层的可学习缩放与偏置参数。实验发现,在相同参数规模下,这种共享时间步特征映射层参数的方法在保持模型能力同时可以显著降低参数和计算量。
此外,万相大模型还通过可扩展的预训练策略、大规模数据链路构建以及自动化评估指标,共同提升了模型的最终性能表现。
Qwen + 万相,阿里已实现全模态开源
时间回到 2023 年。当时,如果有人说开源模型有望追上闭源模型,很多人可能都不相信。然而正是在这样的背景下,一些顶级的 AI 公司走上了开源的路线,Meta、阿里都是其中的典型代表。
两年后的今天,阿里 Qwen 衍生模型已突破 10 万个,超越 Meta 的 Llama 系列,跻身全球最大 AI 模型家族之列。更引人注目的是,在 Huggingface 最新发布的开源大模型榜单(OpenLLMLeaderboard)中,前十名全部被基于 Qwen 开发的衍生模型包揽,充分展现了中国开源模型的蓬勃生命力。
Huggingface2 月 10 日官网榜单截图。
而且,阿里的开源大模型不止在语言方面表现出色,在多模态方面也处于领先地位:今年 1 月开源的视觉理解模型 Qwen2.5-VL 斩获了 OCRBenchV2、MMStar、MathVista 等 13 项评测冠军,全面超越了 GPT-4o 与 Claude3.5,在多模态这个赛道打破了「开源不如闭源」的固有认知。
如今,在万相开源之后,阿里的两大基础模型已经全部开源,实现了真正意义上的全模态开源。这在当前 AI 巨头中独树一帜。
目前,万相已登陆 GitHub、HuggingFace 和魔搭社区平台,全面对接主流框架。从 Gradio 快速体验到 xDiT 并行加速推理,再到即将接入的 Diffusers 和 ComfyUI,该模型为开发者提供了全方位的支持。这不仅降低了技术门槛,也为不同场景需求提供了灵活的解决方案。
我们也期待阿里的开源大模型家族进一步壮大。
开源地址:
Github: https://github.com/Wan-Video
HuggingFace:https://huggingface.co/Wan-AI