出品 | 51CTO技术栈(微信号:blog51cto)
变天了!还记得OpenAI刚推出Sora时给人的惊艳感,但在文生视频领域,Sora想一家独大也没有那么简单。如今,越来越多表现不俗的替代方案已经出现。
继Luma AI的Dream Machine首次亮相之后,Runway ML最近推出的Gen-3 Alpha也令人印象深刻。与此同时,快手推出了Kling(可灵),这一模型能够以每秒30帧的速度生成1080p高清分辨率的视频。
图片
Gen-3 Alpha经过视频和图像的训练,将为Runway的文字转视频、图像转视频及文字转图像工具提供支持。它还将增强现有的控制模式,如运动画笔、高级摄像机控制和导演模式,并支持即将推出的工具,以便更精确地控制结构、风格和动态。
正如OpenAI与好莱坞的合作一样,Runway也与顶级娱乐和媒体公司合作,开发Gen-3 Alpha的定制版本。这种Gen-3模型的定制化使得对风格和角色一致性的控制更加灵活,可以满足特定的艺术和叙事需求。
与OpenAI不同的是,Runway已经宣布Gen-3 Alpha很快将向所有人开放。
“Gen-3 Alpha仅用四个月便迅速逼近Sora的水平,这意味着Omni也可能在9月前被迎头赶上。Anthropic甚至可能在GPT-5发布之前就推出他们的自主AI系统。OpenAI面临着要么加快其战略步伐,要么接受退居第二的现实选择。”X平台的一位用户写道。
1.Sora明显滞后
Sora的一大劣势在于,目前它还无法生成具有持续表情和角色特征的逼真人像。
例如,在Shy Heads使用Sora制作的短片《气球头》中,为了克服Sora的局限性,他们将人物的脸替换成了气球。该短片的创作者Walter Woodman提到,他们使用Premiere和After Effects进行了影片编辑。
然而,Gen-3 Alpha擅长生成表现力丰富的人类角色,能够展示广泛的动作、手势和情感。
正如下面这个示例。提示词是:一位原本忧郁的中年秃顶男子,当一顶卷曲的假发和墨镜突然落在他头上时,变得开心起来。(Prompt: A middle-aged sad bald man becomes happy as a wig of curly hair and sunglasses fall suddenly on his head.)
值得注意的是,Adobe最近宣布正在探索与领先的AI供应商建立合作,包括OpenAI的Sora、RunwayML和Pika等。
此外,Gen-3 Alpha从设计之初就瞄准创意应用,这使得它能够理解并生成多种风格和艺术指令。
除了Gen-3 Alpha之外,Luma AI声称其Dream Machine与Sora不同,能够理解世界物理原理及现实世界中的事物运作方式。另一个有趣的特点是,它能将现有图像扩展成视频。
“哇,来自@LumaLabsAI的新模型,将图像延伸成视频,真是非同凡响。我直觉上认为这很快就会成为可能,但亲眼见到并思考其未来迭代的潜力仍是另一回事。”前OpenAI研究员,大神Andrej Karpathy说道。
梗图被续写,逐渐变成视频。上述示例:灾难女孩(Disaster Girl)
另一个关键区别在于其视频的超逼真质量。Luma所采用的人工智能算法会仔细分析并增强每个细节,从纹理到光照,确保最终输出效果几乎与现实世界的镜头难以区分。不过,Dream Machine也存在一些限制,例如形变、在视频中插入文字以及相机运动方面的处理。
另一方面,中国的可灵模型能够生成长达两分钟、分辨率为1080p、每秒30帧的视频。该模型以其逼真的输出效果和对现实世界物理精确模拟而著称,尤其擅长于3D人脸和身体重建,使得生成的内容更加栩栩如生、富有表现力。
2.OpenAI 在GPU方面具有优势
Luma AI 成功的一个重要因素是AWS,它为公司提供了急需的GPU资源。
AWS的数据和机器学习服务副总裁Swami Sivasubramanian表示:“很高兴看到AWS H100训练基础设施如何帮助Luma AI团队减少基础模型的训练时间,并支持Dream Machine的发布。”
然而,在公开上线后不久,网站就因巨大的访问需求而难以应对。在这方面,OpenAI显示出其优势。
作为ChatGPT的开发者,OpenAI能够利用微软Azure,获得最新的NVIDIA GPU资源。在微软Build大会上,CEO萨提亚·纳德拉宣布,他们将成为首批使用NVIDIA最先进的Blackwell GPU的云服务提供商之一。
OpenAI最近还与甲骨文(Oracle)建立了合作伙伴关系,以获取更多的计算能力。
3.OpenAI 是否会真正推出产品?
与Luma AI相关的还有另一个有趣的故事。在Google I/O大会上,谷歌介绍了其视频生成模型Veo。然而,出于安全考虑,谷歌尚未发布该模型。
现为Luma AI研究科学家的Dan Kondratyuk此前曾在谷歌工作,他称自己离开谷歌是因为公司没有推出任何产品。
他在X平台上发帖说:“我离开谷歌加入了Luma。我曾是早期参与开发Veo团队的一员,但我知道它很长一段时间内都不会面向大众发布,就像Sora一样。除非有像Luma这样的公司迫使他们出手,至少我希望如此(给我权限吧)”。
与此同时,OpenAI采取了一种策略,即宣布产品来抢夺谷歌的风头,但实际上并未交付。例如,当谷歌推出Gemini 1.5时,OpenAI在同一天宣布了Sora。在2024年Google I/O大会前一天,OpenAI宣布了GPT-4o。然而,其语音功能至今仍不可用。
图片
X平台上甚至专门有人发帖调侃OpenAI在演示与发布阶段截然不同的产品表现
另一方面,谷歌也和OpenAI一样,加入了抢先宣布产品的竞赛。
最近,该公司推出了其视频转音频(V2A)模型,该模型能为任意视频生成音频。有趣的是,这个模型可以与Veo配合使用,为视频片段配上富有戏剧性的配乐、逼真的音效或与视频角色及基调相匹配的对话。
OpenAI应该趁早发布Sora,因为竞争不会减弱。
好莱坞演员艾什顿·库彻最近赞扬了OpenAI的Sora,称创作者将能够利用它来渲染整部电影。“我有一个测试版,它相当惊人,”他说道。
在最近接受《华尔街日报》采访时,首席技术官Mira Murati表示,OpenAI很可能在今年晚些时候让Sora向公众开放。
但事实如何,或许我们还需要静心以待。
参考链接:https://analyticsindiamag.com/openai-should-release-sora-before-its-too-late/