微软发布Mora视频模型,吊打Sora?
微软与理海大学合作开发的多智能体视频生成框架Mora,近日正式亮相,标志着人工智能在视频创造领域的一次重大突破。Mora的问世不仅是对闭源的Sora模型的成功复现和扩展,更是向我们展示了AI技术向“去中心化”发展的可能性,为未来的AI系统架构、管理和伦理问题的讨论打开了新的篇章。
体验网址:https://github.com/lichao-sun/Mora
Mora框架的核心是整合了多个先进视觉AI智能体,模拟了Sora展现的通用视频生成能力,包括文本到视频生成、基于文本的图像到视频生成、扩展已生成视频、视频到视频编辑、视频拼接以及模拟数字世界等任务。实验结果显示,Mora在这些任务中的表现已经接近了Sora的水平,在文本到视频生成任务中,Mora的表现更是超越了现有的开源模型,位列所有模型中的第二名,这一成绩足以证明Mora在视频生成领域的潜力。
Mora的设计思想,即将视频生成过程分解为多个子任务,并为每个任务指派专门的智能体,这种多智能体协同工作的方式,提供了出色的编辑灵活性和视觉真实度,打开了视频创作的新视角。特别值得一提的是,Mora在推理过程中生成的中间图像或视频,保持了文本到图像模型中的视觉多样性、风格和质量,增强了编辑功能。Mora框架中的智能体可以分为五种基本类型,涵盖了从文本处理到视频拼接的整个视频生成流程,展现了从文本到视频的全流程生成能力。
效果表现
在基于文本条件的图像生成任务中,尽管Sora的表现无疑是最完美的,但Mora的结果与之相差甚微。
在视频到视频编辑以及视频拼接任务中,Mora同样展现出了接近Sora的实力。它不仅能够保持视觉和风格的连贯性,还能实现将不同视频进行无缝拼接。
在模拟数字世界的任务中,Mora同样展现出了创建虚拟环境世界的能力。尽管在质量方面与Sora相比仍有一定差距,但这一成果无疑为Mora在虚拟环境创建领域的应用奠定了基础。
总而言之,Mora的问世是视频生成技术领域的一次重大进展,它不仅推动了视频生成技术的发展,也为未来的AI研究和应用探索了新的路径。随着技术的不断进步和研究的深入,我们有理由相信,Mora在视频生成领域的作用将越来越大,为我们打开通往更加丰富多彩数字世界的大门。
本文转载自 百川智能AI,作者: glu