鸿蒙开发者社区

WOT技术大会

公众号矩阵

移动端

视频课免费课排行榜短视频直播课软考学堂

全部课程软考华为认证厂商认证 IT技术 PMP项目管理免费题库

文章资源问答课堂专栏直播

51CTO

鸿蒙开发者社区

51CTO技术栈

51CTO官微

51CTO学堂

51CTO博客

CTO训练营

鸿蒙开发者社区订阅号

51CTO软考

51CTO学堂APP

51CTO学堂企业版APP

鸿蒙开发者社区视频号

51CTO软考题库

AI.x社区

登录/注册
51CTO

中国优质的IT技术网站

51CTO博客

专业IT技术创作平台

51CTO学堂

IT职业在线教育平台

开源视频模型SV4D，一键创建8角度动态3D视频

发布于 2024-7-26 09:50

浏览

0收藏

Stability.ai开源了创新视频模型Stable Video 4D（简称“SV4D”），可将一个视频轻松创建8个角度的动态3D视频。

使用方法也非常简单，用户只需要上传视频然后选择3D 相机姿势，经过大约40秒左右的推理就能完成视频创建。相比SV3D、STAG4D等同类模型，SV4D的推理效率和生成质量都获得了大幅度提升。

开源地址：https://huggingface.co/stabilityai/sv4d

开源视频模型SV4D，一键创建8角度动态3D视频-AI.x社区

以目前的技术，用单个视频生成动态3D视频面临不少难题。因为这涉及同时推理对象在未见过的相机视角下的外观和运动，同时对单个给定视频可能有多种合理的动态解释进一步加大了生成难度。

此外，训练一个能推广到不同对象类型和运动的强大生成模型面临两大技术挑战：1）缺乏大规模的动态3D对象数据集来训练稳健的生成模型；2）问题的高维性质需要大量参数来表示对象的3D形状、外观和运动。

而SV4D与以往生成模型不同的是，以一个统一的扩散模型作为基础，能够同时处理视频帧和视角的生成。这种架构解决了之前需要分别训练视频生成和新视角合成的模型，效率低下的问题，而且还保证生成内容的一致性。

开源视频模型SV4D，一键创建8角度动态3D视频-AI.x社区

在技术实现上，SV4D使用了Stability.ai之前开源的SVD和SV3D网络结构，融合了视频和多视角扩散模型的优势。这个网络结构包含一个多层的UNet，每层由一个残差块和三个带有注意力层的transformer块组成。

这些注意力层包括空间注意力、视角注意力和帧注意力，协同生成以确保生成的视频在空间和时间上都具有高度的一致性。

开源视频模型SV4D，一键创建8角度动态3D视频-AI.x社区

视角注意力的设计是为了对每个视频帧中的多视角图像进行对齐，以参考视频中的第一视角为条件。这种设计允许模型在生成新视角时，能够保持与原始视角的一致性，从而确保了多视角视频的连贯性。

帧注意力则进一步确保了视频在时间维度上的连贯性，通过对每个视角的多帧图像进行对齐，以每个视角的第一帧为条件，模型能够生成在时间上连续且一致的视频序列。

在模型训练阶段，SV4D面临的一个关键难题是需要同时生成V×F的图像网格，对于较长的输入视频算力会呈指数级增长。为了解决这个问题，研究人员通过顺序处理交错的输入帧子集，同时保持输出图像网格的一致性。

开源视频模型SV4D，一键创建8角度动态3D视频-AI.x社区

在训练数据方面，由于目前还没有大规模的动态3D对象训练数据集，研究人员就从现有的Objaverse数据集中精心整理了一个新训练数据集ObjaverseDy。

在整理数据集时，进行大量数据筛选然后去除动画帧数过少的对象。为了进一步过滤出运动极小的对象，研究人员对每个视频的关键帧进行子采样，并对这些帧之间的最大L1距离应用简单阈值作为运动测量。在渲染训练新视角视频时，可灵活选择相机与对象的距离，并动态调整时间采样步骤，以确保获得高质量的动态3D对象集合和渲染的多视角视频。

开源视频模型SV4D，一键创建8角度动态3D视频-AI.x社区

为了评估SV4D的性能，研究人员在ObjaverseDy、Consistent4D和真实世界视频数据集DAVIS等进行了综合测试，并与其他先进模型进行了比较。

在Consistent4D数据集上，SV4D在视频帧一致性方面表现出色，同时保持了与其他方法相当的图像质量。与SV3D和STAG4D相比，FVD - F分别降低了31.5%和21.4%。

开源视频模型SV4D，一键创建8角度动态3D视频-AI.x社区

在Objaverse数据集上，SV4D在视频帧一致性和多视角一致性方面都有显著优势，FVD - F更低，FVD - V更好，在FVD - Diag和FV4D方面也超过了先前的先进方法，证明合成的新视角视频在视频帧和多视角一致性方面更好。

本文转自 AIGC开放社区，作者：AIGC开放社区

原文链接:https://mp.weixin.qq.com/s/ErIOZExah6vU-4RbfHG-xg

标签

赞

收藏

回复

举报

回复

相关推荐

如何在淘宝人生2一键定制你的专属3D数字人

pangguiyu • 4353浏览 • 0回复
CVPR 2024 | 文本一键转3D数字人骨骼动画，阿尔伯塔大学提出MoMask框架

轻薄滴假象 • 2447浏览 • 0回复
腾讯、上海科大开源InstantMesh，图片直接生成3D模型

Aceryt • 3510浏览 • 0回复
DiT架构大一统：一个框架集成图像、视频、音频和3D生成，可编辑、能试玩

轻薄滴假象 • 2269浏览 • 0回复
3D生成竞技场来了！比拼360°环绕视频，最强模型由你pick

Crystalcxt • 2168浏览 • 0回复
2D头像生成3D虚拟人开视频会，谷歌新作让人难绷

轻薄滴假象 • 1821浏览 • 0回复
DreamTech联合南大和牛津发布最强3D内容生成大模型——Direct3D

angel • 2390浏览 • 0回复
3D版"裁缝"开源来袭！Tailor3D:自定义3D编辑和资产生成（港大&上海AI-Lab&港中文）

angel • 2044浏览 • 0回复
北航&谷歌&旷视等开源Chat-Edit-3D: 3D 场景编辑新范式！

angel • 1950浏览 • 0回复
Lumina-T2X: 一款集成图像、视频、音频和3D生成的多模态扩散模型

sword_hero • 2273浏览 • 0回复
精准可控新视角视频生成+场景级3D生成！北大&港中文&腾讯等开源ViewCrafter

angel • 2064浏览 • 0回复
麻省理工创新模型：用2D视频扩散，生成 3D 视频

Aceryt • 2304浏览 • 0回复
3D生成基础模型来了！只需5秒，高质量3D资产规模化生成！南洋理工等重磅开源3DTopia-XL

angel • 1903浏览 • 0回复
生成任意3D和4D场景！GenXD：通用3D-4D联合生成框架 | 新加坡国立&微软

angel • 1615浏览 • 0回复
只需一张图片！实现任意3D/4D场景生成！港科大&清华&生数发布DimensionX

angel • 3381浏览 • 0回复
3D任意部位分割：FIND 3D模型实现零样本开放世界文本查询分割

AIGC最前线 • 1551浏览 • 0回复
从2D到3D：北大等开源Lift3D，助力精准具身智能操作！

angel • 2001浏览 • 0回复
首篇2D/视频/3D/4D统一生成框架全景综述(港科大&中山等)

angel • 1014浏览 • 0回复
3D动画革命！北航团队破解交互难题，一键生成影视级打斗场面

穿越时空111 • 856浏览 • 0回复

这个用户很懒，还没有个人简介

帖子

声望

粉丝

关注

最近发布

斯坦福等开源代码定位AI Agent，极大提升开发、维护效率 16h前发布
AI Agent大变天！谷歌开源A2A，一夜改变智能体交互 16h前发布

热门推荐

20000颗星！100多个Agent超级工具，开源MCP大合集 0回复

比DeepSeek、o1高3倍！首创无服务器强化微调，只需十几个数据点 1回复

暴论：2025年，程序员必学技能就是 MCP 1回复

实操干货！MCP 全解析，手把手教你基于 MCP 开发 Agent 0回复

从 Manus 到 DeepSearcher，2025年最值得关注的十大 Agent 智能体架构设计 0回复

上一篇：重磅！OpenAI发布SearchGPT，挑战谷歌、进军搜索引擎！

下一篇： OpenAI发布最新大模型安全对齐奖励方法——RBR

社区精华内容

Copyright © 2005-2025 51CTO.COM 京ICP证060544版权所有未经许可请勿转载