斯坦福&UC伯克利开源突破性视觉场景生成与编辑技术,精准描绘3D/4D世界!
文章链接:https:arxiv.orgpdf2410.16770项目链接::https:ai.stanford.edu˜yzzhangprojectsscenelanguage代码链接:https:github.comzzyunzhiscenelanguage亮点直击提出了一种场景表示方法,即场景语言,通过程序、词汇和embeddings来捕捉视觉场景的结构、语义和身份。提出了一种无需训练的方法,利用预训练语言模型从文本和或图像中推理表示。提出一个通用渲染模块,将场景语言渲染成图像。在文本和图像条件下的场景生成和编...