无需训练!多提示视频生成最新SOTA!港中文&腾讯等发布DiTCtrl:基于MM-DiT架构
精华 社区头条 文章链接:https:arxiv.orgpdf2412.18597项目链接:https:github.comTencentARCDiTCtrl亮点直击DiTCtrl,这是一种基于MMDiT架构的、首次无需调优的多提示视频生成方法。本文的方法结合了新颖的KV共享机制和隐混合策略,使得不同提示之间能够无缝过渡,且无需额外的训练。首度分析了MMDiT的注意力机制,发现其3D全注意力与UNetlike扩散模型中的交叉自注意力块具有相似的行为,从而实现了基于mask的精确语义控制,使得不同提示之...