基于CogVideoX-2B,视觉一致和语义对齐超越最新SOTA!南洋理工等发布RepVideo
文章链接:https:arxiv.orgpdf2501.08994项目链接:https:vchitect.github.ioRepVidWebpage亮点直击研究了视频扩散模型中的transformer表示,揭示了各层注意力图的显著变化导致了空间语义的碎片化和时间一致性的降低,这对视频质量产生了负面影响。提出了RepVideo,一个利用特征缓存模块和门控机制来聚合和稳定中间表示的框架,增强了空间细节和时间一致性。大量实验表明,RepVideo在时间一致性和空间质量方面都取得了竞争力的表...