VideoMamba:用于高效视频理解的状态空间模型
我们提出了一个仅基于状态空间模型(SSM)的高效视频理解架构VideoMamba,并通过大量的实验证明了它具备一系列良好的特性,包括(1)VisualDomainScalability;(2)ShorttermActionSensitivity;(3)LongtermVideoSuperiority;(4)ModalityCompatibility。这使得VideoMamba在一系列视频benchmark上取得不俗的结果,尤其是长视频benchmark,为未来更全面的视频理解提供了更高效的方案。论文题目:VideoMamba:StateSpaceModelforEfficientV...