量化已成为压缩大语言模型(LLMs)的最有效方法之一。然而,现有的量化方案仍然存在不可忽视的准确性下降或系统效率低下的局限性。在本文中,我们全面分析了量化的一般原则对准确性、内存消耗和系统效率三角关系的影响。我们提出了MixLLM,这是一种基于输出特征之间的混合精度量化的方法。MixLLM从全局视角识别高显著性的输出特征,而非仅在单层内部,有效地为最需要的输出特征分配更大的位宽,从而在低内存消耗的情况下实现良...
1.VidTok:AVersatileandOpenSourceVideoTokenizer将视频内容编码为紧凑的潜在token已经成为视频生成和理解中的一个基本步骤,这是为了应对像素级表示中固有的冗余问题。因此,随着以视频为中心的研究日益重要,对高性能、开源视频token化工具的需求也在不断增长。我们推出了VidTok,这是一种多功能的视频Tokenizer,在连续和离散token化方面都提供了最先进的性能。VidTok相较于现有方法引入了几个关键改进:模型架构方面采用了...
2024-12-20 10:36:02 330浏览 0点赞 0回复 0收藏
1.VideoEspresso:ALargeScaleChainofThoughtDatasetforFineGrainedVideoReasoningviaCoreFrameSelection大型视觉语言模型(LVLMs)的进步显著提升了多模态理解能力,但在视频推理任务中仍面临挑战,主要原因是高质量、大规模数据集的缺乏。现有的视频问答(VideoQA)数据集往往依赖于成本高昂且粒度不足的手动标注,或者使用会产生冗余帧分析的自动构建方法,这限制了它们在复杂推理任务中的可扩展性和有效性。为了解决这些挑战...
2024-12-10 10:30:06 385浏览 0点赞 0回复 0收藏
1.ReverseThinkingMakesLLMsStrongerReasoners逆向思维在人类推理中扮演着至关重要的角色。人们不仅可以从问题推导出解决方案,还可以反过来从解决方案推导出问题。这种双向思考方式往往能提高整体的推理性能,因为它允许前后思维之间的一致性检查。为了使大型语言模型(LLM)具备逆向思维能力,我们引入了逆向增强思维(RevThink)框架,该框架由数据增强和学习目标组成。在RevThink中,我们通过收集教师模型提供的结构化正向...
2024-12-03 13:28:09 490浏览 0点赞 0回复 0收藏