LLM合集：港大利用GPT-4o生成QA对，打造大规模多模态视频思维链（COT）数据集

发布于 2024-12-10 10:30

浏览

0收藏

1. VideoEspresso: A Large-Scale Chain-of-Thought Dataset for Fine-Grained Video Reasoning via Core Frame Selection

LLM合集：港大利用GPT-4o生成QA对，打造大规模多模态视频思维链（COT）数据集-AI.x社区

大型视觉语言模型（LVLMs）的进步显著提升了多模态理解能力，但在视频推理任务中仍面临挑战，主要原因是高质量、大规模数据集的缺乏。现有的视频问答（VideoQA）数据集往往依赖于成本高昂且粒度不足的手动标注，或者使用会产生冗余帧分析的自动构建方法，这限制了它们在复杂推理任务中的可扩展性和有效性。为了解决这些挑战，我们提出了VideoEspresso，这是一个新的数据集，它包含保留了关键空间细节和时间连贯性的VideoQA对，以及中间推理步骤的多模态标注。我们的构建流程采用了一种语义感知的方法来减少冗余，并通过GPT-4o生成QA对。此外，我们开发了视频思维链（CoT）标注以丰富推理过程，指导GPT-4o从QA对和视频内容中提取逻辑关系。

为了充分利用高质量的VideoQA对，我们提出了一种混合LVLM协作框架，该框架包括一个帧选择器和一个两阶段指令微调推理LVLM。此框架能够自适应地选择核心帧，并利用多模态证据进行CoT推理。在我们提出的基准测试中，与9种流行的LVLM相比，在14项任务上，我们的方法在大多数任务上优于现有基线，展示了卓越的视频推理能力。

论文: https://arxiv.org/pdf/2411.14794

2. EfficientViM: Efficient Vision Mamba with Hidden State Mixer based State Space Duality

LLM合集：港大利用GPT-4o生成QA对，打造大规模多模态视频思维链（COT）数据集-AI.x社区

在资源受限环境中部署神经网络时，先前的工作构建了轻量级架构，分别使用卷积和注意力机制来捕捉局部和全局依赖关系。最近，状态空间模型（SSM）作为一种有效的全局token交互方式出现，其在token数量上的计算成本呈线性增长，具有明显优势。然而，基于SSM构建的高效视觉骨干网络研究较少。在本文中，我们提出了一种名为Efficient Vision Mamba (EfficientViM)的新架构，该架构基于隐藏状态混合器的状态空间二元性（HSM-SSD），能够以更低的计算成本高效地捕捉全局依赖关系。在HSM-SSD层中，我们重新设计了之前的SSD层，使得可以在隐藏状态内执行通道混合操作。此外，我们提出了多阶段隐藏状态融合方法，进一步增强隐藏状态的表示能力，并提供了一种缓解由内存限制操作引起瓶颈的设计。

结果表明，EfficientViM系列在ImageNet-1k上达到了新的速度-精度平衡，相比第二优秀的模型SHViT，性能提高了0.7%，同时运行速度更快。另外，在图像缩放或采用蒸馏训练时，与之前的工作相比，我们在吞吐量和准确率方面都观察到了显著提升。

论文: https://arxiv.org/pdf/2411.15241

3. SALOVA: Segment-Augmented Long Video Assistant for Targeted Retrieval and Routing in Long-Form Video Analysis

LLM合集：港大利用GPT-4o生成QA对，打造大规模多模态视频思维链（COT）数据集-AI.x社区

尽管大型多模态模型取得了进展，但在处理长且未经剪辑的视频内容时仍面临挑战，主要原因是上下文长度的限制和巨大的内存开销。这些限制往往导致信息丢失严重，并降低了模型响应的相关性。随着网络平台上视频数据的指数级增长，理解长视频对于推进通用智能至关重要。在本文中，我们介绍了SALOVA（段增强长视频助手）：一种新颖的视频-大语言模型框架，旨在通过有针对性的检索过程增强对长视频内容的理解。

为实现这一目标，我们解决了两个主要挑战：

我们发布了SceneWalk数据集，这是一个高质量的87,800个长视频集合，每个视频都在片段级别进行了密集标注，以使模型能够捕捉场景连续性并保持丰富的描述性上下文。

我们的框架通过允许精确识别和检索与查询相关的视频片段，从而缓解了当前视频-大语言模型的局限性，提高了生成响应的上下文相关性。通过广泛的实验，SALOVA展示了在处理复杂长视频方面的增强能力，显著提升了在长时间序列中保持上下文完整性的能力。

论文: https://arxiv.org/pdf/2411.16173

4. Edit Away and My Face Will not Stay: Personal Biometric Defense against\n Malicious Generative Editing

LLM合集：港大利用GPT-4o生成QA对，打造大规模多模态视频思维链（COT）数据集-AI.x社区

扩散模型的最新进展使得生成式图像编辑变得更加容易，这虽然促进了创意编辑，但也引发了伦理问题，尤其是在涉及恶意修改人像时，这些修改可能威胁到个人隐私和身份安全。现有的保护方法主要依赖于对抗性扰动来抵消编辑效果，但往往难以应对多样化的编辑请求。我们提出了一种名为FaceLock的新方法，通过优化对抗性扰动来破坏或显著改变生物特征信息，使编辑后的输出在生物特征上无法识别。FaceLock将面部识别和视觉感知集成到扰动优化过程中，以提供对各种编辑尝试的强健保护。

我们还指出了常用评估指标中的缺陷，并揭示了它们如何被操纵，强调了需要可靠的保护评估方法。实验表明，FaceLock在抵御恶意编辑方面优于基线方法，并且对净化技术具有鲁棒性。消融研究证实了其稳定性和在基于扩散的编辑算法中的广泛适用性。我们的工作推进了生物特征防御，并为图像编辑中的隐私保护实践奠定了基础。

论文: https://arxiv.org/pdf/2411.16832

本文转载自 AI-PaperDaily，作者： AI-PaperDaily

标签

LLM

GPT-4o