SEED-Bench:基于生成理解的多模态大语言模型基准测试(CVPR2024)
原创
摘要:基于强大的大语言模型(LLMs),最近的生成型多模态大语言模型(MLLMs)作为一个重要的研究领域,展示了在理解和生成方面的显著能力。在这项工作中,我们引入了一个名为SEEDBench的基准测试,以评估MLLMs的生成理解能力,作为对生成模型进行全面评估的初步步骤。SEEDBench包含19,000道多项选择题,配有精确的人类标注(是现有基准的6倍),涵盖了包括图像和视频模态理解在内的12个评估维度。我们开发了一个先进的流程,用...