MLLMs人类偏好增强对齐,自然图像和数据图表分离;视觉感知标记,模型自主决定感知内容
OmniAlignV:TowardsEnhancedAlignmentofMLLMswithHumanPreference20250225|SJTU,ShanghaiAILab,NJU,FDU,ZJU🔺54http:arxiv.orgabs2502.18411v1https:huggingface.copapers2502.18411https:github.comPhoenixZ810OmniAlignV研究背景与意义随着多模态大语言模型(MLLMs)的快速发展,现有的研究主要集中在提升模型的基础能力,如物体识别、OCR等,而在与人类偏好对齐方面存在显著差...