本篇文章来自公众号粉丝投稿,论文提出了一个视觉领域通用的奖励模型UnifiedReward,能够对图像/视频的生成与理解进行pairwise(成对比较)或 pointwise(单样本打分)评估,可用于视觉各领域的直接偏好优化 (DPO),提升各类视觉模型的表现。
论文介绍
近年来,大模型时代的多模态生成与理解技术取得了飞跃式发展。然而,如何让AI真正“看懂”世界,并更好地对齐人类偏好,仍是一个核心挑战。现有的奖励模型往往过于专门化,难以跨任务泛化,限制了视觉模型在不同场景下的适应性。
为此,该工作提出——UnifiedReward,首个统一的视觉奖励模型,能够同时评估图像/视频的生成与理解,支持成对排序(pairwise ranking)和单样本评分(pointwise scoring),并通过直接偏好优化(DPO)对齐视觉模型的输出,使其更符合人类审美与认知!
为什么需要 UnifiedReward?
- 缺乏通用的视觉奖励模型:现有方法多为特定任务设计,难以适应多样化的视觉场景。我们希望打造一个通用模型,同时覆盖多模态生成与理解任务。
- 多任务学习的协同增强效应: 提升图像理解,有助于更精准地评估图像生成质量; 更细粒度的图像评估能力,有助于视频评估,提升帧级质量判断。
🏗 UnifiedReward 是如何工作的?
该方法包含三个关键阶段:
- 统一奖励模型训练 通过构建大规模的统一偏好数据集来训练一个通用的视觉奖励模型,采用成对排序和单样本评分策略,统一学习评估图像/视频的生成与理解任务。
- 高质量偏好数据构建 利用训练好的奖励模型,通过以下三步筛选偏好数据:
- 生成候选数据:使用VLM/Diffusion 生成N 份数据;
- 成对排序:将N 份数据两两成对,由奖励模型筛选优选样本和被拒样本;
- 逐点评分:在优选组中选最高分,在被拒组中选最低分,构建最终的高质量偏好数据对。
- 生成/理解模型偏好对齐 利用构建的偏好数据,通过直接偏好优化(DPO)微调VLM/Diffusion模型,对齐其输出,使其更加符合人类偏好。
构造的大规模统一偏好数据集
实验结果如何?
UnifiedReward 超越了现有视觉奖励模型,在多个主流评测基准上取得 SOTA 结果! ✅ 多任务学习带来了显著的跨任务增强效果:联合学习图像/视频的生成与理解任务,可以让模型在多个领域相互促进,取得更好的评估效果! ✅ DPO 微调显著提升了视觉模型的表现,使其输出更符合人类偏好,提升了生成质量与理解能力。
开源与项目地址
UnifiedReward 的代码、数据与模型已全面开源!
- 项目主页:https://codegoat24.github.io/UnifiedReward/
- 论文 PDF:https://arxiv.org/pdf/2503.05236
- GitHub 代码:https://github.com/CodeGoat24/UnifiedReward
- Huggingface 预训练模型:https://huggingface.co/collections/CodeGoat24/unifiedreward-models-67c3008148c3a380d15ac63a
- Huggingface 训练数据:https://huggingface.co/collections/CodeGoat24/unifiedreward-training-data-67c300d4fd5eff00fa7f1ede
期待 UnifiedReward 能为视觉大模型的偏好对齐提供更强大的工具,拓宽奖励模型的应用边界,使其在多种视觉任务中展现更强适应性、泛化性与高效性!!