迈向视觉大一统:UnifiedReward,多模态生成与理解的通用奖励模型

人工智能 新闻
近年来,大模型时代的多模态生成与理解技术取得了飞跃式发展。然而,如何让AI真正“看懂”世界,并更好地对齐人类偏好,仍是一个核心挑战。

本篇文章来自公众号粉丝投稿,论文提出了一个视觉领域通用的奖励模型UnifiedReward,能够对图像/视频的生成与理解进行pairwise(成对比较)或 pointwise(单样本打分)评估,可用于视觉各领域的直接偏好优化 (DPO),提升各类视觉模型的表现。

论文介绍

图片

近年来,大模型时代的多模态生成与理解技术取得了飞跃式发展。然而,如何让AI真正“看懂”世界,并更好地对齐人类偏好,仍是一个核心挑战。现有的奖励模型往往过于专门化,难以跨任务泛化,限制了视觉模型在不同场景下的适应性。

为此,该工作提出——UnifiedReward,首个统一的视觉奖励模型,能够同时评估图像/视频的生成与理解,支持成对排序(pairwise ranking)和单样本评分(pointwise scoring),并通过直接偏好优化(DPO)对齐视觉模型的输出,使其更符合人类审美与认知!图片

为什么需要 UnifiedReward?

  • 缺乏通用的视觉奖励模型:现有方法多为特定任务设计,难以适应多样化的视觉场景。我们希望打造一个通用模型,同时覆盖多模态生成与理解任务。
  • 多任务学习的协同增强效应: 提升图像理解,有助于更精准地评估图像生成质量; 更细粒度的图像评估能力,有助于视频评估,提升帧级质量判断。图片

🏗 UnifiedReward 是如何工作的?

图片

该方法包含三个关键阶段:

  1. 统一奖励模型训练 通过构建大规模的统一偏好数据集来训练一个通用的视觉奖励模型,采用成对排序和单样本评分策略,统一学习评估图像/视频的生成与理解任务。
  2. 高质量偏好数据构建 利用训练好的奖励模型,通过以下三步筛选偏好数据:
  • 生成候选数据:使用VLM/Diffusion 生成N 份数据;
  • 成对排序:将N 份数据两两成对,由奖励模型筛选优选样本和被拒样本;
  • 逐点评分:在优选组中选最高分,在被拒组中选最低分,构建最终的高质量偏好数据对。
  1. 生成/理解模型偏好对齐 利用构建的偏好数据,通过直接偏好优化(DPO)微调VLM/Diffusion模型,对齐其输出,使其更加符合人类偏好。

构造的大规模统一偏好数据集构造的大规模统一偏好数据集

实验结果如何?

 UnifiedReward 超越了现有视觉奖励模型,在多个主流评测基准上取得 SOTA 结果! ✅ 多任务学习带来了显著的跨任务增强效果:联合学习图像/视频的生成与理解任务,可以让模型在多个领域相互促进,取得更好的评估效果! ✅ DPO 微调显著提升了视觉模型的表现,使其输出更符合人类偏好,提升了生成质量与理解能力。图片

图片图片图片

开源与项目地址

UnifiedReward 的代码、数据与模型已全面开源!

  • 项目主页:https://codegoat24.github.io/UnifiedReward/
  • 论文 PDF:https://arxiv.org/pdf/2503.05236
  • GitHub 代码:https://github.com/CodeGoat24/UnifiedReward
  • Huggingface 预训练模型:https://huggingface.co/collections/CodeGoat24/unifiedreward-models-67c3008148c3a380d15ac63a
  • Huggingface 训练数据:https://huggingface.co/collections/CodeGoat24/unifiedreward-training-data-67c300d4fd5eff00fa7f1ede

期待 UnifiedReward 能为视觉大模型的偏好对齐提供更强大的工具,拓宽奖励模型的应用边界,使其在多种视觉任务中展现更强适应性、泛化性与高效性!!

责任编辑:张燕妮 来源: AIGC Studio
相关推荐

2023-05-10 14:58:06

开源模型

2024-08-26 07:40:00

AI训练

2024-01-24 09:24:19

自动驾驶算法

2017-12-15 17:14:10

云端

2023-09-14 09:44:29

2015-05-06 13:52:52

微软外媒

2014-07-29 13:25:43

WWDC 2014 S

2024-04-25 14:53:59

模型视觉

2020-12-13 13:40:22

健康码移动应用

2015-07-30 12:27:30

重邮华为

2023-09-19 09:22:54

数据训练

2024-12-10 09:49:53

2012-02-28 09:54:01

Windows 8微软账户

2024-09-27 17:58:26

2025-03-18 09:29:54

2024-04-23 13:38:00

AI数据

2023-07-17 08:03:03

Shell脚本SQL

2023-07-22 13:17:33

人工智能框架

2025-02-03 12:16:01

视频生成AI

2023-03-13 13:40:20

机器学习AI
点赞
收藏

51CTO技术栈公众号