UC伯克利：给大模型测MBTI，Llama更敢说但GPT-4像理工男-51CTO.COM

那么，LLM究竟有没有「性格」这种维度的特征？最近加州大学伯克利分校发表的新研究VibeCheck就证实了这种推测。

论文地址：https://arxiv.org/abs/2410.12851

如何更全面地评价大模型在撰写故事、解释概念或编辑文章上的表现？当前的基准测试大多只关心正确性，然而当我们评论一个人类写作者的时候，关注的维度就会扩展到创造力、写作风格等众多维度。

对于那些经常使用不同模型的用户，他们早已熟悉不同模型回复时表达方式上的差异，比如下面这张图中，ChatGLM的文字显得非常全面且严谨，透着浓浓的学术风。

但对于同一个问题，kimi的回复会包含更多具体的例子，但解释的语言更为简洁。

了解这些差异，对于那些使用基座大模型进行下游应用的开发者，会有所帮助。

例如，若我们发现Llama的回复更加友好，那么说明Llama更适合进行客服类任务，而回复更为正式的Claude则更适合编程类任务。

然而该如何系统性地了解这些差异？自然是「用魔法战胜魔法」，也就是用大模型来评价不同大模型的表现，而这正是VibeCheck在做的事。

下图展示了VibeCheck的核心模块，包括给出提示词、不同大模型做出回复，以及定性评价三部分。

VibeCheck的核心模块

给出了一组约200个的提示词后，研究者收集了不同大模型及人类的回复，并招募了200名人类评审员，两两比较这些回复并对「友好性」进行打分后计算平均分。

此外，人类评审员还会对大模型和人类回复的细微差异进行描述，例如，他们发现：

除了人类评审员，VibeCheck还调用了GPT-4o mini来评价不同大模型的回复，结果发现与人类的评估结果相符。也就是说，GPT-4o mini也能发现上述人类评审员总结的细微差异。

下面是VibeCheck考察的10个评估维度，包括

有了VibeCheck，你可以给出自己定义的问题以及不同大模型的回复，之后由代码自动生成多维度的评估，具体可参考论文附带的GitHub仓库。

仓库地址：https://github.com/SutekhVRC/VibeCheck

接下来看看三种主流大模型：Llama-3-70B、GPT-4和Claude3-Opus之间的对比。

在使用众包及游戏排位赛的大模型评价平台Chatbot Arena上，Llama3的表现被认为优于GPT-4及Claude3。但经由VibeCheck的评估可发现，其中另有玄机。

结果发现，Llama3更愿意参与敏感或暴力话题，对伦理的重视较少，回复更加具有对话性（例如使用更多的你，我这样人称代词）和幽默感，而这些正是Chatbot Arena的用户所关注的特征.正因为人机偏好对齐做得好，Llama3才能获得这样的好评。

接下来，VibeCheck还考察了文本摘要生成、数学及描述图片这三个具体应用中不同大模型的差异，并根据这些差异解释了为何用户对不同大模型存在偏好。

例如，Command X和TNLG是两个用于文本摘要/总结生成的大模型，然而经过VibeCheck的拆解，可发现：

1）Command X通常明确陈述引言和结论，TNLG则使用断断续续的句子

2）Command X能提供具体例子或轶事来说明观点

3）Command X能够捕捉到一个故事的多重视角和情感方面，TNLG则更客观

这些特征决定了，相比TNLG，人类评审员会更加偏好Command X。与此同时，VibeCheck能够分别以71.29%的和61.42%的准确率预测模型在前述10个维度的PK结果和人类评审员的评价。

而在数学问题上，Llama-405B的回复相比GPT-4o更加详细，对解题步骤的讲解巨细靡遗，而GPT-4偏向于使用如Latex这样的正式符号。

然而，在数学相关问题上，用户偏向于使用正式的语气并频繁使用符号，对大模型思维过程的过度解释与人类偏好呈负相关。

VibeCheck能够以97.09%的准确率预测模型在上述10个维度上的对决结果，并以72.79%的准确率预测用户偏好。

在描述图像的任务中，研究发现GPT-4V更多使用诗意的语言，并将标题结构为一个动态故事，推断图像中主体的个性和情感，而Gemini则坚持更直白的描述。

VibeCheck能够实现接近完美的99.13%模型匹配准确率（相比人类给出的评价）和89.02%偏好预测准确率

随着大模型的应用范围越来越广，距离我们的日常生活越来越近，我们会不自觉地将大模型拟人化，而人是会具有个性的。

虽然VibeCheck更多关注文字相关的任务，但未来可以使用类似的框架，去评价不同的文生图及文生视频模型，考察这些模型的产出是否也存在微妙的「个性」差异。

搞清楚这些差异，就相当于开发了一条全新的蓝海赛道，让当下纯粹卷模型准确性的大模型厂商有了差异化竞争的可能，从而让各种性格的大模型得以百花齐放。

而基于大模型开发具体应用的开发者，也可以关注不同大模型在语气、氛围上的细微差异，选择合适自己应用场景的大模型，或者通过微调，让大模型在某项指标上有所改进。

例如可以根据VibeCheck的评价结果改进得到更幽默的大模型，而不必招募人类评审员。

更关键的是，通过VibeCheck具体的拆解，我们可发现，用户对不同任务的偏好存在差异。

例如在回答人文类的问题时，更具有对话感、语气更友好的大模型受欢迎；而在解答数学问题时，回答简洁且语气正式的大模型用户评价更高。

这样细致的拆解，能够让我们更好地进行人机偏好对齐，从而让大模型能更贴心地为人类服务。