《自然》科学报告：大模型在社会情境判断方面可以胜过人类

发布于 2024-11-13 14:49

浏览

0收藏

大模型在许多任务上表现优异，但是它们在社交情境中的判断能力仍是一个亟待解答的问题。社会情境判断不仅涉及对情境的理解，还包括适应和回应他人行为的能力。11 月 10 日《自然》科学报告子刊发布文章《Large language models can outperform humans in social situational judgments》，研究的目的正是为了探讨 LLM 能否在这方面与人类匹敌甚至超越人类。这项研究通过情境判断测试（SJT）对多款聊天机器人的表现进行了评估，并将其与人类参与者的表现进行了对比，试图回答这一关键问题。

在这项研究中，研究团队选择了五款广泛使用的聊天机器人：Microsoft Copilot、ChatGPT、Claude、Google Gemini 和 you.com 的智能助手。这些机器人均能够处理自然语言并生成文本响应。在测试过程中，研究团队严格控制变量，确保每次测试的对话上下文不影响结果，从而保证了实验的严谨性和科学性。

研究团队隶属于德国航空航天中心（DLR）的航空与空间心理学部门，具体归属于位于汉堡的航空航天医学研究所。团队成员包括 Justin M. Mittelstädt、Julia Maier、Panja Goerke、Frank Zinn 和 Michael Hermes。他们在航空与航天心理学领域有着丰富的研究经验，致力于提升航空航天环境中与心理学相关的各类问题和能力。此次研究利用他们在心理学测评和人工智能领域的专业知识，深入探讨了LLM在复杂社交情境中的潜力。

本次研究的数据和代码部分可供审阅和验证，以确保结果的透明性和可重复性。对于第一部分分析（包括人类和 AI 的响应及整体得分）的代码和数据，可通过 PsychArchives 的审稿人链接获取。链接地址为 PsychArchives（https://pasa.psycharchives.org/reviewonly/3c765f33df7a70fb3a7c3470d701003445254d19c4a8546404fdafca5da7cfc9）。

由于涉及数据的隐私和保密性，第二部分分析的数据无法公开获取。如果需要此部分数据，可以直接联系 Thomas Gatzka（专家评分）或通讯作者（LLM 评分）进行请求。这一流程确保了数据的合法和合规使用，同时也为进一步的研究提供了必要的支持。

通过提供数据和代码的获取方式，研究团队希望促进学术界的开放和合作，使得更多研究人员能够基于此研究进行后续工作，从而推动人工智能和心理学领域的进一步发展。

方法

情境判断测试（SJT）是本次研究的核心工具之一，用于评估个体在复杂社交情境中的决策和判断能力。SJT 是一种标准化的心理测量工具，通过模拟现实中的社交场景，提供一系列可能的行为选项，要求参与者选择最适当和最不适当的行为。这种测试广泛应用于心理学研究和人员选拔，因其有效性和可靠性而备受认可。

本次研究使用的 SJT 包含十二个不同的情境，每个情境都提供四个预定义的行为选项。测试开发期间，109 名独立专家对这些行为选项的有效性进行了评分，确定了最佳和最差的应对方案作为评分基础。为了确保测试结果的客观性和有效性，研究团队选择了五款在自然语言处理和生成文本响应方面表现优异的聊天机器人：Microsoft Copilot、ChatGPT、Claude、Google Gemini 和 you.com 的智能助手。

每个聊天机器人都有其独特的特性和可能不同的超参数，尽管这些信息没有公开披露。为了保证可比性，研究团队将所有聊天机器人设置为默认模式，并在每次重新执行 SJT 问卷时启动新对话，以消除上下文对响应的影响。Microsoft Copilot 是基于 GPT-4 大型语言模型的聊天机器人，它能够在响应中包括当前的互联网搜索结果；OpenAI 的 ChatGPT 是基于 GPT-4o 大型语言模型，训练数据集包括大量文本和代码；Claude 由 Anthropic AI 开发，基于 Claude 3.5-Sonnet 大型语言模型，特别设计为安全、可靠并防止滥用；Google Gemini 由 Gemini 1.5-Pro 大型语言模型提供支持，能够搜索互联网并利用这些信息生成响应；You.com 的智能助手模型同样能够访问最新的互联网信息并将其整合到响应中。

在人类样本方面，研究团队选择了 276 名申请飞行员的参与者，这些参与者至少持有高中学历，并在情境判断测试中表现优异。大多数参与者为男性，年龄在 18 至 29 岁之间。本次研究遵循赫尔辛基宣言和欧洲心理学家联合会的模型伦理守则进行，所有参与者均被告知其数据将被匿名评估，并在知情同意的情况下自愿参与研究。此外整个飞行员选拔过程通过了 TÜV NORD CERT 的 ISO 9001 认证，要求遵守包括德国心理学会在内的法律和伦理标准。

在测试程序中，研究团队将 SJT 项目和说明输入到每个聊天机器人 API 的输入表单中，并记录每个 AI 的响应。为了确保聊天机器人不会由于记忆限制而忘记原始指令，研究团队在每个场景后重复了原始指令“请选择最佳和最差选项”。在某些情况下，聊天机器人未能提供明确的响应，研究团队提醒它们选择一个最佳选项和一个最差选项，从而解决了这一问题。

方法细节

情境判断测试（SJT）是本次研究中用于评估个体在复杂社交情境中的判断和决策能力的核心工具。SJT 通过模拟现实中的社交场景，要求参与者在一系列可能的行为选项中选择最适当和最不适当的行为。这种测试不仅能够评估个体的社交能力，还能预测其在真实生活中的社交行为表现。

研究团队使用了一个包含十二个情境的SJT，每个情境都提供四个预定义的行为选项。这些选项在测试开发过程中由109名独立专家进行了评分，确定了最佳和最差的应对方案。专家的平均年龄为50.4岁，平均有15.8年的团队发展顾问经验。他们对每个行为选项的有效性进行了五点量表的评分，以定义哪个选项是最好的应对行为（最高效）和哪个选项是最差的应对行为（最低效）。

一个示例情境是：你与一名团队成员在如何处理一个共同工作任务上发生了争论。在一次激烈但事实性的辩论中，你们双方都坚称自己的解决方案最好。在这种情况下，你应该做什么以及不应该做什么？例如，选项包括“建议请一名未参与的团队成员作为调解员”和“要求对方将讨论推迟到稍后时间”。

研究的另一部分包括对情境中每个行为选项的有效性进行评分。每个聊天机器人被要求对每个情境的每个选项进行1到10分的评分，这一过程重复了十次。随后，研究团队将这些平均有效性评分与专家评分进行相关性分析。

为了确保研究的严格性，研究团队采用了一系列统计分析方法。研究团队计算了每个模型在十次运行中的响应一致性，使用了Fleiss' Kappa来确定“AI内部可靠性”。然后为了比较AI模型和人类参与者在SJT上的总体表现，研究团队使用了单因素 Kruskall-Wallis 测试。由于人类样本数据中的正态性假设被违反，研究团队选择了非参数统计方法。对于显著的 Kruskall-Wallis 测试结果，研究团队进一步计算了事后成对 Wilcoxon 测试（使用 Bonferroni-Holm p 值校正），以比较人类参与者和AI模型之间的差异，以及各AI模型之间的差异。

结果

在本次研究中，情境判断测试（SJT）用于评估大型语言模型（LLM）与人类在复杂社交情境中的判断和决策能力。实验结果显示，LLM在SJT上的整体表现显著优于人类参与者。具体来说，Claude 3.5-Sonnet 获得了最高的平均得分（M=19.4，SD=0.66），紧随其后的是 Copilot（M=17.5，SD=1.36）和 you.com 的智能助手（M=16.8，SD=1.40），而 ChatGPT（M=14.5，SD=0.81）和 Gemini（M=13.9，SD=1.14）则表现稍逊。相比之下，人类参与者的平均得分为 M=14.2（SD=3.27）。