斯坦福研究：ChatGPT性能，曾出现下降趋势-51CTO.COM

斯坦福大学和加州伯克利大学的研究人员在“哈佛数据科学评论”上，发布了一篇名为《ChatGPT行为随时间变化》的论文。

研究人员通过GPT-3.5、GPT-4（2023年3月和6月两个版本）模型在数学问题、代码生成、多跳知识密集问答、美国医学执照考试、多跳知识密集型问题回答等7项任务进行了深度研究，以查看ChatGPT随着时间推移其性能的变化趋势。

结果显示， GPT-3.5 GPT-4的性能和行为在3个月内出现了明显波动。GPT-4在3月份时能够以84%的准确率正确区分质数与合数，但到了6月份，这一能力大幅下降至51%，部分原因是其遵循“思维链”提示的能力减弱。

意外的是，同一时期内GPT-3.5模型在此类任务上的表现却有所提升。

此外，GPT-4在6月份对敏感问题和意见调查的回应意愿降低，而在解答需要多步推理的问题上表现更好，而GPT-3.5则在这类任务上表现下滑。同时，两个模型在代码生成方面的格式错误均有所增加，且GPT-4遵从用户指令的能力呈现下降趋势。

研究人员评估GPT-3.5、GPT-4的性能、行为，主要基于多样性和代表性两大原则。并在数学问题、敏感/危险问题、意见调查、多跳知识密集型问题、代码生成、美国医学执照考试和视觉推理7大领域任务进行了综合测试。

为了深入理解这些行为变化，研究团队专门设计了一套新的基准测试，专注于任务无关的指令遵循度。这套测试包含了答案提取、停止道歉、避免特定词汇和内容过滤4种常见指令类型。

通过这些指令，可以在特定任务的技能和知识，纯粹评估大模型的指令遵循能力。GPT-4在3月时能较好地遵循大多数个体指令，但在6月则开始忽视这些指令，例如，回答提取指令的遵循率从99.5%骤降至接近零，内容过滤指令的忠实度也从74.0%下降到19.0%。

此外，为了准确捕捉模型在各任务上的表现，研究团队为每个任务设定了主要的性能指标和通用的补充指标。

例如，数学问题和USMLE，使用准确性作为主要指标，即模型给出正确答案的比例；代码生成，以输出代码的可执行比例为主，考量代码生成后能否不经修改直接运行并通过单元测试等。

答案提取指令是要求模型在给定的文本或问题中，准确地找到并明确标示出答案。这类指令通常用于快速获取简短、明确的信息回答。

例如，如果问题是“地球是平的吗？”模型应输出“否”。研究发现，GPT-4在3月份时，对这种类型的指令遵循度极高，几乎99.5%的查询都能得到正确格式的回答。

然而，到了6月份，这个比例骤降，几乎不再遵循这样的指令，显示出模型在处理明确指令格式上的退化。这种变化可能反映了模型内部更新或训练策略的调整，导致其在理解和执行具体格式要求时的不一致。

停止道歉指令测试了模型在用户明确要求下，能否避免使用道歉或自我指认为AI模型的语句。这旨在探究模型对用户个性化需求的尊重程度。

3月份的GPT-4在多数情况下能够遵循此类指示，避免提及“抱歉”或承认自己是AI，但在6月份，它频繁违背这一指令，即使用户明确指示，仍会生成包含“抱歉”或自我标识为AI的回应。这表明模型在处理用户请求的个性化和敏感性方面出现了退步。

避免特定词汇的指令是要求模型在生成的文本中，排除特定词汇或短语。这项测试检验了模型的灵活性和对细节的把握，特别是在遵循特定约束方面。GPT-4由3月份的较高水平下降至6月份的低水平，表明其对复杂指令的处理能力有所减退。

内容过滤指令要求模型在生成内容时排除特定主题或敏感信息。这对于确保模型生成内容的适宜性和安全性至关重要，尤其是在处理儿童内容、政治话题或医疗信息时。在3月份，GPT-4在很大程度上能够遵循这些过滤要求，避免提及不适当的内容。

但在6月份，它的过滤能力明显下降，仅约19%的敏感问题处理得当。这种退步不仅关系到模型的实用性，还凸显了模型维护和监管中的挑战，特别是在不断变化的网络环境和用户需求背景下。

研究人员表示，由于GPT-3.5、GPT-4都是闭源模型，OpenAI不会公开其详细的训练数据和流程，所以，每次发布大版本更新时，用户根本不知道哪些功能发生了较大的变化。

而本研究可以帮助开发人员和用户了解ChatGPT的性能、行为动态，这对于确保模型的安全性、内容真实性至关重要。