ChatGPT也会“学习退步”？-51CTO.COM

通过不断学习变得更好是现代人工智能的一大卖点。但上周发布的新研究表明，随着时间的推移，ChatGPT在某些任务上可能会变得越来越糟糕。

根据斯坦福大学和加州大学伯克利分校研究人员的论文初稿，在GPT-3.5和GPT-4的结果中检测到了相当大的漂移偏差，这两个OpenAI大型语言模型（LLM）是近期爆火的ChatGPT的基础。

三位研究人员（其中包括斯坦福大学助理教授Matei Zaharia，他是Databricks的联合创始人和Apache Spark的创始人，以及加州大学伯克利分校的Lingjiao Chen和James Zou）测试了两种不同版本的LLM：2023年3月和2023年6月的GPT-3.5及GPT-4。

研究人员在人工智能任务的试验台上运行了这四个模型，包括数学问题、回答敏感/危险问题、回答意见调查、回答多跳知识密集型问题、生成代码、美国医学执照考试和视觉推理。

结果显示LLM给出的答案有相当大的可变性。特别是，研究人员发现，GPT-4在6月份的数学问题回答中的表现比3月份的更差。使用思考链（COT）提示正确识别素数的准确率显示，GPT-4的准确率从3月份的84.0%下降到6月份的51.1%。与此同时，GPT-3.5在同一测试中的准确率从3月份的49.6%上升到6月份的76.2%。

作者思考了为什么GPT-4的准确性下降了这么多，观察到处理COT的行为是不同的。按照研究人员在COT提示下的要求，3月份的版本将任务分解为多个步骤。然而，6月份版本的GPT-4没有给出任何中间步骤或解释，只是将答案（错误地）生成为“否”。

第二道数学题也发现了类似的漂移水平：发现“快乐”数字（研究人员写道，“如果用数字的平方和代替整数最终产生1，则称为‘快乐’数字）。研究人员写道：他们“在这项任务中观察到了显著的性能漂移”，GPT-4的准确率从3月份的83.6%下降到了35.2%，六月GPT-3.5的准确率从30.6%上升到48.2%。再次观察到，GPT-4没有遵循研究人员发布的COT命令。

当研究人员向LLM提出敏感或危险的问题时，也观察到了变化。GPT-4回答问题的意愿随着时间的推移而下降，从3月份的21.0%上升到6月份的5.0%。相反，GPT-3.5变得更健谈，从2.0%上升到5.0%。研究人员得出结论，OpenAI在GPT-4中采用了“更强的安全层”，而GPT-3.5则变得“不那么保守”。

意见调查测试显示，GPT-4提交意见的可能性明显降低，从3月份的97.6%的回复率降至3月份的22.1%，而篇幅冗长（或字数）增加了近30个百分点。GPT-3.5的响应率和冗长程度几乎没有变化。

当涉及到回答需要“多跳推理”的复杂问题时，发现了性能上的显著差异。研究人员将LangChain的即时工程能力与HotpotQA Agent（用于回答多跳问题）相结合，并指出GPT-4在生成完全匹配的答案方面的准确率从1.2%提高到37.8%。然而，GPT-3.5的“精确匹配”成功率从22.8%下降到14.0%。

在代码生成方面，研究人员观察到，两个LLM的输出在可执行性方面都有所下降。GPT-4的输出在3月份有50%以上是直接可执行的，而在6月份只有10%，GPT-3.5也有类似的下降。研究人员发现，GPT开始在Python输出中添加非代码文本，如额外的标点。他们推断，额外的非代码文本是为了使代码更容易在浏览器中呈现，但它使代码不可执行。

GPT-4在美国医学执照考试中的表现略有下降，从86.6%降至82.4%，而GPT-3.5下降了不到1个百分点，降至54.7%。然而，GPT-4出错的答案随着时间的推移而变化，这表明随着3月份的一些错误答案得到纠正，但LLM也有从正确答案变为错误答案情况出现。

视觉推理测试发现，这两个模型都有小的改进。然而，总体准确率（GPT-4为27.4%，GPT-3.5为12.2%）并不高。研究人员再次观察到，模型对他们之前正确回答的问题产生了错误的答案。

研究人员写道，测试表明，GPT-3.5和GPT-4的性能和行为在短时间内发生了显著变化。

他们写道：“这突出了持续评估和评估应用程序中LLM漂移行为的必要性，尤其是ChatGPT等LLM是如何随时间更新的，这一点并不透明。”“我们的研究还强调了统一提高LLM多方面能力的挑战。提高模型在某些任务中的性能，例如对额外数据进行微调，可能会对在其他任务中的行为产生意想不到的副作用。与此一致的是，GPT-3.5和GPT-4在某些任务上都变得更差，但在其他方面都有所改善。”