通过不断学习变得更好是现代人工智能的一大卖点。但上周发布的新研究表明,随着时间的推移,ChatGPT在某些任务上可能会变得越来越糟糕。
根据斯坦福大学和加州大学伯克利分校研究人员的论文初稿,在GPT-3.5和GPT-4的结果中检测到了相当大的漂移偏差,这两个OpenAI大型语言模型(LLM)是近期爆火的ChatGPT的基础。
三位研究人员(其中包括斯坦福大学助理教授Matei Zaharia,他是Databricks的联合创始人和Apache Spark的创始人,以及加州大学伯克利分校的Lingjiao Chen和James Zou)测试了两种不同版本的LLM:2023年3月和2023年6月的GPT-3.5及GPT-4。
研究人员在人工智能任务的试验台上运行了这四个模型,包括数学问题、回答敏感/危险问题、回答意见调查、回答多跳知识密集型问题、生成代码、美国医学执照考试和视觉推理。
结果显示LLM给出的答案有相当大的可变性。特别是,研究人员发现,GPT-4在6月份的数学问题回答中的表现比3月份的更差。使用思考链(COT)提示正确识别素数的准确率显示,GPT-4的准确率从3月份的84.0%下降到6月份的51.1%。与此同时,GPT-3.5在同一测试中的准确率从3月份的49.6%上升到6月份的76.2%。
作者思考了为什么GPT-4的准确性下降了这么多,观察到处理COT的行为是不同的。按照研究人员在COT提示下的要求,3月份的版本将任务分解为多个步骤。然而,6月份版本的GPT-4没有给出任何中间步骤或解释,只是将答案(错误地)生成为“否”。
第二道数学题也发现了类似的漂移水平:发现“快乐”数字(研究人员写道,“如果用数字的平方和代替整数最终产生1,则称为‘快乐’数字)。研究人员写道:他们“在这项任务中观察到了显著的性能漂移”,GPT-4的准确率从3月份的83.6%下降到了35.2%,六月GPT-3.5的准确率从30.6%上升到48.2%。再次观察到,GPT-4没有遵循研究人员发布的COT命令。
当研究人员向LLM提出敏感或危险的问题时,也观察到了变化。GPT-4回答问题的意愿随着时间的推移而下降,从3月份的21.0%上升到6月份的5.0%。相反,GPT-3.5变得更健谈,从2.0%上升到5.0%。研究人员得出结论,OpenAI在GPT-4中采用了“更强的安全层”,而GPT-3.5则变得“不那么保守”。
意见调查测试显示,GPT-4提交意见的可能性明显降低,从3月份的97.6%的回复率降至3月份的22.1%,而篇幅冗长(或字数)增加了近30个百分点。GPT-3.5的响应率和冗长程度几乎没有变化。
当涉及到回答需要“多跳推理”的复杂问题时,发现了性能上的显著差异。研究人员将LangChain的即时工程能力与HotpotQA Agent(用于回答多跳问题)相结合,并指出GPT-4在生成完全匹配的答案方面的准确率从1.2%提高到37.8%。然而,GPT-3.5的“精确匹配”成功率从22.8%下降到14.0%。
在代码生成方面,研究人员观察到,两个LLM的输出在可执行性方面都有所下降。GPT-4的输出在3月份有50%以上是直接可执行的,而在6月份只有10%,GPT-3.5也有类似的下降。研究人员发现,GPT开始在Python输出中添加非代码文本,如额外的标点。他们推断,额外的非代码文本是为了使代码更容易在浏览器中呈现,但它使代码不可执行。
GPT-4在美国医学执照考试中的表现略有下降,从86.6%降至82.4%,而GPT-3.5下降了不到1个百分点,降至54.7%。然而,GPT-4出错的答案随着时间的推移而变化,这表明随着3月份的一些错误答案得到纠正,但LLM也有从正确答案变为错误答案情况出现。
视觉推理测试发现,这两个模型都有小的改进。然而,总体准确率(GPT-4为27.4%,GPT-3.5为12.2%)并不高。研究人员再次观察到,模型对他们之前正确回答的问题产生了错误的答案。
研究人员写道,测试表明,GPT-3.5和GPT-4的性能和行为在短时间内发生了显著变化。
他们写道:“这突出了持续评估和评估应用程序中LLM漂移行为的必要性,尤其是ChatGPT等LLM是如何随时间更新的,这一点并不透明。”“我们的研究还强调了统一提高LLM多方面能力的挑战。提高模型在某些任务中的性能,例如对额外数据进行微调,可能会对在其他任务中的行为产生意想不到的副作用。与此一致的是,GPT-3.5和GPT-4在某些任务上都变得更差,但在其他方面都有所改善。”