ChatGPT也会“学习退步”?

人工智能
通过不断学习变得更好是现代人工智能的一大卖点。但上周发布的新研究表明,随着时间的推移,ChatGPT在某些任务上可能会变得越来越糟糕。

通过不断学习变得更好是现代人工智能的一大卖点。但上周发布的新研究表明,随着时间的推移,ChatGPT在某些任务上可能会变得越来越糟糕。

根据斯坦福大学和加州大学伯克利分校研究人员的论文初稿,在GPT-3.5和GPT-4的结果中检测到了相当大的漂移偏差,这两个OpenAI大型语言模型(LLM)是近期爆火的ChatGPT的基础。

三位研究人员(其中包括斯坦福大学助理教授Matei Zaharia,他是Databricks的联合创始人和Apache Spark的创始人,以及加州大学伯克利分校的Lingjiao Chen和James Zou)测试了两种不同版本的LLM:2023年3月和2023年6月的GPT-3.5及GPT-4。

研究人员在人工智能任务的试验台上运行了这四个模型,包括数学问题、回答敏感/危险问题、回答意见调查、回答多跳知识密集型问题、生成代码、美国医学执照考试和视觉推理。

结果显示LLM给出的答案有相当大的可变性。特别是,研究人员发现,GPT-4在6月份的数学问题回答中的表现比3月份的更差。使用思考链(COT)提示正确识别素数的准确率显示,GPT-4的准确率从3月份的84.0%下降到6月份的51.1%。与此同时,GPT-3.5在同一测试中的准确率从3月份的49.6%上升到6月份的76.2%。

作者思考了为什么GPT-4的准确性下降了这么多,观察到处理COT的行为是不同的。按照研究人员在COT提示下的要求,3月份的版本将任务分解为多个步骤。然而,6月份版本的GPT-4没有给出任何中间步骤或解释,只是将答案(错误地)生成为“否”。

第二道数学题也发现了类似的漂移水平:发现“快乐”数字(研究人员写道,“如果用数字的平方和代替整数最终产生1,则称为‘快乐’数字)。研究人员写道:他们“在这项任务中观察到了显著的性能漂移”,GPT-4的准确率从3月份的83.6%下降到了35.2%,六月GPT-3.5的准确率从30.6%上升到48.2%。再次观察到,GPT-4没有遵循研究人员发布的COT命令。

当研究人员向LLM提出敏感或危险的问题时,也观察到了变化。GPT-4回答问题的意愿随着时间的推移而下降,从3月份的21.0%上升到6月份的5.0%。相反,GPT-3.5变得更健谈,从2.0%上升到5.0%。研究人员得出结论,OpenAI在GPT-4中采用了“更强的安全层”,而GPT-3.5则变得“不那么保守”。

意见调查测试显示,GPT-4提交意见的可能性明显降低,从3月份的97.6%的回复率降至3月份的22.1%,而篇幅冗长(或字数)增加了近30个百分点。GPT-3.5的响应率和冗长程度几乎没有变化。

当涉及到回答需要“多跳推理”的复杂问题时,发现了性能上的显著差异。研究人员将LangChain的即时工程能力与HotpotQA Agent(用于回答多跳问题)相结合,并指出GPT-4在生成完全匹配的答案方面的准确率从1.2%提高到37.8%。然而,GPT-3.5的“精确匹配”成功率从22.8%下降到14.0%。

在代码生成方面,研究人员观察到,两个LLM的输出在可执行性方面都有所下降。GPT-4的输出在3月份有50%以上是直接可执行的,而在6月份只有10%,GPT-3.5也有类似的下降。研究人员发现,GPT开始在Python输出中添加非代码文本,如额外的标点。他们推断,额外的非代码文本是为了使代码更容易在浏览器中呈现,但它使代码不可执行。

GPT-4在美国医学执照考试中的表现略有下降,从86.6%降至82.4%,而GPT-3.5下降了不到1个百分点,降至54.7%。然而,GPT-4出错的答案随着时间的推移而变化,这表明随着3月份的一些错误答案得到纠正,但LLM也有从正确答案变为错误答案情况出现。

视觉推理测试发现,这两个模型都有小的改进。然而,总体准确率(GPT-4为27.4%,GPT-3.5为12.2%)并不高。研究人员再次观察到,模型对他们之前正确回答的问题产生了错误的答案。

研究人员写道,测试表明,GPT-3.5和GPT-4的性能和行为在短时间内发生了显著变化。

他们写道:“这突出了持续评估和评估应用程序中LLM漂移行为的必要性,尤其是ChatGPT等LLM是如何随时间更新的,这一点并不透明。”“我们的研究还强调了统一提高LLM多方面能力的挑战。提高模型在某些任务中的性能,例如对额外数据进行微调,可能会对在其他任务中的行为产生意想不到的副作用。与此一致的是,GPT-3.5和GPT-4在某些任务上都变得更差,但在其他方面都有所改善。”

责任编辑:华轩 来源: Ai时代前沿
相关推荐

2023-02-27 14:55:54

技术研究

2022-12-08 08:16:59

ChatGPT开源商业化

2023-04-29 00:00:00

Chatgpt人工智能系统

2023-03-27 17:32:56

ChatGPT人工智能

2023-03-01 09:39:05

2022-08-17 08:17:01

SPI机制接口

2016-07-27 17:16:34

大数据媒体

2023-05-15 12:11:24

2024-05-10 08:44:25

ChatGPT模型GPT

2023-06-26 17:45:14

编程语言ChatGPTJavaScript

2024-04-02 11:13:10

2018-08-03 13:06:16

腾讯Facebook社交

2020-10-23 10:46:03

缓存雪崩击穿

2021-12-28 08:17:41

循环 forgo

2021-10-28 15:41:07

计算机AI 技术

2010-08-26 16:40:16

2012-12-13 09:58:24

隐私泄露禁止追踪

2024-06-07 09:19:00

AIjson字符串

2024-04-02 08:45:08

ChatGPTAI会议人工智能

2010-10-14 09:41:10

Windows Pho
点赞
收藏

51CTO技术栈公众号