微软推出 “从错误中学习” 模型训练法,号称可“模仿人类学习过程,改善 AI 推理能力”

人工智能
研究人员的方法是使用一对包含“错误解答”与“修正后正确答案”的数据来微调相关模型。为取得相关数据,研究人员收集了 5 个不同大语言模型(包括 LLaMA 及 GPT 系列)的错误答案和推理过程,再以 GPT-4 作为“订正者”,提供修正后的正确答案。

IT之家 11 月 7 日消息,微软亚洲研究院联合北京大学、西安交通大学等高校,提出了一项名为“从错误中学习(Learning from Mistake,LeMA)”的 AI 训练方法,号称可以通过模仿人类学习知识的过程,来改进 AI 推理能力。

当下 OpenAI GPT-4 和谷歌 aLM-2 等大语言模型在自然语言处理(NLP)任务,及思维链(chain-of-thought,CoT)推理的数学难题任务中都有不错的表现。

但例如 LLaMA-2 及 Baichuan-2 等开源大模型,在处理相关问题时则有待加强。为了提升开源这些大语言模型的思维链推理能力,研究团队提出了 LeMA 方法。这种方法主要是模仿人类的学习过程,通过“从错误中学习”,以改进模型的推理能力

▲ 图源 相关论文

IT之家发现,研究人员的方法是使用一对包含“错误解答”与“修正后正确答案”的数据来微调相关模型。为取得相关数据,研究人员收集了 5 个不同大语言模型(包括 LLaMA 及 GPT 系列)的错误答案和推理过程,再以 GPT-4 作为“订正者”,提供修正后的正确答案。

据悉,修正后的正确答案中包含三类信息,分别是原推理过程中错误片段、原推理过程出错的原因、以及如何修正原方法以获得正确答案。

研究人员采用 GSM8K 及 MATH,来测试 LeMa 训练法对 5 个开源大模型的效果,结果显示,以改进过的 LLaMA-2-70B 为例,在 GSM8K 的准确率分别为 83.5% 及 81.4%,在 MATH 则分别为 25.0% 及 23.6%。

目前研究人员已将 LeMA 的相关资料公开在 GitHub 上,感兴趣的小伙伴们可以点此跳转

责任编辑:姜华 来源: IT之家
相关推荐

2023-11-15 14:17:23

微软语言模型AI 模型

2023-11-03 13:07:00

AI模型

2009-03-26 09:16:34

微软裁员职位

2023-12-17 19:38:37

谷歌AI 模型人工智能

2024-01-15 14:44:19

语言模型PaLMAI

2024-01-25 10:09:21

自动驾驶技术

2023-06-27 12:56:23

微软AI

2024-11-25 07:10:00

NumPro视频大模型AI

2024-01-19 09:10:25

微软AI阅读教练

2022-04-11 15:40:34

机器学习研究推理

2023-12-01 15:47:33

AI 模型

2023-06-16 13:37:00

AI学习

2021-03-31 08:35:40

人工智能AIFacebook

2020-07-23 18:00:32

人工智能AI

2021-05-10 11:25:12

计算机互联网 技术

2024-02-06 10:09:31

微软AI人工智能

2024-11-04 00:24:56

2024-11-26 09:33:44

2024-01-07 13:25:32

Go编程代码

2024-01-15 06:45:29

Go编程代码
点赞
收藏

51CTO技术栈公众号