百倍提升7B模型推理能力！颜水成团队携手新加坡南洋理工大学发布Q*算法

发布于 2024-6-26 09:42

浏览

0收藏

自OpenAI的Q项目曝光后，业内相关讨论始终层出不穷。据现有信息汇总，Q项目被视作OpenAI在探索人工通用智能（Artificial General Intelligence, AGI）道路上的一次重大尝试，有望在包括数学问题解决能力、自主学习和自我改进等多个层面对人工智能技术带来革新性突破。

百倍提升7B模型推理能力！颜水成团队携手新加坡南洋理工大学发布Q*算法-AI.x社区

（英伟达科学家Jim Fan、图灵奖得主Yann LeCun等参与讨论OpenAI的Q*实现方式）图片

百倍提升7B模型推理能力！颜水成团队携手新加坡南洋理工大学发布Q*算法-AI.x社区

（Meta科学家田渊栋则认为Q是Q-learning和A的结合，且天然地适合推理任务，尤其在数

学推理方面）

不过迄今为止OpenAI没有公开关于Q算法的具体细节，其效果究竟如何我们并不得而知。然而就在近日，一篇名为《Q: Improving Multi-step Reasoning for LLMs with Deliberative Planning》的论文在AI圈内引发了不小的震荡。

百倍提升7B模型推理能力！颜水成团队携手新加坡南洋理工大学发布Q*算法-AI.x社区

论文链接：https://arxiv.org/abs/2406.14283

论文中提出的Q算法不仅能够帮助小模型达到参数量比其大数十倍、甚至上百倍模型的推理能力，大幅提升了小模型的性能，还显著降低了计算资源的需求。

最值得关注的是，这篇论文竟然出自中国团队之手——由颜水成教授团队携手新加坡南洋理工大学团队共同发布！

根据实验结果，Q成功帮助现有开源模型在GSM8K、MATH和MBPP数据集上取得性能飞跃，评分分别超越了ChatGPT和Gemini Ultra。

百倍提升7B模型推理能力！颜水成团队携手新加坡南洋理工大学发布Q*算法-AI.x社区

（Q*在AI圈内引发热议）

百倍提升7B模型推理能力！颜水成团队携手新加坡南洋理工大学发布Q*算法-AI.x社区

（外网网友直呼「中国AI赶上来了！」）

在《Q*: Improving Multi-step Reasoning for LLMs with Deliberative Planning》论文中，研究人员首先将大语言模型的推理轨迹分解为若干个状态。

对于每一个状态，参考DeepCubeA中的设计，通过将定义Path Cost的g(s_t)函数和定义Accumulated Reward的Q*(s_t, a_t)集成到同一个f(s_t)函数内，实现了对历史状态收益和未来期望收益的综合考虑。

最后利用A搜索算法对状态进行最佳优先搜索，实现了对复杂推理任务的全盘规划，从而提升开源模型在推理任务上的性能。

百倍提升7B模型推理能力！颜水成团队携手新加坡南洋理工大学发布Q*算法-AI.x社区

其中g(s_t)表示当前轨迹中的多个历史状态，既{s1,...,s_t}，的聚合收益。

百倍提升7B模型推理能力！颜水成团队携手新加坡南洋理工大学发布Q*算法-AI.x社区

具体g(s_t)的函数形式可以通过人为定义，例如判断当前代码是否符合语法规则等，或者通过构建 Process Reward Model（PRM）进行监督学习得到；g(s_t)中的聚合方式可以为求和，最大值，最小值等。

百倍提升7B模型推理能力！颜水成团队携手新加坡南洋理工大学发布Q*算法-AI.x社区

为了获得状态-动作对(s_t, a_t)的最优Q值以实现规划，研究人员在当前LLM策略生成的数据上通过监督学习的方式训练了一个代理Q值模型Q。

百倍提升7B模型推理能力！颜水成团队携手新加坡南洋理工大学发布Q*算法-AI.x社区

实验结果表明，颜水成团队本次所提出的Q框架，可以显著地提升LLM的推理能力：

在GSM8K数据集上，Q帮助Llama-2-7b提升至80.8%的准确率，超越了ChatGPT；
在MATH数据集上，Q帮助DeepSeek-Math-7b提升至55.4%的准确率，超越了Gemini Ultra;
在MBPP数据集上，Q*帮助CodeQwen1.5-7b-Chat提升至77.0%的准确率，缩小了与GPT-4的编程水平差距。

百倍提升7B模型推理能力！颜水成团队携手新加坡南洋理工大学发布Q*算法-AI.x社区

研究证明，Q能够帮助参数量仅为7b的小模型达到参数量比其大数十倍甚至百倍模型的推理能力，大幅提升模型的性能，并显著降低了计算资源的需求。

颜水成团队表示，目前，Q的研究尚在初级阶段，算法在各个环节还有进一步的改进空间。未来，团队会继续深入此项研究，不断提升国产开源模型推理能力，打破OpenAI闭源封锁，为人工智能前沿技术发展带来全新可能。

本文转自新智元，作者：新智元

原文链接:https://mp.weixin.qq.com/s/5zaE62vFQg-v_gx2o6Dmdg

标签

模型

算法

相关推荐

华为诺亚频域LLM「帝江」：仅需1/50训练成本，7B模型媲美LLaMA，推理加速5倍

轻薄滴假象 • 2478浏览 • 0回复
谷歌DeepMind发布Gecko：专攻检索，与大7倍模型相抗衡

轻薄滴假象 • 1969浏览 • 0回复
7B超越百亿级，北大开源aiXcoder-7B最强代码大模型，企业部署最佳选择

轻薄滴假象 • 3921浏览 • 0回复
Meta无限长文本大模型来了：参数仅7B，已开源

轻薄滴假象 • 2372浏览 • 0回复
扩散模型中进行条件插值？AID:无需训练，保证一致、平滑和保真度(新加坡国立&南洋理工)

angel • 3977浏览 • 0回复
大模型参数量都是7B，13B和65B等背后的原因是什么？

Syrupup • 1.2w浏览 • 0回复
AlphaGo核心算法增强，7B模型数学能力直逼GPT-4，阿里大模型新研究火了

Crystalcxt • 2590浏览 • 0回复
大语言模型llama-2-7b推理服务实战

zhcs333 • 4114浏览 • 0回复
电子科大、同济大学、新加坡国立大学等发表的Math-LLaVA：引导多模态大语言模型的数学推理能力

sbf_2000 • 4210浏览 • 0回复
OpenAI o1模型推理能力大幅提升的背后：重复采样如何提升AI推理能力

Syrupup • 3070浏览 • 0回复
阿里巴巴达摩院、新加坡科技设计大学和南洋理工大学联合团队提升AI多步推理能力的新方法

xuxiangda • 2033浏览 • 0回复
Qwen开源强大、多样、实用的Qwen2.5-Coder系列（0.5B/1.5B/3B/7B/14B/32B）

Halo咯咯 • 3359浏览 • 0回复
Qwen2-VL (2B、7B、72B)：迄今为止最好的开源视觉模型！！（击败 Claude 和 GPT-4o）

老蛀虫 • 3590浏览 • 0回复
清华团队靠强化学习让 7B 模型打败 GPT-4o 数学推理

Aceryt • 1804浏览 • 0回复
基于CogVideoX-2B，视觉一致和语义对齐超越最新SOTA！南洋理工等发布RepVideo

angel • 1807浏览 • 0回复
1.8秒完成90帧视频重建，相比加速1000 倍!颜水成团队提出NutWorld:渲染速度可达450FPS

angel • 1828浏览 • 0回复
MedRAG：利用知识图谱引导推理提升医疗Copilot的RAG能力 - 新加坡南洋理工等

知识图谱科技 • 2777浏览 • 0回复
达摩院开源VideoLLaMA3：仅7B大小，视频理解拿下SOTA | 在线可玩

Crystalcxt • 1666浏览 • 0回复
千亿模型做不到的事，7B小模型实现了？阿里这次开源有点狠！

蜂耘网iphoneyun • 962浏览 • 0回复

穿越时空111

LV.3

这个用户很懒，还没有个人简介

觉得TA不错？点个关注精彩不错过

帖子

280

声望

粉丝

关注

51CTO

51CTO博客

51CTO学堂

百倍提升7B模型推理能力！颜水成团队携手新加坡南洋理工大学发布Q*算法