鸿蒙开发者社区

公众号矩阵

移动端

视频课免费课排行榜短视频直播课软考学堂

全部课程软考信创认证华为认证厂商认证 IT技术 PMP项目管理免费题库

文章资源问答课堂专栏直播

51CTO

鸿蒙开发者社区

51CTO技术栈

51CTO官微

51CTO学堂

51CTO博客

CTO训练营

鸿蒙开发者社区订阅号

51CTO软考

51CTO学堂APP

51CTO学堂企业版APP

鸿蒙开发者社区视频号

51CTO软考题库

AI.x社区

登录/注册
51CTO

中国优质的IT技术网站

51CTO博客

专业IT技术创作平台

51CTO学堂

IT职业在线教育平台

Meta开源用于数学等复杂推理AI Agent—HUSKY

发布于 2024-7-29 08:59

浏览

0收藏

Meta、华盛顿大学和阿伦AI实验室的研究人员联合开源了，专用于数学、表格等复杂推理的AI Agent—HUSKY。

与传统AI Agent不同的是，HUSKY采用了一个统一的行动空间，无论是数值计算、表格分析还是基于知识的推理，都能够通过一系列预定义的自动化行动来完成。这种统一性极大提升了AI Agent的泛化能力，使其能够跨领域解决多种难题。

此外，HUSKY还使用了一种迭代推理的方法，通过在行动生成和执行之间不断迭代，可以像人类那样分层次地拆解、解决难题，在处理超复杂任务时非常高效。

开源地址：https://github.com/agent-husky/Husky-v1

论文地址：https://arxiv.org/abs/2406.06469

Meta开源用于数学等复杂推理AI Agent—HUSKY-AI.x社区

行动生成相当于HUSKY的“大脑”。在这一阶段，行动生成器作为核心组件，承担着预测任务解决过程中下一步行动的部署计划。它接收输入的问题和已有的解决方案历史，通过精准的预测，确定接下来需要采取的步骤和相应的工具。

在预测过程中主要借鉴了GPT-4使用的"few-shot prompting"技术，无需额外训练就能帮助HUSKY能够通过少量示例快速学习并适应新任务。

Meta开源用于数学等复杂推理AI Agent—HUSKY-AI.x社区

完成行动部署后，HUSKY便开始进入执行阶段，通过一些特定的专家模型来执行具体任务。这些专家模型，包括代码生成器、数学推理器、查询生成器和常识推理器，分别对应不同的业务需求，相当于HUSKY的工具箱。

例如，当面临数值计算任务时，代码生成器将生成代码片段，由代码解释器执行；而在需要检索信息时，查询生成器则生成搜索查询，由搜索引擎执行来获取所需知识；需要执行复杂的微积分、几何、代数等复杂难题时，数学推理器便开始执行。

Meta开源用于数学等复杂推理AI Agent—HUSKY-AI.x社区

HUSKY不仅体现在单个模块的能力上，更在于模块间的协调与合作。行动生成器需要理解问题需求，预测出合理的行动和工具使用顺序；而专家模型则需精确执行这些行动，并将结果反馈给行动生成器。这种紧密的协作是HUSKY解决复杂问题的关键。

也就是说，HUSKY的行动生成与执行是一个不断迭代、反馈的闭环，在执行的过程中协同工作，不断生成和执行行动，同时更新解决方案状态。

Meta开源用于数学等复杂推理AI Agent—HUSKY-AI.x社区

这一迭代过程持续进行，直到行动生成器在解决方案历史中识别出最终答案，HUSKY便达到终端状态并返回最终结果。

研究人员对HUSKY在不同类型推理任务上的进行综合测试，包括数值推理、表格推理、知识基础推理以及混合工具推理任务等。

结果显示，在数值推理任务中，HUSKY展现出了卓越的推理和泛化能力，成功处理了从基础数学问题到高难度的竞赛数学题，涵盖了GSM-8K、MATH、Google DeepMind Mathematics和MathQA等数据集。

Meta开源用于数学等复杂推理AI Agent—HUSKY-AI.x社区

在表格推理任务中，HUSKY同样表现出色。成功处理了TabMWP、FinQA、TAT-QA和MultimodalQA等数据集。在HotpotQA、CWQ、Musique、Bamboolge和StrategyQA等数据集上，HUSKY同样展现了卓越的数据检索和查询能力。

本文转自 AIGC开放社区，作者：AIGC开放社区

原文链接:https://mp.weixin.qq.com/s/5JFaIPLXhCfbih_Fj4Y5Ug?poc_token=HCXppmajfgH3au-3iiBhjHJE_d24l_yGJqI87sdK

标签

赞

收藏

回复

举报

回复

相关推荐

Meta等最新研究：多token预测，提升大模型推理效率

Aceryt • 4179浏览 • 0回复
电子科大、同济大学、新加坡国立大学等发表的Math-LLaVA：引导多模态大语言模型的数学推理能力

sbf_2000 • 5237浏览 • 0回复
语言模型的神秘面纱：小学数学与隐含推理过程

sbf_2000 • 2407浏览 • 0回复
用于复杂RAG任务的先进可控Agent

PaperAgent • 2844浏览 • 0回复
OpenAI 发布新模型 o1，能够推理复杂任务，在科学、编程和数学等领域更牛

AI洞察Insight • 2702浏览 • 0回复
Agent工作流记忆 - 让AI助手更聪明地完成复杂任务

芝士AI吃鱼 • 3518浏览 • 0回复
AI数学天才还是数字骗子？GSM-Symbolic揭秘大语言模型的数学推理能力

sbf_2000 • 2583浏览 • 0回复
StaR ｜用少量推理数据让模型学会通用推理能力，显著提升模型复杂推理

arnoldzhw • 3492浏览 • 0回复
使用MCTS显著提升LLM在复杂任务的推理能力

arnoldzhw • 6841浏览 • 0回复
基于 AI Agent 智能体架构落地复杂问答系统的案例设计与实践

玄姐聊AGI • 5670浏览 • 0回复
混合RAG系统，提升复杂推理任务表现

大模型自然语言处理 • 2627浏览 • 0回复
Meta AI 发布 Llama Guard 3-1B-INT4：用于人机对话的紧凑型高性能 AI 审核模型

Halo咯咯 • 2933浏览 • 0回复
Meta开源BLT算法！

NLP前沿1 • 2415浏览 • 0回复
从0到1开发AI Agent | Plan-and-Execute 如何解决AI复杂任务

AI取经路 • 4592浏览 • 0回复
2025 年 10 大 AI 方向：高效推理、多模态等

云原生AI百宝箱 • 3423浏览 • 0回复
比GraphRAG更懂“思考”，微软又开源PIKE-RAG：主打复杂私域知识理解和推理

PaperAgent • 5284浏览 • 0回复
“RAG界的DeepSeek”开源-企业复杂私域知识理解与推理框架PIKE-RAG

大模型自然语言处理 • 2921浏览 • 0回复
斯坦福等开源代码定位AI Agent，极大提升开发、维护效率

Aceryt • 1821浏览 • 0回复
数学推理的 AI 新突破：NVIDIA 的 OpenMath-Nemotron 系列震撼登场！

Halo咯咯 • 1886浏览 • 0回复

这个用户很懒，还没有个人简介

帖子

声望

粉丝

关注

最近发布

刚刚，OpenAI发布GPT-image-1模型，更强吉卜力版本来啦 2025-04-24 09:57:36发布
字节跳动开源多模态AI Agent—UI-TARS-1.5 2025-04-23 11:55:00发布

热门推荐

从原理到调参，小白也能读懂的大模型微调LoRA，不懂线性代数也没问题 0回复

本命周！MiniMax M1有多猛？网友：仅用40k思考预算就干翻Gemini，实测：真·超DS！ 1回复

AI Agents开源工具栈全解析~ 0回复

我把DeepSeek微调参数扒光了，显存和性能优化的秘密都在这 0回复

效果&成本双突破！快手提出端到端生成式推荐系统OneRec！ 0回复

上一篇： OpenAI发布最新大模型安全对齐奖励方法——RBR

下一篇：杀疯了！Meta开源SAM-2：可商用，随意分割视频、图像

社区精华内容

目录

Copyright © 2005-2025 51CTO.COM 京ICP证060544版权所有未经许可请勿转载