鸿蒙开发者社区

WOT技术大会

公众号矩阵

移动端

短视频免费课程课程排行直播课软考学堂

全部课程软考华为认证厂商认证 IT技术 PMP项目管理免费题库

文章资源问答课堂专栏直播

51CTO

鸿蒙开发者社区

51CTO技术栈

51CTO官微

51CTO学堂

51CTO博客

CTO训练营

鸿蒙开发者社区订阅号

51CTO软考

51CTO学堂APP

51CTO学堂企业版APP

鸿蒙开发者社区视频号

51CTO软考题库

AI.x社区

登录/注册
51CTO

中国优质的IT技术网站

51CTO博客

专业IT技术创作平台

51CTO学堂

IT职业在线教育平台

SealTool：Agent微调与评测的开源项目（14k样本，4k工具），比ToolBench等更全面！

发布于 2024-5-17 14:12

浏览

0收藏

大型语言模型（LLMs）在多种任务中展现了强大的能力，研究者尝试将其作为代理，通过使用外部工具或插件帮助用户完成任务。为了提高LLMs的工具理解和使用能力，需要准备高质量的工具学习数据集。现有的工具学习数据集存在一些限制：例如工具数量有限、评估方法不精确或成本高昂。

提出了一种自指导（self-instruct）方法，通过LLMs生成工具和实例。该方法首先生成不同领域的工具，然后生成调用这些工具的实例，包括单工具实例和多工具实例。

数据集构建方法的流程图

SealTool：Agent微调与评测的开源项目（14k样本，4k工具），比ToolBench等更全面！-AI.x社区

工具模板：设计了工具模板，用于生成具有输入参数和输出响应的API样式工具。

Seal-Tools工具模板以及以“getTemperature”工具为例：

SealTool：Agent微调与评测的开源项目（14k样本，4k工具），比ToolBench等更全面！-AI.x社区

实例生成：生成实例包括用户查询和工具调用，通过多步骤生成并设置检查点以减少错误。

一些生成的字段/子字段和工具的示例：

SealTool：Agent微调与评测的开源项目（14k样本，4k工具），比ToolBench等更全面！-AI.x社区

单工具调用的实例模板

SealTool：Agent微调与评测的开源项目（14k样本，4k工具），比ToolBench等更全面！-AI.x社区

多工具嵌套调用的实例模板

SealTool：Agent微调与评测的开源项目（14k样本，4k工具），比ToolBench等更全面！-AI.x社区

设计了三个评估维度：输出格式、工具选择和工具参数填充，以进行详细评估。

Seal-Tools与几个工具学习数据集的比较。† 格式混乱。♣ 多步骤。

SealTool：Agent微调与评测的开源项目（14k样本，4k工具），比ToolBench等更全面！-AI.x社区

对几种流行的LLMs和微调模型在Seal-Tools上进行了评估，结果显示基于Seal-Tools微调的模型显示出很大的竞争力，但是当前的Agent系统在工具选择和参数填充方面仍有改进空间，Seal-Tools可以作为推动LLMs工具学习研究的新基准。。

SealTool：Agent微调与评测的开源项目（14k样本，4k工具），比ToolBench等更全面！-AI.x社区

SealTool：Agent微调与评测的开源项目（14k样本，4k工具），比ToolBench等更全面！-AI.x社区

https://arxiv.org/abs/2405.08355
Seal-Tools: Self-Instruct Tool Learning Dataset for Agent Tuning and Detailed Benchmark
https://github.com/fairyshine/Seal-Tools

本文转载自 PaperAgent，作者： PaperAgent

标签

赞

收藏

回复

举报

回复

相关推荐

开源版AI程序员来了：GPT-4加持，能力比肩Devin，一天1.4k Star

轻薄滴假象 • 2594浏览 • 0回复
AI大神Karpathy新项目刚上线就狂揽2.5k星

duhorse • 1662浏览 • 0回复
K8s和大模型真的搭吗？

51CTO技术栈 • 1805浏览 • 0回复
轻松拿捏4K高清图像理解！这个多模态大模型自动分析网页海报内容，打工人简直不要太方便

Crystalcxt • 2950浏览 • 0回复
融汇14个AI工具构建完美应用

51CTO内容精选 • 2164浏览 • 0回复
靠Scaling Laws炼出4D版视频生成模型，多伦多大学北交大等携手开源81K高质量数据集

Crystalcxt • 1149浏览 • 0回复
LazyLLM：低代码构建多Agent大模型应用的开源项目

PaperAgent • 2069浏览 • 0回复
渲染速度比ENeRF快30倍！4K4D:实时4K分辨率4D视图合成

angel • 1458浏览 • 0回复
快手可灵团队最新开源项目火了：大叔实时变身少女，GitHub狂揽7.5K星

Crystalcxt • 1473浏览 • 0回复
清华大学最新深度时序模型综述+5k star开源代码！

海因斯DK • 2857浏览 • 0回复
NeedleBench 超长文本评测基准：大语言模型能否在 1000K 长度上检索推理？

恋恋青鸟 • 1595浏览 • 0回复
Agent遇上4万个工具？一个Token搞定！

探索AGI • 952浏览 • 0回复
Kimi发布k1视觉思考模型，实力颠覆K12教育赛道，涌现能力强得可怕，免费可用！网友：国产之光！

51CTO技术栈 • 1780浏览 • 0回复
如何全面评估多模态大模型能力？MLLM评测任务与指标总结

shizhi02 • 4747浏览 • 0回复
全面对比AI Agent 与 Agentic AI

AI应用探索 • 1671浏览 • 0回复
Kimi思考模型k1.5是怎么练成的？细节曝光

PaperAgent • 1504浏览 • 0回复
用强化学习重塑多模态AI：解读Kimi k1.5的突破与创新

Halo咯咯 • 1022浏览 • 0回复
从低清到4K的魔法：FlashVideo突破高分辨率视频生成计算瓶颈(港大&港中文&字节)

angel • 636浏览 • 0回复
K-LoRA巧用Top-K策略，让风格与主体完美融合

angel • 358浏览 • 0回复

这个用户很懒，还没有个人简介

帖子

声望

粉丝

关注

最近发布

DeepSeek-R1的风吹到了多模态，Visual-RFT发布，视觉任务性能飙升20% 1h前发布
HippoRAG 2发布，GraphRAG退位！ 9天前发布

热门推荐

比GraphRAG更懂“思考”，微软又开源PIKE-RAG：主打复杂私域知识理解和推理 0回复

4090单卡部署满血 671B DeepSeek，本地部署“成本骤降32倍”！！！ 0回复

从推理到编程，详细比较DeepSeek 32B、70B、R1实践性能 0回复

综述：DeepSeek Infra/V1/MoE/V2/V3/R1 & 开源关键技术 0回复

低成本+高性能+超灵活！Deepseek 671B + Milvus 重新定义知识库搭建！ 0回复

上一篇：阿里RAG新框架R4：增强检索器-重排序-响应器，5个知识密集任务上都超过Self-RAG等！

下一篇： ERAGent：集成5个先进组件与技术的增强型RAG Agent，显著提升3类问答任务效果

社区精华内容

目录

Copyright © 2005-2025 51CTO.COM 京ICP证060544版权所有未经许可请勿转载