微软亚研院新作：让大模型一口气调用数百万个API！-51CTO.COM

近年来，人工智能发展迅速，尤其是像ChatGPT这样的基础大模型，在对话、上下文理解和代码生成等方面表现出色，能够为多种任务提供解决方案。

但在特定领域任务上，由于专业数据的缺乏和可能的计算错误，它们的表现并不理想。同时，虽然已有一些专门针对特定任务的AI模型和系统表现良好，但它们往往不易与基础大模型集成。

为了解决这些重要问题，TaskMatrix.AI破茧而出、应运而生，这是由微软（Microsoft）设计发布的新型AI生态系统。

其核心技术近期在《科学》合作期刊Intelligent Computing上发表的论文TaskMatrix.AI: Completing Tasks by Connecting Foundation Models with Millions of APIs中正式亮相，作者为微软亚洲研究院的段楠博士团队：

（详见链接：https://spj.science.org/doi/10.34133/icomputing.0063）

TaskMatrix.AI将基础大模型与数以百万计的应用程序编程接口（APIs）连接起来完成任务。

其核心思想是利用现有的基础大模型作为类似大脑的中央系统，结合其他AI模型和系统的APIs作为各种子任务解决者，以完成数字和物理领域的多样化任务。

△图：由DALL·E 3生成

TaskMatrix.AI如何工作？

TaskMatrix.AI的整体架构由以下四个关键组件构成：

多模态对话基础模型（MCFM）：负责与用户沟通，理解他们的目标和上下文（多模态），并基于API生成可执行代码以完成特定任务。MCFM能够处理文本、图像、视频、音频和代码等多模态输入，生成执行特定任务的代码。它还能够从用户指令中提取具体任务，并提出合理的解决方案大纲，帮助选择最合适的API进行代码生成。
API平台：提供一个统一的API文档架构，用于存储数以百万计具有不同功能的API，并允许API开发者和所有者注册、更新和删除他们的API。API平台通过统一的文档架构帮助MCFM更好地理解和利用各种API。
API选择器：根据MCFM对用户指令的理解，推荐相关的API。API选择器具备搜索能力，能够在拥有大量API的平台上快速定位到与任务需求和解决方案大纲相匹配的API。
API执行器：通过调用相关API执行生成的动作代码，并返回中间和最终的执行结果。API执行器设计用于运行各种API，包括从简单的HTTP请求到复杂的算法或需要多个输入参数的AI模型。

以上四个组件协同工作，共同构建了一个高效的系统。MCFM作为用户交互的主要接口，负责生成解决方案。API平台则提供了一个标准化的API文档格式，并作为一个集中存储库，容纳了数百万API。API选择器根据MCFM对用户需求的理解，从API平台中选取合适的API。

最后，API执行器负责执行由选定API生成的代码，并解决任务。

此外，TaskMatrix.AI还提供了两个可学习的机制，以更有效地将MCFM与API对齐：

基于人类反馈的强化学习（RLHF）：这是一种基础大模型的通用技术，它使用强化学习方法，利用人类反馈来优化机器学习模型。在TaskMatrix.AI中，RLHF利用这些反馈来增强MCFM和API选择器，从而在处理复杂任务时实现更快的收敛和更好的性能。
向API开发者提供反馈：TaskMatrix.AI完成任务后，会将用户反馈以适当的方式传递给API开发者，指示他们的API是否成功用于完成任务。这种包含<用户指令、API调用和用户反馈>的三元组不仅展示特定API的使用情况，还可以作为API开发者改进API文档的参考，使文档对MCFM和API选择器更加友好和易于理解。

因此，TaskMatrix.AI可以被视为一个超级AI，同时也是一个生态系统，具有以下关键优势：

能够通过使用基础大模型作为核心系统，首先理解不同类型的多模态输入（如文本、图像、视频、音频和代码），然后生成调用API完成任务的代码，来执行各种数字和物理任务。
拥有一个API平台，作为各种任务专家的存储库。该平台上的所有API都有一致的文档格式，这使得基础大模型可以轻松使用它们，开发者也便于添加新的API。
具有强大的终身学习能力，因为它的技能可以通过向API平台添加具有特定功能的新API来扩展，以处理新任务。
能够提供更加可解释的响应，因为任务解决逻辑（即行动代码）和API的结果都是可理解的。

TaskMatrix.AI能完成什么任务？

TaskMatrix.AI能完成的任务非常广泛，小到文字、图像信息的基本信息处理，大到控制机器人平台、接入物联网（IoT）等通用平台任务，TaskMatrix都能胜任。

图像处理任务

TaskMatrix.AI可以执行图像处理任务，并且能够接受语言和图像作为输入。下图展示了TaskMatrix.AI的相关版本Visual ChatGPT，它不仅能够理解人类意图，还能处理语言和图像输入，以完成包括图像生成、问题回答和编辑在内的复杂视觉任务。

下图展示了使用多个API协作生成高分辨率图像的示例。在该例中，解决方案框架由3个API组成：图像问答、图像标题以及图像对象替换。

左侧框线部分展示了解决方案框架如何协助将图像扩展至2048×4096分辨率。通过迭代执行框架中的预定义步骤，TaskMatrix.AI可以生成任何所需尺寸的高分辨率图像。

办公自动化

TaskMatrix.AI能够通过语音指令理解并自动执行计算机操作系统、专业软件以及智能手机应用的操作。利用TaskMatrix.AI，可以快速上手复杂软件。

此外，它还能帮助用户在不进行搜索的情况下直接访问所需功能。以下是一个PowerPoint自动化的实例，TaskMatrix.AI能够根据用户指定的主题自动生成幻灯片，智能调整内容布局，插入和优化图像，并应用相应的设计主题，从而显著提升工作效率。

机器人和物联网设备控制

TaskMatrix.AI 可以连接机器人和物联网设备，实现对体力劳动和智能家居操作的自动化管理。通过集成先进的机器人技术，TaskMatrix.AI 能够执行一系列任务，如物体的拾取与放置以及对家庭物联网设备的智能控制。

此外，该平台还整合了多种流行的互联网服务，包括但不限于日历API、天气API和新闻API，提供了更加丰富和便捷的用户体验。

TaskMatrix.AI的挑战

尽管TaskMatrix.AI已经在各种任务中证明了其强大的功能和通用性，但仍面临以下几个挑战：

多模态会话基础大模型：TaskMatrix.AI需要一个能够处理多种输入（文本、图像、视频、音频和代码）的强大基础大模型。这个模型需要能够从上下文中学习，使用常识进行推理和计划，并生成高质量的代码来完成任务。此外由于TaskMatrix.AI需要处理更多样化的输入模式，这要求确定一个最小模式集来训练MCFM。
API平台：构建和维护一个包含数百万API的平台需要解决文档生成、API质量保证和API创建建议等挑战。API文档的清晰性和API的质量对于TaskMatrix.AI的成功至关重要。此外，平台还需要根据用户反馈指导API开发者创建新的API来解决特定任务。
API调用：在处理大量API时，TaskMatrix.AI需要能够合理选择和推荐相关的API来完成任务。此外还涉及到在线规划，即在无法立即生成解决方案时，与用户交互并尝试不同的解决方案。
安全和隐私：在API能够访问物理和数字世界时，确保模型忠实于用户指令并保持数据私密性是至关重要的。这要求在执行操作前验证模型的行为，并确保数据传输的安全性和数据访问的授权。
个性化：TaskMatrix.AI需要个性化策略来帮助开发者构建定制的AI界面，并为用户提供私人助理。这包括降低扩展成本和使用少量示例来学习用户的偏好，以便生成符合用户需求的解决方案。