百度公开12个月打造AI原生应用思路！李彦宏再谈开源大模型！原创

51CTO技术栈

发布于 2024-4-16 16:21

浏览

0收藏

出品 | 51CTO技术栈（微信号：blog51cto）

2024，大家不再卷参数卷测评了，开始卷应用了。但，谁又知道AI原生应用什么样？怎么做？这个学费不好交。

令人兴奋地是，AI大佬李彦宏今天终于现身说法。

4月16日，李彦宏轻装上阵，在百度AI开发者大会一股脑将百度过去一年实践出来的、开发AI原生应用的具体思路和工具全都放出来了。

Robin一口气接连放出了百度三大AI原生应用的开发利器：ModelBuilder、AgentBuilder、AppBuilder，可以说这三个Builder完美弥合了从大模型到应用诞生的鸿沟。一时间现场掌声不断。

“我相信文心大模型将成为中国AI创业者和开发者的首选！”作为国内首发且大模型综合能力极为靠前的文心一言，在应用层面也是布局最早最全面的，李彦宏自信满满：越来越多的应用会建立在文心大模型之上，也期待更多的创业者和开发者加入我们一起去创造未来。

1.百度第一剑，先斩开源大模型

李彦宏开场致辞，首先亮出了文心一言的成绩单。

据介绍，文心一言于去年3月16日正式发布，截至目前用户数已经突破2亿，每天API的调用量突破2亿，服务客户数达到8.5万，利用千帆平台开发的AI原生应用数超过19万。

百度公开12个月打造AI原生应用思路！李彦宏再谈开源大模型！-AI.x社区图片

回顾过往一年，文心4.0的发布是一道分水岭。

李彦宏表示，文心4.0之后，百度可以根据需要，剪裁出适合各种场景的更小尺寸模型，并且支持精调和post-pretrain。

post-pretrain是一种模型预训练策略，是指基础模型预训练后，继续使用无标记数据对模型进行预训练，旨在提升模型通用语言表达能力。

在同等尺寸下，通过post-pretrain的模型，会比直接开源的模型效果更好；在同等效果下，其成本会会更低。

在这一参照下，李彦宏给定结论：“开源模型会越来越落后”。

百度公开12个月打造AI原生应用思路！李彦宏再谈开源大模型！-AI.x社区图片

2.大小模型混用才是王道，开发应用会像拍短视频一样简单

对于大模型本身，李彦宏曾放言：大模型已经够多了，没有必要卷大模型，应该卷应用。

如今，他也依然坚持自己的判断：大模型本身并不能直接创造价值，基于其开发的AI原生应用才是市场需求所在。

在此前提下，李彦宏重点提到了三个行业关键词。

其一，MoE。此处的MoE并非狭义上的机器学习领域的概念“混合专家模型”，指的是更广义上的大小模型的混用。通常来说，只有5%-10%的情景需要大模型，其余30%-40%的情况需要中小模型。

李彦宏预判，未来大型的AI原生应用基本都是MoE的。针对不同的应用场景，不依赖一个模型来解决所有问题，判断如何调用大小模型，就形成了MoE混用模式。

其二，小模型。小模型推理成本低，响应速度快，在一些特定场景中，经过精调后的小模型，其使用效果甚至可以媲美大模型。通过大模型压缩蒸馏出一个基础模型，然后再用数据去训练。这比从头开始训小模型，效果要好很多，也比基于开源模型训出来的模型，效果、速度和成本表现都更好。

目前，百度已经发布了ERNIE Speed，ERNIE Lite、ERNIE Tiny三个轻量级大模型，并将其内置于Model-Builder中，以便为开发者提供更高效灵活的大模型应用方案，以此适应不同场景的需求。

其三，智能体。智能体指的是能够感知环境、进行决策和执行动作的智能实体。在大模型驱动下，以自然语言为交互，可以自主完成复杂任务，在环境中持续学习、实现自我迭代和自我进化。它们可以更大程度地释放人员精力，让人更专注于创造性和决策性的事务。

李彦宏称，大模型和生成式AI将彻底改变开发者群体，“过去开发者用代码改变世界，未来自然语言将成为通用编程语言。”

基于文心大模型的智能代码助手Comate，可以推荐代码、生成代码注释、查找代码缺陷、给出优化方案，还可以解读代码库、关联私域知识生成新的代码。

官方信息显示，百度每天新增的代码中，已经有27%是由Comate自动生成的；Comate还与喜马拉雅、三菱电梯等上万家企业合作，生成的代码采纳率达到46%。

“今天，你不会写代码，也可以做出一个应用；不用编程，也可以做出一个智能体“，李彦宏表示，未来开发应用就会像拍短视频一样简单，人人都是开发者。

百度公开12个月打造AI原生应用思路！李彦宏再谈开源大模型！-AI.x社区图片

3.百度已经不满足只做基座，而是要打造一个智能体平台

“人人可开发、人人经营、人人可获益”，其实百度早在去年秋天就在内部投入精力去打造智能体构建平台AgentBuilder，主打高效便捷。

提及智能体（Agent），市面上有许多讨论，李彦宏这次直接点名了Agent，并认为Agent可能是未来离每个人最近、最主流的大模型使用方式，基于强大的基础模型，智能体可以批量生成，应用在各种各样的场景。

作为基于文心大模型的智能体构建平台，AgentBuilder为开发者提供了零代码和低代码两种模式。无论是专业人员还是编码小白，都能快速上手。

此外，AgentBuilder不止是开发平台，开发者还可以通过百度生态矩阵分发路径，做到“开发+分发+运营+变现”一体化赋能。

开发者的智能体可以通过百度搜索、小度、文心一言、百度地图、车机等多场景、多设备实现分发，未来还将接入商业插件功能，进一步实现商业闭环。

截至目前，已经有3万多个智能体被创建、5万多名开发者和上万家企业入驻。

“打造国内最完整的智能体生态”，百度正当其时！

除了AgentBuilder，李彦宏还介绍了另外两大开发利器AppBuilder和ModelBuilder。它们同样支持开发者开箱即用。

百度公开12个月打造AI原生应用思路！李彦宏再谈开源大模型！-AI.x社区图片

早在去年三月，百度推出“千帆大模型平台”时就囊括了AppBuilder和ModelBuilder两部分。

如今，AppBuilder工具组件扩增至55个，并上线了“三步生成应用”功能。

作为产业级AI原生应用开发平台，AppBuilder封装和预置了开发AI原生应用所需的各种组件和框架，最快只需三步，开发者就可以用自然语言开发出一个AI原生应用。

目前大量的开发者已通过AppBuilder生成丰富的AI原生应用，包括智能导购客服、心理咨询助手、营销素材生成、智能数据分析等等。

而适用于模型定制的ModelBuilder则是更适合专业开发者使用的工具。

ModelBuilder提供了包括文心大模型系列在内的77款精选大模型，内置业内最多的47个数据集和119个产业级Prompt模板。还设置了模型精调样板间，开发者只需要跟着样板间一步一步精调，就能做出一模一样的专业模型。

4.多模型智能计算OS万源亮相，云原生系统危险了

本次百度AI开发者大会上，还有一个重磅炸弹。

百度集团执行副总裁、百度智能云事业群总裁沈抖冷不防就来了一个大招：智能计算操作系统万源，而且同时支持包括文心一言、第三方大模型在内的77个大模型。

在AI原生时代，算力是至关重要的新质生产力。但是，在运营和管理过程中，智算中心也面临重重挑战：异构算力资源纳管困难、算力调度能力不足、利用率低等等。

沈抖提到，基于国内芯片供应的不确定性，在进行单一任务训练时往往会面临多芯局面。为了更好地调度算力资源、减少性能损耗，百度推出了“万源”。

这是一个强大的操作系统，可以把现有的算力资源发挥到极致来支撑大模型，以有效应对目前国内GPU等算力不确定性的问题。

据沈抖介绍，万源是百度全新发布的一个单一任务一云多芯大模型训练解决方案，解决了当下百卡甚至千卡混合训练场景下性能损耗太大的问题，同时昆仑芯、昇腾、Intel、NVIDA等多种型号的主流芯片，让他们高效绑定在一起就像一块芯片一样工作！

万源OS在框架层面，一手以文心大模型、百舸AI异构计算平台为内核（万卡集群有效训练时长占比高达98.8%，线性加速比95%），一手以ModelBuilder、AgentBuilder、AppBuilder为Shell/Toolkit，让这些极简易用的设计取代云原生系统的复杂性，从而推动加速AI原生应用的爆发。

百度公开12个月打造AI原生应用思路！李彦宏再谈开源大模型！-AI.x社区图片