李彦宏的野心：百度不造“超级应用” ！百度亮出4款产品新形态：多智能体“秒哒”、多模态iRAG、AI眼镜原创

51CTO技术栈

发布于 2024-11-12 14:34

1136浏览

0收藏

编辑 | 言征

出品 | 51CTO技术栈（微信号：blog51cto）

进入下半年，国内大模型厂商们都在忙什么？

11月12日上午9点35分，百度世界大会如约而至。李彦宏身着白衬衫，信步走入在上海世博中心的主会场，用一个小时的时间为人们展示了大模型进入2024年之后，百度最新取得的一些产品技术进展。

李彦宏全程一个小时的演讲，回顾了过去24个月全球生成式人工智能变革带来了的大爆发，激动地喊出了放眼业内似乎还不太敢喊出的一句slogon：“AI应用时代真的来了！”，并同时发布了两个重磅新品：文心iRAG和秒哒。

这里划重点，这两款技术产品，一款是多模态领域的检索增强，另一款则是多智能体的产品开发应用，这代表了百度作为国内大模型领旗者，押宝应用的两大方向，值得各位一探。

李彦宏的野心：百度不造“超级应用” ！百度亮出4款产品新形态：多智能体“秒哒”、多模态iRAG、AI眼镜-AI.x社区图片

1.李彦宏的第一个押宝：过去24个月，大模型最大的变化

大模型时代已经前行了24个月，模型层面发生了哪些变化？百度创始人李彦宏给出了自己的答案：基本消除了幻觉。

而在消除幻觉方面，检索增强作为一种技术手段成为了行业共识。“但是，在多模态方面，检索增强还做得不够。”

李彦宏现场给出了一个“文生天坛图像”的开源模型的错误例子，真实的天坛是三层的，而开源模型则会煞有其事地生成四层，令人难辨真假。

李彦宏的野心：百度不造“超级应用” ！百度亮出4款产品新形态：多智能体“秒哒”、多模态iRAG、AI眼镜-AI.x社区图片

基于此，百度死磕多模态方面的幻觉问题，李彦宏自豪的发布了今天第一个“炸弹”：检索增强的文生图技术iRAG。

大致的原理也不难理解：就是其将百度搜索的亿级图片资源跟强大的基础模型能力相结合，可以生成各种超真实的图片，“整体效果远远超过文生图原生系统,去掉了机器味”。

百度首席技术官王海峰在接下来的演讲中更具体一步的揭示了iRAG背后的黑科技：百度多模态可控生图大模型。该模型通过多模态注意力机制、图文交错编码等技术结合扩散模型，提升了整体注意力计算的高精确性，让检索增强的文生图过程可以自动分析、理解、规划和泛化。

李彦宏的野心：百度不造“超级应用” ！百度亮出4款产品新形态：多智能体“秒哒”、多模态iRAG、AI眼镜-AI.x社区图片

李彦宏表示，iRAG技术极大地提高了A生成图片的可用性,具备无幻觉、超真实、无成本、立等可取等商业价值。

2.第二个押宝：一个只靠想法就能赚钱的应用：秒哒以及背后的技术实现

无需代码就能开发应用，已经不再是什么新鲜的大模型话题。但真正做出来的App没有，即便强如OpenAI，也在去年尝试了GPTs之后，让只需对话就能生成AI应用的热度归于沉寂。

不过，这次百度做到了。早在上个月，李彦宏就曾在内部的季度战略复盘会议上表示：智能体虽然还是不是行业共识，但它是百度未来的一个赌注。

李彦宏将现在的智能体做一个分类，总共分为了四种：公司类、角色类、工具类、行业类。不同类型的智能体方面，百度近年来都已经跟业内的生态伙伴进行了深入的合作，李彦宏甚至给出了比亚迪、百胜餐饮、小朋友自己创作悟空动画片等真实有趣的例子。

李彦宏的野心：百度不造“超级应用” ！百度亮出4款产品新形态：多智能体“秒哒”、多模态iRAG、AI眼镜-AI.x社区图片

重头戏来了，李彦宏会上甩出了另一款大模型“炸弹”应用——无代码工具“秒哒”！

秒哒具备无代码编程、多智能体协作和多工具调用三大特性,李彦宏对其寄予了厚望，称之为“迄今为止人类历史上最复杂的多智能体协作工具”。作为一个不需要写代码就能够实现任意想法的工具,秒哒让每个人都具备程序员的能力,会说话就能做出应用。

李彦宏的野心：百度不造“超级应用” ！百度亮出4款产品新形态：多智能体“秒哒”、多模态iRAG、AI眼镜-AI.x社区图片

李彦宏还在会场展示了一个五个智能体协作开发的案例，1号智能体小组长负责策划召唤2号智能体策划和3号智能体被称为小编，4号智能体是程序员，5号是质检员等等。

李彦宏的野心：百度不造“超级应用” ！百度亮出4款产品新形态：多智能体“秒哒”、多模态iRAG、AI眼镜-AI.x社区图片

前不久OpenAI说未来极有可能会出现一个人的公司，而李彦宏发布的这款“多哒”似乎也印证了未来的公司可能真的不用再费劲心力去招聘诸如产品经理、开发等人员，一个想法可能就足以让你搞定一款应用。

李彦宏总结说,“只要有想法,你就可以心想事成,我们将迎来一个前所未有的只靠想法就能赚钱的时代。

李彦宏将做智能体类比为PC时代做网站、或是移动时代做自媒体账号，“不同之处是智能体更像人、更智能，更像你的销售、客服和助理。智能体可能会变成AI原生时代，内容信息和服务的新载体。

话说回来，小编想到了一个问题：这款应用似乎跟去年AutoGPT的场景很像，究竟高端在哪里？

接下来王海峰的演讲解开了这个困惑：现在多智能体的技术语境已然发生了变化。去年的多智能体还处于“快思考”的大模型语境，而不同的是，今年下半年，百度也有了自己的“慢思考”模型。

“人类思考有两个系统，系统1反应快，但容易出错，系统2虽慢，但理性精确。”王海峰会场上发布了百度的思考模型背后的实现技术，让模型像人一样进行任务拆解和自主规划的能力，学会运用工具及决策。

具体而言，要训练一个思考模型，需要这几样关键的东西：训练所需的思考过程数据，提示自动构建、自动探索思考和行动路径。王海峰介绍了现在思考模型的最大难题还是数据的不足，百度采用了合成过程数据的方式。

通过用户模拟器生成指令、工具模拟器模拟功能、领域知识构建推理，创建了思考模型数据合成的闭环，再结合强化学习等手段从而实现思考过程的有监督精调。

李彦宏的野心：百度不造“超级应用” ！百度亮出4款产品新形态：多智能体“秒哒”、多模态iRAG、AI眼镜-AI.x社区图片

遗憾的是，秒哒现在还是一个期货，预计明年上半年发布。

3.一个小惊喜网盘与文心的碰撞：自由画布

不过，现货也是有的，李彦宏在工具类智能体介绍时，展示了百度全新的应用智能体，即百度文库和百度网盘联合开发的“自由画布”，让用户可以在一块类似“画布”的界面上自由拖拽文档、音视频等富媒体素材，迅速生成多模态内容。自由画布是一个由文心多模态大模型加持的万能白板，可以帮助用户完成从找资料，到编辑、生成和分享的全部任务。

李彦宏的野心：百度不造“超级应用” ！百度亮出4款产品新形态：多智能体“秒哒”、多模态iRAG、AI眼镜-AI.x社区图片