编辑 | 伊风
出品 | 51CTO技术栈(微信号:blog51cto)
腾讯在大模型上的动作姗姗来迟。
对于“后发”的抉择,腾讯想得很清楚。
在“腾讯元宝”上线的发布会上,腾讯云副总裁、腾讯混元大模型负责人刘煜宏说,“虽然行业内看起来火热,但是中国移动互联网用户规模12.32亿,国内AI头部产品日活跃用户规模仅数百万。这意味着AI产品的渗透率极低,不到1%。”
图片
在这种情景之下,尽管大家的FOMO(害怕错过)情绪很重,但先发不见得必然获取到优势。豆包对于文心一言的反超就是一个例证。去年8月份推出的豆包,无论是下载量还是月活跃用户数均超过了上半年就入局的文心一言。
因此,腾讯选择了沉住气,将更准确地洞察用户需求、内部打磨产品作为自己的答案。
那么,后发的元宝能否带来一些惊喜呢?
我们为元宝的模型能力进行了全方位的测评。同时,背靠腾讯丰富的内容生态是元宝的独特优势和潜力,因此也对现在的内容链接能力进行了评测,来看看元宝对微信、腾讯视频、微信读书等资源的利用情况。
图片
在体验元宝之后,元宝给我留下最深印象的优点就是——国内AI终于开始读图了!虽然豆包、Kimi也允许上传图片,但是他们本质做的是OCR,只识字不识图。
图片
但元宝可以看懂,并且可以对画面内容进行一些理解。
图片
虽然Ta目前看不懂自己的梗图,并且误解自己是个理财APP。但总体来说是个巨大的进步。
图片
至于缺点,元宝没有采取目前GPT、Kimi等比较主流的方法,会给每一个对话概括一个名字。方便用户随时回顾之前的对话内容。
元宝在开始新对话后,必须通过不断地上拉才可以回顾之前的对话。在删除聊天记录时则会清楚全部的记录(这个灵感是来自微信吗),而且也尚未提供搜索,给人感觉不够便利。
图片
此外,元宝很有想法。不是那种被质问就马上道歉说是自己出幻觉的那种AI。
详细的测评将从以下五个维度展开。
图片
一、自然语言处理能力
1.语言理解第一个题目由GPT-4o提供:
图片
元宝的作答非常详尽,因此只选取了建议部分:
图片
从上述回答来看,元宝的理解比较深入,全面分析了给出的金融问题,并符合逻辑地提供了有价值且易于理解的投资建议。
作为AI测试界的常客,我们选择了两个“弱智吧”笑话,对元宝进行了测试。
第一个是生鱼片是不是死鱼片?以下是元宝的总结:
图片
另一个是经典的爸妈结婚问题:
图片
2.语言生成选择了一道高考作文题目交给元宝作答。
元宝的作文乍一看很唬人,细品一下会发现Ta一直在跑题,主要是模型起的标题把自己带偏了。
不过有意思的是,元宝无需提示就意识到了自己的作答身份,全篇以学生口吻完成。
二、信息检索和知识问答
首先检索了OpenAI的新闻,完成度不错。OpenAI与普华永道的合作也是最新发生的事情。
图片
但当我用马斯克为关键词进行搜索时,元宝刚开始的回答还很靠谱。
图片
但随着Ta思维的发散,Ta的答案走远了……
图片
当我追问时,元宝居然神奇的硬圆上了。(这就是元宝的性格,不会像其他模型那样爱认错,下文还会提到)
图片
三、任务执行和实用工具
在任务执行中,我们考察的是元宝的路线规划能力。
图片
在实用工具能力上,选择了一道难度较大的行测题目,对元宝进行了拷问。
图片
元宝经过一通分析之后,也很好地找出了正确答案。
图片
四、多模态交互能力
1.图像理解
元宝的读图能力是我觉得最有趣的地方。
特别是Ta理解了照片拍摄的意图,让我感觉比较惊喜。
图片
我甚至给元宝看了最近正在考虑组的房子户型图。元宝没有像一般大模型那样被质疑后就爆发讨好性人格,而是坚持自我!(不过他应该是把厨房当成卧室了)。
图片
2.图像生成
元宝能根据古诗的含义进行图像生成。如果非常依赖上下文的诗表现可能不佳,例如“知否,知否,应是绿肥红瘦”,元宝可能会po上两颗一红一绿的树上去。
图片
生成的日常图片逼真而有食欲。
图片
五、腾讯内容生态链接能力
首先让元宝给我推荐值得关注的美食公众号
图片
方向是对的,但是质量没有那么好,里面有一些断更一年多的公众号也被收录了。
同时,在检索最近发生的事情时,元宝可以使用微信公众号的优质资源整合作答。但是在交互时,需要注意prompt的写法,我一开始的问法是“为什么要爆料”,此时元宝不会开启搜索,而是选择进行动机的推测。
图片
图片
另外,在检索热播剧时,元宝还会拉到腾讯视频的答案,点击可以在网页端看视频。不过,在进一步的测试中发现,目前的元宝还不具备阅读和理解视频的能力。
图片
其实,依托腾讯庞大的生态。元宝完全有机会成为一个很好的个人助手。
期待元宝能打破APP之间那道无形的墙。这其中的想象力以及能释放给用户的便利可能远超你我的想象。
图片