腾讯元宝全面测评!国产AI“看剧”时代开启!读懂《庆余年》范闲,揭秘奥特曼宫斗!打通腾讯生态“全村的希望”!

原创 精选
人工智能
在“腾讯元宝”上线的发布会上,腾讯云副总裁、腾讯混元大模型负责人刘煜宏说,“虽然行业内看起来火热,但是中国移动互联网用户规模12.32亿,国内AI头部产品日活跃用户规模仅数百万。这意味着AI产品的渗透率极低,不到1%。”

编辑 | 伊风

出品 | 51CTO技术栈(微信号:blog51cto)

腾讯在大模型上的动作姗姗来迟。

对于“后发”的抉择,腾讯想得很清楚。

在“腾讯元宝”上线的发布会上,腾讯云副总裁、腾讯混元大模型负责人刘煜宏说,“虽然行业内看起来火热,但是中国移动互联网用户规模12.32亿,国内AI头部产品日活跃用户规模仅数百万。这意味着AI产品的渗透率极低,不到1%。”

图片图片

在这种情景之下,尽管大家的FOMO(害怕错过)情绪很重,但先发不见得必然获取到优势。豆包对于文心一言的反超就是一个例证。去年8月份推出的豆包,无论是下载量还是月活跃用户数均超过了上半年就入局的文心一言。

因此,腾讯选择了沉住气,将更准确地洞察用户需求、内部打磨产品作为自己的答案。

那么,后发的元宝能否带来一些惊喜呢?

我们为元宝的模型能力进行了全方位的测评。同时,背靠腾讯丰富的内容生态是元宝的独特优势和潜力,因此也对现在的内容链接能力进行了评测,来看看元宝对微信、腾讯视频、微信读书等资源的利用情况。

图片图片

在体验元宝之后,元宝给我留下最深印象的优点就是——国内AI终于开始读图了!虽然豆包、Kimi也允许上传图片,但是他们本质做的是OCR,只识字不识图。

图片图片

但元宝可以看懂,并且可以对画面内容进行一些理解。

图片图片

虽然Ta目前看不懂自己的梗图,并且误解自己是个理财APP。但总体来说是个巨大的进步。

图片图片

至于缺点,元宝没有采取目前GPT、Kimi等比较主流的方法,会给每一个对话概括一个名字。方便用户随时回顾之前的对话内容。

元宝在开始新对话后,必须通过不断地上拉才可以回顾之前的对话。在删除聊天记录时则会清楚全部的记录(这个灵感是来自微信吗),而且也尚未提供搜索,给人感觉不够便利。

图片图片

此外,元宝很有想法。不是那种被质问就马上道歉说是自己出幻觉的那种AI。

详细的测评将从以下五个维度展开。

图片图片

一、自然语言处理能力

1.语言理解第一个题目由GPT-4o提供:

图片图片

元宝的作答非常详尽,因此只选取了建议部分:

图片图片

从上述回答来看,元宝的理解比较深入,全面分析了给出的金融问题,并符合逻辑地提供了有价值且易于理解的投资建议。

作为AI测试界的常客,我们选择了两个“弱智吧”笑话,对元宝进行了测试。

第一个是生鱼片是不是死鱼片?以下是元宝的总结:

图片图片

另一个是经典的爸妈结婚问题:

图片图片

2.语言生成选择了一道高考作文题目交给元宝作答。

图片

元宝的作文乍一看很唬人,细品一下会发现Ta一直在跑题,主要是模型起的标题把自己带偏了。

不过有意思的是,元宝无需提示就意识到了自己的作答身份,全篇以学生口吻完成。

图片

二、信息检索和知识问答

首先检索了OpenAI的新闻,完成度不错。OpenAI与普华永道的合作也是最新发生的事情。

图片图片

但当我用马斯克为关键词进行搜索时,元宝刚开始的回答还很靠谱。

图片图片

但随着Ta思维的发散,Ta的答案走远了……

图片图片

当我追问时,元宝居然神奇的硬圆上了。(这就是元宝的性格,不会像其他模型那样爱认错,下文还会提到)

图片图片

三、任务执行和实用工具

在任务执行中,我们考察的是元宝的路线规划能力。

图片图片

在实用工具能力上,选择了一道难度较大的行测题目,对元宝进行了拷问。

图片图片

元宝经过一通分析之后,也很好地找出了正确答案。

图片图片

四、多模态交互能力

1.图像理解

元宝的读图能力是我觉得最有趣的地方。

特别是Ta理解了照片拍摄的意图,让我感觉比较惊喜。

图片图片

我甚至给元宝看了最近正在考虑组的房子户型图。元宝没有像一般大模型那样被质疑后就爆发讨好性人格,而是坚持自我!(不过他应该是把厨房当成卧室了)。

图片图片

2.图像生成

元宝能根据古诗的含义进行图像生成。如果非常依赖上下文的诗表现可能不佳,例如“知否,知否,应是绿肥红瘦”,元宝可能会po上两颗一红一绿的树上去。

图片图片

生成的日常图片逼真而有食欲。

图片图片

五、腾讯内容生态链接能力

首先让元宝给我推荐值得关注的美食公众号

图片图片

方向是对的,但是质量没有那么好,里面有一些断更一年多的公众号也被收录了。

同时,在检索最近发生的事情时,元宝可以使用微信公众号的优质资源整合作答。但是在交互时,需要注意prompt的写法,我一开始的问法是“为什么要爆料”,此时元宝不会开启搜索,而是选择进行动机的推测。

图片图片

图片图片

另外,在检索热播剧时,元宝还会拉到腾讯视频的答案,点击可以在网页端看视频。不过,在进一步的测试中发现,目前的元宝还不具备阅读和理解视频的能力。

图片图片

其实,依托腾讯庞大的生态。元宝完全有机会成为一个很好的个人助手。

期待元宝能打破APP之间那道无形的墙。这其中的想象力以及能释放给用户的便利可能远超你我的想象。


图片图片

想了解更多AIGC的内容,请访问:

51CTO AI.x社区

https://www.51cto.com/aigc/


责任编辑:武晓燕 来源: 51CTO技术栈
相关推荐

2015-07-21 14:53:48

HTML5趋势

2020-11-10 20:41:15

腾讯WeMap互联网

2019-07-04 17:28:04

腾讯云云原生开源

2018-08-24 13:34:50

2024-05-22 15:08:53

腾讯云AI代码助手

2020-11-14 21:01:47

腾讯地图WeMap

2011-09-20 11:17:26

敏捷

2024-05-29 13:11:00

2024-05-30 16:28:38

2016-07-05 10:53:56

2020-09-11 10:33:03

腾讯5G数字

2024-09-03 15:57:41

2022-05-31 10:57:56

腾讯开源人才

2021-07-14 18:23:21

腾讯数字生态

2013-08-28 10:27:14

腾讯云百度云

2015-02-13 15:00:48

腾讯15年
点赞
收藏

51CTO技术栈公众号