编辑 | 伊风
出品 | 51CTO技术栈(微信号:blog51cto)
AI手机还能怎么卷?
今天vivo在开发者大会上公布的答案,绝对能让人眼前一亮!
通过融合用户记忆、端侧模型、和主动执行能力,vivo搞出了PhoneGPT,声称要做AI助理界的自动驾驶!
就是说PhoneGPT,不再满足于简单的任务执行,而是可以自己决策,进行任务的拆解,并通过屏幕识别等技术,最终做出动作、完成任务。
这么说可能还是有点抽象,还是来看vivo的蓝心小V订餐视频更直观!
在用户给小V发出用餐需求之后,小V自动地调起相关APP,搜索到了餐厅的电话,还自己拨出电话和店员完成了预订!整个执行过程,包括和真人的对话都非常丝滑。
除了手机智能,蓝厂家的硬科技也丝毫不输,自研的蓝心大模型性能在线。在端侧方面,提出“30亿参数量级是端侧黄金尺寸”的论断,发布了新的蓝心3B,在排行榜击败了Gemma-2和Phi-3-mini等小模型中的佼佼者。
让人不得不感叹一句,原来vivo还是模型界的隐藏大佬。
一个温知识,vivo在国产手机销量王座上已经稳坐三年之久,而使用vivo AI的用户也在全球突破了5亿。
图片
想了解AI手机的未来,vivo和蓝心智能的AI战略,绝对值得一看。
一、PhoneGPT:AI不仅要“执行”更要“懂你”
vivo蓝心智能的核心看点,就是他们把大模型与操作系统实现了深度融合。
vivo副总裁周围说,这样的实现效果,是大模型可以理解用户个人的情景和偏好,进而让系统主动提供个性化的服务。
图片
具体来说,AI重构后的手机系统,带来了三个体验的革命,分别是交互体验、服务体验和链接体验。
1.交互体验
不少人抱怨过苹果Siri的僵化和机械,在AI 2.0之前,我们的手机助手只能做一些简单的执行工作。
而有了大模型,AI助手可以真正在文字、语音、图像甚至行为层面,全方面多角度的做意图理解,实现所谓的“执行且懂你”。
在交互体验方面,周围举的例子就是语音交互!作为我们日常最多使用的、也是最直观的交互形式,vivo能做出什么花样呢?
图片
小V的方言对话,让用户不再需要切换“川普”、“粤普”,而小V也会用方言来回答,AI和用户的距离,这么一下就拉近了。
2.服务体验
在服务的提升上,我觉得vivo真是做到了那句被说烂了的话,“所有的功能都值得用AI重做一遍”。
vivo针对电话、短信等基础功能都做了翻新,例如,电话的内容可以转文字也可以进行翻译,笔记功能可以直接用AI润色,拍照直接扫描识别等等。
小编觉得,这些设计好在并不是伪需求,而是实在的用AI帮用户解决了一些问题。
图片
既然是开发者大会,vivo大方宣布将开放平台化能力,使得第三方应用也能接入这些AI黑科技。
图片
3.链接体验
周围所说的链接体验,主要讲AI时代中,用户与服务的关系变化。
AI确实给服务注入了活力,现在人和服务可以双向奔赴了!在面向开发者的方面,vivo做了努力,让APP提供的服务更好地做分发,找到需要Ta的用户。
图片
尤其是针对轻量化、原子化的服务,vivo构建了系统级的感知和意图识别,实现系统主动分发服务。
图片
在面向用户的方面,vivo提出了一个有趣的概念是“人与设备的共同记忆”。
听起来AI更像是一个一直陪伴我们的朋友了,随着手机使用,AI会不断扩展对我们的知识图谱,相当于手机系统会“越用越好用”。
这个能实现啥具体功能呢?
图片
用这个现场的例子,我们一下就悟了。
例如用户唤起小V说,“帮我找找,去年和小贝在环球影城的照片,发给他并祝他生日快乐”。这个例子就很考验AI,需要智能助手记住用户的社会关系以及对方的样子,还能在相册找到符合人物、时间、地点条件的照片,并能跨应用找到备注为“小贝”的人发送信息,最后还可以再提供专属服务如推荐生日餐厅。
图片
不过这些东西都交给AI又觉得心里毛毛的,感觉就像有人把我的相册都翻了一遍。
不过,vivo也很重视安全问题。甚至抗下了巨大的技术挑战,不仅把通话总结、文档概要、本地知识图谱这种你不想被别人看到的隐私搬进了端侧,还贴心地把审核功能也实现端侧完成了。这下可以稍微舒一口气,放心用AI了。
图片
然后,既然有了多个智能体,最好就是让他们配合起来,实现1+1大于2的效果。如果再配上意图理解,让这个负责调度的中心也由AI来完成部分工作,在懂人的基础上,可以进行自主决策。
这一综合,就实现了我们文章开头,能提供智能驾驶体验的phoneGPT!
视频中的餐厅订餐,就基于蓝心大模型的多模态功能,在用户意图识能主动完成任务,通过屏幕识别,AI自己去操作控件,执行每步的操作。
图片
根据周围的透露,phoneGPT的每一步执行精确度达到了94%,每一步执行只需要极短的2s时间。为了安全,这个功能也会向端侧发展,并且执行效果上还会再进化。
好家伙,AI真·私人助理的时代来了!
二、全新蓝心大模型矩阵发布,蓝心3B超Phi-3-mini
从GPT-4o发布以后,模型的多模态能力就成为了一个重点。
在新的模型矩阵中,蓝心的语音、图像和多模态大模型是第一次进行亮相的选手。
图片
既然是手机厂商,端侧模型肯定是开发的重中之重。
在此前开发的1B、7B 、13B端侧模型的基础上,vivo不断地去做测试,在综合考虑了模型效果、性能、内存、功耗后,试图寻找最优方案,提出了30亿参数量级是端侧黄金尺寸的论断。
图片
在研究指导下,vivo的30亿蓝心端侧大模型——蓝心3B正式推出。相比于去年所推出的7B大模型,蓝心3B做到了300%的性能提升,还降低了46%的功耗和63%的内存占用。蓝心3B的性能强的可怕,做到了每秒80字的极致出词速度,并且实现450mA的极致低能耗,且只占用1.4GB的内存。
图片
周围说,蓝心3B突破了端侧模型“能力强-消耗低-模型小”的不可能三角,并且在多份榜单上做到行业领先水平。
图片
vivo追求做“最懂中国人的大模型”,具体到多模态大模型方面,他们做了生图功能的水墨风格以及汉字相关创作的性能提升。
图片
看这张榜单,能看出vivo在模型能力上是有过硬积累的。就语音那张榜单来看,语音一直是豆包过硬的核心技术,能在语音交互上超过豆包,说明日常的对话任务基本不在话下了。
图片
三、写在最后:最好的AI技术,要在应用里跑起来
vivo秀完AI硬实力的“肌肉”后,开始了对自研系统OriginOS 5 的介绍。
就像他们自己所说的那样:不止要有好的技术,还要能落地到产品的层面上。
于是,我们就看到了vivo在对界面和用户操作深度思考之上的作品——原子岛。
在意图识别的基础上,用户只需要将文本等内容复制或拖动到原子岛上,就会自动推荐你想要打开的APP,真正做到解放双手,让科技快人一步。
在最初看到原子岛三个字的时候,可能很容易认为这是对苹果灵动岛的模仿之作。但是坦白的说,前者带给我的意料之外的惊喜,能看到vivo对AI如何改变交互形态的思考之深。
vivo的开发者大会,让人重新认识了这位国产手机的销量王者,对于AI的战略构想,我们不只有术,还有道。