【51CTO.com原创稿件】“只要连接一个电源,接通一个麦克风,就可以让身边的家电设备‘说话’了。”景鲲在今年的百度开发者大会上面对现场近5000名开发者和合作伙伴,揭示了即将发布的DuerOS开放平台的秘密。
听清+听懂 成为百度智能语音“代名词”
听清是唤醒万物的第一要素。百度公司首席架构师、百度度秘事业部CTO朱凯华表示:“DuerOS汇集了百度AI的诸多能力,完整的生态体系加上对话核心系统的核心技术能力,DuerOS将成为能听清、听懂的对话式人工智能系统。”据悉,DuerOS开放平台拥有智能设备开放平台、丰富的技能开放平台以及支撑这两个平台的对话核心系统,用来达成“听清、听懂”这两项看似简单但实难达成的目标。
开放平台的技术架构包含DCS(DuerOS Conversational Service)和DBF(DuerOS Bot Framework)两大基础协议,两大协议连通起来的对话核心系统、智能设备开放平台和技能开放平台,构成了相对完整的DuerOS智能生态系统。其中,对话核心系统通过云端大脑自动学习,利用语音技术、自然语言处理技术、搜索技术、多轮对话技术等能力,基于先进的业界知识图谱、网页图谱、需求图谱等大数据以及丰富优质和开盒即用的内容资源,为智能设备“赋予”语言能力。
相关资料显示,百度语音识别准确率达到97%,百度深度语音识别系统Deep Speech2已经入选MIT 2016十大突破性技术,但想走在AI时代智能语音的前端,这些技术是远远不够的。景鲲表示,百度在技术方面还做了很多努力和改进,包括麦克风阵列、回声消除、语音唤醒、远场识别等,并打算将这些技术根植进入家庭场景、移动场景、车载场景,全方位保证实现用户听清的需求。百度语音技术部总监高亮在介绍新开放的远场识别及语音唤醒、定制化语音合成、语音合成音色、情感语音交互(Emotional CUI)等技术时,也提到开发者可以根据不同的需求实现不同场景的智能应用,满足不需要。
为了更好地“唤醒万物”,百度全资收购KITT.AI,并将智能设备语音唤醒和自然语言处理等核心能力免费开放,赋能合作伙伴。据了解,KITT.AI是一家世界领先的专注于语音唤醒和自然语言理解的人工智能创业公司。
独乐乐不如众乐乐 开放赋能方法多
业内人士认为,未来智能语音将在越来越多的场景应用,而智能硬件只是一种产品形态,开放平台才具备核心竞争力。百度创始人、董事长兼CEO李彦宏表示,“AI是必由之路,开放让所有人都收获更多。”百度在开放语音技术,让机器听清用户的同时,更重要的是开放能让机器懂得用户需求的自然语言处理技术。
百度自然语言处理部总监赵世奇详细介绍语言理解与交互技术平台——UNIT的过程中提到,该平台将开放语言理解技术、交互技术,从百度大数据中自动汲取最有价值的数据提供给开发者使用;为开发者提供多种定制化方案,还首创“训练师”模式,助力开发者训练对话机器人;赋予机器“理解”自然语言,听懂用户需求,以及与用户进行多轮次对话的能力。此外,今年“百度之星”开发者大赛的命题就是基于UNIT平台提供的语言理解与交互技术,“设计和开发一个以对话式人机交互为核心的智能产品”。
同时记者还了解到,智能设备开放平台将面向传统硬件厂商和开发者输出软硬兼备的多层次解决方案,低成本、方便灵活地满足各个类型厂商和开发者不同层次的需求。此外,DuerOS还推出“小度之家APP”,方便用户实现智能设备的统一管理、设置支付方案、共享AI资源及内容,也让开发者能够自定义开发新的技能。作为DuerOS生态中的技能平台,技能开放平台拥有丰富的AI内容资源,在保证进一步听清、听懂的同时,满足了用户的更多需求。
在DuerOS的庞大阵营中,包括音响、电视、机器人、车载等优秀的硬件设备合作伙。此外,DuerOS已同很多芯片模组方案商,如英特尔以及硬件厂商如海尔等达成深度合作。在听清听懂的基础上,也需要优质丰富的资源来满足需求,据了解百度的优质内容也会伴随DuerOS一起对外开放。景鲲说,“技能开放平台是DuerOS开放平台的能力层。目前已经拥有包括影音娱乐、信息查询、生活服务等在内的10大品类、100+个原生技能,同时支持第三方资源和内容接入。” 为了让开发者更容易进入这个有价值的生态圈,智能设备平台提供了个人版、轻量版、标准版、参考设计等多样化的方案,大大降低对开发者的要求以及研发成本。
如今,DuerOS与Apollo两大开放平台都运用了百度技术领域的核心能力。陆奇指出,百度已经构建了包含算法层、感知层、认知层和平台层技术架构的AI技术平台,并将全面开放60项核心AI能力,其中包括语音、视频、增强现实、机器人视觉、自然语音处理五大类14项新能力,可见全力布局AI这场棋局,百度准备已久。
【51CTO原创稿件,合作站点转载请注明原文作者和出处为51CTO.com】