阿里妹导读:2020 年面对突如其来的新冠疫情,14 亿人心系家国共渡难关。阿里人更是“此时此刻,非我莫属”,用技术的力量聚沙成塔,守护着千万家。你可能在钉钉群里见过一个名字叫“防疫精灵”的小机器人,准时准点地为你播报着全国新冠肺炎的实时舆疫情数据;有求必应地为你解答关心的各类问题,例如防疫知识、线上问诊、小区附近确诊病例、发热门诊分布等等。更神奇的是,“防疫精灵”机器人最初从一个想法到上线钉钉,仅用了一个下午的时间,目前已累计至少服务了 500 万个钉钉用户。这看似“不可能”背后,是机器人工厂,这个强大的智能会话机器人孵化平台,以其成熟的 NLP 算法能力及 QA 问答能力,将一切变成了可能。
什么是机器人工厂?
2016 年开始,世界进入“Chatbot 时代”,科技行业巨头也纷纷发布了各自在 Chatbot 领域的相关产品,例如苹果 Siri、微软小冰、百度小度、阿里的天猫精灵等等。会话机器人的出现带来的是用户与计算机之间交互方式的变革,从以计算机为中心的一串有序的操作指令,发展到以用户为中心的自然语言会话 AI。
机器人工厂就是在“会话 AI First”浪潮中应运而生的 Chatbot 智能机器人孵化平台。有了机器人工厂,任何人只需一分钟就可以搭建一个专属的会话机器人,不懂 NLP 技术、搞不定编程各种问题都不存在的!
机器人工厂整体架构图如下所示,下面将围绕产品场景和核心能力两大块做详细介绍。
用于哪些产品场景?
机器人工厂的应用场景主要分为答疑、运营、运维三大类。
AI+智能答疑
答疑是三种场景中最常见的。用户对商家的产品问询、员工对企业的规章制度,总会有大量共性重复的问题需要解答,将这些共性的问题抽取出来整理成问答对沉淀在机器人工厂平台上,答疑机器人就可以帮你解答大部分问题,既省时省力,就降低了人工成本。比如:机器人工厂为云栖大会提供了大会引导机器人。
AI+内容场景
运营场景主要是通过机器人将消息准确快速的统一触达到所有用户。比如,小明运营着天南海北的 100 个商家群,只需机器人工厂一次配置消息内容、发送时间,就可以准时触达 100 个商家群。轻松解决了人工操作 100 次的低效与时延。
AI+日常运维
运维场景就更厉害了,机器人不仅会回答问题还能够执行命令。比如,你在阿里云上购买了一台服务器,跑了一些任务,可以让机器人帮你查询任务执行的状态,发现异常,终止任务等等。“用户提问 — 理解指令——调用服务(执行指令)—— 返回答案”,是运维场景的链路。
还有更多新奇的玩法儿,比如结合语音文字互转技术,与阿里云通信、菜鸟驿站一起打造了智能外呼机器人。调查问卷、电话回访、上门服务确认是否在家等等场景都可以由机器人完成,机器人一天可以打出的电话可是多了好几倍。
有哪些核心能力?
介绍了这么多,你应该对机器人工厂可以做什么有了一些基本认识。下面将为你介绍机器人工厂有哪些核心能力,到底怎样玩转起来。
智能问答
智能会话机器人的看家本领就是 QA 问答。意图和实体是两个最基本的概念。意图由用户输入、动作、回应三部分组成。其中用户输入定义了用户问题;回应定义了对应的答案;动作非必选,定义了理解用户意图后需要去执行一系列指令。实体作用于用户输入,将用户输入中的结构化信息抽取出来,高效地解决了存在大量类似意图匹配场景的问题。例如,“杭州 2020-03-08 的天气怎么样?”杭州可以抽取成一个枚举实体,2020-03-08 可以抽取成一个正则实体,动作可以定义为调用一个根据城市和时间去查询天气的服务,最后回应返回天气信息。
上述例子说明,QA 问答首先要做到对用户意图的精准理解。机器人工厂底层有一套完备的算法框架,传统机器学习算法与基于深度神经网络的自然语言处理算法相结合,离线的特征提取模型训练与在线的实时预测相结合,纯文本的 FAQ 意图匹配与基于实体槽位的意图匹配相结合,从而提高意图匹配的准确率。这里不做详细展开,后续会有专题文章介绍。
语料管理
会话机器人的智能程度在一定意义上取决于它所理解的语料的丰富性。但绝大部分的知识都是以非结构化的文本形式沉淀下来,而非会话机器人所能理解的一问一答的意图形式。因此,新创建的会话机器人怎样快速构建语料具有智能问答的能力?机器人工厂提供了三种方式解决冷启动问题,单个机器人应用内,通过语料爬取(自动化)与批量导入(人工)和预置意图(系统公共语料)丰富语料;在多个应用之间实现语料共享(应用拼装)。
语料爬取
语料爬取是指自动地将用户已有非结构化的知识库或文档,通过机器阅读和理解能力,抽取整理成会话机器人可以理解的问答对的形式。语料爬取不仅可以代替人工录入快速丰富会话机器人的语料,而且极大的降低了知识库对接机器人工厂的迁移成本。目前,机器人工厂平台 80% 的语料都由语料爬取生成。此外,还支持人工的将 excel 或 json 格式的语料,批量导入自动生成意图。
预置意图
预置意图是机器人工厂将用户高频、通用的场景下沉到平台层面,使其可以赋能所有平台上的机器人应用,增强 QA 问答能力。例如,闲聊、查询天气、查询值班等等。用户只需在平台上勾选启用,即可使自己的机器人拥有回答这些问题的能力。
语料共享
语料共享是指不同会话机器人之间相互复用语料的能力。例如,所有银泰百货的会员手册都一致,但不同的店打折促销活动不同。机器人工厂支持将通用普适的语料创建一个机器人 A,各自差异的语料分别创建各自的机器人,但大家都共享复用机器人A的语料。语料共享能够提高语料的复用率,让用户更专注差异化的部分。
在线编程
上文提到过意图是由“用户输入——动作——回应”三部分组成,其中动作定义了理解用户意图后需要去执行一系列指令。通常动作会通过 HTTP 请求的方式去调用用户自定义的一个服务。但发现经常会遇到以下问题:
- 若用户已有服务接口,会遇到服务格式不适配;机器人工厂的特殊处理逻辑与业务逻辑强耦合等问题。
- 若用户没有服务接口,需要开发、部署、联调、发布一系列流程,还会遇到机器、网络、环境等问题,如果线上验证失败,上面步骤需要重新来过。
- 新增一些具有时效性的临时功能,都需要牵一发而动全身。
为了解决上述问题,机器人工厂与阿里云计算平台的在线开发平台 AppStudio 合作开发出基于 AppStudio 的在线服务开发 IDE,为用户提供云上在线编程平台,帮助你打通下游的服务实现数据查询,指令执行,知识库检索,内容推荐等功能。可以为你提供:
- 灵活性:支持在线编程,自定义业务逻辑、安全性校验等,与业务系统本身解耦;
- 开放性:可以引入需要依赖的 sdk,支持 odps、hsf 等服务;
- 简便性:封装了基本类和 openApi 便于开发;
- 即时性:不依赖任何发布系统,随改随生效;
- 共享性:支持协同编辑开发,代码共享;
- 调试:支持在线 debug、服务测试等功能;
未来已来
机器人工厂在阿里巴巴集团内经过 2 年的发展与打磨,已经孵化 2w+ 机器人,服务44w+ 用户。连续2年参加云栖大会让我们感受到用户对智能机器人的强烈诉求,2020 年机器人工厂正式发布公有云版本。最后,献上机器人工厂为飞天大数据开发平台 DataWorks 打造的一键答疑机器人的 Demo。