什么是相似问,为什么要编写相似问?
相似问是为了完善机器人教育的一种手段,相似问同原始语料一样,都是机器人学习的对象,是提供模型训练的材料。
相似问是在用户日志、行业数据复用、网上爬取相关问句等都不足以完成机器人训练时,我们才会用到的一种最基本也是最强硬的手段。
也就是说,当我们完成了原始语料的归档后,这个时候我们能够得到对应场景下分类的客户原始问法以及对应的应答内容。但在实际的训练过程当中,我们会发现某一类场景,并没有原始语料能够覆盖,这个时候就需要根据自己以往的服务经验,结合业务场景去补充这些缺失场景下面的语料问答对。
在进行缺失场景语料问答对的补充时,应该注意以下原则:
- 必须要结合实际业务场景;
- 必须要遵循用户思维进行补充。
不能仅仅只是进行业务场景的概括。例如:退货场景缺失语聊,需要用“如何进行退货?”/“怎么进行退货?”/“我想要退货,怎么处理?”这样具备用户思维问法的方式编写,而不是“退货处理”。
机器人正确的运转逻辑是将千奇百种客户的问法匹配到一个具有概括性的标准问上面去。所以针对归档后的语料进行标准化,本质上是将客户的原始语料转化成标准问的一个过程。
相似问编写的优点如下:
- 易操作,只需要在产品系统编辑添加后提交或者用EXCEL批量操作后导入即可。
- 见效快,人工编写相似问来教育长尾的FAQ问题可以快速的帮助机器人达到一个全面教育的水平。
当然,相似问编写也存在以下缺点:
- 工作量大,一般上线的业务往往会有几百上千个FAQ,其中长尾问题占大多数,如果全部通过人为添加相似问来教育,工作量很大。
- 局限性,相似问的编写因人而异,同一个FAQ不同人想到的相似问都会有差异,一般情况下,人工编写相似问是没办法覆盖到无穷的用户真实问句。
因此,为了更好的编写相似问,提高效率,相似问编写可以遵循以下的原则和规范:
1. 根据问答对的语义模拟客户对此知识点进行咨询,用该知识点能解答相似问句中问到的问题。
如:公司的薪酬水平如何?
模拟用户提问题,可以是“你们公司的薪资是多少?”“你们公司待遇怎样呢?”
2. 尽量口语化,不要用固定模版套用。
如:公司的薪酬水平如何?
口语话提问,可以是“我看到你们在招聘,你们这里工资高不高?”
3. 关键词需要多变化不同问法(一般来说,句子中实词意义大于虚词,n,v >> adj >> adv >> 语气词),变化问法的同时需要变换句式。
如:公司的薪酬水平如何?
此问答对的关键词为:薪酬、水平如何。重点词变化可以为“你们公司的待遇怎样?”,“我想了解下你们的薪水情况”。
4. 对于语义相近的两个问答对,添加相似问句时应注意强调区别特征词。
示例:如何使用手机银行进行转账?VS 如何在官网进行转账?
“手机银行”和“官网”就是这两个问答对的语义区别特征,编写数据时应进行强调。
5. 可以根据答案辅助理解知识点,提出不同的相似问法,但不能只根据答案编写,偏离标准问句的语义。
如: 举报电话是?答案:举报电话专线:XXXXX。另外,您也可以拨打我司客服电话955XX反馈
根据答案提问可以为“010-58289XXX是你们的举报电话吗?”
另外还需要注意的是,相似问的补充不是把客户的同样一句话换一个说法然后翻来覆去的讲,而是要结合着客户实际会说的场景来进行补充。
如:
- 异地取款手续费多少?
- 异地取款手续费是多少?
- 异地取款的手续费?
- 异地取款收费收取?
而是:
- 我人在外地,取款手续费多少?
- 我在外地取款收取多少手续费?
- 我在外地取钱手续费多少?
这才是正确的相似问补充方式。
异地取款中,异地=外地;取款=取钱,如果以客服的视角,我们通常为了保证说法的一致性和标准性,我们通常都会说:“异地”和“取款”,但客户往往都会常说的是“外地”和“取钱”。针对这种情况,要进行相似问补充,不仅仅要对句子相似问补充,还应该对这个句子中的关键词进行同义词、相似词的补充;具体的补充方式需要根据各个客服中心机器人后台设置要求来进行,例如有的机器人是将同义词相似词补充单独放在业务场景梳理中,即针对业务场景录入,要求训练师补充同义词的训练场景用词,有的机器人是单独作为一个词典的独立存在,让关键词进行独立存在的补充。
在进行相似问的补充时,可能会遇到以下的问题:
- 相似问补充工作量巨大;
- 相似问补充因人而异如果只让固定人进行相似问补充,很容易形成思维定势,导致最后的相似问可用性差;
- 同一个问题对相似问是无穷无尽,难以完全覆盖用户的真实问法相似问。
几个建议:
解决方法一:阅读大量客户原始日志,进行相似问撰写
要求训练师在进行相似问编写之前,大量阅读客户原始日志,将自己的思维带入到客户的思维去模拟客户问题的方式,这样用以保证撰写出来的相似问是最符合客户问法的相似问。
解决方法二:客服中心人工客服机器人提问知识竞赛(限制范围)
发动客服中心,大量人工客服举行相似问知识竞赛,让大量人工客服参与到相似问的编写过程中来,在编写之前需要明确相似问编写原则和规范,并提供出错误相似问编写示例。
解决方法三:规则语言囊括相似问
使用编程中的规则对相似问进行正则表达式编写,如:我想查询天气情况。使用正则编写其相似问为:[请问|查下|告诉我]${date}${city}[的]天气[预报|情况|状况][如何|怎么样|好不好]。
解决方法四:研发相似问自动生成系统
以上的相似问编写的方法都是依靠训练师人工进行操作,那能否让机器人帮我们进行相似问的编写呢?答案是肯定的,但要考虑成本。