如何评测语音技能的智能程度之指标权重设计-51CTO.COM

这是一份前面四篇评测维度介绍文章的总结，同时也是一份清单使用说明书。

[[330150]]

“结构清晰，主次分明”，用解构的方式去理解一款产品，这才是人工智能从业者思考的专业化表现。

对于这四大维度，什么是重点呢? 面向需求进行自定义。

如何定义各个维度的权重

权重高低的定义有两个考量维度，一个是行业需求，另一个是硬件载体。行业需求包括出行、旅游、餐饮、教育、医疗、金融、电商、客服等;硬件载体包括智能音箱、智能手表、车机、智能耳机、机器人等等。

智能语音技能，往往都会解决某个行业领域的特定业务需求，也往往都存在于一个或多个硬件载体上，与人类进行交互行为。大维度自定义权重，同理，每个维度上的指标也基于需求自定义。

例如：某语音技能的定位是用来听歌的，“意图理解“中的模块做得非常好，但是由于版权原因，很多歌曲无法播放，这个技能的用户体验就会非常糟糕，因为满足不了用户听歌的需求。

如果该语音技能是线下生活服务，比如订外卖或者是电影票，这类往往不具备版权垄断特质，但由于业务流程的复杂，有太多叠加查询条件，自然对“意图理解“就会有很高的权重要求。

如果某个玩具/手办具备语音交互功能，用户非常在意玩具/手办的语音交互是否匹配角色气质，故而对这类用户而言，“人格特质“就要要求高权重。

语音技能评测指标的选择和量化

这份清单花了笔者太多的时间，仍然有太多的问题值得讨论：

为什么是4个维度，而不是5个或者是3个?
基于什么依据设置每个维度的重点和加分项?
各维度是否穷尽了“智能化”评测的角度?
每个指标的用词的和定义是否精准无歧义且易于理解?
每个维度的指标是不是平行、独立关系?
每个维度的指标是不是做到了穷举?

特别是在保留哪些指标，合并哪些指标之间，笔者做了很多的取舍和权衡。语音识别表现，这个指标，与其说是遗漏，不如说是笔者的选择。目前最好的ASR识别率是97%，且这已经是非常成熟的技术。ASR和TTS是基础服务，在未来就像AI领域水电煤一样，就跟选百度云还是阿里云一样，花钱买服务就能搞定，差距不会太大，故而不值得纳入评测范畴。

因此，这类语音识别的基础表现，就直接归到【交互流畅】维度“服务稳定性”指标上了。

ASR这项技术未来差距很可能会被抹平，而如果做到了方言转普通话然后转文本那就是另外一个话题了，方言转普通话和任何一种语言转普通话是同一个逻辑。那笔者可能会归纳到【意图理解】维度上。

笔者力求全面，但并非每一个都需要用到，可以基于自己的需求，自由添加、删除和修改分类。例如：如果是一个智能耳机或者语义翻译棒，那么“反馈样式丰富性”上，就不必要纳入评测范围了。

但选择本身就是一个难题，这件事情非常地考验我们的认知。举个例子：苹果手机前面几代产品，玻璃屏幕特别不耐摔，这在诺基亚的评测维度里面，是无法上市销售的。后来的故事，我们都知道了，这个故事各位细品。

指标的量化标准并不是一个难题。拿测试集去验证，最终统计各个指标的表现，然后再横向比较竞品就好。

商业化服务比得是相对指标，而不是绝对指标，即不需要考满分，只要在某个方向上，领先与其他竞品一段距离就好，然后就可以宣称，这是当前市面上“某某指标”表现最好的产品。

语音技能服务的上限和下限

除去调研和评测其他智能语音技能，这份清单的还可以用于服务的产品定位，以及作为清单来评价语音技能服务表现。

语音技能服务在立项的时候，要哪些不要哪些，有多大的边界和范围，是一个思考题。开始的无屏音箱都在抄亚马逊的Echo，后面为什么又出现了有屏音箱呢?这个就是智能语音产品的定位和选择。

从商业逻辑上来看，缺陷明显的产品无法存活于市场，没有长项的产品也注定平庸。企业也没法把所有的资源平均分配，那样的东西注定平庸，唯有极致才可以生存。

语音技能服务的上限就是自己的卖点，这样才能够从竞争之中脱颖而出。

例如，再烂的智能手机也要搭配一颗摄像头，且摄像头的性能表现不能低于某个标准，如果这个太烂的话，注定无法存活。前面苹果手机的屏幕其实也抗震，不是一摔就碎的东西，这种就是下限保障。

语音技能服务的下限要做到什么程度，这个就是及格线，存活于市场的前提。

在保证了及格线达到平均线标准之后，应当把更多的资源堆到某个维度上。大家比拼的是在资源有限的前提下，基于定位做产品交付。

战略的第一步就是放弃，敢放弃什么，拼的是认知。

综上所述——

基于定位来选择重要的维度和指标，做权重优先级排序。
基于选择的指标，使其数值可衡量，做量化标准。
基于公司资源保障产品下限，基于人才提升上限。

掌握使用说明书，这份清单的价值也就到位了。

总结

人的理性是有限的，在遇到环境影响而情绪波动的时候，结果往往不可控。如《清单革命》中所说的那样，以原则清单行事则更加可控，减少纠结犹豫，提升效率。

笔者在设计评测指标的时候，往往是朝着最理想的人工智能去做比对的，它能帮助我们在各个维度上去逼近超级人工智能，打造令人尖叫的产品。

谢谢各位看到这里，希望这份业务清单能够帮助到大家。