如何评测语音技能的智能程度之指标权重设计

企业动态
这是一份前面四篇评测维度介绍文章的总结,同时也是一份清单使用说明书。“结构清晰,主次分明”,用解构的方式去理解一款产品,这才是人工智能从业者思考的专业化表现。

 这是一份前面四篇评测维度介绍文章的总结,同时也是一份清单使用说明书。

[[330150]]

“结构清晰,主次分明”,用解构的方式去理解一款产品,这才是人工智能从业者思考的专业化表现。

对于这四大维度,什么是重点呢? 面向需求进行自定义。

如何定义各个维度的权重

权重高低的定义有两个考量维度,一个是行业需求,另一个是硬件载体。行业需求包括出行、旅游、餐饮、教育、医疗、金融、电商、客服等;硬件载体包括智能音箱、智能手表、车机、智能耳机、机器人等等。

智能语音技能,往往都会解决某个行业领域的特定业务需求,也往往都存在于一个或多个硬件载体上,与人类进行交互行为。大维度自定义权重,同理,每个维度上的指标也基于需求自定义。

 

例如:某语音技能的定位是用来听歌的,“意图理解“中的模块做得非常好,但是由于版权原因,很多歌曲无法播放,这个技能的用户体验就会非常糟糕,因为满足不了用户听歌的需求。

如果该语音技能是线下生活服务,比如订外卖或者是电影票,这类往往不具备版权垄断特质,但由于业务流程的复杂,有太多叠加查询条件,自然对“意图理解“就会有很高的权重要求。

如果某个玩具/手办具备语音交互功能,用户非常在意玩具/手办的语音交互是否匹配角色气质,故而对这类用户而言,“人格特质“就要要求高权重。

语音技能评测指标的选择和量化

这份清单花了笔者太多的时间,仍然有太多的问题值得讨论:

  • 为什么是4个维度,而不是5个或者是3个?
  • 基于什么依据设置每个维度的重点和加分项?
  • 各维度是否穷尽了“智能化”评测的角度?
  • 每个指标的用词的和定义是否精准无歧义且易于理解?
  • 每个维度的指标是不是平行、独立关系?
  • 每个维度的指标是不是做到了穷举?

特别是在保留哪些指标,合并哪些指标之间,笔者做了很多的取舍和权衡。语音识别表现,这个指标,与其说是遗漏,不如说是笔者的选择。目前最好的ASR识别率是97%,且这已经是非常成熟的技术。ASR和TTS是基础服务,在未来就像AI领域水电煤一样,就跟选百度云还是阿里云一样,花钱买服务就能搞定,差距不会太大,故而不值得纳入评测范畴。

因此,这类语音识别的基础表现,就直接归到【交互流畅】维度“服务稳定性”指标上了。

ASR这项技术未来差距很可能会被抹平,而如果做到了方言转普通话然后转文本那就是另外一个话题了,方言转普通话和任何一种语言转普通话是同一个逻辑。那笔者可能会归纳到【意图理解】维度上。

笔者力求全面,但并非每一个都需要用到,可以基于自己的需求,自由添加、删除和修改分类。例如:如果是一个智能耳机或者语义翻译棒,那么“反馈样式丰富性”上,就不必要纳入评测范围了。

但选择本身就是一个难题,这件事情非常地考验我们的认知。举个例子:苹果手机前面几代产品,玻璃屏幕特别不耐摔,这在诺基亚的评测维度里面,是无法上市销售的。后来的故事,我们都知道了,这个故事各位细品。

指标的量化标准并不是一个难题。拿测试集去验证,最终统计各个指标的表现,然后再横向比较竞品就好。

商业化服务比得是相对指标,而不是绝对指标,即不需要考满分,只要在某个方向上,领先与其他竞品一段距离就好,然后就可以宣称,这是当前市面上“某某指标”表现最好的产品。

 

语音技能服务的上限和下限

除去调研和评测其他智能语音技能,这份清单的还可以用于服务的产品定位,以及作为清单来评价语音技能服务表现。

语音技能服务在立项的时候,要哪些不要哪些,有多大的边界和范围,是一个思考题。开始的无屏音箱都在抄亚马逊的Echo,后面为什么又出现了有屏音箱呢?这个就是智能语音产品的定位和选择。

从商业逻辑上来看,缺陷明显的产品无法存活于市场,没有长项的产品也注定平庸。企业也没法把所有的资源平均分配,那样的东西注定平庸,唯有极致才可以生存。

语音技能服务的上限就是自己的卖点,这样才能够从竞争之中脱颖而出。

例如,再烂的智能手机也要搭配一颗摄像头,且摄像头的性能表现不能低于某个标准,如果这个太烂的话,注定无法存活。前面苹果手机的屏幕其实也抗震,不是一摔就碎的东西,这种就是下限保障。

语音技能服务的下限要做到什么程度,这个就是及格线,存活于市场的前提。

在保证了及格线达到平均线标准之后,应当把更多的资源堆到某个维度上。大家比拼的是在资源有限的前提下,基于定位做产品交付。

战略的第一步就是放弃,敢放弃什么,拼的是认知。

综上所述——

  • 基于定位来选择重要的维度和指标,做权重优先级排序。
  • 基于选择的指标,使其数值可衡量,做量化标准。
  • 基于公司资源保障产品下限,基于人才提升上限。

掌握使用说明书,这份清单的价值也就到位了。

 

总结

人的理性是有限的,在遇到环境影响而情绪波动的时候,结果往往不可控。如《清单革命》中所说的那样,以原则清单行事则更加可控,减少纠结犹豫,提升效率。

笔者在设计评测指标的时候,往往是朝着最理想的人工智能去做比对的,它能帮助我们在各个维度上去逼近超级人工智能,打造令人尖叫的产品。

谢谢各位看到这里,希望这份业务清单能够帮助到大家。

责任编辑:武晓燕 来源: 51CTO专栏
相关推荐

2020-05-28 10:15:06

语音技能服务提供

2020-06-01 14:33:27

语音技能智能

2020-06-08 09:48:31

语音技能智能

2020-05-21 10:24:59

语音技能智能

2020-04-20 10:10:44

NLPAI语音

2021-04-13 06:13:33

微软人工智能语音技术

2023-09-20 16:33:09

大数据数据指标

2022-11-03 16:31:08

语音智能语音识别

2020-02-10 08:20:48

智能语音人工智能物联网

2021-06-25 16:10:05

人工智能AI

2020-06-24 07:44:45

JavaScript开发代码

2023-07-13 06:55:00

2010-05-13 18:18:58

MySQL root

2019-05-27 08:00:00

2014-04-14 11:40:47

云知声语音

2017-04-13 15:05:39

Gokit机智云

2023-05-29 16:55:42

智能化电子秤小凌派

2015-07-28 14:35:40

2017-02-23 08:00:04

智能语音Click

2024-02-19 08:12:15

DIKW 模型指标系统数据仓库
点赞
收藏

51CTO技术栈公众号