近日,阿里巴巴达摩院机器智能实验室推出了新一代语音识别模型DFSMN,据世界***的免费语音识别数据库LibriSpeech资料显示,语音识别模型DFSMN,将全球语音识别准确率记录提高至96.04%。
达摩院机器智能实验室的语音识别团队主导了语音识别模型DFSMN的研发,并向全世界企业与个人开源。与目前使用最广泛的LSTM模型,DFSMN模型相比训练速度更快、识别准确率更高。搭载了全新DFSMN模型的智能音响或智能家居设备,相比之前的深度学习训练在速度上提高了3倍,语音识别速度提高了2倍。
在云栖大会武汉峰会上,有一项有趣的PK,装有DFSMN语音识别模型的“AI收银员”与真人店员进行了一场较量,在嘈杂的环境下“AI收银员”准确识别了用户的语音点单,短短49秒种共点了34杯咖啡。DFSMN语音识别模型不单单应用在了智能点单的“服务员”上,在上海地铁里的自动售票机也能看到它的身影。
著名语音识别专家,西北工业大学教授谢磊表示:“阿里此次开源的DFSMN模型,在语音识别准确率上的稳定提升是突破性的。是近年来深度学习在语音识别领域***代表性的成果之一。对全球学术界和AI技术应用都有巨大影响。”