NCMMSC2015：百度取得汉语语音识别技术重大突破-51CTO.COM

　　近日，中国人机语音交互领域最权威的学术会议——全国人机语音通讯学术会议(NCMMSC2015)在天津举办。会上，来自产学研各界的技术大牛分享了在人机语音交互方面的技术成果和突破，其中最引人关注的当属百度语音技术部负责人贾磊的演讲。

　　他在会上介绍了百度最新研发出的语音识别技术，识别相对错误率比现有技术降低15%以上，使汉语安静环境普通话语音识别的识别率接近97%。这是继2011年，引入深度学习技术，相对错误率降低20%~30%之后，语音技术领域又一次具有标志性意义的重要进展。

[[154066]]

　　百度语音技术部负责人贾磊在NCMMSC2015上介绍百度语音技术取得的重大突破

　　一次框架性的创新

　　近年来，语音识别技术突飞猛进。2011年，随着深度学习技术被引入语音识别领域，语音识别技术翻开了新的篇章。随后的几年里，CNN(卷积神经网络)、LSTM(长短时记忆模型)、CNN混合LSTM的建模技术在语音识别工业产品中不停涌现，并持续提升语音识别产品效果。而百度此次研发的突破性技术，是汉语语音技术上一次框架性的革新，成为目前世界上最先进的汉语语音识别技术。

　　“百度研发出了基于多层单向LSTM的汉语声韵母整体建模技术，并成功把连接时序分类(CTC)训练技术嵌入到传统的语音识别建模框架中，再结合语音识别领域的决策树聚类、跨词解码和区分度训练等技术，大幅度提升线上语音识别产品性能。”贾磊表示，该技术相比于工业界现有的基于状态建模的深度学习的语音识别产品技术，相对错误率降低在15%以上。

　　值得注意的是，这一技术创新并非依靠单点的突破，而是“打造基于多层单向LSTM的汉语声韵母整体建模技术”、“引入CTC技术”、“与语音识别领域的传统技术相结合”三大方面共同作用的结晶，是一项框架性的创新。

　　这一革新不纯粹是学术上的研究成果，而是可以直接应用在产品上。据悉，应用这一新技术的百度搜索产品即将上线。

　　三大因素助力攻克十年技术困局

　　LSTM与CTC技术都已经存在很长时间。特别是于2006年首次被提出的CTC技术，由于其容易收敛到局部点等特点，以及这两大技术结合后计算量巨大等原因，10多年来，LSTM与CTC的结合一直没有在语音工业领域成功应用。此次，百度依靠三大因素——大数据机器学习和语音识别传统理论结合、创新的算法以及强大的计算能力，成功突破了这十多年的技术困局。

　　这一切的成功要回溯到4个多月前。早在今年6月初，百度展开了对语音技术的创新探索。“我们详细地研究和分析了汉语状态建模、声韵母整体半音节建模、音节整体建模等多种汉语建模单元，并深入探索了不同建模单元的CTC训练的价值和作用。”贾磊娓娓道来。

　　功夫不负有心人。经过短短4个月的不断探索与试验，百度在世界范围内率先克服了在汉语领域使用CTC技术训练单向LSTM的高精度建模难题。

　　相比双向LSTM，单向LSTM的好处是明显的。“单向比双向更适于产品系统。因为用双向LSTM技术建立的模型，需要使用语音的未来一段时间的数据，这就造成了解码器的额外等待，会给语音识别造成时延;而单向则不需要，解码过程和数据到达同步进行，识别速度更快。”贾磊介绍到，“虽然单向LSTM在做建模单元的整体建模上有诸多好处，但一直以来，因其存在解码路径右边信息的不完整性，导致识别效果较低，始终超不过传统的三状态建模。”

　　LSTM和CTC技术各有特点，将二者结合的技术非常困难，以至10多年来在语音识别产品领域从未被成功应用过。“LSTM和CTC建模技术结合，其核心难度之一就在于海量数据下的深度学习需要强大的计算能力，这两项技术的计算量比传统深度学习的计算量大一个数量级。直接按照数学公式去实现上述算法，LSTM和CTC训练就需要采用单帧递推模式，这样的训练速度在工业条件下的将近1万小时训练数据下，几乎是不可能实现的。”贾磊解释到。

　　为此，百度进行了一系列的算法革新，并利用百度大数据平台计算优势，成功地攻克了这一学术训练难题，打破十年来的技术困局。

　　据了解，对比谷歌2015年9月份于Interspeech 发表的在英文领域的类似研究成果，百度的训练数据是谷歌的4-5倍，模型训练参数规模是谷歌的10-20倍。而该技术成功突破的核心要素之一就是训练能力的极致提升，大模型大数据下的难度要比实验室小数据小模型的情况下难很多。百度研发出的全新训练算法，更接近工业大数据的产品实践，是可以推广到10万小时训练的全新技术。

　　仅凭上述深度学习技术的创新，要想推动汉语识别技术的产品重大突破是远远不够的。深度学习技术必须和行业专业理论结合才能以质变的方式提升工业产品技术。

　　“过去，有很多机器学习技术应用于语音识别领域取得了不错的效果，但是在解决产品上线的计算量和用户等待时间方面总是差强人意。”贾磊指出，百度根据自己在语音产品实践中的长期积累和经验，经过大量实验详细的比较，在尝试了音节、声韵母和状态等不同长度的建模单元之后，最后探索出最适合汉语的声韵母整体建模。最终，把上述成果一起应用到语音识别的传统技术框架中，结合决策树聚类、跨词解码技术和区分度训练等一系列传统技术，实现了汉语语音识别工业产品技术的实质性提升。

　　在解决工业难题的同时，百度还最先对工业情况下的CTC技术在语音产品中发挥巨大作用的本质进行了深入探索。

　　在研究过程中，贾磊和他的团队发现，在大数据、大模型条件下，在固定边界的CE训练之后，采用CTC训练，可能对多层双向LSTM模型的性能提升很有限，但对多层单向LSTM模型的改善是显著的。

　　“我们对CTC的本质进行了深度探究，”贾磊表示，“我们认为，一个可能的解释是，CTC的空白吸收机制和动态边界尖峰学习能力，可以动态自适应地形成‘target delay’，从而解决单向LSTM模型的右边信息不完整的问题，而这个作用对双向LSTM模型的价值就小很多。”

　　该理论的探索和发现，对于CTC技术进一步在语音识别中的创新研究打下了很好的基础。除此之外，百度产品团队还探索了语音识别中CTC训练后的模型具有超快的解码速度的本质原因，并向业界公开其相应的解码器加速策略。

　　更深刻的变革正在来临

　　如今，百度已经开始使用上万小时的样本进行模型训练。不难预测，不久，语音识别技术发展将很快进入10万小时数据样本训练阶段，只有这样，才能覆盖千差万别的用户口音差异。再考虑环境变化的影响，未来训练语料量可能会突破100万小时。

　　在贾磊看来，随着训练数据量的迅速增加，如何实现大规模LSTM建模和CTC的有效训练，会成为一个核心的技术难题。“以后，语音识别领域的深度学习将进入数百GPU并行训练的状态，理论创新和算法技术创新都将围绕大数据展开。语音识别技术的研发方法，相对于现在必将发生深刻的变革。”

　　除此之外,CTC建模技术进一步降低了语音识别应用的解码成本，随着适合深度模型计算的专业硬件的大量涌现，语音识别云服务的成本将大量降低，从而推动语音交互技术的更大范围的普及。

　　贾磊告诉我们，这次百度做出的重大技术创新，更大程度上是百度对计算能力极限挖掘的一次尝试。“未来这样的尝试一定还会更多”。