苹果的语音助理服务Siri时髦而聪明,在一些情况下也很有用。那么Siri是如何工作的?“语音识别”是Siri的核心,但这并未解释Siri理解用户所说内容的详细过程。本周有业内人士撰文,解释了Siri的工作步骤。
当用户对iPhone说话后,语音将被立即编码,成为一个压缩的数字文件,其中包含着所有有用的信息。这一信息将通过互联网服务提供商(ISP)的网络被发送至云计算服务器,而服务器中的模块将识别用户所说的内容。
与此同时,用户的语音将在手机端被识别。安装在手机中的语音识别器将与云计算服务器通信,了解指令是否适合在本地被处理。用户的指令可能要求手机播放一首歌曲,而另一些指令则有可能需要手机连接至网络,寻求进一步的帮助。如果语音识别器认为,手机内部模块足以处理用户的指令,那么将会告知云计算服务器,不再需要服务器的支持。
根据用户的声调和语序,服务器将对语音进行静态对比,了解语音中包含哪些字母。与此同时,本地的语音识别器也将对用户语音进行静态对比。在服务器端和手机端,可能性最高的识别内容将优先获得处理。
此时,识别出的内容已经包含一系列的元音和辅音字母。随后这些内容将被发送至一个语言模块,以评估用户的语音中包含哪些单词。根据不同的可信度,计算机将创建一个用户所说内容的列表。
如果判断结果具有足够的可信度,那么计算机将能理解用户所说的内容,例如发送短信或查找联系人列表中的联系人。随后用户将会看到手机屏幕上出现所需的内容,而不必手动操作。在这一过程中,如果用户的语音含义过于模糊,那么计算机将会询问用户,例如用户希望查找的联系人是埃里卡·奥尔森(Erica Olssen)还是埃里卡·施密特(Erica Schmidt)。