近些天来抨击Siri似乎已成了潮流。Mat Honan以“Apple’s broken promise”一文极尽嘲讽,CNN报道了Siri所谓的反堕胎偏见,John Gruber评论说苹果的旗舰极新产品“在小处如此粗糙”,实在是不可思议,但他也同时指出:被广泛使用以后,语音识别更容易提高。
这不仅是更容易,而且是只能这样!
我在IBM Research的语音识别项目里工作了近六年。我们参加了由DARPA(美国国防部高级研究计划局)赞助的研究项目、实地测试、以及各种应用的实际产品开发:听写、呼叫中心、汽车、甚至是听障人员的课堂助理。尽管具体项目不一,但基本的东西从来不变:给我们更多的数据!(数据在这里指语音录音)一些研究员还认为最近语音识别准确性的提高要归功于更多的更好的数据,而不是更好的算法。
记录下来的语音录音被用来训练声学模型(声音波形和音位如何关联)、发音词汇(在说单词,特别是人名和地名时,人们是如何发音错误的)、语言模型(口语短语很少符和英语语法)、以及自然语言处理器。每个支持的语言都要这样做!更多的训练数据意味着识别器能处理更多在语音、口音、语言风格等方面的变化。
把Siri看作是某种人工智能,要是训练有素,她就可能回答出各种各样的问题——这很诱人。而现实情况是,她是一个非常复杂的各种子系统的混合体,其中有许多还需要手工操作。要改进Siri,工程师就得不辞辛劳地查看她所有不明白的请求(所有语言!),再制定新的规则来处理它们。像目前类似“堕胎诊所”这样漏洞可能还有很多很多,而这些都会慢慢被修补。当苹果说“我们找到可改进的地方后,就会来接下来的几星期……”,他们已经明白地描述了这个过程是如何操作的。
重要的是要明白,在公开发布前,Siri无法像苹果的硬件和应用设计那样,在实验室里进行各种微调和全面测试,她必须要以现在的形态推向市场,尽可能接触到从音质到自然语言的解读的尽可能多的变化。苹果工程师已预测到了不少搞笑的问题,而可怜的Siri还得接着忍受那些没被预测到的。
假如真如传言那样,Apple TV会用上语音操控功能,那么Siri很快会有其它挑战。比如,远处的语音识别比起近距离地使用麦克风要困难许多。
出自:36氪
【编辑推荐】