微软致力于开发一种新的语音输入接口,允许用户在没有声音出现的情况下进行说话和录音。该研究由微软研究院进行,并在 ACM CHI 2018 中进行了介绍。这种技术被称为 SilentVoice 通过录制呼吸时发出的声音来实现通信,这种允许类似耳语的声音就足够让麦克风录制语音而不会打扰周围的人。此外,该模块还将过滤周围的语音,因此即使有外界干扰,用户也可以捕获清晰的语音。
SilentVoice 是一种新的语音输入接口设备,可以在日常生活中利用基于语音的自然用户界面(NUI)。
所提出的“渐进式语音”方法能够将麦克风放置在非常靠近嘴的前部而不受噪声的影响,捕获具有良好S/N比的非常柔和的语音。它实现了超小(低于 39dB(A))的语音泄漏,允许使用语音输入,而不会在公共和移动情况以及办公室和家庭中烦扰周围的人。(终于不会打扰到人用 TNT 啦!)
通过测量气流方向,SilentVoice 可以轻松地让外部声音与正常话语分离,准确度达 98.8%,在语音通信启动前不需要念激活词。它还可以配合带有经过专门训练的语音识别器的语音激活系统,评估结果产生的单词错误率(WERs)为 1.8%(说话者依赖条件),7.0%(说话者无条件),包含有 85 个命令句,这意味着类似耳语的自然语音也可用于实时语音通信。
您可以在 ACM CHI 计算系统会议上查看完整的演示文稿:https://youtu.be/9EV1mEtVfuM
该技术仍处于研究阶段,但肯定会帮助那些喜欢使用语音命令但喜欢在不打扰周围人的情况下工作的人。