1882 年,一场突如其来的疾病夺走了刚 19 个月的海伦凯勒生活中所有的色彩、声音、动作。和她的生活一样,这个塔斯坎比亚小镇的家庭从此也进入了一个黑暗而寂静的世界。直到 6 年后,沙利文老师出现在海伦的生活,事情才出现了转机。在沙利文的帮助下,海伦凯勒不仅学会了盲文阅读,还在成年后写下了那句「唯有失聪者才会珍视听觉」。
这个故事几乎每个人在小学都已熟悉,因为语文老师们总会布置一篇《读<假如给我三天光明>有感》的作文。但并不是所有听力受损的人都能和海伦凯勒一样幸运,拥有沙利文的独特帮助。
目前,在全世界 4.66 亿遭遇耳聋和听力障碍的人士中,只有极少人能支付起与他人进行即时交流时需要采购的手动转录服务,如美国的 CART,英国的 Palantypist 或其他国家的 STTR。更多的人,在无声对话。
为了改变这一情况,2019 年 2 月 4 日,Google 推出了一款全新的基于 App——Live Transcribe 的内测版,这是一款即时转录真实世界语音的应用程序,只需使用手机的麦克风即可将其转换为实时字幕。3 月,其正式在 Play 商店正式上线。
设计背后:ARS 带来的实时转录
一岁时失聪的俄罗斯人 Dimitri 现在是 Google 的一名科学家。他说话有些吃力,在告诉店员「今天过得不错」时,词句之间的停顿明显。不过,现在他并不需要任何的人工帮助。手机上的 Live Transcribe,正在黑色背景上实时同步店员说的每一个单词:你想喝点什么?右上角的小圆圈也不停地变换大小来暗示周围环境的嘈杂程度。
「Live Transcribe 的转录延迟低于 200 毫秒,接近于实时。」该 App 的产品经理 Sagar Salva 对极客公园说。这样的延时就像 50HZ 的交流电方向的改变一样,难以察觉,保证了双方交流的互动性。同时,据 Salva 介绍,它能支持 70 多种语言和方言,覆盖了世界上 80% 的人群。针对双语家庭,App 里还设有在两种语言间进行快速切换的按键。
两年前,他带着 30 年的语音识别经验加入了谷歌的 AI 研究组时,这款产品还未诞生。每次开会他都需要提前预定 CART 服务,靠字幕员虚拟地加入会议,来将语音对话敲到屏幕上,进行转录。Salva 和同事们便设想如何能通过使用现在 Google 的技术来减少他准备过程。
而今,从山景城到台北,这个模型被不断优化,最终演进成了 Live Transcribe。
在短时间里开发出全新 App 还是得益于谷歌本身的技术积累。据 Salva 介绍,Live Transcribe 背后的核心技术是谷歌各种语音搜索应用一直在使用自动语音识别(Automatic Speech Recognition,ASR)技术。ASR 主要包含特征提取、声学模型,语言模型以及字典与解码四大部分。简而言之,其任务是准确、高效的将语音信号转化为文字信息。目前,YouTube 上准确率极高的实时字幕转录便是得益于谷歌这项技术的支持。
Live transcribe:每个人的沙利文老师
但开发过程并非一帆风顺。
Salva 说,一个便是用户实际使用场景的选择。他们可以选择在电脑、平板设备、或者手机等硬件设备上展现转录结果,也可以有更大胆的设计。例如,他还尝试用小型投影设备将转录出来的字幕打在 Salva 的 T 恤上。
但对于听力受损的人来讲,劳动力回报以及收入都相对较低。据中国残联发布的《2018 年残疾人事业发展统计公报》,全国城乡持证残疾人就业人数为 948.4 万人,其中灵活就业(含社区、居家就业)254.6 万人,从事农业种养加 480.1 万人,几乎占了绝大部分。在残疾人家庭人均可支配收入上也与社会平均水平有较大差距。
考虑到这些原因,在所有智能设备中,Salva 和团队最终选择了智能手机:「目前全球已经有 20 亿人在使用安卓的手机,这样的硬件平台选择是成本低廉的。」
为了让较为低配的手机也能使用 Live Transcribe,Salva 和团队选择在这款 App 背后使用两种不同的神经网络。一个是在设备上运行神经网络,主要完成声音分类的工作,例如婴儿哭声、玻璃破碎声音等。在对这些声音的实时转录中,能够快速地进行分类和辨析。第二个是用于完成语音转录成文字工作的云端神经网络模型。
「事实上,在云端,在 Google 的服务器上,利用机器学习和这些神经网络模型进行语音的识别是非常重要的,这意味着这款产品在一些低配的手机上也能够运行。」Salva 说。「当它在运行的时候,只会消耗大概 4M 左右的内存空间。我们做了电量使用优化,单次充电可以使用 10 个小时左右。」
谷歌想做的是让每个听力受损的都能真正使用得起这个免费的 App。实际上,这个想法早已有迹可循。
有迹可循:20% 的创新项目
在 2016 年 3 月,Google 就推出了 Accessibility Scanner,这是一款自动化工具,用于评估应用程序,并为视觉和听觉障碍用户提供改进方法,例如,通过扩大小型触摸目标或更改对比度。
2018 年 8 月,Google 又发布了一项新的开放式规范,旨在启动助听器的开发,这种助听器能够在蓝牙低功耗(LE)的 Android 手机上运行,充足的低延迟和对电池寿命的影响最小。
这些演进踪迹的源头却是一个偶然。Salva 介绍说,最初 Live transcribe 只是一个 20% 创新项目。20% 是在谷歌内部一个著名的鼓励文化:鼓励员工利用 20% 的时间用于创新。比如在一周 5 天的工作中,员工能用 1 天的时间用于研究本职工作外的其他感兴趣的项目。如这些创新获得了进一步的证明,便能获得推广、完善的机会,如耳熟能详的 Google News 和 Gmail 都属于创新诞生的产物。
当 Live transcribe 诞生后,在谷歌团队内部其他的听力受损同事之中也广受好评。因此,才逐渐走向了 Play 商店。
在研发过程中,为了减少周围环境噪音得影响使转录效果更好,谷歌还推出了另一款相关的 App:Sound Amplifier。这款应用能够使用声音放大器,使音频更清晰,更容易听到。可以在 Android 智能手机上使用带有线耳机的声音放大器来过滤,增强和放大环境中的声音。
据世界卫生组织估计,到 2055 年,全世界听力受损的人数将达到 9 亿。虽然不确定那时的医疗是否已经能够使人们不再受到听力受损的困扰,但能肯定的是,至少今天正如谷歌所希望的一样,Live Transcribe 和 Sound Amplifier,正在帮助数亿聋人沟通得更清楚。