Google开源自家神经网络编码器，吊打Opus-神经网络编码器

[[418658]]

Google 近日发布了一个端到端的神经音频编解码器 —— SoundStream。最重要的是，Google 表示这是世界上第一个由神经网络驱动并支持语音、音乐和环境声音等不同声音类型的音频编解码器，可以在智能手机的处理器上实时处理上述各种音频。

[[418659]]

音频编解码器是压缩音频文件的基本工具，以使其体积更小，并在传输过程中尽可能节省时间。因此，音频编解码器对于流媒体、在线语音和视频通话这类有音频传输需求的服务而言至关重要。

虽然音频编解码器能够压缩音频体积，加速音频传输过程，但压缩后的音频也会损失音频质量和细节，产生可以让用户察觉到的差异。而这就是 SoundStream 能够弥补的地方。

今年 2 月的时候，Google 发布了一个用于低比特率语音的神经音频编解码器 Lyra，并在今年 4 月正式开源。SoundStream 是 Lyra 的一个扩展版本。SoundStream 不仅集成了 Lyra 在低比特率「语音」方面的能力，还具有对更多声音类型的编码支持，包括清晰的语音、嘈杂的语音、带有回声的语音、音乐和环境声音等。

SoundStream 是围绕一个由编码器、解码器和量化器组成的神经网络系统而建立的。编码器将音频转换为编码信号，之后使用量化器进行压缩，并使用解码器转换回音频。因此，在经过训练神经网络模型后，编码器和解码器可以在不同的客户端工作，有助于在各种环境下以不损失质量的前提传输音频。

Google 已经在网站上发布了不同音频压缩样本与原始音频样本的对比。通过对比测试，经过 SoundStream 处理过的 3 kbps 的音频要优于 Opus 音频编解码器处理过的 12 kbps 音频，效果与 ECS 编解码器处理过的 9 kbps 十分接近。

目前 Google 自己的在线会议平台 Google Meet 和视频平台 YouTube 仍在使用 Opus 音频编解码器。随着 SoundStream 技术的不断进步，可能很快就能看到 Google 将在自己的服务中使用自己的技术。

Google 表示，SoundStream 是将机器学习技术应用在音频编解码器中重要的一步，比目前最先进的编解码器 Opus 和 EVS 效果更好。SoundStream 将被整合进 Lyra，并随着 Lyra 下一版本的发布一同推出。开发人员可以利用现有的 Lyra API 和工具，来提供更好的音质。