深入探讨语音转文本技术的演进
语音转文本 (STT),也称为自动语音识别 (ASR),是一种将口语转录成书面文本的 AI 技术,现在越来越多的公司利用 STT 在现有应用程序中嵌入新的音频功能,并为一系列用例创建智能助手。
语音转文本模型简史
首先,一些背景信息。语音转文本是 AI 中自然语言处理 (NLP) 分支的一部分。它的目标是使机器能够理解人类语音并将其转录成书面格式。
你可能会想,转录语音有多难。简短的回答是:非常难。与可以以相对简单的方式放入矩阵中的图像不同,音频数据受背景噪声、音频质量、口音和行业术语的影响,这使得机器难以掌握。
几十年来,研究人员一直在努力应对这些挑战。这一切都始于 1949 年 Weaver 的备忘录,它激发了使用计算机处理语言的想法。早期的自然语言处理 (NLP) 模型使用隐马尔可夫模型 (HMM) 等统计方法来转录语音,但它们准确识别不同口音、方言和语音风格的能力受到限制。
在接下来的几十年里,从语法理论到符号 NLP 再到统计模型,见证了许多重要的发展,所有这些都为我们今天所知道的 ASR 系统铺平了道路。但该领域真正的重大变化发生在 2010 年代,随着机器学习 (ML) 和深度学习的兴起。
统计模型被 ML 算法所取代,例如深度神经网络 (DNN) 和递归神经网络 (RNN),这些算法能够捕获以前难以检测的惯用表达和其他细微差别。不过,仍然存在上下文问题:模型无法根据整个句子推断特定单词的含义,这不可避免地导致了错误。
然而,这十年来最大的发明是 2017 年发明 Transformers。Transformers 的自注意力机制彻底改变了 ASR。 与以前的所有模型不同,Transformers 成功地捕获了不同词性之间的长期依赖关系,使它们能够考虑每个转录句子的更广泛上下文。
基于 Transformers 的 ASR 模型的出现重塑了语音识别领域。其卓越的性能和效率为各种应用程序提供支持,从语音助手到高级转录和翻译服务。
许多人认为,正是在那时,我们从单纯的“语音识别”过渡到更全面的“语言理解”领域。
由于最新的突破,ASR 系统的整体性能(在速度和质量方面)多年来得到了显著提高,这得益于开源存储库的可用性、来自 Web 的大型训练数据集以及更易于访问的 GPU/CPU 硬件成本。
Speech-to-Text 的工作原理
如今,尖端的 ASR 解决方案依靠各种模型和算法来产生快速准确的结果。但是 AI 究竟是如何将语音转换为书面形式的呢?
转录是一个复杂的过程,涉及多个阶段和 AI 模型协同工作。以下是 speech-to-text 中关键步骤的概述:
- 预处理。 在转录输入音频之前,它通常会经历一些预处理步骤。这可能包括降噪、回声消除和其他提高音频信号质量的技术。
- 特征提取。 然后将音频波形转换为更适合分析的表示形式。这通常涉及从音频信号中提取特征,以捕获声音的重要特征,例如频率、振幅和持续时间。梅尔频率倒谱系数 (MFCC) 是语音处理中常用的特征。
- 声学建模。 涉及训练一个统计模型,该模型将提取的特征映射到音素,音素是语言中的最小声音单位。
- 语言建模。 语言建模侧重于语音的语言方面。它涉及创建一个概率模型,说明单词和短语在特定语言中的可能显示方式。这有助于系统根据句子中的前一个单词,就哪些单词更有可能出现做出明智的决定。
- 译码。 在解码阶段,系统使用声学和语言模型将音频转录为单词或标记序列。此过程涉及搜索与给定音频特征对应的最可能的单词序列。
- 后处理。 解码后的转录可能仍包含错误,例如误识别或同音异义词(发音相同但含义不同的单词)。在生成最终输出之前,应用后处理技术(包括语言约束、语法规则和上下文分析)来提高转录的准确性和连贯性。
STT 模型的主要类型
转录发生的确切方式取决于所使用的 AI 模型。一般来说,我们可以区分声学遗留系统和基于端到端深度学习模型的系统。
声学系统依赖于隐马尔可夫模型 (HMM) 和深度神经网络 (DNN) 等传统模型的组合来执行一系列子过程来执行上述步骤。
这里的转录过程是通过传统的声学-语音匹配完成的,即系统尝试根据声音猜测单词。由于每个步骤都由单独的模型执行,因此这种方法容易出错,并且由于需要独立训练所涉及的每个模型,因此成本相当高且效率低下。
相比之下,由 CNN、RNN 和/或变压器提供支持的端到端系统作为单个神经网络运行,所有关键步骤都合并到一个互连的过程中。一个值得注意的例子是 OpenAI 的 Whisper ASR。
这种方法旨在解决遗留系统的局限性,由于采用了更精细的基于嵌入的机制,因此可以提高准确性,从而根据每个给定单词的语义接近性实现语言的上下文理解。
关于微调的注意事项
尽管上一代转录模型非常准确,但得益于新技术和大型语言模型 (LLMs) 的支持,它们仍然需要一点帮助才能应用于特定用例,而不会影响输出准确性。更具体地说,这些模型可能需要额外的工作才能用于特定的转录或音频智能任务。
微调包括通过在特定于任务的数据上训练预先训练的神经网络,使其适应新的应用程序。这是使高质量 STT 具有商业可行性的关键。
在音频中,微调用于使模型适应技术专业领域(即医学词汇、法律术语)、口音、语言、噪音水平、特定说话人等。在我们的微调 ASR 模型的指南中,我们更详细地探讨了这项技术的机制、用例和应用。
主要特点和参数
除了核心转录技术之外,如今大多数提供商还提供一系列附加功能,从说话人分类到摘要,再到情感分析,统称为“音频智能”。
使用 API,基础转录输出并不总是由负责 “智能” 层的同一模型执行。事实上,商业语音文本提供商通常使用多种模型的组合来创建高质量和多功能的企业级 STT API。
转录:关键概念
有许多参数会影响转录过程,并可能影响一个人对 STT 解决方案或提供者的选择。以下是需要考虑的关键因素。
输入
- 格式: 大多数转录模型根据音频文件格式(m4a、mp3、mp4、mpeg)提供不同级别的质量,其中一些模型只接受特定格式。根据转录是异步转录还是实时转录,格式的应用会有所不同。
- 音频编码:音频编码是将音频文件从一种格式更改为另一种格式的过程,例如,为了减少传输音频信息所需的位数。
- 频率: 对于语音转文本模型,声音可以理解的最小频率。目前生成的大多数音频文件的最低频率为 40 kHz,但某些类型的音频(例如来自呼叫中心的电话录音)的频率较低,导致录音频率为 16 kHz 甚至 8 kHz。需要对更高的频率(如 128Khz 的 mp3 文件)进行重新采样。
- 位深度: 位深度表示录制了音频样本的振幅量。它有点像图像分辨率,但用于声音。具有较高位深度的文件将表示更广泛的声音范围,从非常柔和到非常响亮。例如,大多数 DVD 的音频为 24 位,而大多数电话的音频为 8 位。
- 渠道: 输入音频可以有多个通道:单声道(单声道)、立体声(双声道); 多通道(多个轨道)。
输出
任何转录输出都应该包含一些基本组件,并且通常以一系列转录文本的形式出现,其中包含关联的 ID 和时间戳。
除此之外,请务必考虑转录输出的格式。大多数提供商至少会提供至少包含上述数据点的转录文本的 JSON 文件。有些还将提供转录的纯文本版本,例如 .txt 文件,或适合字幕的格式,例如 SRT 或 VTT。
性能
延迟
延迟是指模型接收到输入(即语音或音频信号)与开始生成输出(即转录文本)之间的延迟。在 STT 系统中,延迟是一个关键因素,因为它直接影响用户体验。延迟越短,响应时间越短,听录体验越实时。
推理
在 AI 中,推理是指根据数据和以前的学习“推断”输出的操作。在 STT 中,在推理阶段,该模型利用其学到的语音模式和语言知识来生成准确的转录。
推理的效率和速度会影响 STT 系统的延迟。
准确性
STT 模型的性能结合了许多因素,例如:
- 端到端延迟(上传、编码等期间)
- 在恶劣环境(例如背景噪声或静电)下的稳健性。
- 涵盖复杂的词汇和语言。
- 模型架构、训练数据数量和质量。
单词错误率 (WER) 是用于评估语音识别系统或机器翻译系统准确性的行业范围指标。它测量系统输出中与参考或真实文本中的单词不同的单词的百分比。
用于对准确性进行基准测试的其他指标是误差率 (DER),它评估说话人分类和单词级时间戳的平均绝对对齐误差 (MAE)。
语言
即使是最先进的多语言模型,如 OpenAI 的 Whisper,也严重偏向于某些语言,如英语、法语和西班牙语。发生这种情况是因为用于训练它们的数据,或者因为模型在转录过程中权衡不同参数的方式。
为了扩展语言和方言的范围,需要额外的微调和优化技术,尤其是在涉及开源模型的情况下。
音频智能
对于越来越多的使用案例,仅靠转录是不够的。如今,大多数商业 STT 提供商都至少提供一些附加功能,也称为附加组件,旨在使成绩单更易于消化和提供信息,以及获得演讲者的见解。以下是一些示例:
安全
在数据安全方面,托管架构起着重要作用。希望将 Language AI 集成到现有技术堆栈中的公司需要决定底层网络基础设施的位置以及他们希望谁拥有它:云多租户 (SaaS)、云单租户、本地、气隙。
可以使用 Speech-to-Text 构建什么
AI 语音转文本是一项用途广泛的技术,可解锁各行各业的一系列用例。借助专门的 API,可以将 Language AI 功能嵌入到现有应用程序和平台中,让你的用户能够享受转录、字幕、关键字搜索和分析。还可以构建全新的支持语音的应用程序,例如虚拟助手和机器人。
一些更具体的例子:
- 转录服务:采访、讲座、会议等的书面记录。
- 呼叫中心自动化:将客户互动的录音转换为文本以供分析和处理。
- 语音笔记和听写:允许用户听写笔记、消息或电子邮件,并将其转换为书面文本。
- 实时字幕:为实时活动、会议、网络研讨会或视频提供实时字幕和配音。
- 译本:用于多语言交流的实时翻译服务。
- 语音和关键字搜索:使用语音命令或语义搜索搜索信息。
- 语音分析:分析录制的音频以进行情绪分析、客户反馈或市场研究。
- 辅助功能:开发应用程序,通过将口语转换为文本来帮助残障人士,以便于沟通和理解。
语音转文本 AI 的终极词汇表
- 语音转文本也称为自动语音识别 (ASR),它是将口语转换为书面文本的技术。
- 自然语言处理 (NLP)AI 的一个子领域,专注于计算机和人类语言之间的交互。
- 机器学习人工智能的一个领域,涉及开发算法和模型,使计算机能够根据数据学习并做出预测或决策,而无需为特定任务明确编程。
- 神经网络一种以人脑结构为模型的机器学习算法。
- 深度学习 机器学习的一个子集,涉及使用深度神经网络。
- 声学模型用于语音识别的模型,用于将声学特征映射到语音单元。
- 语言模型NLP 中用于确定单词序列概率的统计模型。
- 大型语言模型(LLM)像 GPT-3 这样的高级 AI 系统,它们经过大量文本数据的训练,以生成类似人类的文本并执行各种自然语言处理任务。
- 音素语言中的最小声音单位,由特定符号表示。
- Transformers一种依赖于多头自我注意机制的神经网络架构 - 除其他外 - 它允许模型关注输入序列的不同部分以捕获其关系和依赖关系。
- 编码器在神经网络的上下文中,将输入数据转换为压缩或抽象表示的组件,通常用于特征提取或创建嵌入等任务。
- 解码器一种神经网络组件,它采用压缩表示(通常来自编码器)并重建或生成有意义的输出数据,经常用于语言生成或图像合成等任务。
- 嵌入对象(如单词或图像)在低维空间中的数字表示形式,其中保留了对象之间的关系。嵌入通常用于将分类数据转换为适合 ML 算法的格式,并捕获单词之间的语义相似性。
- 依赖关系给定文本中单词和句子之间的关系。可以与语法和句法相关,也可以与内容的含义相关。
- 说话人分类分离和识别录音或音频流中发言者的过程。
- 说话人适应调整语音识别模型以更好地识别特定说话人的声音的过程。
- Language Identification自动识别录音中所说的语言的过程。
- 关键字识别检测录音中特定单词或短语的过程。
- 自动字幕为视频或音频录制生成字幕或字幕的过程。
- 说话人验证验证说话人身份的过程,通常用于安全或身份验证目的。
- 语音合成从书面文本生成口语的过程,也称为文本转语音 (TTS) 技术。
- 单词错误率 (WER)用于衡量语音识别系统准确性的指标。
- 递归神经网络 (RNN)一种特别适合于序列数据(如语音)的神经网络。
- 微调与优化微调涉及在特定数据集或域上训练预先存在的模型,以使其适应以获得更好的性能,而优化侧重于微调超参数和训练设置,以最大限度地提高模型的整体效率。这两个过程都有助于提高语音转文本模型对特定应用程序或领域的准确性和适用性。
- 模型并行性使大型模型的不同部分能够分布在多个 GPU 上,从而允许使用 AI 芯片以分布式方式训练模型。通过将模型划分为更小的部分,可以并行训练每个部分,与在单个 GPU 或处理器上训练整个模型相比,训练过程更快。
本文转载自 芝士AI吃鱼,作者: 芝士AI吃鱼