语音识别是机器或程序识别口语中的单词和短语并将其转换为机器可读格式的能力。通常,这些算法的简单实现有一个有限的词汇表,它可能只识别单词/短语。但是,更复杂的算法(例如Cloud Speech-to-Text和Amazon Transcribe)具有广泛的词汇量,并包含方言、噪音和俚语。
在本文中,我将演示:
- 语音转文字的工作原理
- 如何处理要转录的音频
- 使用Keras解决问题的深度学习模型
- 一种评估此模型的方法
- 将预测模型集成到项目中的脚本
简介
语音只是由我们的声带引起的空气周围振动而产生的一系列声波。这些声波由麦克风记录,然后转换为电信号。然后使用高级信号处理技术处理信号,分离音节和单词。得益于深度学习方面令人难以置信的新进展,计算机也可以从经验中学习理解语音。
语音识别通过声学和语言建模使用算法来工作。声学建模表示语音和音频信号的语言单元之间的关系;语言建模将声音与单词序列进行匹配,以帮助区分听起来相似的单词。通常,基于循环层的深度学习模型用于识别语音中的时间模式,以提高系统内的准确性。也可以使用其他方法,例如隐马尔可夫模型(第一个语音识别算法是使用这种方法)。在本文中,我将仅讨论声学模型。
信号处理
有多种方法可以将音频波转换为算法可以处理的元素,其中一种方法(在本教程中将使用的一种方法)是在等距的点上记录声波的高度:
我们每秒读取数千次,并记录一个代表当时声波高度的数字。这是一个未压缩的.wav音频文件。“ CD质量”音频以44.1 kHz(每秒44,100个读数)采样。但是对于语音识别而言,16khz(每秒16,000个样本)的采样率足以覆盖人类语音的频率范围。
用这种方法,音频是通过一个数字向量来表示的,其中每个数字以1/16000秒的间隔表示声波的振幅。这个过程类似于图像预处理,如下例所示:
多亏尼奎斯特定理(1933年— 弗拉基米尔·科特尔尼科夫(Vladimir Kotelnikov)),我们知道,只要采样速度至少是我们要记录的最高频率的两倍,我们就可以使用数学方法从间隔采样中完美重建原始声波。
Python库
为了完成这个任务,我使用Anaconda环境(Python 3.7)和以下Python库:
- ipython (v 7.10.2)
- keras (v 2.2.4)
- librosa (v 0.7.2)
- scipy (v 1.1.0)
- sklearn (v 0.20.1)
- sounddevice (v 0.3.14)
- tensorflow (v 1.13.1)
- tensorflow-gpu (v 1.13.1)
- numpy (v 1.17.2)
- from tensorflow.compat.v1 import ConfigProto
- from tensorflow.compat.v1 import Session
- import os
- import librosa
- import IPython.display as ipd
- import matplotlib.pyplot as plt
- import numpy as np
- from scipy.io import wavfile
- import warnings
- config = ConfigProto()
- config.gpu_options.allow_growth = True
- sess = Session(config=config)
- warnings.filterwarnings("ignore")
1.数据集
我们在实验中使用TensorFlow提供的语音指令数据集。它包括由成千上万不同的人发出的由30个短单词组成的65000个一秒钟长的话语。我们将建立一个语音识别系统,它可以理解简单的语音命令。您可以从此处下载数据集(https://www.kaggle.com/c/tensorflow-speech-recognition-challenge)。
2.预处理音频波
在使用的数据集中,一些记录的持续时间少于1秒,并且采样率太高。因此,让我们阅读声波并使用下面的预处理步骤来解决这个问题。这是我们要执行的两个步骤:
- 重采样
- 删除少于1秒的短命令
让我们在下面的Python代码片段中定义这些预处理步骤:
- train_audio_path = './train/audio/'
- all_wave = []
- all_label = []
- for label in labels:
- print(label)
- waves = [f for f in os.listdir(train_audio_path + '/'+ label) if f.endswith('.wav')]
- for wav in waves:
- samples, sample_rate = librosa.load(train_audio_path + '/' + label + '/' + wav, sr = 16000)
- samples = librosa.resample(samples, sample_rate, 8000)
- if(len(samples)== 8000) :
- all_wave.append(samples)
- all_label.append(label)
由上可知,信号的采样率为16000 hz。我们把它重采样到8000赫兹,因为大多数语音相关的频率都在8000赫兹。
第二步是处理我们的标签,这里我们将输出标签转换为整数编码,将整数编码标签转换为one-hot 向量,因为这是一个多目标问题:
- from sklearn.preprocessing import LabelEncoder
- from keras.utils import np_utils
- label_enconder = LabelEncoder()
- y = label_enconder.fit_transform(all_label)
- classes = list(label_enconder.classes_)
- y = np_utils.to_categorical(y, num_classes=len(labels))
预处理步骤的最后一步是将2D数组reshape为3D,因为conv1d的输入必须是3D数组:
- all_wave = np.array(all_wave).reshape(-1,8000,1)
3.创建训练和验证集
为了执行我们的深度学习模型,我们将需要生成两个集合(训练和验证)。对于此实验,我使用80%的数据训练模型,并在其余20%的数据上进行验证:
- from sklearn.model_selection import train_test_split
- x_train, x_valid, y_train, y_valid = train_test_split(np.array(all_wave),np.array(y),stratify=y,test_size = 0.2,random_state=777,shuffle=True)
4.机器学习模型架构
我使用Conv1d和GRU层来建模用于语音识别的网络。Conv1d是一个仅在一维上进行卷积的卷积神经网络,而GRU的目标是解决标准循环神经网络的梯度消失问题。GRU也可以看作是LSTM的一个变体,因为两者的设计相似,在某些情况下,可以产生同样优秀的结果。
该模型基于deepspeech h2和Wav2letter++ algoritms这两种著名的语音识别方法。下面的代码演示了使用Keras提出的模型:
- from keras.layers import Bidirectional, BatchNormalization, CuDNNGRU, TimeDistributed
- from keras.layers import Dense, Dropout, Flatten, Conv1D, Input, MaxPooling1D
- from keras.models import Model
- from keras.callbacks import EarlyStopping, ModelCheckpoint
- from keras import backend as K
- K.clear_session()
- inputs = Input(shape=(8000,1))
- x = BatchNormalization(axis=-1, momentum=0.99, epsilon=1e-3, center=True, scale=True)(inputs)
- #First Conv1D layer
- x = Conv1D(8,13, padding='valid', activation='relu', strides=1)(x)
- x = MaxPooling1D(3)(x)
- x = Dropout(0.3)(x)
- #Second Conv1D layer
- x = Conv1D(16, 11, padding='valid', activation='relu', strides=1)(x)
- x = MaxPooling1D(3)(x)
- x = Dropout(0.3)(x)
- #Third Conv1D layer
- x = Conv1D(32, 9, padding='valid', activation='relu', strides=1)(x)
- x = MaxPooling1D(3)(x)
- x = Dropout(0.3)(x)
- x = BatchNormalization(axis=-1, momentum=0.99, epsilon=1e-3, center=True, scale=True)(x)
- x = Bidirectional(CuDNNGRU(128, return_sequences=True), merge_mode='sum')(x)
- x = Bidirectional(CuDNNGRU(128, return_sequences=True), merge_mode='sum')(x)
- x = Bidirectional(CuDNNGRU(128, return_sequences=False), merge_mode='sum')(x)
- x = BatchNormalization(axis=-1, momentum=0.99, epsilon=1e-3, center=True, scale=True)(x)
- #Flatten layer
- # x = Flatten()(x)
- #Dense Layer 1
- x = Dense(256, activation='relu')(x)
- outputs = Dense(len(labels), activation="softmax")(x)
- model = Model(inputs, outputs)
- model.summary()
注意:如果仅使用CPU来训练此模型,请用GRU替换CuDNNGRU层。
下一步是将损失函数定义为分类交叉熵,因为它是一个多类分类问题:
- model.compile(loss='categorical_crossentropy',optimizer='nadam',metrics=['accuracy'])
Early stopping和模型检查点是回调,以在适当的时间停止训练神经网络并在每个epoch后保存最佳模型:
- early_stop = EarlyStopping(monitor='val_loss', mode='min', verbose=1, patience=10, min_delta=0.0001)
- checkpoint = ModelCheckpoint('speech2text_model.hdf5', monitor='val_acc', verbose=1, save_best_only=True, mode='max')
让我们在32的batch size上训练机器学习模型,并评估保留集上的性能:
- hist = model.fit(
- x=x_train,
- y=y_train,
- epochs=100,
- callbacks=[early_stop, checkpoint],
- batch_size=32,
- validation_data=(x_valid,y_valid)
- )
该命令的输出为:
5.可视化
我将依靠可视化来了解机器学习模型在一段时间内的性能:
- from matplotlib import pyplot
- pyplot.plot(hist.history['loss'], label='train')
- pyplot.plot(hist.history['val_loss'], label='test')
- pyplot.legend()
- pyplot.show()
6.预测
在这一步中,我们将加载最佳的权重,并定义识别音频和将其转换为文本的函数:
- from keras.models import load_model
- model = load_model('speech2text_model.hdf5')
- def s2t_predict(audio, shape_num=8000):
- prob=model.predict(audio.reshape(1,shape_num,1))
- index=np.argmax(prob[0])
- return classes[index]
对验证数据进行预测:
- import random
- index=random.randint(0,len(x_valid)-1)
- samples=x_valid[index].ravel()
- print("Audio:",classes[np.argmax(y_valid[index])])
- ipd.Audio(samples, rate=8000)
这是一个提示用户录制语音命令的脚本。可以录制自己的语音命令,并在机器学习模型上测试:
- import sounddevice as sd
- import soundfile as sf
- samplerate = 16000
- duration = 1 # seconds
- filename = 'yes.wav'
- print("start")
- mydata = sd.rec(int(samplerate * duration), samplerate=samplerate,
- channels=1, blocking=True)
- print("end")
- sd.wait()
- sf.write(filename, mydata, samplerate)
最后,我们创建一个脚本来读取保存的语音命令并将其转换为文本:
- #reading the voice commands
- test, test_rate = librosa.load('./test/left.wav', sr = 16000)
- test_sample = librosa.resample(test, test_rate, 4351)
- print(test_sample.shape)
- ipd.Audio(test_sample,rate=8000)
- #converting voice commands to text
- s2t_predict(test_sample)
最后
语音识别技术已经成为我们日常生活的一部分,但目前仍局限于相对简单的命令。随着技术的进步,研究人员将能够创造出更多能够理解会话语音的智能系统。