1. 引言
随着信息化时代的到来,人工智能(Artificial Intelligence)展现了迅猛的发展势头,因而对增强语音清晰度的要求也越来越高,语音增强显得尤为重要。目前人类已在语音增强算法的研究上取得了很大的进步,主要是谱减法,维纳滤波算法 [1] 等基于均方误差的统计模型,语音增强的质量得到了提高。但这些语音增强算法中忽略了幅度差值的正负,所以会存在对噪声的过度放大,引入了新的噪声污染,进而影响增强语音的清晰程度。目前,语音增强算法中涉及增益函数主要引入了两种类型的语音失真,一种是处理过后的估计纯净语音信号振幅超过输入纯净语音的放大失真,另一种是经过增强处理的语音信号振幅低于输入纯净语音信号产生的衰减失真。实际研究表明,幅度衰减失真对语音清晰度的影响最小。总的来说,目前数据表明现有算法不能提高语音清晰度的一个主要原因是,它们都允许放大失真超过6分贝。
Loizou根据增强语音与纯净语音幅度的大小关系,把增强之后的语音失真分为三个部分,分别是幅度衰减部分,幅度放大且放大倍数小于等于2倍(即放大上限为6.02 dB),幅度放大超过2倍(放大倍数超过6.02 dB)三个部分 [2] 。现有的语音处理方法,仅对第一和第二部分进行限制,语音质量得到明显的提升,但未对第三部分进行详细有效的约束处理。研究表明,第三部分在增强语音信号中的占比超过35% [3] ,具有一定的提升空间。
本文基于Loizou仅对第一和第二区域进行约束,结合平方根维纳滤波增益函数特性,提出了针对第三区域的先验信噪比判定条件,进而对增益幅度进行约束 [4] 。通过MATLAB进行大量实验仿真,将提出的算法与现有算法进行比较,结果显示具有较好的语音增强性能。
2. 语音增强基本理论
在语音增强技术中,假设t时刻的带噪语音信号为y(t),纯净语音信号x(t)和噪声n(t)互不相关,其时域表达式如下 [1] :
(1)
对上式进行N点DFT变换后,与时域语音对应的语音谱表示如下:
(2)
其中,Ym,k,Xm,k和Nm,k分别表示带噪语音频谱、纯净语音频谱和噪声谱,m,k分别表示帧索引和频率。
经过增强处理过后的纯净语音频谱估计可以由增益因子Gk,m表示为:
(3)
其中,
是估计的纯净语音谱,增益因子
一般来说是先验SNR和后验SNR的函数。
先验SNR的定义 [1] 为:
后验SNR的定义为:
其中,E{.}表示数学期望算子。
一般来说,普通维纳滤波语音增强算法的系统增益因子可以表示仅为先验信噪比参数的函数:
通过式,可获得维纳滤波语音增强系统的输出
,再将其通过N点IDFT变换至时域,即可得到纯净语音信号的估计。
3. 改进算法
为了分析估计的纯净语音信号与输入纯净语音振幅的大小关系对噪声抑制的影响,Loizou定义了剩余信噪比 [5] 的概念:
(5)
由上式
与
的比值,可以把语音信号分为三个区间 [3] :
区间I:在此区域,
,表示幅度产生了衰减失真。
区域II:在此区域,
,表示幅度产生了放大失真且放大上限为6.02 dB。
区域III:在此区域,
,表示振幅产生超过6.02 dB放大。
根据目前的研究表明,当对第I和第II区域进行如下限制约束时语音质量有较大的提高 [6] :
由于估计的纯净语音与输入的纯净语音的幅度不能直接进行比较,本文只能由第III区域的定义条件
并根据
与
的关系图,发现第III区域的具有的普遍特点 [7] 为:
同时在单一控制条件下,传统的噪声抑制算法会对输入语音产生一定的噪声污染,典型的如维纳滤波。目前已经证明,平方根维纳滤波相比其他比较复杂的降噪算法,具有计算量小且易于实现的优点,且在语音质量和清晰度上仍然能够达到同样的要求。
平方根维纳滤波增益函数
为 [8] :
(4)
其中
是先验SNR,根据以下方程得 [9] :
(5)
其中,
是估计的背景噪声功率谱,
是平滑因子,通常取值为0.98。
根据平方根维纳滤波增益函数
特性可知,其增益函数
在信噪比SNR为负值时,斜率大约为1 [8] ,即可以估计在第III区域时
。
由目前幅度平方估计:
可直接得到第III区域的判定条件为:
得到对第III区域的幅度约束条件:
经过大量实验可知,由在系数
时得到语音质量较好。
4. 仿真实验结果分析
为了检验改进算法的性能,本文运用MATLAB软件进行实验仿真,选取多种来自语音库的纯净语音sp01.wav-sp10.wav,噪声来自于噪声库的white,babble,pink,F16座舱噪声,输入信噪比分别取−5 dB,0 dB,5 dB,10 dB。所有信号的取样频率均为8 kHz/s,仿真实验中语音信号帧长K = 256,重叠率为50%,系数β = 0.68,以下通过主观语音质量评估(PESQ),分段信噪比(SegSNR) [10] 来对比分析两种语音增强的性能。
从表1中可以看出在输入信噪比分别为−5 dB,0 dB,5 dB,10 dB时输入噪声为的White,Pink,Babble,F16座舱四种噪声环境下,改进算法的PESQ值明显大于现有的算法,表明本文提出的算法输出的语音与纯净语音更接近,语音的增强效果更好。从表2中可以看出在以上四种噪声环境下,改进算法的分段信噪比要优于目前的I + II约束算法,具有较好的语音增强性能。因此改进算法在一定噪声环境下,相比目前的算法在语音增强性能上有了一定的提升。
Table 1. PESQ data contrast table
表1. PESQ数据对比表
Table 2. SegSNR data contrast table
表2. SegSNR数据对比表
5. 总结
本文主要研究了基于平方根维纳滤波,针对噪声被过度放大对语音信号的影响,提出了对增强语音信号第III区幅度限制的算法。根据平方根维纳滤波增益函数的特性,幅度平方谱估计,推导出与先验信噪比有直接联系的约束条件,并且实施起来简单易行。实验结果表明,新算法在PESQ,SegSNR评价标准下具有较好的性能,能有效地提升语音质量,提高语音的可懂度。