1. 引言
语音合成是将输入文本转换为相对应的语音的过程,也称为Text-to-speech (TTS),语音合成的目标是在给定要合成的文本的情况下,能够生成自然发音的语音信号。近年来,基于深度神经网络的端到端TTS在产生自然可懂和带有情感的语音方面表现出相当强大的能力 [1] - [7]。与统计参数语音合成相比,端到端TTS更易于设计,而且还允许进行组件嵌入,提高了模型的可操作性。
WaveNet [8] 实现了直接从语言特征生成波形,可以说是早期真正意义上的现代神经TTS模型。WaveNet是一个自回归的生成模型,它在语音特征提取,语音合成和音乐生成上取得了明显的效果。在语音合成领域,Tacotron [1] 是近年来先进的端到端语音合成模型,可以直接从字素或音素生成语音,而Tacotron2 [2] 是Tacotron的改进版本。
Tacotron2可以看作是一个基于注意力机制的自回归端到端模型,在该模型中,通过注意机制从文本中总结上下文信息,然后在端到端结构中进行训练。这种模型架构摆脱了原有的系统框架,直接将文本转换为语音,简化了文本处理的步骤,需要较少的专业语言知识和人力。然而,每种语言的语言特征有很大差异,Tacotron2语音合成系统需要根据不同语言的语言特征进行优化,以便从输入文本中获得有用的隐式声学特征表示。
印度尼西亚语(Bahasa Indonesia),简称印尼语,是印度尼西亚共和国的官方语言。在语言学分类中,印尼语属于马来–波利尼西亚语族西印度尼西亚语支。通用印尼语采用拉丁字母拼写系统,共26个字母,音素是其最小语音单位,共34个音素。相较于以英语为代表的通用语种,作为非通用语种的印尼语在语音合成领域仍存在一些问题,例如对于印尼语应用端到端语音合成方法的研究还相对较少,印尼语可用平行语料的缺乏,优质训练数据缺乏等。
作为一个先进的端到端语音合成系统,尽管Tacotron2在英语语音合成可懂度与自然度方面优于传统的统计参数语音合成系统,取得了显著的效果。但如果要将Tacotron2应用于低资源非通用语种的语音合成的研究工作,则还需要对其进行优化和改进 [9]。本文设计并实现了以嵌入全局风格令牌(Global Style Tokens, GST) [10] 的Tacotron2作为系统框架的印尼语语音合成系统,在低资源的情况下合成了具有风格表现力的印尼语。针对Tacotron2在训练阶段过于依赖真实语音产生过拟合从而导致的暴露偏差(Exposure Bias) [11] 问题,本文使用了渐变式交替训练的方法。针对无法在有限训练步数稳定地训练出注意力对齐图的问题,本文采用了迁移学习策略。在此基础上,还提到了多说话人混合训练,语言信息能够被共享,风格信息能被更精细地提取,并设计了多组低资源多说话人混合训练实验对GST以及嵌入说话人编码的GST的风格迁移性能进行了对比验证。
2. 语音合成模型及训练方法
在端到端印尼语语音合成系统中,可以直接将印尼语文本序列作为编码器的输入来进行训练。但是对于以Tacotron2为代表的基于深度神经网络的端到端语音合成系统,由于模型训练的信息只由输入的文本数据提供,当文本数量很少时,提取的信息通常不够丰富,导致系统难以取得很好的效果。因此,本文嵌入了风格特征提取模块GST,以GST-Tacotron2模型作为基础架构,针对低资源语音合成提出了以下的方法对其进行优化。
2.1. 模型架构
本文设计的端到端印尼语语音合成系统基于GST-Tacotron2模型实现,其结构如图1所示。

Figure 1. Diagram of GST-Tacotron2 model structure
图1. GST-Tacotron2模型结构框图
基于GST-Tacotron2模型构建的印尼语语音合成系统输入采用印尼语音素序列,Tacotron2词嵌入维度为512,GST词嵌入维度为256。Tacotron2编码器为3层卷积核尺寸为5的CNN和一个512单元的BiLSTM;解码器预处理网络为2层全连接层,隐含层节点个数为256,解码器核心结构为两层1024单元的LSTM和一个位置敏感注意力网络;停止令牌通过一个激活函数为sigmoid的全连接层完成预测;后处理网络为5层卷积核为5的CNN,采用残差连接。本文所有实验都使用Waveglow [12] 来代替WaveNet作为声码器将声学参数转换为最终的语音波形。
GST网络以两种方式完成推断过程。方式一:直接向GST网络输入任意的一个韵律音频,利用训练好GST网络建模输入音频的韵律特征,再将提取的韵律特征加入语音合成系统,合成出带有输入音频韵律的语音;方式二:取出训练完成的可学习向量组中的某一个向量,同编码器提取的文本信息,一起送入解码器,合成出音频。
2.2. 渐变式交替训练方法
由于训练和测试的解码模式不一致,造成模型过于依赖真实音频数据,当Tacotron2试图合成一个长句时,它就容易受到自回归过程中的误差积累的影响。在训练过程中,有真实数据的帮助,模型会取得较好的效果,但是在测试阶段因为不能得到真实数据的支持,在面对集外数据时模型就会变得无比脆弱,表现很差。这就是Tacotron2所面临的暴露偏差(Exposure Bias)问题。
为了缓解暴露偏差问题所带来的不利影响,本文提出了渐变式交替训练方法(Progressive Alternate Training Method),训练阶段可供选择的教师强迫(Teacher Forcing, TF)和教师强制自由运行(Free Running, FR)两种模式以一个概率值交替进行,如公式(1)、(2)所示。
(1)
(2)
式中,PTF为解码器采用Teacher Forcing模式进行训练的概率;PFR为解码器采用Free Running模式进行训练的概率;
为当前训练轮次,
初始值为0,每完成一个训练轮次
增加1,直至完成最后一个训练轮次
达到最大值;
为交替训练超参数,根据训练轮次选择合适的
使最后一个训练周期PTF保持在40%至50%之间为宜。应用渐变式交替训练的解码流程图见图2,两种模式由公式(1)、(2)决定的渐变概率值随机地交替进行。

Figure 2. Flowchart of gradual alternate training decoding
图2. 渐变式交替训练解码流程图
2.3. 预训练任务
针对端到端印尼语语音合成系统训练过程中模型鲁棒性差难以收敛的问题提出了添加预训练任务的策略。在单说话人语音合成实验中,将英语作为预训练任务并以此迁移到目标语言印尼语;在多说话人语音合成实验中,将单说话人实验中的印尼语作为第一说话人的预训练任务并以此迁移到目标多说话人印尼语语音合成系统中。
2.4. 说话人风格迁移
GST-Tacotron2可以实现风格迁移,在低资源多说话人的情况下,提供额外的说话人信息会有助于说话人风格的学习。说话人编码由一组说话人嵌入向量(Language Embedding)组成,说话人嵌入向量为可学习向量,向量的数目为说话人数目,向量的词嵌入维度为128维。说话人编码作为文本所提供的额外信息,需要事先在文本中进行标记。同一说话人的所有文本都用同一说话人标记,一个说话人标记与一个说话人嵌入向量一一对应。
3. 实验与结果分析
3.1. 实验数据与参数设置
实验中所使用的第一批印尼语数据集为实验室自建,由专业的播音员录音,播音员口音为印度尼西亚语标准口音,平行语料共有4751句,音频总时长为8小时40分钟,划分为训练集4681句(约8小时30分钟),验证集50句,测试集20句。第二批印尼语数据集为开源多说话人数据集,音质稍差,根据低资源语音合成实验的需要,选择适当规模的语料进行实验。每个说话人分别选用500句(约1小时)或250句(约0.5小时)作为训练集,25句作为验证集,20句作为测试集。
实验中所使用音频的采样率均为22,050 Hz,16位PCM编码。整个实验基于PyTorch深度学习框架搭建模型,使用一块英伟达RTX3090显卡来训练模型,模型的训练批次设置为32,训练轮次设置为500。实验中使用了Waveglow声码器将声学参数转换为语音波形。GST模块多头注意力网络,注意力头的数目设置为8,可学习向量组数目设置为10,每个向量的维度为256,合成时的参考音频根据文本内容选用大致符合语境的。说话人风格迁移实验中,说话人编码的说话人嵌入向量维度为128维。其他参数每组实验均与GST-Tacotron2基线系统相同。
3.2. 多说话人实验设计
在多说话人混合训练实验中,采用GST-Tacotron2架构设计了以下8组以第一批印尼语数据集为主体的多说话人语音合成实验和2组单说话人语音合成对照实验。其中2组单说话人实验,即实验1和实验2,分别为渐变式交替训练GST-Tacotron2实验和采用英语预训练的渐变式交替训练GST-Tacotron2实验,引入作为平均主观意见评分的对照。实验1不采用预训练,实验2使用从LJSpeech [13] 获取的24.6小时的英语数据集训练英语语音合成系统以此作为预训练任务。为了能稳定地训练出可用的语音合成系统,其余8个实验均采用渐变式交替训练以及预训练,并且每个实验的训练集均固定使用实验2中训练出的印尼语语音合成系统作为印尼语预训练任务。本节的实验设计如表1所示。

Table 1. Speaker style transfer experimental design
表1. 说话人风格迁移实验设计
8组说话人风格迁移实验是为了比较原始的GST-Tacotron2与采用说话人编码的GST-Tacotron2在多种低资源情况下的风格提取能力与语音合成性能而设计的。Sp0代表优质的第一批印尼语数据集的单说话人(称为主位说话人),在所有实验中固定使用4681对平行语料,不对其缩小规模。“Sp1~Sp6”,即“Sp1,Sp2,……,Sp6”代表音质稍差的第二批印尼语数据集中的“说话人1,说话人2,……,说话人6”;“Sp1~Sp3”,即“Sp1,Sp2,Sp3”。其他有关数据集的详情已经在3.1节中说明。
注意力对齐的结果直接影响合成音频的质量。图3为可视化注意力对齐结果,注意力对齐结果呈对角线状,表示在生成音频序列时,解码器集中在正确的音素上,保证了每个字符的发音正确。
分析图3可视化对齐结果可发现,实验10的注意力对齐效果最佳,实验9也获得了较好的对齐图,但是其中存在一些断点和对齐模糊的部分。在其他采用说话人编码的实验组中,实验6的注意力对齐效果与实验10相当,实验8对齐图出现少许断点和模糊片段,实验4的对齐质量较实验8稍差,还没能正确预测出停止令牌。而在未采用说话人编码的实验组中,除了实验9以外,其余三组对齐图均存在明显的断点和噪点,实验3尤为突出。在风格数据极低资源的情况下,对比实验3和实验4可发现,采用了说话人编码的实验4在合成阶段的表现良好,对齐图断点较少;而未采用说话人编码的实验3的对齐图出现明显断点和模糊部分,总体合成效果很不理想。

Figure 3. Visual attention alignment results of multi-speaker experiment
图3. 多说话人实验可视化注意力对齐结果图
观察图4梅尔频谱图,我们注意到实验10和实验6的谱线较为自然且细节丰富,合成质量最好。实验9和实验8有不自然停顿但总体效果较好,实验4除了最后的部分因为没有正确预测出停止令牌而导致频谱图末端出现空白以外效果良好。实验7的频谱图良好但是其谱线缺乏细节,风格单一,韵律特征没有体现出来。实验3和实验5的频谱图断点过多,多为不符合句子韵律的不自然停顿,效果相对较差。总体而言,采用了说话人编码的GST-Tacotron2对于风格的提取更精细,对于停顿和语调的预测更准确,而不采用说话人编码的GST-Tacotron2在风格提取任务上的表现相对较差,尤其是在所需风格数据极低资源的情况下。

Figure 4. Mel-spectrogram of multi-speaker experiment
图4. 多说话人实验梅尔频谱图
为了评价合成系统的性能,本文使用梅尔倒谱失真(Mel-Cepstrum Distortion, MCD)作为衡量音频质量的客观评测指标。梅尔倒谱系数(Mel-Frequency Cepstral Coefficient, MFCC)考虑了人耳对频率的非线性感知特性,MCD把MFCC作为语音信号的特征描述,并用于表示合成音频与参考音频的客观失真距离。
(3)
其中,参数K为MFCC的维数,T为所有音频的总帧数,
(
)为参考音频(合成音频)第t帧第k维梅尔频谱倒谱系数。DMCD为MCD值,取值大于等于零,其数值越小表示合成音频与参考音频的客观失真距离越小,模型效果越佳。
为了让合成音频和真实的参考音频能更好地进行比较,先对合成音频和参考音频进行了对齐处理,即动态时间归整(Dynamic Time Warping, DTW)。评测内容为每组实验的每一个说话人风格测试集20句印尼语合成音频,结果取均值。本实验MCD评分见表2。

Table 2. Evaluation results of MCD
表2. MCD评测结果
分析MCD客观评测结果,可以看到,实验10的Sp0说话人风格的MCD值4.90为实验组中最优结果,相较实验2的5.28降低了约7.2%。Sp1,Sp4,Sp5和Sp6说话人风格的MCD值也为实验组中最优结果,其他说话人风格的结果也整体较好。通过采用可获得的音质稍差的同一语种不同说话人的语料来扩充训练集并嵌入GST与说话人编码来分离信息并建模韵律的方法,的确能够使系统的合成效果得到提升。在7个说话人的实验组中,采用说话人编码的实验组MCD值通常更低。对于Sp5说话人风格的MCD值,实验10相较实验9降低了约21.9%,实验8相较实验7降低了约27.6%,其他几组实验也大体呈现这个趋势。但是对于训练用第一批语料Sp0和第二批语料中音质相对较好的Sp2,采用说话人编码的方法并不能使效果得到很大的提升,反而还会小幅下降。因此,采用说话人编码的系统对于所提供的训练语料低资源且音质稍差的情况,适应能力要强于基线系统,但是对于训练语料充分且语音质量高的情况,该方法也不会使系统性能得到很大的提升。而对于发音语料有明显外部环境噪音的Sp3,与未使用说话人编码的实验组比较,说话人编码实验组虽然整体较优,但是MCD值还是较高。该方法能够使系统的抗噪性能得到小幅提高。

Table 3. Grading of mean opinion score
表3. 平均主观意见评分标准
合成音频的主观评测采用平均主观意见评分(Mean Opinion Score, MOS),评分标准见表3。我们邀请了10位印尼语专业的评测人对合成的音频进行了评测,评测内容与MCD客观评测相同,每一位评测人对每组实验的每一个说话人风格测试集20句合成音频评测分数取均值作为该项的个人MOS评分结果,再将10位评测人的个人MOS评分结果取均值得到该项的最终MOS评分结果。本实验MOS评分见表4。

Table 4. Evaluation results of MOS
表4. MOS评测结果
根据MOS评测结果,本文设计的单一说话人印尼语语音合成系统,实验1和实验2,分别取得了4.02和4.11的MOS评分,已经很接近真实语音。多说话人语音合成系统也在低资源风格迁移的实验中取得了令人满意的表现,实验10的Sp0说话人风格的MOS评分为4.12,实验组最优,其他说话人风格的MOS评分在多说话人语音合成系统中总体最高。另外几组嵌入说话人编码的实验均取得了不错的MOS评分,整体优于未采用说话人编码的合成系统,验证了嵌入说话人编码方法的有效性。
4. 结束语
本文围绕印尼语语音合成系统,对Tacotron2原始的训练模式进行了改进,提出了渐变式交替训练方法,缓解了暴露偏差问题所带来的不利影响。在可获取的优质语料有限的情况下,该系统也能够合成出高质量语音,取得了4.11的MOS评分。而且渐变式交替训练方法也可应用于其他低资源语言的语音合成系统。本文还设计了说话人编码并应用于GST-Tacotron2以此实现了多说话人语音合成系统,同时也采用渐变式交替训练方法并添加预训练任务,在仅有少量说话人风格数据的前提下实现了数据增强以及说话人语音风格特征的迁移,Sp0的MOS评分达到4.12。通过对合成音频的客观评测与主观评测结果分析进一步证明了嵌入说话人编码能够有效地提高系统的风格提取能力,增强系统风格迁移的可迁移性。但该方法对于训练用的风格语料有一定程度上的依赖,如果所提供的语料存在明显的环境音或是该说话人并没有用同样的语调风格讲话以及存在其他影响音质的音素时(例如第二批数据集Sp3),就会对分离文本信息与风格信息造成影响,进而影响风格的提取。下一步将针对上述问题继续改进系统,增强系统的抗噪声性能,解决合成中预测停止符不正确的问题,进一步提高合成语音的质量。
基金项目
科技创新2030“新一代人工智能”项目(2020AAA0107901)。
NOTES
*通讯作者。