随着自然语言处理系统变得越来越复杂,语音到文本(TTS)系统变得越来越高效,但培训这些TTS模型的一种方法是它们需要比传统方法更多的数据。亚马逊Alexa科学家最近的研究表明,使用多扬声器声音数据训练的AI TTS系统比单个扬声器产生更自然的语音,而后者的整体性能更稳定,所需的声音数据更少。

Lachowicz解释说,神经TTS模型通常由两部分组成,其中一部分负责将文本转换为频谱图,另一部分是将频谱图转换为声音信号的语音编码器。 Lachowicz及其同事使用来自七个不同扬声器的声音数据训练系统,并使用独特的热矢量编码将各个样本链接到扬声器。

Alexa:训练TTS单个扬声器更出色-而后网
在实验中,70名参与者听取了人类读者的录音,并且使用相同读者的声音训练了两个TTS模型。结果表明,多扬声器TTS模型的表现优于单扬声器模型。更重要的是,科学家们没有观察到用两个性别人类读者的声音训练的模型与单性别人类读者的声音之间的自然性的统计差异。

Lachowicz指出,多扬声器模块所需的训练样本仅为单扬声器模块的三分之一。 “这项研究使开发人员能够生成高度定制的语音风格,而无需人类读者花费数天记录样本。”