【CNMO新闻】随着自然语言处理系统的性能日益出色,语音转文字(TTS)系统也正变得愈发高效,但是训练这些TTS模型的方法有一个缺点,那就是它们相较传统方法需要更多的数据。亚马逊Alexa部门科学家的最新研究表明,与单扬声器相比,用多扬声器的声音数据训练而成的AI TTS系统能够生成更加自然的语音,并且后者的整体表现更稳定、所需的声音数据更少。
Alexa
Lachowicz解释道,神经TTS模型通常由两部分组成,其中一部分负责将文字转化为声谱图,另一部分为将声谱图转化为声音信号的语音编码器。Lachowicz和同事使用七个不同扬声器的声音数据训练这些系统,并用独热向量编码将单个样本和扬声器联系起来。
在实验中,70位参与者聆听了人类朗读者的录音和用同一朗读者的声音训练出的两种TTS模型生成的录音,结果显示用多扬声器TTS模型的表现要优于单扬声器模型。更重要的是,科学家们没有观察到用两种性别人类朗读者的语音和单一性别人类朗读者的语音训练出的模型间存在自然性方面的统计学差异。
Lachowicz指出多扬声器模组所需的训练样本仅为单扬声器模组的三分之一,“这项研究让开发者可以生成定制化程度非常高的语音风格,而无需人类朗读者花费数天时间录制样本。”
版权所有,未经许可不得转载