四海资讯
首页 > 科技资讯 > 手机数码

Alexa:训练TTS模型 多扬声器数据比单扬声器更适合

时间:2019-04-27

【CNMO新闻】随着自然语言处理系统的性能日益出色,语音转文字(TTS)系统也正变得愈发高效,但是训练这些TTS模型的方法有一个缺点,那就是它们相较传统方法需要更多的数据。亚马逊Alexa部门科学家的最新研究表明,与单扬声器相比,用多扬声器的声音数据训练而成的AI TTS系统能够生成更加自然的语音,并且后者的整体表现更稳定、所需的声音数据更少。

AlexaAlexa

Lachowicz解释道,神经TTS模型通常由两部分组成,其中一部分负责将文字转化为声谱图,另一部分为将声谱图转化为声音信号的语音编码器。Lachowicz和同事使用七个不同扬声器的声音数据训练这些系统,并用独热向量编码将单个样本和扬声器联系起来。

在实验中,70位参与者聆听了人类朗读者的录音和用同一朗读者的声音训练出的两种TTS模型生成的录音,结果显示用多扬声器TTS模型的表现要优于单扬声器模型。更重要的是,科学家们没有观察到用两种性别人类朗读者的语音和单一性别人类朗读者的语音训练出的模型间存在自然性方面的统计学差异。

Lachowicz指出多扬声器模组所需的训练样本仅为单扬声器模组的三分之一,“这项研究让开发者可以生成定制化程度非常高的语音风格,而无需人类朗读者花费数天时间录制样本。”

  • 上一篇:一加7 Pro正面到底长什么样?这下大家终于弄明白了
  • 下一篇:AWS设立中国香港数据中心 将与谷歌/微软同台竞技