四海资讯
首页 > 科技资讯 > 手机数码

未来的Alexa合成音效让声音变得更好听

时间:2018-11-20

你是否已经厌倦了Alexa那古板乏味的腔调? 多亏了新的人工智能技术,亚马逊也许很快就能让语音助手掌握新的讲话风格。在最新发布的论文和博客中,亚马逊提供了更多关于Alexa可以学习新的讲话风格的文本语音转化系统的细节。

“对用户来说,神经网络生成的合成语音听上去比由语音数据库中的片段拼接而成的结果更自然,”亚马逊学术理事Trevor Wood写道。“得益于我们系统的灵活性,我们可以很容易地改变合成语音的讲话风格。”

图片来自亚马逊图片来自亚马逊

这个亚马逊的神经网络语音文字转化系统包含了两个组件。第一个是将音素顺序转换为更加直观地展现声音变化的声谱,另一个是把声谱转化为连续声音信号的语音编码器。音素声谱转化系统是序列对序列的,也就是说它并不只是从对应的输入量中计算出输出量而不考虑输出序列。亚马逊的科学家用音素序列和声谱序列训练它,并配合以能够识别具体讲话风格的“风格编码”。

人工智能的输出量将会进入语音编码器并最终形成高质量的波形图。语音编码器可以处理任何讲话者的声谱,不管自身是否在此前的训练过程中接触过,人工智能也不需要使用讲话者编码。结果便是我们获得了由大量中性风格讲话数据以及只有几小时目标风格的补充性数据构成的模型训练方法,和一个能分辨讲话风格中独立或独有元素的人工智能系统。

图片来自亚马逊图片来自亚马逊

“当面对一种讲话风格的代码时,这个网络会预测合适该风格的韵律模式并将其应用于一个独立生成的表现形式,” Wood解释道:“而借助一些额外训练数据实现的高质量标准能够引起讲话风格的快速扩张发展。”

根据亚马逊的调查,相较于传统方法拼接而成的语音,听众更喜欢由该神经网络语音声音转化系统生成的声音。Wood写道:“这种偏好反映了该系统所带来的语音质量的提升。而相关新闻播报员的声音的提高则展现了我们系统根据文本生成讲话风格的能力。”

  • 上一篇:大众集团坦言 论自动驾驶不如Waymo!
  • 下一篇:探索AI CSIRO为澳大利亚太空提供资金