【CNMO新闻】谷歌近日展示了Translatotron,这是一种首创的翻译模式,可以直接将语音从一种语言转换成另一种语言,同时保持说话者的声音和节奏。这个工具放弃了通常的将语音翻译成文本然后再翻译成语音的步骤,而是使用端到端技术直接将说话者的声音翻译成另一种语言,该公司希望通过直接翻译模式来开拓未来。
谷歌翻译
根据谷歌的说法,Translatotron使用了一种从序列到序列的网络模型,该模型接收语音输入,将其作为语谱图(频率的可视化表示)进行处理,并用目标语言生成一个新的语谱图,结果就是翻译速度更快,而且在翻译过程中丢失东西的可能性更小。该工具还与一个可选的扬声器编码器组件,其工程保持扬声器的声音,翻译的语音仍然是合成的,听起来有点机械,但可以有效地保持说话人声音的一些要素。
最近几个月,谷歌一直在对其翻译进行微调。去年,该公司在谷歌翻译中引入了口音,可以说多种语言的基于地区的发音,并在其实时翻译功能中增加了更多的语言。今年早些时候,谷歌助理还为智能显示器和可以介于26种语言的扬声器设置了“口译模式”。
版权所有,未经许可不得转载