据外媒带来的最新消息,谷歌的人工智能部门已经向研制出可用有效的模型迈出了一大步。在发表的论文和博客中,研究者们描述了一个能以更高效率利用讲话人特征的新人工智能系统。
谷歌开源可以大约92%准确率分辨声音AI(图片来自网络)
其中的核心算法已经在Github上开源。论文作者声称该算法能够实现对实时应用来说足够低的在线日志化错误率――它在NIST SRE 2000CALLHOME 测试中的错误率为7.6%,而谷歌过去的算法成绩是8.8%。
谷歌的新方法依靠循环神经网络――一种可以用其内状态处理输入信息的顺序的机器学习模型――来将讲话人的嵌入特点(词语和短语的数理标本)模型化。每位讲话人都有自己的循环神经网络个体,并不断更新循环神经网络状态,使系统能够学习有关讲话人和语境的高阶知识。
“由于该系统内所有组件都能以被监督的方法训练,在有高质量时间标记讲话者标签的训练数据的场景中它比非监督式系统更受青睐,”研究者写道:“我们的系统是完全受监督的,并且能够从时间标记讲话者的标签被注释出来的例子中学习。”
在未来的工作中,该团队计划改进这个模型让其融合背景信息来进行离线解码,这会进一步降低日志化错误率。他们也希望直接将声音特点模型化,如此一来整个讲话者日志化系统可以以端到端的方式进行训练。