语音识别未成熟亚马逊Alexa通过半监督学习减少误差

时间：2019-03-22

【CNMO新闻】深度神经网络需要时间来进行训练，对于语音识别系统更应如此。传统模型语料库包括数千小时的转录语音片段，因此，亚马逊Alexa部门的科学家正在研究如何加快这一过程。近日，他们报道表示他们取得了重大进展。

Alexa Speech小组的应用科学家Minhua Wu和同事在论文中描述了一种语音识别器，它可以以半监督的方式识别数据模式。他们声称一个实验模型训练了800小时的注释数据和7200小时的未注释数据，与基线相比，该设计使字的错误率降低了20％。

亚马逊Alexa

正如他们解释的那样，自动语音识别系统由三个核心组件组成，分别是声学模型、发音模型和语言模型。声学模型输入短音频样本或帧，并且每帧输出数千概率。在所提出的方法中，声学模型的输出被馈送到发音模型，该发音模型将senone序列转换为可能的单词并将其递送给语言模型，语言模型则负责编码单词序列的概率。最后，所有三个人工智能系统一起在给定音频输入的情况下找到最可能的单词序列。

该论文的作者首先寻求了优化声学模型的最大准确度，并最大限度地减少输出序列的误差。他们报告表示，这使得学生模型的对应物更加准确，并带来了学生模型的相对改进。接下来，他们从音乐、电视和其他媒体收集音频样本并处理它们，以模拟闭室声学，从而为训练数据增加了噪音。对于训练集中的每个语音示例，他们都会随机选择一到三个噪声样本添加到其中。

在测试中，该团队使用了另外两个语料库。一组是干净的音频样本，而另一组样本则是包含噪音的。其中，表现最佳的学生模型首先使用所有添加了噪音的8000小时数据，并根据教师模型的每帧输出进行优化，然后对800小时的注释数据进行训练。相对于使用800小时手工标记的清洁数据训练的教师模型来看，它的清洁测试数据的错误率降低了10％，噪声测试数据降低了29％，重新录制数据错误率降低了20％。该研究计划于2019年春天在布莱顿举行的声学、语音和信号处理国际会议上进行展示。

上一篇：天气恶劣是优势！加拿大为无人驾驶汽车设立L5测试场

下一篇：人工智能篮球场：耶鲁大学篮球队找对方法成绩飙升

揭秘中国载人航天“神箭”（筑梦“太空之家”——中国空间站建设记⑤）
如今，中国载人航天已圆满完成第一步、第二步的既定任务，正向着建造空间站、建成国家太空实验室的第三步目标前进。...
Time2021-06-24
“太空快递” 稳稳送达天舟二号货运飞船和空间站核心舱精准交会对接
5月29日20时55分，在经历了推迟发射的波折后，长征七号遥三运载火箭从位于海南的文昌航天发射场准时点火升空，将天舟二号货运飞船准确送入预定轨道，发射取得圆满成功。...
Time2021-05-31
三封贺电定义中国航天新高度
开展深空探测、建设与运营空间站、建设与运营全球卫星导航星座系统都是中国航天“旗舰”工程，也被认为是世界航天强国的“三大标配”，是对国家科技实力和综合国力的极大考验。...
Time2021-05-24
“天眼”为何受到全球热切关注？
世界最大的单口径射电望远镜，能刺穿“光年之外”，能洞悉宇宙“前世”……“中国天眼”开放运行第一年，成果即入选《自然》十大科学发现。...
Time2021-02-05
她18岁当上淘宝中老年模特，如今火到国际大牌“求合作”
最近，时尚圈都在热议一个营销事件：国际知名设计师品牌alexanderwang，找到了专拍淘宝中老年女装的模特梁晓晴拍摄新品展示视频。...
Time2022-04-22
游戏魔改历史岳飞并非首个“中招”者
近日，大热的古风模拟经营类手游《江南百景图》中出现了歪曲历史的现象：将游戏角色岳飞“魔改（指对某项作品的大幅度改造）”为“肉袒牵羊”的投降者形象。...
Time2021-08-16
涉黄诱导支付一年欺诈7个亿违法APP源码公开销售
涉黄诱导支付平台通过短色情视频吸引用户充值会员，甚至重复充值，一年欺诈近7亿。就这么一类涉黄和欺诈双违法的APP，其源码竟在网络上公开叫卖。...
Time2017-05-24
11岁男孩玩网游刷卡近3万元未成年人充值能否归还？
智能手机、网络游戏的强强联合，日渐深入小学生的生活，而网络游戏监管的空白，让众多家长受到经济损失的同时束手无策。...
Time2017-05-23

语音识别未成熟 亚马逊Alexa通过半监督学习减少误差

语音识别未成熟亚马逊Alexa通过半监督学习减少误差