【CNMO新闻】不平衡的训练数据是机器学习系统分类器需要面对的主要困难之一。当一个类别的样本数量过多时,分类器接触此类样本的次数也更多,系统也就更有可能产生偏差。
亚马逊Alexa部门的研究者表示其已经开发出了一种将数据不平衡系统的AI错误率降低最多30%的方法,并在最近发表的一篇论文中对其进行了详细解释。
亚马逊Alexa
一般情况下,数据科学家通过提高代表性不足的数据类别的重要性来解决数据样本代表性不足的问题。但是Alexa高级研究员Ming Sun找到了一种不同的方法。他和他的同事训练了一个以矢量形式为每个数据类别生成嵌入体的AI系统并将这些矢量间的距离最大化。
为了避免嵌入体中的出现数据不平衡,数据量最大的类别会被分割为体量更小的数据群。并且为了缩短系统测量数据项之间距离的时间,该系统拥有不间断进行测量的机制。
Sun在博客中解释道:“有了新的嵌入体,我们的算法可以测量系统同数据集中心的距离,与之前相比这是一种更加高效的计算方式。”
这种嵌入AI系统的输出数据被用于训练分类器,随后,研究者用四种工业级的数据集对其进行了测试,分别是狗叫声、婴儿哭声、枪声和背景声。测试结果显示AI系统的错误率下降了15%到30%。在更大、更慢但更精确的卷积神经网络参与的实验中,研究者也记录到6%至19%的错误率降幅。