【CNMO新闻】消费者的购物评价是会影响到商家销量的,大约有71%的消费者表示会在购物前阅读其他消费者撰写的评价,其中88%的人说购物评价会影响到他们的购买决定。由此看来打击清除第三方伪造或操纵的虚假评论就是非常必要的,华盛顿大学的科学家们便在这一领域开展了研究。
在一篇论文中,研究者们介绍了名叫“spamGAN”的生成对抗网络,它是一种由两部分组成的神经网络:生成样本的数据生成器和分辨生成样本和真实样本的识别器。
人工智能
“虚假评论是电商、社交媒体、旅行景点和电影评分等领域广泛存在的问题,”论文作者写道,“造假者通过伪造虚假评论谋取经济利益,而我们将鉴别虚假评价看成是一个分类问题,比如一条顾客评价可以被分类为真实的和虚假的。”
研究团队解释称虚假评论之所以很难分辨是因为预先分类的数据集数量相对不足,因此研究者探索的新方法主要依靠一项名为半监督式学习的技巧,也就是使用未分类数据连同少量分类数据来提高学习的准确性。
具体来讲,spamGAN中的数据生成器会生成输出新的语句,而识别器则会尝试判断它们的真假,spamGAN的表现会被用于修正生成器并带来更高的分类准确率。
在对抗网络前,研究者们用一些分类过的真实语句、未分类过的真实语句和虚假语句预先训练鉴别器。随后,他们向spamGAN输入一个数据库中80%的数据,该数据库中拥有1597条顾客评价,其中约800条为真实的,另外约800条为虚假的,数据库中剩余的20%内容被用于评估AI模型的表现。
在重复进行了10次的实验中,spamGAN用有限的分类数据进行虚假评论鉴别,其准确率在71%到86%之间。研究者们将在未来用更多顾客评价的数据集和更出色的分类工具来提升spamGAN生成对抗网络。