【CNMO新闻】有些人工智能系统相对复杂,对研究人员来说,在研究中缺乏高质量的问题和回答数据集,也就是人们查询信息和相应答案的语料库是一个很大的问题。
在一篇论文中,谷歌提出了自然问题(NQ),一个用于培训和评估开放域回答问题系统的大规模数据集。谷歌人工智能语言公司的研究科学家汤姆・科瓦考斯基和迈克尔・柯林斯表示,这是第一次复制了端到端寻找问题答案的过程,”给出一个用自然语言表达的问题(比如为什么天空是蓝色的?),QA系统应该能够读取网页(如维基百科)并给出正确的答案,即使答案有些复杂和冗长。为回答问题组装一个高质量的数据集需要大量真实问题和大量的人力来寻找正确的答案。”
谷歌
“自然问题”由30多万个问题与来自维基百科页面的人工注释答案组合而成,旨在训练问答系统并对其进行评估。它是由谷歌搜索查询创建的,人类注释者通过阅读维基百科页面并搜索两种类型的回答来找到答案,一种是包含推断答案所需的所有信息的长答案,另一种是简洁回答问题的短答案。这些注释的质量已经达到了90%的准确度。
为了配合数据集的发布,谷歌发起了一项挑战,旨在推进这种问答系统的开发,该系统能够理解维基百科上可能包含也可能不包含问题答案的文章。Kwiatkowski和Collins认为,这样的系统必须能够分辨维基百科页面中是否包含推断答案所需的信息,这需要更深层次的语言理解。
“我们希望NQ的发布,以及相关的挑战,能有助于促进开发更有效、更健全的QA系统。”他们写道。