在蒙特利尔的NeurIPS 2018大会的一篇论文――《带有属性控制的内容保留文本生成》中,密歇根大学和Google Brain的数据科学家描述了一种机器学习架构,不仅能够根据给定样本生成句子,还能够在保留原意的前提下,改变原句的情绪、复杂程度、时态甚至是态度。
这个系统可能有一天会用于复述、团队论断、机器翻译和会话系统。它可以补充微软研究所11月展示的系统,该系统利用复杂的自然语言处理技术来推理弱结构文本中的关系。“在这项工作中,我们解决了修改句子文本属性的问题。”研究人员写道。“据我们所知,我们演示了首个能够在没有并行数据的情况下,修改给定句子的多个文本属性的实例。”
该团队首先解决了情绪控制问题。他们找来了一个餐馆评论数据集――Yelp评论数据集的过滤版本,以及大量的IMDB电影评论,这两个数据集分别有447,000和300,000个句子,他们用来训练系统。
谷歌
在培训完成之后,研究人员使用包含了128,000条餐厅评价和36,000条电影评论的测试数据集,尝试将原本带有负面情绪的句子转换成具有正面情绪的文本,而将带有正面情绪的句子转换成带有负面情绪的文本。
用“双语评估替换”(BLEU)进行的评估表明,这个人工智能系统能够胜过两种领先的文本生成方法。BLEU是一套评估机器翻译文本的标准方法。此外,它始终能够生成与输入的句子相关的、语法正确的句子,在某种程度上,亚马逊的Mechanical Turk研究参与者认为它的输出比以前的方法更为真实。
这个系统生成的句子的连贯程度令人惊讶。在一个例子中,“柜台后面的人不友好”变成了“柜台上的人非常友好并且乐于助人。”在另一个例子中,模型将“这是这部电影另一个有趣的地方”变成了“这部电影的质量简直糟得没救了”。
更令人印象深刻的是,在另一项测试中的研究人员使用该系统同时控制句子的多种属性,包括情绪、时态、态度和情绪。在用来自Toronto BookCorpus数据集的200万个文本片段进行培训之后,该模型能够将未来时态中的指示性情绪,“约翰将无法在营地中生存”转换为条件时态中的虚拟语气,“约翰不能住在营地”。