AI在阅读理解领域开始“跑分”

时间：2018-01-23 16:20:39

“三长一短选最短, 三短一长选最长,参差不齐C无敌。”

还记得上学期间流传在“学渣们”之间的所谓阅读理解的“做题法宝”吗？

当然，这只是学渣们给自己的心理安慰。阅读理解作为一道考察学生理解能力、思辨能力的题型，绝不仅仅是一道口诀就能解决的，它需要大量的练习与不断地揣摩。

不管如何，相信大家都有一个共识：阅读理解这件事当然是人类的专项。

然而事实上，近日，在美国斯坦福大学发起机器阅读理解领域顶级赛事SQuAD中，阿里巴巴开发的人工智能模型获得了82.44的高分，超过了人类平均值82.304的分数。这是机器首次在此类测试中获得超过人类的分数，而微软的AI模型获得了82.650的分数，排名首位。

人工智能在阅读理解领域开始“跑分”，AI能够进行全文理解，已然成为了AI界的大事件。此时，我们首先要面对的问题就是，当AI已经能够比人类更快速、更精准地对文本中的信息进行回答时，AI究竟是人类的替代者还是帮助者呢？AI阅读理解在未来又会如何落地呢？这些问题看似简单，却有很多值得讨论的地方。

AI阅读理解技术之思

整体来说，智能相对论（微信id：aixdlun）认为至少可以从这两点思考。

1、AI阅读理解只是自然语言处理（NLP）的进化

虽说AI阅读理解近期才进入人们的视线，但AI阅读理解技术究其根本还是继语义分析、语音识别后的又一在自然语言处理技术中取得的突破。

（图来自亿欧网）

自然语言处理发展得很早，计算机刚刚发明之后，人们就开始了自然语言处理的研究。机器翻译是其中最早进行的NLP研究。那时的NLP研究都是基于规则的，或者基于专家知识的。而阅读理解技术是怎么发展而来的呢？在图像识别和语音识别领域的成果激励下，人们逐渐开始引入深度学习来做NLP研究，于是阅读理解技术应运而生。

这类技术也面临很多挑战。具体来讲，包括：

如何跟知识学习――有效地把知识包括语言学知识、领域知识用起来；

如何跟环境学习――通过强化学习的方式提升系统的性能；

如何跟上下文学习――利用上下文进一步增强对当前句子的处理能力；

如何利用用户画像体现个性化。

每个环节若出现偏差都有可能导致结果的不准确。

2、AI阅读理解缺乏真正的思考

让我们先来看一道语文考试中常见的阅读理解题目――

老师提出问题：为什么作者描写的“窗帘”是蓝色的？

学生答：“因为窗帘是蓝色的。”

老师说：“错！蓝色的‘窗帘’具有愁绪的意味，表达作者当时困郁的心境……

这种类型的阅读理解，大家都很熟悉吧。目前，AI在中文阅读理解的简答题型方面表现如何还没有具体的数据可以说明（值得一提的是，百度即将筹办中文阅读理解比赛，竞赛将于2018年3月1日正式开启报名通道）。但是针对这类题型，人类早已总结出了一套答题技巧，更何况是收集了大量数据文本的机器呢？在为AI建立模型时，完全可以达到以某个词汇来刺激AI作出相应答案的程度。比如上文中的“蓝色”对应“惆怅，困郁”，再如“书信”对应“思念”等等。但是，这种操作下，AI阅读理解在做题时用的不是“理解”，而是“套路”；因为机器没有“思考”，只有“运算”。

为什么这么说呢？我们大概能在AI阅读理解的做题流程中找到答案：

Embedding Layer（相当于是人的词汇级的阅读知识）：一般采用的都是在外部大规模数据上预训练的词向量（例如Glove等），以及基于循环神经网络或者卷积神经网络的从字符到单词的词向量（表示），这样就可以得到问题和文章段落里面每个单词的上下文无关的表示。

Encoding Layer（相当于人通览全文）：一般采用多层的循环神经网络得到问题和文章段落的每个词的上下文相关的表示。

Matching Layer（相当于带着问题读段落）：得到问题里面的词和文章段落词之间的对应（或者叫匹配）关系。基本是采用注意力（attention）的机制实现，常见的有基于Match-LSTM和Co-attention两种，这样就得到文章里面每个词的和问题相关的表示。

Self-Matching Layer（相当于人再读一遍进行验证）：在得到问题相关的词表示的基础上再采用self-attention的机制进一步完善文章段落中的词的表示。

AnswerPointerLayer（相当于人综合线索定位答题）:对文章段落里面的每个词预测其是答案开始以及答案结束的概率，从而计算文章段落中答案概率最大的子串输出为答案。

所谓一千个读者有一千个哈姆雷特，我们人类在理解一篇文章的时候往往会带上自己的主观色彩，每个人都会生成自己的看法。而AI呢？在做题之外又能否对文章生成不一样的看法？

AI疯狂“跑分”，其结果是成为人类更好的帮手

之所以大家都认为AI阅读理解超越了人类，是因为从技术原理来讲，AI阅读理解超越人类是一件非常合理的事情。

首先，AI“阅读”的能力正在一天天提升，自然语言处理技术的突破，很可能取代人类的“理解力”。其次，深度神经网络模型能够模拟人类在做阅读理解问题时的一些行为，包括结合篇章内容审题，带着问题反复阅读文章，避免阅读中遗忘而进行相关标注等。于是，自然语言处理技术和深度神经网络模型相结合，使得AI可以进行超乎人类的阅读理解，似乎就成为了顺理成章的一件事。

于是很多人开始思考，AI阅读理解是否会替代由人工完成的规则、对话、服务信息类的相关理解工作？事实上，这种想法仅仅是理论上成立，但在实际应用时还有很多问题。

首先是把阅读理解这件事过分简单化了。阅读理解的题目分为精准匹配和模糊匹配，前者是硬性的阅读理解，即看到一段文字提取对应的信息，并进行简单的加工处理得到直观的信息；后者则是通过一段文字或一篇文章，结合文字背后的背景信息以及现实世界中的社会、人文背景以及读者的阅历等诸多方面，经过逻辑和“感性”的思考得出的理解和感受。换句话说，阅读理解是包含了语境理解、人文理解以及对内容熟稔之后的综合工作。这些显然是AI无法替代的。

再者，AI阅读理解的“跑分”结果是有着前提约束条件的，比如在确定的题库和测试时间，并且只是成年人平均理解水平。而要进一步推动阅读理解技术的发展，就得跟无人驾驶汽车分级测试一样需要设定问题的难度，逐级增加难度，对每一个级别建立训练和评测集合。

总之，拥有超越人类的理解力，还是今天的AI所无法做到的。这也意味着，AI更合适成为人类帮手，而非替代者。二者结合最好的方式，应该是AI进行基础处理，人类用AI来提升工作效率。这种人机交互的关系，其实在大部分“可能被AI替代的工作岗位”中都能找到。

这个阅读理解的“跑分高手”，还能在哪里帮助人类

智能相对论（微信id：aixdlun）认为目前这两个方面AI阅读理解能大展拳脚。

1.贴近真实需求，助力人机交互

在购买家电时你是非为那些枯燥无聊的“使用手册”感到十分头痛？在各种软件下载中的“用户协议”上你只能傻傻地点击“我同意”？有了AI阅读理解技术，这一切都有了更好的解决办法。

例如智能客服中，可以使用机器阅读文本文档（如用户手册、商品描述等）来自动或辅助客服来回答用户的问题。

在搜索引擎中，机器阅读理解技术可以用来为用户的搜索（尤其是问题型的查询）提供更为智能的答案。目前R-NET的技术已经成功地在微软的必应搜索引擎中得到了很好的应用。我们通过对整个互联网的文档进行阅读理解，从而直接为用户提供精确的答案。同时，这在移动场景的个人助理如微软小娜（Cortana）里也有直接的应用。

在办公领域，机器阅读理解技术也有很好的应用前景，比如使用机器阅读理解技术处理个人的邮件或者文档，然后用自然语言查询获取相关的信息。

2.友好嵌入环境，“技术”成为“助手”

此外，机器阅读理解技术在垂直领域也有非常广阔的应用前景，例如在教育领域用来辅助出题，法律领域用来理解法律条款，辅助律师或者法官判案，医疗领域理解医疗信息，帮助病人咨询，以及在金融领域里从非结构化的文本（比如新闻中）抽取金融相关的信息等。

正如阿里巴巴研究院自然语言处理首席科学家司罗在一份公告中所说的一样，对于像“天为什么会下雨”这样的客观问题，机器给出的答案准确率会很高。公告称，其中的技术可以逐步应用于诸如客服、博物馆指南、在线解答患者医疗问题等广泛的实际应用领域，从而以一种前所未有的方式减少人力投入的需求。

更甚者，机器阅读理解技术可以做成一个通用的能力，释放给第三方用来构建更多的应用。

【总结】

微软团队负责人周明老师曾在访谈中说到，“超越人类不能作为媒体的报道噱头，我们在看到技术进步的同时，更应该冷静思考模型的不断完善和技术应用落地。这是一个生态，需要所有业界同仁一起健康竞争，把现阶段面临的难题攻克，而非停留在比赛第一这样的阶段性喜悦中。”

阅读理解能力是人类智能中最关键的能力之一，AI阅读理解技术有着十分广泛的应用前景，可能那还很远，也可能很近，但比起超越人类，AI应该更有可能成为人类帮手。即使它在许多人类制定的规则项目中“赢”了人类，真正“超越人类”的还是人类自己。

此为亿邦专栏作者文章，如要转载请签订内容转载协议，联系run@ebrun.com

上一篇：企业级服务蓝海当道谁会成为下一个独角兽

下一篇：谷歌禁止亚马逊浏览器观看YouTube

账户和包装盒都是周大生买回来的金镯子却变成了“金喜缘”
“我姨妈是跟店员确认了是周大生的品牌才购买的，包括手镯的包装盒还有包装袋上都是周大生品牌的包装，回来拿给我们看的时候才发现手镯里面并没有周大生的钢印。”...
Time2024-11-18
买原创设计却看到类似效果图面对指责设计师不认可
面对赵先生的职责，星程空间的设计师程先生很委屈：“装修风格都是依据客户喜好设计的，如今赵先生却在没有看完全部图纸的情况下就说我抄袭，这对我的名誉造成了很大的损害。”...
Time2023-03-01
茶包中喝出大白虫沁晚香称农产品原料没打农药
旗舰店的工作人员表示，除了原料未使用农药外，茶包储存不当也有可能导致茶包生虫，“我们只负责销售，具体会不会是在生产环节产生其他问题，就得找厂家了。”...
Time2022-12-02
农产品上行业务收入每增加1万元，带动农村居民消费支出增加3528元网络零售激活乡村消费
上行，陕西的苹果、广西的沃柑、山东的大葱……来自全国各地的水果、蔬菜、禽肉、海产等土特产品来到城市消费市场，地道滋味广为流传；...
Time2021-05-12
“齐鲁第一高”绿地山东国金中心将于下月正式亮灯
位于济南中央商务区的“山、泉、湖、河、城”五座超高层建筑作为济南新的标志性建筑物，建设进度一直备受广大市民关注。...
Time2021-06-26
新房延期5个月未交付世茂回应尽快解决渗漏问题
2020年底，高新区世茂璀璨公园组织集中交付，可验房过程中，吕先生却发现，自己家中存在诸多质量问题。将这些情况一一反馈给开发商后，吕先生就一直等着房屋再次交付的通知，可5个月过去了，仍杳无音讯。...
Time2021-05-22
中介贴260多万元帮你买房，你信吗
购房者付306万元服务费和定金买“奥体更名房”，苦等近两年却发现上当，更名房变成二手房，中介仍称可以用新房价格购买，但要先把钱打给她...
Time2020-05-07
专业投资客离场，两月内挂牌量增加8000套量价齐跌杭州二手市场回调
近日，国家统计局公布8月70个大中城市价格变动情况，杭州二手房价格环比7月下跌0.1%。这是近9个月来杭州二手房价首次下跌。...
Time2019-09-20