“机器人保姆要想真正走入家庭,自然语言是第一关。”达闼科技总裁黄晓庆在此前的一次座谈上对记者说。
自然语言理解(NLP)素有“人工智能皇冠上的明珠”的盛誉,语言与知识技术是人工智能认知能力的核心。这也意味着语言与知识等认知层面的技术突破,将进一步促进AI深入发展。
中文作为最优美、最复杂的语言,其自然语言的数据共建将帮助机器读懂“千言”,开拓人工智能领域无限的遐想空间。
机器认知需依赖知识图谱
“知识图谱是机器认知世界的重要基础。”在刚刚结束的以“掌握知识、理解语言、拥有智能”为主题的百度大脑语言与知识技术峰会上,百度CTO王海峰解读了语言与知识技术的发展历程与最新成果,与产学研各界分享技术及产业发展趋势和展望。
基于最大的搜索平台的数据优势,百度打造了世界上最大规模的知识图谱,拥有超过50亿实体和5500亿事实,并在不断演进和更新。该知识图谱应用于各行各业,每天的调用次数超过400亿次。
在融入知识的基础上,机器的语言理解能力不断增强。通过知识增强的语义理解框架ERNIE,在深度学习的基础上融入知识,同时具备持续学习能力,这让机器自然语言突破了阅读理解、对话理解以及跨模态深度语义理解等技术。
语言生成是语言与知识技术中的重要组成部分。基于预训练技术的成功经验提出的基于多流机制的语言生成预训练技术,兼顾词、短语等不同粒度的语义信息,显著提升生成效果。
在应用系统层面,对话系统和机器翻译等成绩卓著。提出了知识图谱驱动的对话控制技术,以及首个基于隐空间的大规模开放域对话模型PLATO等,并推出智能对话定制和服务平台UNIT,帮助开发者高效构建智能对话系统,实现规模化应用。
通过上述技术,机器翻译也取得了突破性进展。以百度为例,其翻译支持200多种语言,每天响应超过千亿字符的翻译请求,支持超过40多万家第三方应用,技术上,提出了多智能体联合学习、基于语义单元的同传模型、稀缺语种分组混合训练算法等。
王海峰认为,人工智能大脑语言与知识技术的持续探索和创新,以平台化的方式输出,可以赋能千行万业,持续提升产业智能化水平。
此次大会还发布了百度大脑语言与知识产品全景图,以及语义理解技术与平台文心、智能文档分析平台TextMind和AI同传会议解决方案三大新产品和6项升级。
语言与知识技术平台化
只用一台电脑和一部手机,就可以在大型会议现场快速搭建一套同传系统,只需点点鼠标、打几个字,就能快速获得专业的同传服务。
语言与知识技术平台化可以在应用中产生大量价值,为广大开发者和产业实践者提供以语言与知识技术为核心驱动的系列产品。
据百度集团副总裁吴甜介绍,语义理解技术与平台文心,基于深度学习平台飞桨打造,依托领先的语义理解核心技术,集成优秀的预训练模型、全面的NLP算法集、端到端开发套件和平台,提供一站式NLP开发与服务,让开发者更简单、高效地定制企业级NLP模型。文心经过了大量真实应用场景的淬炼,已经具备优秀的工业级落地实力。
智能文档分析平台TextMind,具备“多快好省”的核心优势,可以促进企业办公智能升级。
利用机器大脑智能创作平台,媒体应用场景也得到再升级。智能策划、智能采编、智能审校三大媒体场景方案,可以进一步助力媒体人更快、更好地创作。
智能对话定制与服务平台UNIT,有更智能的任务式对话理解、极致便捷的表格问答和融合通用的新对话引擎。将进一步降低任务式对话、智能问答的定制成本,并融合通用对话能力,提升交互体验。
上述AI同传会议解决方案,覆盖了会议全场景、全流程,旨在打造用户随身的“会议同传专家”。
所有的场景都离不开数据计算,更多的数据集作者参与共建,可以共同推动中文信息处理技术的进步,建设世界范围的中文信息处理影响力。据了解,未来3年,中文自然语言处理数据共建计划——“千言”将面向20多个任务,收集和建设不少于100个中文自然语言处理数据集,覆盖语言与知识技术全部领域。
未来,机器将更好地理解世界、更好地服务于人。