[发明专利]一种文本知识提取方法、装置及自然语言推断系统在审
| 申请号: | 202110277326.9 | 申请日: | 2021-03-15 |
| 公开(公告)号: | CN113010676A | 公开(公告)日: | 2021-06-22 |
| 发明(设计)人: | 于东;李博涵;王炳宁;赵涵珺;阙孟溪 | 申请(专利权)人: | 北京语言大学 |
| 主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/126;G06F40/284;G06F40/30;G06F16/33;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 北京市广友专利事务所有限责任公司 11237 | 代理人: | 张仲波;付忠林 |
| 地址: | 100083*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 文本 知识 提取 方法 装置 自然语言 推断 系统 | ||
本发明公开了一种文本知识提取方法、装置及自然语言推断系统,该方法适用于自然语言推断系统,其包括:通过多层次的检索,基于待进行自然语言推断的前提句P和假设句H,从非结构化的纯文本资源中检索出有助于实现P和H之间推断的语句作为外部知识;通过注意力机制将所述外部知识引入自然语言推断系统,实现P和H间的推断。本发明引入非结构化的纯文本资源作为外部知识,并可用于多种基线模型,从而提高了模型在较难样例上的分类性能。
技术领域
本发明涉及自然语言处理技术领域,特别涉及一种文本知识提取方法、装置及自然语言推断系统。
背景技术
自然语言推断(NLI)是自然语言理解中的一项重要任务。给定一个前提句(P)和一个假设句(H),该任务要求模型正确分类两者之间的关系(蕴含、矛盾或中立),从而检验模型对句子语义的理解能力。其中蕴含表示通过P的内容能够推出H的内容,矛盾表示P的内容与H的内容矛盾,中立表示通过P的内容无法判断H的内容是否正确。
近年来,端到端的深度学习在NLI任务上展现出了出色的性能。传统的深度学习模型分为基于单句独立编码的模型、基于句子间注意力的模型和预训练语言模型,这三类模型的结构都包含在由四个部分构成的通用框架中。深度学习模型对特征的有效拟合保证了其较高的正确率,但端到端的特性导致模型仅能通过训练数据学习特征,因此模型在一部分包含了背景知识的样例上不易做出正确分类。为了提升模型性能,通常向模型中引入外部知识来协助训练。在传统深度学习模型的基础上,加入外部知识的NLI模型则在通用框架内的不同模块上融合知识表示与文本特征。以下将介绍传统深度学习NLI模型及其通用框架,以及在通用框架的不同模块上引入外部知识的现有方法。
传统深度学习的NLI模型只通过训练数据学习特征,而不借助外部知识。该类模型的结构可概括为如图1所示的由四个部分构成的通用框架:即向量表示层、编码层、信息交互层及预测层。其中向量表示层将字符串表示为低维连续的向量形式,编码层使用神经网络对词向量进行编码提取其隐藏状态的特征,信息交互层使用注意力、记忆、门控等机制和元素间的运算得到元素间的交互信息,预测层则对上述特征进行池化、softmax等操作得到最后的预测结果。
基于上述通用框架的传统深度学习NLI模型分为三类:(1)基于单句独立编码的模型包含了向量表示层、编码层和预测层,这类模型首先使用预训练的静态词向量表示P和H,并用CNN、BiLSTM等编码器对P和H的词向量分别编码,最后将编码后的特征直接送入预测层进行分类。(2)基于句子间注意力的模型包含向量表示层、编码层、信息交互层和预测层,不同于前一种模型只专注两个句子独立的表示,基于句子间注意力的模型在编码后通过信息交互层关注P、H之间交互信息对分类的影响。(3)预训练语言模型包括向量表示层、信息交互层及预测层,其中信息交互层为包含多头自注意力机制的Transformer结构,同时预训练语言模型凭借在大量语料上的预训练已获得一定的先验知识。
由于神经网络对特征较强的拟合能力,以上三类模型在NLI任务上都先后取得了突破的效果。后文介绍的引入知识的模型以及本发明的知识提取方法都将上述传统模型作为基础,通过向传统模型通用框架的不同模块引入外部知识。
为了提升深度学习模型在NLI任务上的性能,有工作向模型中引入外部知识。以下将通过知识来源、知识表示和知识融入三个角度分别介绍现有引入知识的深度学习NLI模型。
在知识来源方面,绝大部分模型使用了三元组形式的结构化知识库,如WordNet、ConceptNet等,通过检索等方式找到与P、H相关的三元组作为外部知识。极少部分模型采用非结构化的纯文本作为外部知识。
在知识表示方面,绝大部分工作对知识的表示可分为离散与连续两种情况,其中离散的表示包括使用共现矩阵、相似度等方式,将知识转化为低维、离散的数字;连续的表示包括使用词向量编码、图结构编码、图神经网络、三元组编码等方法,将知识表示为高维、稠密的连续向量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京语言大学,未经北京语言大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110277326.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种圆管编织专用高性能热塑性预浸带及其成型方法
- 下一篇:智能存储箱





