[发明专利]一种基于两阶段筛选和分类的关系抽取方法和装置有效
| 申请号: | 202011429449.1 | 申请日: | 2020-12-09 |
| 公开(公告)号: | CN112329440B | 公开(公告)日: | 2023-07-25 |
| 发明(设计)人: | 王功明;张娴;周庆勇;孙思清 | 申请(专利权)人: | 浪潮云信息技术股份公司 |
| 主分类号: | G06F40/211 | 分类号: | G06F40/211;G06F40/253;G06F40/295;G06F40/30 |
| 代理公司: | 济南信达专利事务所有限公司 37100 | 代理人: | 孙晶伟 |
| 地址: | 250100 山东省济南市高*** | 国省代码: | 山东;37 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 阶段 筛选 分类 关系 抽取 方法 装置 | ||
本发明公开一种基于两阶段筛选和分类的关系抽取方法和装置,涉及数据信息处理技术领域;S1:生成实体对的上下文词法特征向量;S2:训练基于逻辑回归的关系存在性判定模型;S3:使用模型筛选可能存在关系的实体对和句子;S4:生成“实体对‑句子”特征向量序列集合;S5:生成关系类型向量;S6:训练基于卷积神经网络的关系分类模型;S7:使用模型预测实体对的关系类型。
技术领域
本发明公开一种关系抽取方法和装置,涉及数据信息处理技术领域,具体地说是一种基于两阶段筛选和分类的关系抽取方法和装置。
背景技术
关系是描述实体对之间语义联系的三元组,其形式是(A,ɑ,B),其中A、B是实体,ɑ是实体间的语义联系。关系大量存在于自然文本中。关系抽取是信息抽取领域的重要研究内容,可以建立不同实体间的依赖类型,将非结构化文本转化为结构化或半结构化知识,形成由知识构成的关系网络,用于智能问答、语义搜索、社团发现等智能型服务。
目前,常用的关系抽取方法包括下述四种:
(1)规则模板法
通过分析句式特点,设计若干模板(正则表达式),使用模板在文本中匹配出关系三元组。这种方法需要构建庞大的模板库,早期由专家手工写出模板,人力耗费极大;近年来开始采用自动化方式生成模板,最常用的是Bootstrapping算法,根据最初几个实例从文本中提取种子模板,然后将进一步应用于文本,获得新的实例,重复上述过程,获得更多的模板。但是,如果初始实例质量不佳,提取出的种子模板适用面窄,在后继迭代中容易陷入局部收敛,缺乏扩展性和普适性;此外,在模板扩增的过程中,会产生适用面窄、不正确或彼此冲突(对于同一句话的相同实体,得到彼此矛盾的关系)的新模板,影响关系抽取的准确性。
(2)依存分析法
对文本进行句法或语法分析,根据关系三元组各个元素在句中的依存关系(如主谓、动宾、动补、定中、介宾等),确定对应的抽取规范。该方法与规则模板法类似,但处理对象是文本的句法或语法分析结果,要综合多条规则进行抽取,而不是使用模板直接匹配。因为依存关系种类有限,导致可用的抽取规则数量不多;此外,不同树库(或相同树库的不同版本)的依存关系定义和符号均有差异,更换树库类型或版本后,原有的关系抽取规则会失去效果;上述问题,影响本方法的普适性。
(3)机器学习法
该方法把关系抽取任务当作分类训练问题,训练机器学习模型进行预测。首先,对句子进行词法和句法分析,得到每个实体的平面特征和句法特征;然后,综合平面特征和句法特征,以及语义角色标注特征,生成完整的关系特征;最后,根据关系特征和已标注的特征标签,采用合适的方法(LR、SVM、CRF等)进行训练,从而得到不同关系的生成模型。但是,两个实体之间的关系类型依赖于实体所在的上下文环境,尤其是实体两侧近邻要素的语义特征,对于两个相同的实体,在不同的语境中会存在不同的关系类型。常用的平面特征、句法特征和语义角色标注特征仅是实体本身的特征,不能很好地反映实体所在上下文环境的特征,会影响关系(尤其是多义关系)抽取的准确性。此外,如何根据实际应用的需要,设计适用的平面特征、句法特征和语义角色标注特征,是个技巧性较强的工作,需要反复测试和调整,没有固定的规律可循。
(4)深度学习法
该方法把关系抽取任务当作分类训练问题,训练深度学习模型进行预测。首先,获取句子中每个词汇的特征向量,主要包括:词嵌入、类型嵌入、词性嵌入、相对距离等;然后,将词汇各种特征向量拼接起来,并按照词汇在句子中的顺序构成向量序列;最后,采用合适的深度学习网络(CNN、RNN、LSTM等)进行训练,从而得到关系类型判定模型。当前,该方法在关系抽取中的效果优于其它方法。但是,构造向量序列时使用的词汇特征向量通常来自预训练模型,都是已经固化的向量,不能反映词汇在不同上下文中的多义性。此外,深度学习网络结构复杂、参数众多,模型训练和关系预测的成本都很高,应用范围有限。
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浪潮云信息技术股份公司,未经浪潮云信息技术股份公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011429449.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种橡塑制品切割装置
- 下一篇:一株花生内生细菌枯草芽孢杆菌F-1及其应用





