[发明专利]一种基于领域迁移的关系抽取方法及装置有效
申请号: | 202010051693.2 | 申请日: | 2020-01-17 |
公开(公告)号: | CN111310454B | 公开(公告)日: | 2022-01-07 |
发明(设计)人: | 张熙;刘振龙;谢思泓;李小勇 | 申请(专利权)人: | 北京邮电大学 |
主分类号: | G06F40/284 | 分类号: | G06F40/284;G06F40/295;G06F16/35;G06N3/04 |
代理公司: | 北京柏杉松知识产权代理事务所(普通合伙) 11413 | 代理人: | 丁芸;马敬 |
地址: | 100876 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 领域 迁移 关系 抽取 方法 装置 | ||
本发明实施例提供了一种基于领域迁移的关系抽取方法及装置,所述方法包括:获取待处理文本;提取待处理文本中具有第一预设词性的词语,以及具有第二预设词性的词语,并生成第一预设词性的词语与第二预设词性的词语对应的关系词对;根据待处理文本的标识,关系词对在待处理文本中的位置,待处理文本所属的领域,生成关系提及特征向量矩阵;利用预先训练好的关系分类模型对关系提及特征向量矩阵中每一关系提及特征向量进行处理,得到关系提及特征向量对应的关系类别。本发明实施例,使用优化的样本数据训练关系分类模型,能够提高分类结果的准确度。
技术领域
本发明涉及自然语言处理技术领域,特别是涉及一种基于领域迁移的关系抽取方法及装置。
背景技术
信息抽取技术是通过从自然语言文本中抽取指定类型的实体、关系、事件等事实信息来提取出文本中所包含的重要信息。关系抽取作为信息抽取技术中一个重要的子任务,主要对句子或文本中概念之间的关系进行识别和分类,同时,关系抽取也是许多自然语言处理领域任务的基础。
现有的关系抽取方法为:采用远程监督的方式获取标注数据,进而使用标注的数据来训练分类模型,例如,逻辑回归分类模型,或支持向量机分类模型等来对文本信息进行关系分类。其中,采用远程监督的方式获取标注数据的实现过程为:借助外部知识库为数据提供标签,来标注文本中实体对之间的关系,该外部知识库为已经设置好的存储有实体对之间对应关系的数据库。例如,“汉武帝封卫青为大将军”这句话中的汉武帝和卫青在外部知识库中存储有关系:君臣等。
现有的关系抽取方法中训练分类模型所使用的数据,是采用远程监督的方式获取的标注数据,而远程监督是借助外部知识库为数据提供标签的,在标注数据时只能局限于外部知识库。外部知识库将同一对实体的所有情况标注为一种关系,那么所有包含此对实体的数据都表达这个关系,例如,“汉武帝封卫青为大将军”这句话中的汉武帝和卫青在外部知识库中存储有关系:君臣,而在另一句话:“汉武帝是卫青姐姐的丈夫”中汉武帝和卫青应该是亲属关系而不是君臣关系,此时外部知识库提供的信息就是不准确的,使得标签的准确度不高,进而标注的数据准确度也就不高,导致使用所标注的数据训练得到的分类模型的分类结果准确度较低。
发明内容
本发明实施例的目的在于提供一种基于领域迁移的关系抽取方法及装置,使用优化的样本数据训练关系分类模型,以提高分类结果的准确度。具体技术方案如下:
第一方面,本发明实施例提供了一种基于领域迁移的关系抽取方法,所述方法包括:
获取待处理文本,所述待处理文本为待进行关系抽取的文本;
提取所述待处理文本中具有第一预设词性的词语,以及具有第二预设词性的词语,并生成所述第一预设词性的词语与所述第二预设词性的词语对应的关系词对;
根据待处理文本的标识,所述关系词对在所述待处理文本中的位置,所述待处理文本所属的领域,生成关系提及特征向量矩阵;所述关系提及特征向量矩阵中的一行表示一个关系提及特征向量;
利用预先训练好的关系分类模型对所述关系提及特征向量矩阵中每一关系提及特征向量进行处理,得到所述关系提及特征向量对应的关系类别,所述关系类别包括:无关系类别和有关系类别;其中,所述关系分类模型,是根据优化后的各第一样本特征向量,以及所述优化后的各第一样本特征向量对应的标准类别标签训练得到的;所述优化后的各第一样本特征向量,是将第一样本特征向量,输入预先训练好的优化模型中得到的;所述优化模型,是根据目标领域中的第二样本特征向量,第二样本特征向量对应的动作,以及源领域中的第三样本特征向量,所述第三样本特征向量对应的类别标签训练得到的,所述目标领域为所述待处理文本所属的领域,所述目标领域与所述源领域为同一领域下的不同子领域。
可选地,所述利用预先训练好的关系分类模型对所述关系提及特征向量矩阵中每一关系提及特征向量进行处理,得到所述关系提及特征向量对应的关系类别的步骤,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京邮电大学,未经北京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010051693.2/2.html,转载请声明来源钻瓜专利网。