[发明专利]弱监督实体关系抽取方法及其装置和电子设备有效
申请号: | 201711113364.0 | 申请日: | 2017-11-13 |
公开(公告)号: | CN107958025B | 公开(公告)日: | 2021-12-28 |
发明(设计)人: | 徐硕;王政;杨兴兵;赵桂荣 | 申请(专利权)人: | 北京工业大学;北京睿泰数字科技有限公司 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F16/33 |
代理公司: | 北京市立方律师事务所 11330 | 代理人: | 张筱宁 |
地址: | 100124 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 监督 实体 关系 抽取 方法 及其 装置 电子设备 | ||
1.一种弱监督实体关系抽取方法,其特征在于,包括:
在文档合集中获取多组已组合的候选实体对,所述候选实体对中包含具有实体关系的两个实体;
分别抽取各组候选实体对相应的多元语法特征;
根据所述多元语法特征,生成各组候选实体对相应的状态变量和特征向量;
根据各组候选实体对分别对应的多元语法特征、状态变量和特征向量来训练预设的实体关系抽取模型,以抽取各组候选实体对中的实体关系对应的关系类型;
所述多元语法特征包括以下至少一项:
依赖路径;词汇;词性;依赖属性对;源实体;目标实体;
其中,所述多元语法特征至少分为以下类型:
关系相关特征;源实体相关特征;目标实体相关特征;
所述依赖路径、所述词汇及所述词性属于关系相关特征;所述依赖属性对及所述源实体属于源实体相关特征;所述依赖属性对及所述目标实体属于目标实体相关特征。
2.根据权利要求1所述的弱监督实体关系抽取方法,其特征在于,所述根据各组候选实体对分别对应多元语法特征、状态变量和特征向量来训练预设的实体关系抽取模型的步骤,包括:
根据各组候选实体对中的两个实体、各组候选实体对分别对应的多元语法特征、状态变量和特征向量来训练预设的实体关系抽取模型。
3.根据权利要求1或2所述的弱监督实体关系抽取方法,其特征在于,所述状态变量为所述多元语法特征中的任一特征对应的状态变量;以及,
所述特征向量包括以下至少一项:
由多元语法特征中的任一特征和该任一特征的前一特征对应的多项式分布;
所述状态变量的二项式分布。
4.根据权利要求3所述的弱监督实体关系抽取方法,其特征在于,所述特征向量还包括以下至少一项:
源实体类型的多项式分布;
源实体相关特征的多项式分布;
目标实体类型的多项式分布;
目标实体相关特征的多项式分布。
5.根据权利要求1或2所述的弱监督实体关系抽取方法,其特征在于,所述在文档合集中获取多组已组合的候选实体对的步骤,包括:
收集预定领域的无结构或半结构文档,生成文档合集;
对所述文档合集进行预处理;
在预处理后的文档合集中,对构成任一实体关系的实体进行组合,以生成候选实体对;
其中,所述预处理包括以下至少一种方式:
过滤停用特征词;
过滤出现频率少于阈值的特征词;
对出现的特征词进行消歧;
将大写字母转变为小写形式。
6.根据权利要求1或2所述的弱监督实体关系抽取方法,其特征在于,所述根据各组候选实体对分别对应的多元语法特征、状态变量和特征向量来训练预设的实体关系抽取模型,以抽取各组候选实体对中的实体关系对应的关系类型的步骤,包括:
采用近似推断算法根据各组候选实体对分别对应的多元语法特征、状态变量和特征向量对预设的实体关系抽取模型中的参数变量进行估计;
根据估计结果设定所述实体关系抽取模型中的参数的具体数值;
依据所述参数的具体数值,通过所述实体关系抽取模型,来抽取各组候选实体对中的实体关系对应的关系类型。
7.根据权利要求1或2所述的弱监督实体关系抽取方法,其特征在于,还包括:
将属于同一关系类型的候选实体对聚合成一簇实体对聚簇;
根据任一实体对聚簇所包含的多元语法特征确定该实体对聚簇的真实语义关系。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学;北京睿泰数字科技有限公司,未经北京工业大学;北京睿泰数字科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711113364.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:会话合并方法、装置和计算机设备
- 下一篇:一种商品信息处理方法及装置