[发明专利]文本的实体关系抽取方法和模型训练方法有效
| 申请号: | 202010082707.7 | 申请日: | 2020-02-07 |
| 公开(公告)号: | CN111339774B | 公开(公告)日: | 2022-11-29 |
| 发明(设计)人: | 陈曦;卢睿轩;文瑞;孙继超;刘羽 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
| 主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F40/30;G06F16/36 |
| 代理公司: | 广州嘉权专利商标事务所有限公司 44205 | 代理人: | 谭英强 |
| 地址: | 518000 广东省深圳*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 文本 实体 关系 抽取 方法 模型 训练 | ||
1.一种文本的实体关系抽取方法,其特征在于,包括以下步骤:
获取输入文本;
对所述输入文本进行识别处理,得到所述输入文本中的至少两个实体和所述至少两个实体的类型;
从所述至少两个实体中确定目标实体对;
根据目标实体的类型,将所述输入文本中的所述目标实体替换成用于表示所述目标实体的类型的字符,将所述替换文本或者输入文本中所有与所述目标实体类型相同的非目标实体替换为没有具体含义的字符,得到所述输入文本的替换文本,所述非目标实体是指所述至少两个实体中除目标实体以外的实体;
从所述替换文本中提取语义特征信息;
从所述输入文本中提取依存关系特征信息;
将所述语义特征信息和所述依存关系特征信息进行组合处理后再分类,得到所述目标实体对的关系分类结果,以确定所述目标实体对的关系。
2.根据权利要求1所述的一种文本的实体关系抽取方法,其特征在于,所述从所述输入文本中提取依存关系特征信息,包括:
对所述输入文本进行依存关系分析处理,得到所述输入文本的依存关系信息;
对所述输入文本进行词嵌入处理,得到所述输入文本中词语的词向量;
通过图状态循环神经网络对所述输入文本中词语的词向量进行处理,得到所述输入文本的依存关系特征信息;
其中,所述图状态循环神经网络包括多个节点,所述输入文本中每个词语的词向量被输入到所述图状态循环神经网络的不同节点中,所述图状态循环神经网络根据所述输入文本的依存关系信息改变各节点的连接关系,使所述输入文本的依存关系信息映射到循环神经网络的各节点的连接关系中。
3.根据权利要求2所述的一种文本的实体关系抽取方法,其特征在于,所述依存关系信息是树状图,所述树状图包括第一层至第N层,其中,第一层为根节点层,N为大于等于2的整数;
所述通过图状态循环神经网络对所述输入文本中词语的词向量进行处理,得到所述输入文本的依存关系特征信息,包括:
按照第一层到第N层的顺序,更新所述依存关系信息中每一层的词语对应的词向量所在的节点的输出向量;
在更新完所述图状态循环神经网络的所有节点后,根据所有节点的输出向量得到第二向量以表征所述依存关系特征信息;
其中,位于同一层的词语对应的词向量所在的节点同步更新。
4.根据权利要求2或3所述的一种文本的实体关系抽取方法,其特征在于,所述图状态循环神经网络中的各节点对本节点中的词向量和接收到的关联节点的输出向量进行加权后得到本节点的输出向量;
其中,所述关联节点包括与本节点相邻的节点或者与本节点存在依存关系的节点,两个节点存在依存关系是指两个节点中的词向量分别对应的词语在依存关系信息中存在直接的关系。
5.根据权利要求1或2所述的一种文本的实体关系抽取方法,其特征在于,所述语义特征信息由第一向量表示,所述依存关系特征由第二向量表示;
所述将所述语义特征信息和所述依存关系特征信息进行组合处理,其具体为:
将第一向量和第二向量进行拼接处理。
6.根据权利要求1-3任一项所述的一种文本的实体关系抽取方法,其特征在于,所述从所述至少两个实体中确定目标实体对,具体为:
根据所述实体的类型,从所述至少两个实体中选择满足预设的类型关系的两个实体作为目标实体对。
7.根据权利要求1-3任一项所述的一种文本的实体关系抽取方法,其特征在于,还包括以下步骤:
对得到的所述目标实体对的关系进行校验。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010082707.7/1.html,转载请声明来源钻瓜专利网。





