[发明专利]实体关系的识别方法、装置及电子设备有效

专利信息
申请号: 202011461566.6 申请日: 2020-12-14
公开(公告)号: CN112270196B 公开(公告)日: 2022-04-29
发明(设计)人: 张浩静;刘炎;覃建策;陈邦忠 申请(专利权)人: 完美世界(北京)软件科技发展有限公司
主分类号: G06F40/295 分类号: G06F40/295;G06F16/35
代理公司: 北京中强智尚知识产权代理有限公司 11448 代理人: 黄耀威
地址: 100085 北京市海淀*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 实体 关系 识别 方法 装置 电子设备
【权利要求书】:

1.一种实体关系的识别方法,其特征在于,包括:

将待识别文本中缺少主语的语句进行主语补齐处理;

获取经过主语补齐处理后的所述待识别文本中含有实体对的语句;

从所述待识别文本的语料以外,获取所述实体对中实体对应的实体描述信息语料;对所述实体描述信息语料进行语料清洗;将语料清洗后的实体描述信息语料进行分词处理;对处理得到的分词进行词嵌入表示,输入到卷积神经网络,再进行最大池化层处理,得到所述实体对中实体对应的实体信息特征;

将所述实体信息特征、实体对、以及所述含有实体对的语句输入到深度学习的预设识别模型中;

根据所述预设识别模型输出的分类结果,确定所述待识别文本中的实体关系;

其中,所述预设识别模型的训练过程包括:

获取样本文本中含有实体对的样本语句;

对所述含有实体对的样本语句标注关系标签,得到目标关系标签对应的第一语句集合,所述第一语句集合中的样本语句对应相同的关系标签;

将所述第一语句集合的各样本语句中,头实体前后预设个数的分词和尾实体前后预设个数的分词进行词频统计;

按照词频统计结果进行排序,获取排名靠前的预置个数的分词;

对所述排名靠前的预置个数的分词进行异常过滤,并将未被异常过滤掉的分词作为符合预设条件的分词;

依据所述第一语句集合中包含所述符合预设条件的分词的第二语句集合,利用深度学习算法训练得到所述预设识别模型,具体包括:从第二语句集合中各样本语句之外获取第二语句集合中各样本语句内实体对应的实体描述信息;对所述实体描述信息进行语料清洗;将语料清洗后的实体描述信息进行分词处理;对处理得到的分词进行词嵌入表示,输入到卷积神经网络,再进行最大池化层处理,得到实体描述信息对应的实体信息特征;根据第二语句集合中各样本语句对应的所述实体信息特征、各语句数据、以及第二语句集合对应的关系标签,创建训练集;基于所述训练集利用深度学习算法训练得到所述预设识别模型。

2.根据权利要求1所述的方法,其特征在于,所述将待识别文本中缺少主语的语句进行主语补齐处理,具体包括:

在对所述待识别文本中各语句分别进行分词处理、词性标注、命名实体识别后,对各语句进行逐句判断;

若当前语句内跳过先导词后的首个分词是NER实体,则判断所述NER实体在文本中的预设距离阈值范围内是否存在代词,如果所述预设距离阈值范围内存在代词,则根据所述NER实体,将代词位置进行主语添加替换;

若当前语句内跳过先导词后的首个分词不是NER实体,则判断首个分词是否为代词,如果首个分词为代词,则将首个分词位置进行主语添加替换;如果首个分词不是代词,则判断需要添加的主语是否出现在当前语句中,如果需要添加的主语没有在当前语句中出现,则为当前语句添加主语。

3.根据权利要求1所述的方法,其特征在于,在所述获取样本文本中含有实体对的样本语句之前,所述方法还包括:

对输入的样本文本进行语料清洗;

将语料清洗后的样本文本中缺少主语的语句进行主语补齐处理;

将经过主语补齐处理后的样本文本进行分句处理;

基于依存句法,分析分句处理得到的各样本语句的初始三元组;

所述获取样本文本中含有实体对的样本语句,具体包括:

利用所述初始三元组,对分句处理得到的单句进行映射,以便筛选出含有实体对的样本语句。

4.根据权利要求3所述的方法,其特征在于,所述基于依存句法,分析分句处理得到的各样本语句的初始三元组,具体包括:

对目标语句进行分词处理;

将分词处理得到的分词作词性标注;

对分词和与分词对应的词性标注的结果进行命名实体识别,得到目标语句的实体标注;

基于所述实体标注进行依存句法分析,得到目标语句的初始三元组。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于完美世界(北京)软件科技发展有限公司,未经完美世界(北京)软件科技发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202011461566.6/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top