[发明专利]实体依存关系的确定方法及装置有效
申请号: | 201910372285.4 | 申请日: | 2019-05-06 |
公开(公告)号: | CN110162788B | 公开(公告)日: | 2021-02-09 |
发明(设计)人: | 王卓然;亓超;马宇驰;王东亮;陈华荣 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06F40/30 | 分类号: | G06F40/30;G06F16/28 |
代理公司: | 深圳市深佳知识产权代理事务所(普通合伙) 44285 | 代理人: | 王仲凯 |
地址: | 518000 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 实体 依存 关系 确定 方法 装置 | ||
1.一种实体依存关系的确定方法,其特征在于,所述方法包括:
将待识别文本拆分成多个子文本;
确定所述多个子文本中每个子文本的字数;
判断所述多个子文本中是否存在字数小于第一预设字数的子文本;
若是,则将字数小于所述第一预设字数的子文本并入与其相邻的一个子文本中;
识别所述多个子文本中每个子文本中的实体;
依据所述每个子文本中的实体和/或相邻子文本中的实体的依存关系,确定所述待识别文本中实体之间的依存关系。
2.根据权利要求1所述的方法,其特征在于,所述将待识别文本拆分成多个子文本,包括:
从所述待识别文本中识别出标点符号;
以所述标点符号为间隔,将所述待识别文本拆分成多个子文本。
3.根据权利要求1所述的方法,其特征在于,所述将待识别文本拆分成多个子文本,包括:
按照第二预设字数,将所述待识别文本拆分成多个子文本。
4.根据权利要求3所述的方法,其特征在于,所述按照第二预设字数,将所述待识别文本拆分成多个子文本后,所述方法还包括:
判断所述多个子文本中相邻的两个子文本之间是否存在被拆分的实体;
若是,则将所述被拆分的实体划入所述相邻的两个子文本中的一个子文本。
5.根据权利要求3所述的方法,其特征在于,所述按照第二预设字数,将所述待识别文本拆分成多个子文本后,所述方法还包括:
从所述多个子文本中,确定出其中有标点符号的目标子文本;
获取所述目标子文本中的标点符号与所述目标子文本的开头之间的第一字数,以及所述目标子文本中的标点符号与所述目标子文本的末尾之间的第二字数;
若所述第一字数大于所述第二字数,则将所述目标子文本中所述标点符号后的文本划入所述目标子文本的下一个子文本;
若所述第一字数小于所述第二字数,则将所述目标子文本中所述标点符号前的文本划入所述目标子文本的上一个子文本。
6.根据权利要求1至5中任一项所述的方法,其特征在于,所述依据所述每个子文本中的实体和/或相邻子文本中的实体的依存关系确定所述待识别文本中实体之间的依存关系,包括:
确定所述每个子文本中的实体的个数;
判断所述每个子文本中是否存在实体的个数为一个的单子文本;
若存在,则识别所述单子文本中的实体和与所述单子文本相邻的子文本中的实体之间的依存关系;
若不存在,则识别所述每个子文本中的实体之间的依存关系;
根据识别出的依存关系,确定所述待识别文本中的实体之间的依存关系。
7.根据权利要求6所述的方法,其特征在于,所述根据识别出的依存关系,确定所述待识别文本中的实体之间的依存关系后,所述方法还包括:
将所述待识别文本中相互之间具有依存关系的实体合并显示。
8.根据权利要求7所述的方法,其特征在于,所述将所述待识别文本中相互之间具有依存关系的实体合并显示,包括:
识别所述待识别文本中相互之间具有依存关系的实体的类型,所述类型包括:主体和客体,所述主体为所述依存关系中被描述的对象,所述客体用于描述所述主体;
将类型为主体的实体与类型为客体的实体区别设置,使得类型为主体的实体突出;
将区别设置后的类型为主体的实体与类型为客体的实体合并显示。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910372285.4/1.html,转载请声明来源钻瓜专利网。