[发明专利]命名实体识别与链接方法、装置、设备及可读存储介质有效
申请号: | 201911318901.4 | 申请日: | 2019-12-19 |
公开(公告)号: | CN111178076B | 公开(公告)日: | 2023-08-08 |
发明(设计)人: | 雷士驰 | 申请(专利权)人: | 成都欧珀通信科技有限公司 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F40/247;G06F16/955 |
代理公司: | 深圳市联鼎知识产权代理有限公司 44232 | 代理人: | 刘抗美 |
地址: | 610094 四川省成都市自由贸易试验*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 命名 实体 识别 链接 方法 装置 设备 可读 存储 介质 | ||
1.一种命名实体识别与链接方法,其特征在于,包括:
获取包含专有名称的待识别文本;
基于预先构建的词典,对所述待识别文本分词,拆分出与所述专有名称对应的目标实体词;以及
基于所述目标实体词的标注信息,确定所述目标实体词的类型;
其中,所述词典包含实体词与背景词,所述实体词的概率与所述实体词的长度非线性相关,所述背景词的概率与所述背景词的长度非线性相关,所述实体词的概率与所述背景词的概率均用于对所述待识别文本分词,所述实体词的概率大于所述背景词。
2.根据权利要求1所述的方法,其特征在于,基于预先构建的词典,对所述待识别文本分词,拆分出与专有名词对应的目标实体词,包括:
基于所述词典构建的前缀树,生成所述待识别文本的有向无环图;
基于所述词典中各实体词的概率与各背景词的概率,查找最大概率路径;
确定所述最大概率路径的分词结果为所述待识别文本的分词结果;以及
确定所述分词结果中的实体词作为与所述专有名称对应的所述目标实体词。
3.根据权利要求1或2所述的方法,其特征在于,所述实体词的概率为所述实体词的长度的平方乘以预设阈值,所述背景词的概率为所述背景词长度的平方。
4.根据权利要求1或2所述的方法,其特征在于,所述背景词由高频查询语句中的语句片段和/或高频查询词构成。
5.根据权利要求4所述的方法,其特征在于,所述语句片段基于N-Gram模型从所述高频查询语句中确定。
6.根据权利要求2所述的方法,其特征在于,所述词典还包括:所述实体词及所述背景词的子串,用于构建所述词典的前缀树。
7.根据权利要求1或2所述的方法,其特征在于,还包括:
根据所述目标实体词的类型,将所述目标实体词链接到预设知识库的命名实体中。
8.一种命名实体识别与链接装置,其特征在于,包括:
文本获取模块,用于获取包含专有名称的待识别文本;
文本分词模块,用于基于预先构建的词典,对所述待识别文本分词,拆分出与所述专有名称对应的目标实体词;以及
类型确定模块,用于基于所述目标实体词的标注信息,确定所述目标实体词的类型;
其中,所述词典包含实体词与背景词,所述实体词的概率与所述实体词的长度非线性相关,所述背景词的概率与所述背景词的长度非线性相关,所述实体词的概率与所述背景词的概率均用于对所述待识别文本分词,所述实体词的概率大于所述背景词。
9.一种电子设备,包括:存储器、处理器及存储在所述存储器中并可在所述处理器中运行的可执行指令,其特征在于,所述处理器执行所述可执行指令时实现如权利要求1-7任一项所述的方法。
10.一种计算机可读存储介质,其上存储有计算机可执行指令,其特征在于,所述可执行指令被处理器执行时实现如权利要求1-7任一项所述的方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都欧珀通信科技有限公司,未经成都欧珀通信科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911318901.4/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一字型丛式平台井部署方法和装置
- 下一篇:一种跟踪方法及设备