[发明专利]命名实体归一化处理方法、装置、电子设备及存储介质在审
| 申请号: | 202011138335.1 | 申请日: | 2020-10-22 |
| 公开(公告)号: | CN112257422A | 公开(公告)日: | 2021-01-22 |
| 发明(设计)人: | 魏小红;颜永阳;王川;刘楠;雷一鸣;王洪 | 申请(专利权)人: | 京东方科技集团股份有限公司 |
| 主分类号: | G06F40/247 | 分类号: | G06F40/247;G06F40/295;G16H50/70;G06F16/33 |
| 代理公司: | 北京鼎佳达知识产权代理事务所(普通合伙) 11348 | 代理人: | 任媛;刘铁生 |
| 地址: | 100015 *** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 命名 实体 归一化 处理 方法 装置 电子设备 存储 介质 | ||
1.一种命名实体归一化处理方法,其特征在于,包括:
从文本数据中识别得到命名实体;
按照预设的文本匹配规则,从标准命名实体数据库中查找与所述命名实体或扩展命名实体匹配的第一标准命名实体,其中,所述扩展命名实体是对所述命名实体的至少一部分用词进行同义词替换得到的;
若查找到所述第一标准命名实体,则将所述第一标准命名实体确定为所述命名实体的归一化表示;
若未查找到所述第一标准命名实体,则基于词向量相似度匹配算法,从所述预设的标准命名实体数据库中确定与所述命名实体匹配的第二标准命名实体,并将所述第二标准命名实体确定为所述命名实体的归一化表示。
2.根据权利要求1所述的方法,其特征在于,所述从文本数据中识别得到命名实体,包括:
对文本数据进行数据清洗,得到清洗后的文本数据,其中,所述数据清洗包括删除停用词和/或指定符号;
基于所述清洗后的文本数据进行命名实体识别,得到命名实体。
3.根据权利要求2所述的方法,其特征在于,所述基于所述清洗后的文本数据进行命名实体识别,得到命名实体,包括:
针对所述清洗后的文本数据中的长文本和/或短文本,采用针对长文本的第一命名实体识别算法和/或针对短文本的第二命名实体识别算法,识别得到命名实体。
4.根据权利要求3所述的方法,其特征在于,所述第一命名实体识别算法包括基于双向长短期记忆网络BiLSTM和条件随机场CRF的命名实体识别算法,和/或,所述第二命名实体识别算法包括基于正则表达式的命名实体识别算法。
5.根据权利要求1所述的方法,其特征在于,所述按照预设的文本匹配规则,从标准命名实体数据库中查找与所述命名实体或扩展命名实体匹配的第一标准命名实体,包括:
从标准命名实体数据库中查找与所述命名实体字符串完全匹配的第一标准命名实体;
若未查找到与所述命名实体字符串完全匹配的第一标准命名实体,则从所述标准命名实体数据库中查找与扩展命名实体字符串完全匹配的第一标准命名实体。
6.根据权利要求5所述的方法,其特征在于,所述从所述标准命名实体数据库中查找与扩展命名实体字符串完全匹配的第一标准命名实体,包括:
对所述命名实体进行完全同义词替换,得到完全替换的扩展命名实体,并从所述标准命名实体数据库中查找与所述完全替换的扩展命名实体字符串完全匹配的第一标准命名实体;
若未查询到与所述完全替换的扩展命名实体字符串完全匹配的第一标准命名实体,则对所述命名实体进行部分同义词替换,得到部分替换的扩展命名实体,并从所述标准命名实体数据库中查找与所述部分替换的扩展命名实体字符串完全匹配的第一标准命名实体。
7.根据权利要求6所述的方法,其特征在于,所述对所述命名实体进行部分同义词替换,得到部分替换的扩展命名实体,并从所述标准命名实体数据库中查找与所述部分替换的扩展命名实体字符串完全匹配的第一标准命名实体,包括:
对所述命名实体进行分词处理,得到多个命名实体分词;
遍历所述多个命名实体分词,将遍历到的命名实体分词替换为同义词得到部分替换的扩展命名实体,并从所述标准命名实体数据库中查找与所述部分替换的扩展命名实体字符串完全匹配的第一标准命名实体,直至查找到所述第一标准命名实体或者遍历完成。
8.根据权利要求1所述的方法,其特征在于,所述基于词向量相似度匹配算法,从所述标准命名实体数据库中确定与所述命名实体匹配的第二标准命名实体,包括:
计算所述命名实体与标准命名实体数据库中每个标准命名实体的最长公共子序列的长度;
按照所述长度由大至小的顺序,将所述标准命名实体与所述命名实体成对依次输入预先训练的基于词向量的语义模型,通过所述语义模型将每对所述标准命名实体与所述命名实体转换为词向量并计算相似度,以及选取相似度符合预设条件的标准命名实体确定为与所述命名实体匹配的第二标准命名实体。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于京东方科技集团股份有限公司,未经京东方科技集团股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011138335.1/1.html,转载请声明来源钻瓜专利网。





