[发明专利]嵌套实体识别方法、装置、计算机设备及存储介质在审
申请号: | 202110682529.6 | 申请日: | 2021-06-17 |
公开(公告)号: | CN113326701A | 公开(公告)日: | 2021-08-31 |
发明(设计)人: | 王锋;郭东波;叶朝鹏;石志伟 | 申请(专利权)人: | 广州华多网络科技有限公司 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F16/35;G06F40/126 |
代理公司: | 广州利能知识产权代理事务所(普通合伙) 44673 | 代理人: | 王增鑫 |
地址: | 511442 广东省广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 嵌套 实体 识别 方法 装置 计算机 设备 存储 介质 | ||
本申请公开一种嵌套实体识别方法、装置、计算机设备及存储介质,包括:获取待识别的目标语句;根据预设的编码规则对所述目标语句进行编码处理,生成所述目标语句的序列向量;将所述序列向量输入至预设的实体识别模型中,其中,所述实体识别模型为预先训练至收敛状态,用于识别文字信息中实体词语指针的神经网络模型;读取所述实体识别模型输出的多个实体词语指针,并基于预设的至少两个分类类别,计算各分类类别与各实体词语指针之间的置信度;根据所述置信度确定所述各分类类别对应的实体词语指针,并生成所述各分类类别的分类结果。实现了对目标语句中嵌套重复实体的“一次多类”识别,提高了识别的效率。
技术领域
本发明实施例涉及文字信息处理领域,尤其是一种嵌套实体识别方法、装置、计算机设备及存储介质。
背景技术
在互联网领域的搜索、推荐和用户画像分析等需要将嵌套实体词语识别方法作为基础模块,例如用户搜索时,搜索框对用户搜索的词汇联想,可以引导用户搜索想要搜索的商品,提高搜索效率,而词汇联想中的联想词需要基于商品库中的商品,嵌套实体的识别就可以识别出商品名称。根据用户的搜索,识别出搜索关键词,例如商品词、品牌等,可以提高搜索精排的效果。同时用户的搜索商品、点击商品、加购和下单商品登行为,可以使用嵌套实体识别方法识别出用户这些行为的偏好,用于用户画像分析。
本发明创造的发明人在研究中发现,现行的嵌套实体识别存在嵌套实体问题(实体重叠问题),如Apple iPhone 11作为语句识别时会出现两个实体Apple和Apple iPhone11分别代表品牌和商品名称两个实体。而传统提取法由于每一个类别只能有一个分类类别,无法解决这类问题。
发明内容
本发明实施例提供一种能够对嵌套实体进行全局分类的嵌套实体识别方法、装置、计算机设备及存储介质。
为解决上述技术问题,本发明创造的实施例采用的一个技术方案是:提供一种嵌套实体识别方法,包括:
获取待识别的目标语句;
根据预设的编码规则对所述目标语句进行编码处理,生成所述目标语句的序列向量;
将所述序列向量输入至预设的实体识别模型中,其中,所述实体识别模型为预先训练至收敛状态,用于识别文字信息中实体词语的神经网络模型;
读取所述实体识别模型输出的多个实体词语指针,并基于预设的至少两个分类类别,计算各分类类别与各实体词语指针之间的置信度;
根据所述置信度确定所述各分类类别对应的实体词语指针,并生成所述各分类类别的分类结果。
可选地,所述获取待识别的目标语句包括:
采集目标用户的用户信息、商品信息和/或用户行为信息;
将所述用户信息、商品信息和/或用户行为信息通过文字信息进行描述生成所述目标语句。
可选地,所述序列向量包括词语向量,所述根据预设的编码规则对所述目标语句进行编码处理,生成所述目标语句的序列向量包括:
根据所述目标语句,确定所述目标语句的多个语句变量;
根据各语句变量生成所述目标语句对应的语句矩阵,并将所述各语句变量以二进制的方式嵌入至所述语句矩阵中,生成所述目标语句的词语向量。
可选地,所述序列向量包括位置向量,所述根据预设的编码规则对所述目标语句进行编码处理,生成所述目标语句的序列向量包括:
获取所述各语句变量的位置信息,其中,所述位置信息包括所述各语句变量之间的相对位置信息;
根据预设的旋转式位置编码对所述位置信息进行编码,生成所述各语句变量对应的绝对位置信息,其中,所述各语句变量的绝对位置信息通过所述位置信息进行表达;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州华多网络科技有限公司,未经广州华多网络科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110682529.6/2.html,转载请声明来源钻瓜专利网。