[发明专利]一种实体识别方法、装置、设备以及存储介质在审

专利信息
申请号: 202011096598.0 申请日: 2020-10-14
公开(公告)号: CN113536793A 公开(公告)日: 2021-10-22
发明(设计)人: 刘刚 申请(专利权)人: 腾讯科技(深圳)有限公司
主分类号: G06F40/295 分类号: G06F40/295;G06F40/289;G06F40/30;G06F40/126;G06N3/04;G06N3/08
代理公司: 深圳市深佳知识产权代理事务所(普通合伙) 44285 代理人: 陈松浩
地址: 518057 广东省深圳*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 实体 识别 方法 装置 设备 以及 存储 介质
【说明书】:

本申请公开了一种实体识别方法、装置、设备以及存储介质,涉及人工智能的自然语言处理技术。通过获取目标文本信息;然后将目标文本信息输入目标识别模型中的输入表示层,以生成目标向量序列;并将目标向量序列输入语义表示层,以得到标签预测序列;进而将标签预测序列输入条件鉴别层,以确定归属概率集合中的目标项。从而实现高效的实体识别过程,由于采用多个实体标签进行匹配,可以筛选不同类别实体的重要特征,增强对于实体类别的分辨能力,且无需人工审核的过程,提高了实体识别的效率及准确性。

技术领域

本申请涉及计算机技术领域,尤其涉及一种实体识别方法、装置、设备以及存储介质。

背景技术

实体识别是自然语言处理中的一项基础任务,应用范围非常广泛。以实体为例,实体一般指的是文本中具有特定意义或者指代性强的实体,通常包括人名、地名、组织机构名、日期时间、专有名词等。通过从非结构化的输入文本中抽取出上述实体,并且可以按照业务需求识别出更多类别的实体,比如产品名称、型号、价格等。因此实体这个概念可以很广,只要是业务需要的特殊文本片段都可以称为实体。通过实体识别,可以提炼出想要的数据或对象。实体识别是后续进行内容挖掘分析,关系抽取和事件分析的基础。

实体识别的过程可以采用多模式匹配(AC)算法,即寻找模式串内部规律,达到在每次失配时的高效跳转,例如识别模式串之间的相同前缀关系进行实体识别。

但是,基于AC算法匹配方式进行实体识别,匹配过程单一,容易引入错误,准确率难以继续提升,且需要进行人工审核,影响了实体识别的效率以及准确性。

发明内容

有鉴于此,本申请提供一种实体识别方法,可以有效提高实体识别的效率以及准确性。

本申请第一方面提供一种实体识别方法,可以应用于终端设备中包含实体识别功能的系统或程序中,具体包括:

获取目标文本信息;

将所述目标文本信息输入目标识别模型中的输入表示层,以生成目标向量序列,所述目标向量序列包括多个词向量,所述词向量基于至少两个文本维度表示所得;

将所述目标向量序列输入所述目标识别模型中的语义表示层,以得到标签预测序列,其中,所述标签预测序列为所述词向量与多个实体标签的归属概率集合,所述语义表示层包括多个并列的识别节点,所述识别节点之间相互关联,所述识别节点用于识别对应的所述词向量与多个所述实体标签的归属概率,所述实体标签基于不同类别的实体设定;

将所述标签预测序列输入所述目标识别模型中的条件鉴别层,以确定所述归属概率集合中的目标项,所述目标项用于指示所述目标文本信息中的所述实体。

可选的,在本申请一些可能的实现方式中,所述将所述目标文本信息输入目标识别模型中的输入表示层,以生成目标向量序列,包括:

将所述目标文本信息输入目标识别模型中的输入表示层进行词嵌入处理,以得到词嵌入向量;

对所述目标文本信息进行字嵌入处理,以得到字嵌入向量;

基于所述词嵌入向量和所述字嵌入向量生成所述目标向量序列。

可选的,在本申请一些可能的实现方式中,所述语义表示层包括双向编码器和双向记忆网络模型,所述将所述目标向量序列输入所述目标识别模型中的语义表示层,以得到标签预测序列,包括:

将所述目标向量序列输入所述双向编码器,以得到第一语义表示;

将所述第一语义表示输入所述双向记忆网络模型,以得到目标语义表示;

基于所述目标语义表示与多个所述实体标签进行匹配,以得到所述标签预测序列。

可选的,在本申请一些可能的实现方式中,所述将所述第一语义表示输入所述双向记忆网络模型,以得到目标语义表示,包括:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202011096598.0/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top