[发明专利]一种文本实体识别方法、装置、设备及介质在审

申请号：	202211295660.8	申请日：	2022-10-21
公开（公告）号：	CN115688781A	公开（公告）日：	2023-02-03
发明（设计）人：	张保林	申请（专利权）人：	重庆紫光华山智安科技有限公司
主分类号：	G06F40/295	分类号：	G06F40/295;G06F40/30;G06F40/284;G06F40/166;G06N3/0442;G06N3/0464;G06N3/08
代理公司：	上海光华专利事务所(普通合伙) 31219	代理人：	张双凤
地址：	400700 重庆市***	国省代码：	重庆;50
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种文本实体识别方法装置设备介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请提供一种文本实体识别方法、装置、设备及介质，其中，该方法包括：获取主干网络和目标文本段落，该主干网络由多层神经网络和自注意力机制联合训练而成；对目标文本段落进行拆分，得到符合目标文本上下文语义的文本语句；将文本语句输入到主干网络进行识别，得到各文本语句中实体间的关联信息；根据各文本语句中实体之间的关联信息确定关系分数预测网格，基于关系分数预测网格得到实体识别中间结果；将实体识别中间结果与预设实体库中的目标实体进行相似度匹配，得到实体识别最终结果。通过该方法，可以提高文本实体识别的准确率。

技术领域

本申请涉及机器学习领域，特别是涉及一种文本实体识别方法、装置、设备及介质。

背景技术

命名实体识别在一直是自然语言处理(NLP)领域的基本任务，拥有悠久的历史并且是非常热门的方向，目前在自然语言处理领域获得了广泛的应用，主要对各种文本场景进行关键词抽取，如地名，人名，公司机构名，时间等。由于文本的多种表达方式，使得需要抽取的关键词有多种形式，最常见的是实体不存在交叉，另外两种比较困难的实体存在交叉嵌入，甚至是不连续，这对命名实体识别提出了极大的挑战。

命名实体识别一般采用三种方法，即基于序列标注的BIO方法、基于seq2seq或span的实体首尾索引的方法、基于词与词关系并联合实体库纠正的方法。前两种方法对简单连续不存在交叉的实体有着较好的性能，但随着命名实体识别应用场景的多样化，定制化，实体不再是连续的，不存在交叉的，所以前两种方法的鲁棒性受到挑战，而词与词之间关系的方法不受限于BIO数据标注形式，实体首尾索引位置，完美解决了实体不连续，存在交叉的问题，网络的识别结果更加完整。

目前主流的命名实体识别方法都对简单实体有着较好的识别效果，但是随着应用越来越广泛，场景越来越多样，问题暴露的也很明显，重叠实体和不连续实体成为了大的阻碍，传统基于序列标注形式的BIO方法和实体首位索引的方法已经不再适用。

申请内容

鉴于以上所述现有技术的缺点，本申请的目的在于提供一种文本实体识别方法、装置、设备及介质，可以提高文本实体识别的准确率。

第一方面，本申请实施例提供了一种文本实体识别方法，该方法包括：

获取主干网络和目标文本段落，该主干网络由多层神经网络和自注意力机制联合训练而成；

对目标文本段落进行拆分，得到符合目标文本上下文语义的文本语句；

将文本语句输入到主干网络进行识别，得到各文本语句中实体间的关联信息；

根据各文本语句中实体之间的关联信息确定关系分数预测网格，基于关系分数预测网格得到实体识别中间结果；

将实体识别中间结果与预设实体库中的目标实体进行相似度匹配，得到实体识别最终结果。

于本申请的一实施例中，获取主干网络和目标文本段落之前，获取至少一个训练文本数据；将各个训练文本数据拆分为多个训练文本语句，得到至少一批训练样本；将至少一批训练样本输入到主干网络，并通过度量损失函数对主干网络进行训练，得到主干网络。

于本申请的一实施例中，各个文本语句之间的关联信息包括词嵌入向量和词嵌入残差向量；

于本申请的一实施例中，将至少一个文本语句输入到主干网络中，对至少一个文本语句进行前向计算处理，得到上下文特征图；将上下文特征图输入到主干网络中的归一化层进行处理，得到词嵌入向量；将上下文特征图输入到分类器进行处理，得到词嵌入残差向量。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于重庆紫光华山智安科技有限公司，未经重庆紫光华山智安科技有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202211295660.8/2.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种文本实体识别方法、装置、设备及介质在审

专利文献下载