[发明专利]一种基于边界检测的中文命名实体识别方法在审

专利信息
申请号: 202210532724.5 申请日: 2022-05-11
公开(公告)号: CN114818713A 公开(公告)日: 2022-07-29
发明(设计)人: 朱广丽;王腾科;张顺香;刘云朵;谈光璞;韦斯羽;张玉莹;张友强;王星光;马子晨;李瀚臣;高茂娇 申请(专利权)人: 安徽理工大学
主分类号: G06F40/295 分类号: G06F40/295;G06F16/35;G06N3/04
代理公司: 暂无信息 代理人: 暂无信息
地址: 232001 安徽*** 国省代码: 安徽;34
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 边界 检测 中文 命名 实体 识别 方法
【说明书】:

本发明公开了一种基于边界检测的中文命名实体识别方法,可以广泛应用于信息处理领域中。包括以下步骤:S1对目标文本进行处理和多粒度表示;S2利用以多粒度嵌入向量为输入的双向门控循环网络BiGRU获得字粒度的上下文相关信息;S3根据每个字的上下文相关信息,神经网络判断每个字是否为实体的边界位置;S4将每个实体边界位置组装成候选实体,并共享S2中的上下文信息表示候选实体;S5利用实体分类器对候选实体进行细粒度处理,识别实体类型,完成命名实体识别。本发明检测出实体的边界位置后,根据边界位置组装候选实体,再对候选实体进行分类命名,完成命名实体识别,在保证了中文命名实体识别准确率的同时,提高中文命名实体识别的召回率。

技术领域

.本发明属于自然语言处理技术领域,具体涉及一种基于边界检测的中文命名实体识别方法。

背景技术

.在这个大数据时代,很多结构化数据被用于统计分析。现代科技发展迅速,各种社交软件应运而生,网上的文字信息越发丰富,如何在利用好海量的文字信息变得越来越迫切。命名实体识别是从非结构化文本中提取出结构化信息的重要技术。目前在命名实体识别领域主流的研究对象是英语,但是近些年对中文的研究越来越受到重视。

.相较于英文命名实体识别,中文命名实体识别研究难度更大。在英文文本中,单词作为阅读的基本单位是以空格作为划分。而在中文文本中,语句由汉字紧密排列组成,汉字是中文阅读的基本单位,人在阅读过程中会主动对语句进行分词。相较于英文的词粒度嵌入向量,中文的词粒度向量需要进行分词任务,分词产生的错误会导致命名实体识别错误,不同的分词方法会改变文本语义表达并且存在未登录词的问题。在中文中采取字粒度嵌入向量虽然能避免分词问题,但是字粒度的嵌入向量蕴含的信息不够丰富,如中国专利(专利号:CN111310470B)利用融合字词特征来提高中文命名实体识别的F1值。

.目前主流的中文命名实体识别模型没有考虑中文文本实体边界模糊的复杂情况,存在实体识别不完整的问题。如何从中文实体边界特征出发,有效地提高命名实体识别准确率,是信息挖掘领域的研究工作者需要解决的问题。

.本发明将命名实体识别分为实体识别和实体命名两个阶段。在第一个阶段通过针对实体边界的检测,将得到实体边界组装出候选实体,完成实体识别任务;在第二阶段,通过神经网络对实体类别进行分类来完成实体的命名工作。针对实体边界的检测工作有利于减少计算的复杂度,在保证命名实体识别的准确率同时提高召回率,即提高F1值。

发明内容

.本发明解决的技术问题在于针对现有技术的不足,提供一种基于边界检测的中文命名实体识别方法,用于提高中文命名实体识别的F1值。

.第一方面,本发明的实施例包括了一种采取基于边界检测的中文命名实体识别方法,采取以下技术方案:

.步骤1:对目标文本处理和多粒度表示,其基本步骤如下:

.步骤1.1:将所述目标文本根据标点符号进行切分,得到句粒度文本。

.步骤1.2:对处理后的句粒度文本进行字粒度嵌入向量表示,得到字粒度嵌入向量

.步骤1.3:同时对句粒度文本进行分词,对分词结果进行词粒度嵌入向量表示,得到词粒度嵌入向量

.步骤1.4:将所述的字粒度嵌入向量和词粒度嵌入向量进行融合得到多粒度嵌入向量ei

.步骤2:将多粒度嵌入表示ei输入BiGRU,BiGRU是由前向GRU和后向GRU组成,得到第i时刻的上下文信息

.步骤3:利用神经网络对每个时刻的上下文信息hi进行解码,判断hi所代表的位置i是否为实体的边界位置或者其他位置,其基本步骤如下:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于安徽理工大学,未经安徽理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202210532724.5/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top