[发明专利]一种基于神经网络的中文命名实体识别方法、装置、设备以及存储介质有效

专利信息
申请号: 201911000998.4 申请日: 2019-10-21
公开(公告)号: CN110717331B 公开(公告)日: 2023-10-24
发明(设计)人: 黄浩 申请(专利权)人: 北京爱医博通信息技术有限公司
主分类号: G06F40/295 分类号: G06F40/295;G06N3/08
代理公司: 成都顶峰专利事务所(普通合伙) 51224 代理人: 杨军
地址: 100000 北京市北京经济*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 神经网络 中文 命名 实体 识别 方法 装置 设备 以及 存储 介质
【说明书】:

发明涉及中文语言处理及识别技术领域,公开了一种基于神经网络的中文命名实体识别方法、装置、设备以及存储介质。通过本发明创造,提供了一种综合利用字符和词特征进行基于神经网络的深度学习方式来提高中文命名实体识别率的新方法,即在模型训练前,通过对待训练数据进行预处理,使训练样本包含有作为词边界信息的字符位置标识向量,进而确保训练得到的中文命名实体识别模型具有极高的识别率,使该识别模型能够将输入文本转化为命名实体标签,从而可解决现有技术无法利用句子中单词的信息,进而导致识别效果有瑕疵,限制了识别率提升的问题,便于实际应用和推广。此外,所述中文命名实体识别方法容易实现,并且开发和运行成本较低。

技术领域

本发明属于中文语言处理及识别技术领域,具体涉及一种基于神经网络的中文命名实体识别方法、装置、设备以及存储介质。

背景技术

命名实体识别(Named Entity Recognition,简称NER)是自然语言处理的一项基本任务,目的是识别出自然语言处理中的专有名词和短语,并加以分类。随着越来越多的研究者在NEP领域提出各种各样的模型结构,采用神经网络或深度学习来处理NER问题已经成为主要趋势。

当前基于字符的方法和基于词的方法是两种主流的处理方法,其中,基于词的方法需要使用分词工具,但分词工具效果不太完美,一旦分词错误,就会直接影响实体边界的预测,导致识别错误;而基于字符的方法,其以字符为单位进行训练,虽然训练规模变大,训练时间变长,但研究表明,对于中文的命名实体识别,基于字符的方法优于基于词的方法。但是基于字符的方法无法利用句子中单词的信息(实际上提供词边界信息能够有效提升识别率),这会使识别效果有瑕疵,限制了识别率的提升。

发明内容

为了解决现有基于字符的中文命名实体识别方法所存在的因无法利用句子中单词的信息,进而导致识别效果有瑕疵,限制了识别率提升的问题,本发明目的在于提供一种基于神经网络的中文命名实体识别方法、装置、设备以及存储介质。

本发明所采用的技术方案为:

一种基于神经网络的中文命名实体识别方法,包括如下步骤:

S101.对待训练数据进行预处理,得到各个句子的字符特征标识向量和字符位置标识向量,其中,所述字符特征标识向量包含有在对应句子中各个字的字符特征唯一ID号,所述字符位置标识向量包含有在对应句子中各个字的字符位置唯一ID号;

S102.将各个句子的所述字符特征标识向量和所述字符位置标识向量作为训练样本,导入多层神经网络模型进行训练,得到中文命名实体识别模型;

S103.应用所述中文命名实体识别模型对目标文本进行中文命名实体识别,获取实体标注结果。

优化的,在所述步骤S101中,按照如下步骤得到各个句子的字符特征标识向量:

S1011.对所述待训练数据进行分句处理,得到若干句子;

S1012.对各个句子进行文字分割处理,使字与字之间分开;

S1013.统计所有字,并为每个字分配字符特征唯一ID号;

S1014.针对各个句子,根据在对应句子中每个字的对应字符特征唯一ID号,生成所述字符特征标识向量。

优化的,在所述步骤S101中,按照如下步骤得到各个句子的字符位置标识向量:

S1021.对所述待训练数据进行分句处理,得到若干句子;

S1022.对各个句子进行基于分词工具的全模式分词处理,得到若干词语;

S1023.针对各个句子,标记每个字在所属词语中的位置,然后根据所属词语在对应句子中的先后顺序,将位置标记信息拼接组成对应字的字符位置标签;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京爱医博通信息技术有限公司,未经北京爱医博通信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201911000998.4/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top