[发明专利]一种基于神经网络的中文命名实体识别方法、装置、设备以及存储介质有效
申请号: | 201911000998.4 | 申请日: | 2019-10-21 |
公开(公告)号: | CN110717331B | 公开(公告)日: | 2023-10-24 |
发明(设计)人: | 黄浩 | 申请(专利权)人: | 北京爱医博通信息技术有限公司 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06N3/08 |
代理公司: | 成都顶峰专利事务所(普通合伙) 51224 | 代理人: | 杨军 |
地址: | 100000 北京市北京经济*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 神经网络 中文 命名 实体 识别 方法 装置 设备 以及 存储 介质 | ||
1.一种基于神经网络的中文命名实体识别方法,其特征在于,包括如下步骤:
S101.对待训练数据进行预处理,得到各个句子的字符特征标识向量和字符位置标识向量,其中,所述字符特征标识向量包含有在对应句子中各个字的字符特征唯一ID号,所述字符位置标识向量包含有在对应句子中各个字的字符位置唯一ID号;
S102.将各个句子的所述字符特征标识向量和所述字符位置标识向量作为训练样本,导入多层神经网络模型进行训练,得到中文命名实体识别模型;
S103.应用所述中文命名实体识别模型对目标文本进行中文命名实体识别,获取实体标注结果。
2.如权利要求1所述的一种基于神经网络的中文命名实体识别方法,其特征在于,在所述步骤S101中,按照如下步骤得到各个句子的字符特征标识向量:
S1011及S1021.对所述待训练数据进行分句处理,得到若干句子;
S1012.对各个句子进行文字分割处理,使字与字之间分开;
S1013.统计所有字,并为每个字分配字符特征唯一ID号;
S1014.针对各个句子,根据在对应句子中每个字的对应字符特征唯一ID号,生成所述字符特征标识向量。
3.如权利要求1所述的一种基于神经网络的中文命名实体识别方法,其特征在于,在所述步骤S101中,按照如下步骤得到各个句子的字符位置标识向量:
S1021.对所述待训练数据进行分句处理,得到若干句子;
S1022.对各个句子进行基于分词工具的全模式分词处理,得到若干词语;
S1023.针对各个句子,标记每个字在所属词语中的位置,然后根据所属词语在对应句子中的先后顺序,将位置标记信息拼接组成对应字的字符位置标签;
S1024.统计所有字符位置标签,并为每个字符位置标签分配字符位置唯一ID号;
S1025.针对各个句子,根据在对应句子中每个字的对应字符位置唯一ID号,生成所述字符位置标识向量。
4.如权利要求3所述的一种基于神经网络的中文命名实体识别方法,其特征在于,在所述步骤S1023中,按照如下方式标记每个字在所属词语中的位置:采用词首符号、词中符号、词尾符号或非词符号以及词语长度和字位序号拼接构成字在所属词语中的位置标记信息,其中,所述字位序号是指字在所属词语中先后顺序的序列号。
5.如权利要求1所述的一种基于神经网络的中文命名实体识别方法,其特征在于,在所述步骤S102中包括有如下步骤:
S201.在将所述字符特征标识向量和所述字符位置标识向量进行拼接后,导入所述多层神经网络模型进行训练,然后输出包含隐藏层向量的识别模型;
S202.利用条件随机场对每个字符进行实体标注,标记出语句序列中的实体信息;
S203.通过反复训练获得一组最优数据权重,得到识别精度最高的中文命名实体识别模型。
6.如权利要求1所述的一种基于神经网络的中文命名实体识别方法,其特征在于,在所述步骤S103中包括有如下步骤:
S301.应用所述中文命名实体识别模型对目标文本进行按字地序列化标注,然后把成块的字符串转化为实体,获取实体标注结果。
7.如权利要求1所述的一种基于神经网络的中文命名实体识别方法,其特征在于,所述多层神经网络模型为CNN神经网络模型、GRU神经网络模型、双向LSTM神经网络模型、Transformer神经网络模型或BERT神经网络模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京爱医博通信息技术有限公司,未经北京爱医博通信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911000998.4/1.html,转载请声明来源钻瓜专利网。