[发明专利]一种基于边界检测的中文命名实体识别方法在审
申请号: | 202210532724.5 | 申请日: | 2022-05-11 |
公开(公告)号: | CN114818713A | 公开(公告)日: | 2022-07-29 |
发明(设计)人: | 朱广丽;王腾科;张顺香;刘云朵;谈光璞;韦斯羽;张玉莹;张友强;王星光;马子晨;李瀚臣;高茂娇 | 申请(专利权)人: | 安徽理工大学 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F16/35;G06N3/04 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 232001 安徽*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 边界 检测 中文 命名 实体 识别 方法 | ||
1.一种基于边界检测的中文命名实体识别方法,其特征在于,包括如下步骤:
步骤1:对目标文本处理和多粒度表示,其基本步骤如下:
步骤1.1:将所述目标文本根据标点符号进行切分,得到句粒度文本;
步骤1.2:对处理后的句粒度文本进行字粒度嵌入向量表示,得到字粒度嵌入向量
步骤1.3:同时对句粒度文本进行分词,对分词结果进行词粒度嵌入向量表示,得到词粒度嵌入向量
步骤1.4:将所述的字粒度嵌入向量和词粒度嵌入向量进行融合得到多粒度嵌入向量ei;
步骤2:将多粒度嵌入表示ei输入BiGRU,得到第i位置的上下文信息hi。其中,BiGRU是由前向GRU和后向GRU组成,即第i位置的上下文隐藏信息hi由前向GRU和后向GRU的输出拼接而成。
步骤3:利用神经网络对每个时刻的上下文信息hi进行解码,判断hi所代表的位置i是否为实体的开始位置或者结束位置,其基本步骤如下:
步骤3.1:神经网络指的是多层感知机和Sigmoid激活函数,对每一个位置上的隐藏信息hi进行解码指的是利用多层感知机提取隐藏信息hi的边界信息;
步骤3.2:Sigmoid输出最后的结果,即该位置是实体的开始位置或结束位置的可能性,用PiB和PiE这两种标签值分别表示;
步骤3.3:使用log似然函数作为训练开始位置和结束位置这两种标签的损失函数,用表示开始位置的损失函数,用表示结束位置的损失函数;
步骤3.4:公式联合和这两中损失来优化最终的预测结果。
步骤4:利用贪婪算法将每个实体边界位置尽可能地组装出候选实体,并共享步骤2中的上下文信息表示候选实体,其基本步骤如下:
步骤4.1:利用右贪心匹配,通过边界检测得到的每个开始边界贪婪地匹配右侧n个结束边界,得到多个候选实体;
步骤4.2:共享来自步骤2中BiGRU输出的上下文信息来表示候选实体,即候选实体Eij=[hi,...,hj]。
步骤5:利用实体分类器对候选实体进行细粒度化处理,识别实体类型,完成命名实体识别,其内容如下:
使用多层感知机加Softmax激活函数作为实体分类器并预测实体的类别标签。训练过程中的损失是所有标签损失的和,损失函数的计算方式是交叉熵损失函数。
2.根据权利要求1所述的对目标文本处理和多粒度表示,其特征在于,其中的字粒度嵌入表示和词粒度嵌入表示,包括:
利用Word2Vec预训练模型,对所述句中的字和词进行嵌入向量表示,得到字粒度和词粒度嵌入向量表示。
3.根据权利要求1所述的对目标文本处理和多粒度表示,其特征在于,在步骤1.4中将所述的字粒度和词粒度的嵌入向量以向量拼接的融合方式得到多粒度嵌入向量,包括:
假设输入的句子为T={T1,T2,…,Tn},我们使用表示第i个字粒度标记,使用表示由第j个字到第k个字组成的中文词语的词粒度标记。第i个字的多粒度嵌入向量ei由和以向量拼接的方式融合得到。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于安徽理工大学,未经安徽理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210532724.5/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种相变换热装置
- 下一篇:一种多孔光催化剂及其制备方法和应用