[发明专利]一种文档级别命名实体识别方法在审
申请号: | 202110155109.2 | 申请日: | 2021-02-04 |
公开(公告)号: | CN113947083A | 公开(公告)日: | 2022-01-18 |
发明(设计)人: | 桂韬;叶佳成;张奇;李争彦;费子楚;宫叶云;黄萱菁 | 申请(专利权)人: | 复旦大学 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06N3/04;G06N3/08 |
代理公司: | 上海德昭知识产权代理有限公司 31204 | 代理人: | 卢泓宇 |
地址: | 200433 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文档 级别 命名 实体 识别 方法 | ||
1.一种文档级别命名实体识别方法,用于对待识别文档进行命名实体识别得到该待识别文档中每个词所对应的实体标签,其特征在于,包括如下步骤:
步骤S1,对所述待识别文档进行一阶段识别得到每个所述词所对应的句子级别草稿标签以及所述草稿标签对应的不确定性值,并基于该句子级别草稿标签构建对应所述待识别文档的键值记忆网络;
步骤S2,基于所述键值记忆挖网络对所述待识别文档进行二阶段识别得到每个所述词所对应的修正标签;
步骤S3,依次判断每个所述词对应的所述句子级别草稿标签的所述不确定性值是否大于预定的阈值;
步骤S4,当所述不确定性值大于预定的阈值时,将所述修正标签设置为实体标签;
步骤S5,当所述不确定性值小于等于预定的阈值时,将所述句子级别草稿标签设置为所述实体标签;
步骤S6,输出每个词所对应的所述实体标签,
其中,所述步骤S1包括以下子步骤:
步骤S1-1,将所述待识别文档通过编码前处理得每个所述词的初始词表示以及初始特征;
步骤S1-2,将所述初始词表示通过贝叶斯神经网络进行编码得到前向特征以及后向特征,并将两者拼接形成句子级别上下文表示;
步骤S1-3,通过采样得到标签预测分布,并根据该标签预测分布计算得到每个所述词的句子级别草稿标签以及对应该句子级别草稿标签的不确定性值;
步骤S1-4,将每个词对应的所述句子级别草稿标签以及所述句子级别上下文表示按照键值块存储在所述键值记忆网络中,其中相同的所述词占用一个所述键值块,
所述步骤S2包括以下子步骤:
步骤S2-1,通过单通道Transformer对所述待识别文档进行编码得到每个词对应的上下文表示;
步骤S2-2,根据每个词在所述键值记忆网络中对应的所述键值块,以所述上下文表示作为查询条件,从所述键值块里检索到对应的句子级别上下文表示作为共现表示,并对该共现表示执行注意力机制从而得到每个词的注意力权重,进一步基于该注意力权重、对应的句子级别上下文表示和句子级别草稿标签计算得到每个所述词对应的文档级别上下文表示以及文档级别草稿标签;
步骤S2-3,将所述句子级别上下文表示和所述句子级别草稿标签分别与所述文档级别上下文表示和文档级别草稿标签进行连接,并作为双通道Transformer的输入从而得到该双通道Transformer输出的修正标签。
2.根据权利要求1所述的一种文档级别命名实体识别方法,其特征在于:
其中,所述步骤S1-1包括以下子步骤:
步骤S1-1-1,通过所述待识别文档得到词向量以及词标签;
步骤S1-1-2,通过词嵌入矩阵进行初始化得到所述初始词表示:
wi=ew(wi)
式中,wi为第i个所述词的所述初始词表示,ew是词嵌入矩阵,wi为初始化词向量;
步骤S1-1-3,将所述词标签通过随机初始化的标签嵌入矩阵进行初始化从而得到初始特征:
lj=el(lj)
式中,lj为所述初始特征,el为所述标签嵌入矩阵,lj为所述词标签;
步骤S1-1-4,通过CNN网络通过编码得到字符级别特征;
步骤S1-1-5,将所述字符级别特征和预先设有的字特征进行拼接得到所述初始特征:
xi=[wi;ci]
式中,xi为所述初始特征,wi为第i个词的所述词表示,ci为所述字特征。
3.根据权利要求1所述的一种文档级别命名实体识别方法,其特征在于:
其中,所述步骤S1-2中的所述句子级别上下文表示为:
式中,hi为所述句子级别上下文表示,为所述前向特征,为所述后向特征。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于复旦大学,未经复旦大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110155109.2/1.html,转载请声明来源钻瓜专利网。