[发明专利]一种文档级别命名实体识别方法在审
申请号: | 202110155109.2 | 申请日: | 2021-02-04 |
公开(公告)号: | CN113947083A | 公开(公告)日: | 2022-01-18 |
发明(设计)人: | 桂韬;叶佳成;张奇;李争彦;费子楚;宫叶云;黄萱菁 | 申请(专利权)人: | 复旦大学 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06N3/04;G06N3/08 |
代理公司: | 上海德昭知识产权代理有限公司 31204 | 代理人: | 卢泓宇 |
地址: | 200433 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文档 级别 命名 实体 识别 方法 | ||
本发明提供一种文档级别命名实体识别方法,通过分别将引入了一种新颖的两阶段标签修正方法来处理文档级标签的一致性依赖关系,首先使用键值记忆网络来记录第一阶段模型预测的草稿标签,然后基于键值记忆网络存储的相同词的上下文和草稿标签信息,使用双通道Transformer对草稿标签进行修正。因此,通过本发明提出的方法可以在通过所使用的贝叶斯神经网络来指示所有草稿标签的不确定性,从而减轻不正确的草稿标签的副作用,避免了不确定性很高的草稿标签对最终标签产生的干扰。
技术领域
本发明属于命名实体识别技术领域,具体涉及一种文档级别命名实体识别方法。
背景技术
目前的命名实体识别领域所采用的主流的方法是使用BiLSTM+CRF模型,然而CRF存在两个问题,一是其只能建模周围词的依赖关系,无法建模长距离的依赖(例如相同词可能存在标签一致性关系的情况);二是CRF在推断阶段使用的维特比算法在处理长文本的时候效率很低,导致了在一些实时性要求较高的场合难以适用。
为了建模文档级别的标签依赖关系,近年来包括Graph-IE和Hier-NER的一些模型通过尝试通过融合相同词在文档级别的上下文信息来建模文档级别的依赖关系,但是该类方法的工作重点仅放在文档级上下文表示上,并没有为相同词之间的文档级标签一致性关系进行显式建模。
目前的模型无法显式建模标签的文档级依赖关系。此外,包括BiLSTM-seq2seq和BiLSTM-LAN的另一些模型通过引入标签嵌入来建模标签间的长距离依赖关系,但是该类方法仅局限于建模句子级别的依赖关系,以此同时也无法有效建模文档级别的依赖关系。
发明内容
为解决上述问题,提供一种能同时且高效的建模句子级别和文档级别的标签依赖的文档级别命名实体识别方法,本发明采用了如下技术方案:
本发明提供了一种文档级别命名实体识别方法,用于对待识别文档进行命名实体识别得到该待识别文档中每个词所对应的实体标签,其特征在于,包括如下步骤:步骤S1,对待识别文档进行一阶段识别得到每个词所对应的句子级别草稿标签以及草稿标签对应的不确定性值,并基于该句子级别草稿标签以及不确定性值构建对应待识别文档的键值记忆网络;步骤S2,基于键值记忆挖网络对待识别文档进行二阶段识别得到每个词所对应的修正标签;步骤S3,依次判断每个词对应的句子级别草稿标签的不确定性值是否大于预定的阈值;步骤S4,当不确定性值大于预定的阈值时,将修正标签设置为实体标签;步骤S5,当不确定性值小于等于预定的阈值时,将句子级别草稿标签设置为实体标签;步骤S6,输出每个词所对应的实体标签,其中,步骤S1包括以下子步骤:步骤S1-1,将待识别文档通过编码前处理得每个词的初始词表示以及初始特征;步骤S1-2,将初始词表示通过贝叶斯神经网络进行编码得到前向特征以及后向特征,并将两者拼接形成句子级别上下文表示;步骤S1-3,通过采样得到标签预测分布,并根据该标签预测分布计算得到每个词的句子级别草稿标签以及对应该句子级别草稿标签的不确定性值;步骤S1-4,将每个词对应的句子级别草稿标签以及句子级别上下文表示按照键值块存储在键值记忆网络中,其中相同的词占用一个键值块,步骤S2包括以下子步骤:步骤S2-1,通过单通道Transformer对待识别文档进行编码得到每个词对应的上下文表示;步骤S2-2,根据每个词在键值记忆网络中对应的键值块,以上下文表示作为查询条件,从键值块里检索到对应的句子级别上下文表示作为共现表示,并对该共现表示执行注意力机制从而得到每个词的注意力权重,进一步基于该注意力权重、对应的句子级别上下文表示和句子级别草稿标签计算得到每个词对应的文档级别上下文表示以及文档级别草稿标签;步骤S2-3,将句子级别上下文表示和句子级别草稿标签分别与文档级别上下文表示和文档级别草稿标签进行连接,并作为双通道Transformer的输入从而得到该双通道Transformer输出的修正标签。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于复旦大学,未经复旦大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110155109.2/2.html,转载请声明来源钻瓜专利网。