[发明专利]用于神经命名实体识别的共指感知表示学习在审

专利信息
申请号: 202010149511.5 申请日: 2020-03-06
公开(公告)号: CN112307764A 公开(公告)日: 2021-02-02
发明(设计)人: 费洪亮;戴泽宇;李平 申请(专利权)人: 百度(美国)有限责任公司
主分类号: G06F40/295 分类号: G06F40/295;G06N3/04;G06K9/62
代理公司: 北京英赛嘉华知识产权代理有限责任公司 11204 代理人: 马晓亚;付乐
地址: 美国加利*** 国省代码: 暂无信息
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 用于 神经 命名 实体 识别 感知 表示 学习
【说明书】:

执行命名实体识别(NER)的在先的神经网络模型通常将输入句子视为词的线性序列,但忽略了丰富的结构信息,诸如非相邻词、短语或实体之中的共指关系。在本文中介绍了一种用于学习针对NER任务的共指感知词表示的新颖的方法。在一个或多个实施方式中,对“CNN‑BiLSTM‑CRF”神经架构进行了修改,以在BiLSTM层的顶部上包括用于合并共指关系的共指层组件。另外,在一个或多个实施方式中,在训练期间添加了共指正则化,以确保在相同共指群集中的共指实体共享类似的表示和一致的预测。测试时,模型实施方式实现了新的最先进性能。

技术领域

本公开总体上涉及可以提供提高的计算机性能、特征和用途的计算机学习的系统和方法。更具体地,本公开涉及用于学习共指感知词表示的实施方式。

背景技术

命名实体识别(NER)是自然语言处理(NLP)中的基本任务之一,其对许多下游应用程序(包括关系提取、知识库完成和实体链接)具有巨大影响。给定输入文本,NER旨在从原始文本中找到命名实体并将其分类为预定义的语义类型,诸如人(PER)、组织(ORG)、位置(LOC)等。

NER的传统方式是将其视为序列标记任务,其中每个词被分配一个标签(例如,BIO标签架构中的“B-PER”(PERSON语义类型的起始词)、“I-PER”(PERSON语义类型的中间词)、“O”(“其他”词,其为不具有语义类型或对当前分析不感兴趣的语义类型的词)),该标签指示该词是否属于任何命名实体的一部分。为了提高NER的性能,最近的NLP研究人员通常会应用最新且复杂的神经序列标记模型,诸如BiLSTM-CRF架构,该模型首先使用双向长短期记忆(LSTM)来处理输入语句,然后使用条件随机场(CRF)共同地标记每个词。

虽然最近的神经网络模型提高了NER的最先进性能,但是它们只是将输入文本视为词的线性序列,而忽略了非顺序结构信息,诸如在原始上下文中位置可能相距遥远的实体之间的共指关系(即,两个或多个提及(mention)指示同一个人或事物)。这样的限制可能导致这些模型产生全局地不一致的语义类型预测。

图1示出了将著名的Ma和Hovy模型(2016)(Xuezhe Ma和Eduard Hovy,“通过双向LSTM-CNNs-CRF进行端到端序列标记”,载于ACL,第1064-1074页,2016年)应用于两个句子时的典型失败案例。如在图1中所示,实体“加拉迪队(Otelul Galati)”和“布加勒斯特国民队(National Bucharest)”都是组织名称,但是Ma和Hovy模型(2016)在第一句话中错误地将它们预测为位置实体。基于错误分析,Ma和Hovy(2016)犯下的错误中有20%至25%属于此类别。

因此,需要一种用于学习和获得命名实体识别(NER)的共指感知词表示的改进的系统和方法。

发明内容

在第一方面,本公开的实施方式提供了一种计算机实现方法,包括:将包括词的文档输入到共指感知命名实体识别(NER)网络中,所述网络包括:词嵌入层;附加特征嵌入层;字符级卷积神经网络(CNN),以字符嵌入层作为所述CNN的输入;词级双向长短期存储器(BLSTM)层;共指层;以及条件随机场(CRF)层;对于每个词,将所述词嵌入层、所述附加特征嵌入层以及所述字符级CNN的输出组合为组合表示;使用所述组合表示和所述词级BLSTM层获得对于所述文档中的每个词的隐藏表示;以及使用文档中的所述词的所述隐藏表示作为所述共指层的输入,以获得对于所述文档中的每个词的共指表示;以及使用所述共指表示作为所述CRF层的输入,确定所述文档的标记序列,所述CRF层共同地确定所述文档的所述标记序列。

在第二方面,本公开的实施方式提供了一种非暂时性计算机可读介质或媒介,包括一个或多个指令序列,所述指令序列,当由一个或多个处理器执行时,使得执行根据上述第一方面的方法。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于百度(美国)有限责任公司,未经百度(美国)有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010149511.5/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top