[发明专利]用于神经命名实体识别的共指感知表示学习在审
申请号: | 202010149511.5 | 申请日: | 2020-03-06 |
公开(公告)号: | CN112307764A | 公开(公告)日: | 2021-02-02 |
发明(设计)人: | 费洪亮;戴泽宇;李平 | 申请(专利权)人: | 百度(美国)有限责任公司 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06N3/04;G06K9/62 |
代理公司: | 北京英赛嘉华知识产权代理有限责任公司 11204 | 代理人: | 马晓亚;付乐 |
地址: | 美国加利*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 神经 命名 实体 识别 感知 表示 学习 | ||
执行命名实体识别(NER)的在先的神经网络模型通常将输入句子视为词的线性序列,但忽略了丰富的结构信息,诸如非相邻词、短语或实体之中的共指关系。在本文中介绍了一种用于学习针对NER任务的共指感知词表示的新颖的方法。在一个或多个实施方式中,对“CNN‑BiLSTM‑CRF”神经架构进行了修改,以在BiLSTM层的顶部上包括用于合并共指关系的共指层组件。另外,在一个或多个实施方式中,在训练期间添加了共指正则化,以确保在相同共指群集中的共指实体共享类似的表示和一致的预测。测试时,模型实施方式实现了新的最先进性能。
技术领域
本公开总体上涉及可以提供提高的计算机性能、特征和用途的计算机学习的系统和方法。更具体地,本公开涉及用于学习共指感知词表示的实施方式。
背景技术
命名实体识别(NER)是自然语言处理(NLP)中的基本任务之一,其对许多下游应用程序(包括关系提取、知识库完成和实体链接)具有巨大影响。给定输入文本,NER旨在从原始文本中找到命名实体并将其分类为预定义的语义类型,诸如人(PER)、组织(ORG)、位置(LOC)等。
NER的传统方式是将其视为序列标记任务,其中每个词被分配一个标签(例如,BIO标签架构中的“B-PER”(PERSON语义类型的起始词)、“I-PER”(PERSON语义类型的中间词)、“O”(“其他”词,其为不具有语义类型或对当前分析不感兴趣的语义类型的词)),该标签指示该词是否属于任何命名实体的一部分。为了提高NER的性能,最近的NLP研究人员通常会应用最新且复杂的神经序列标记模型,诸如BiLSTM-CRF架构,该模型首先使用双向长短期记忆(LSTM)来处理输入语句,然后使用条件随机场(CRF)共同地标记每个词。
虽然最近的神经网络模型提高了NER的最先进性能,但是它们只是将输入文本视为词的线性序列,而忽略了非顺序结构信息,诸如在原始上下文中位置可能相距遥远的实体之间的共指关系(即,两个或多个提及(mention)指示同一个人或事物)。这样的限制可能导致这些模型产生全局地不一致的语义类型预测。
图1示出了将著名的Ma和Hovy模型(2016)(Xuezhe Ma和Eduard Hovy,“通过双向LSTM-CNNs-CRF进行端到端序列标记”,载于ACL,第1064-1074页,2016年)应用于两个句子时的典型失败案例。如在图1中所示,实体“加拉迪队(Otelul Galati)”和“布加勒斯特国民队(National Bucharest)”都是组织名称,但是Ma和Hovy模型(2016)在第一句话中错误地将它们预测为位置实体。基于错误分析,Ma和Hovy(2016)犯下的错误中有20%至25%属于此类别。
因此,需要一种用于学习和获得命名实体识别(NER)的共指感知词表示的改进的系统和方法。
发明内容
在第一方面,本公开的实施方式提供了一种计算机实现方法,包括:将包括词的文档输入到共指感知命名实体识别(NER)网络中,所述网络包括:词嵌入层;附加特征嵌入层;字符级卷积神经网络(CNN),以字符嵌入层作为所述CNN的输入;词级双向长短期存储器(BLSTM)层;共指层;以及条件随机场(CRF)层;对于每个词,将所述词嵌入层、所述附加特征嵌入层以及所述字符级CNN的输出组合为组合表示;使用所述组合表示和所述词级BLSTM层获得对于所述文档中的每个词的隐藏表示;以及使用文档中的所述词的所述隐藏表示作为所述共指层的输入,以获得对于所述文档中的每个词的共指表示;以及使用所述共指表示作为所述CRF层的输入,确定所述文档的标记序列,所述CRF层共同地确定所述文档的所述标记序列。
在第二方面,本公开的实施方式提供了一种非暂时性计算机可读介质或媒介,包括一个或多个指令序列,所述指令序列,当由一个或多个处理器执行时,使得执行根据上述第一方面的方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于百度(美国)有限责任公司,未经百度(美国)有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010149511.5/2.html,转载请声明来源钻瓜专利网。