[发明专利]一种实体识别方法及相关设备有效
申请号: | 201910158600.3 | 申请日: | 2019-03-01 |
公开(公告)号: | CN109902303B | 公开(公告)日: | 2023-05-26 |
发明(设计)人: | 林浚玮;邵轶男;王巨宏;陈伟 | 申请(专利权)人: | 腾讯科技(深圳)有限公司;哈尔滨工业大学(深圳) |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F16/901;G06N3/0442;G06N3/08 |
代理公司: | 广州三环专利商标代理有限公司 44202 | 代理人: | 郝传鑫;熊永强 |
地址: | 518057 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 实体 识别 方法 相关 设备 | ||
本发明实施例公开了一种实体识别方法及相关设备,包括:首先获取多条标注语料,所述多条标注语料中每条标注语料携带标注信息;接着按照预设的实体标注规则建立超图模型;然后根据标注信息和实体标注规则确定每条标注语料对应的标注路径图、以及根据超图模型和预设的神经网络模型建立待训练模型;最后将标注路径图输入待训练模型中进行训练,得到实体识别模型,并根据实体识别模型,识别输入语料中的至少一个命名实体。采用本发明实施例,可以有效识别嵌套结构的实体,从而提高实体识别和实体抽取的准确性。
技术领域
本发明涉及信息处理技术领域,尤其涉及一种实体识别方法及相关设备。
背景技术
在信息爆炸时代,如何快速有效地从海量数据中提取所需的信息成为热点研究的课题,并由此引发了对自然语言处理的研究。一直以来,实体抽取任务在自然语言处理领域被广泛关注,它是许多自然语言处理任务的前置步骤,因此它的性能表现也直接影响着下游自然语言处理任务的性能,比如实体连接、实体关系分类、知识图谱推理等。其中,实体即命名实体,它是指自然语言中的人名、机构名、地名以及其他所有以名称为标识的实体,更广泛的实体还可以包括数字、日期、货币、地址等等。在实体抽取任务中,可能会发生实体重叠和实体嵌套的现象,如图1左侧所示,字符串X1X2X3标注为人名实体(PER),字符串X2X3X4标注为地名实体(GPE),两者有部分重叠(X2X3)。又如图1右侧所示,字符串X1X2标注为PER,字符串X1X2X3X4标注为GPE,X1X2字符串是X1X2X3X4字符串的子串,属于嵌套结构。目前,针对实体抽取任务,主流的抽取模型为条件随机场模型和神经网络-条件随机场模型,此类模型无法直接处理嵌套结构,只能通过多个模型叠加的方式完成嵌套实体识别,但多个模型叠加的方式又将因每个条件随机场模型相互独立,而无法有效捕获实体间的依赖关系,导致实体识别的性能差、实体抽取准确率低。
发明内容
本发明提供一种实体识别方法及相关设备,可以有效识别嵌套结构的实体,从而提高实体识别和实体抽取的准确性。
第一方面,本发明实施例提供了一种实体识别方法,包括:
获取多条标注语料,所述多条标注语料中每条标注语料携带标注信息;
按照预设的实体标注规则建立超图模型;
根据所述标注信息和所述实体标注规则,确定所述每条标注语料对应的标注路径图;
根据所述超图模型和预设的神经网络模型,建立待训练模型;
将所述标注路径图输入所述待训练模型中进行训练,得到实体识别模型;
根据所述实体识别模型,识别输入语料中的至少一个命名实体。
第二方面,本发明实施例提供了一种实体识别装置,包括:
获取模块,用于获取多条标注语料,所述多条标注语料中每条标注语料携带标注信息;
建模模块,用于按照预设的实体标注规则建立超图模型;
标注模块,用于根据所述标注信息和所述实体标注规则,确定所述每条标注语料对应的标注路径图;
所述建模模块,还用于根据所述超图模型和预设的神经网络模型,建立待训练模型;
训练模块,用于将所述标注路径图输入所述待训练模型中进行训练,得到实体识别模型;
识别模块,用于根据所述实体识别模型,识别输入语料中的至少一个命名实体。
第三方面,本发明实施例提供了一种实体识别设备,包括:处理器、存储器和通信总线,其中,通信总线用于实现处理器和存储器之间连接通信,处理器执行存储器中存储的程序用于实现上述第一方面提供的一种实体识别方法中的步骤。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司;哈尔滨工业大学(深圳),未经腾讯科技(深圳)有限公司;哈尔滨工业大学(深圳)许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910158600.3/2.html,转载请声明来源钻瓜专利网。