[发明专利]基于多图协作语义网络的实体识别方法、系统和存储介质在审
申请号: | 202210496739.0 | 申请日: | 2022-05-09 |
公开(公告)号: | CN114896978A | 公开(公告)日: | 2022-08-12 |
发明(设计)人: | 毛承洁;顾文静;张莹祺;张晓晗 | 申请(专利权)人: | 华南师范大学 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F40/242;G06F40/30;G06N3/04;G06N3/08;G06K9/62 |
代理公司: | 广州嘉权专利商标事务所有限公司 44205 | 代理人: | 黎扬鹏 |
地址: | 510631 广东省广州市*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 协作 语义 网络 实体 识别 方法 系统 存储 介质 | ||
本发明公开了一种基于多图协作语义网络的实体识别方法、系统和存储介质,可广泛应用于实体识别技术领域。本发明方法通过提取包含若干个中文句子的原始数据内的词典特征数据和词性特征数据组成特征数据,并根据原始数据和特征数据构建多图矩阵,同时将原始数据和特征数据进行合并后得到合并数据,然后将合并数据和多图矩阵融合后进行协作训练,得到特征融合结果,再对所述特征融合结果进行解码后得到所述原始数据的中文命名实体识别结果,通过考虑词典特征数据和词性特征数据来识别中文句子中的中文实体,从而能够有效提高实体识别结果的准确度。
技术领域
本发明涉及实体识别技术领域,尤其是一种基于多图协作语义网络的实体识别方法、系统和存储介质。
背景技术
相关技术中,命名实体识别不仅是自然语言处理的最重要的方向之一,而且还是关系抽取、信息检索、知识图谱等下游任务的预处理步骤。命名实体识别旨在从非结构化的文本中抽取人名、地名、组织名等实体。传统的中文命名实体识别主要分为基于字符级别的方法和基于分词级别的方法。基于字符级别的方法不能充分利用句子潜在的词与词之间的序列信息,导致模型的泛化能力不强;基于分词级别的方法过度依赖分词工具,分词的错误会延续整个任务过程,错误传播会导致识别性能下降。而随着深度学习的出现,为命名实体识别提供了强大的工具,提高模型的识别能力。但是,基于深度学习方法的命名实体识别过度依赖了词典等增强方式,忽略了词典增强方法对模型的干扰作用,过度依赖词典往往容易造成识别出错误的实体的现象。
发明内容
本发明旨在至少解决现有技术中存在的技术问题之一。为此,本发明提出一种基于多图协作语义网络的实体识别方法、系统和存储介质,能够有效提高实体识别结果的准确度。
一方面,本发明实施例提供了一种基于多图协作语义网络的实体识别方法,包括以下步骤:
获取原始数据,所述原始数据包括若干个中文句子;
提取所述原始数据的特征数据,所述特征数据包括词典特征数据和词性特征数据;
根据所述原始数据和所述特征数据构建多图矩阵;
将所述原始数据和所述特征数据进行合并,得到合并数据;
将所述合并数据和所述多图矩阵融合后进行协作训练,得到特征融合结果;
对所述特征融合结果进行解码,得到所述原始数据的中文命名实体识别结果。
在一些实施例中,所述提取所述原始数据的特征数据,包括:
采用词典工具对所述原始数据进行词特征数据匹配,得到词典特征数据;
采用词性解析工具对所述原始数据进行词性解析,得到词性特征数据。
在一些实施例中,在所述提取所述原始数据的特征数据后,所述方法还包括以下步骤:
将所述词典特征数据输入嵌入层,得到词典特征向量;
将所述词性特征数据输入嵌入层,得到词性特征向量;
将所述原始数据输入嵌入层,得到上下文信息向量。
在一些实施例中,所述根据所述原始数据和所述特征数据构建多图矩阵,包括:
融合所述词典特征向量和所述上下文信息向量,生成边界图;
融合所述词性特征向量和所述上下文信息向量,分别生成关系图和包含图。
在一些实施例中,所述关系图包括单个次之间的依存关系和词语之间的依存关系。
在一些实施例中,所述将所述合并数据和所述多图矩阵融合后进行协作训练,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南师范大学,未经华南师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210496739.0/2.html,转载请声明来源钻瓜专利网。