[发明专利]词性感知嵌套命名实体识别方法、系统、设备和存储介质有效
申请号: | 202111518808.5 | 申请日: | 2021-12-13 |
公开(公告)号: | CN114330343B | 公开(公告)日: | 2023-07-25 |
发明(设计)人: | 仇晶;周玲;郭晨;陈豪;林杨;顾钊铨;田志宏;贾焰;方滨兴 | 申请(专利权)人: | 广州大学 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06N3/0442;G06N3/08 |
代理公司: | 广州三环专利商标代理有限公司 44202 | 代理人: | 许羽冬;郭浩辉 |
地址: | 510006 广东省广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 词性 感知 嵌套 命名 实体 识别 方法 系统 设备 存储 介质 | ||
本发明提供了词性感知嵌套命名实体识别方法、系统、设备和存储介质,通过获取待识别文本的文本词数据后,采用BiLSTM模型对文本词数据进行特征提取得到文本词深度特征,并根据文本词深度特征将待识别文本的各个文本词初始化为对应的图节点,根据预设词性路径构建待识别文本的文本异构图,通过注意力机制更新图节点的文本词数据,再采用BiLSTM模型对文本异构图的所有图节点进行特征提取,得到待解码文本词向量表示后,采用条件随机场进行解码和标注,得到嵌套命名实体识别结果的方法,能够对普通实体和嵌套实体进行精准有效的识别处理,提高嵌套命名实体识别效率的同时,进一步提升嵌套命名实体识别模型的性能优势。
技术领域
本发明涉及自然语言处理及知识图谱构建技术领域,特别是涉及一种基于异构图注意力神经网络的词性感知嵌套命名实体识别方法、系统、计算机设备和存储介质。
背景技术
命名实体识别(NER,Named Entity Recognition)是自然语言处理领域构造知识图谱过程中的基本任务之一,其主要用于对构成知识图谱中具有特定意义的实体进行抽取,是信息提取、问答系统、句法分析、机器翻译、面向Semantic Web的元数据标注等应用领域的重要基础工具,在自然语言处理技术走向实用化的过程中占有重要的地位。实际的自然语言序列中存在一个实体包含一个或多个实体的嵌套实体现象,如文本“Activation ofthe cd28 surface receptor provides”,“cd28 surface”是一个Protein类型的实体,而“cd28 surface receptor”也是一个Protein类型的实体,嵌套命名实体识别(Nested NER)也是命名实体识别任务中重难点问题,其作用在于识别出文本中的嵌套实体,对应识别的关键在于如何确定实体的边界和预测实体的类别。
现有嵌套实体识别方法主要分为三类:(1)通过设计文本匹配规则来抽取自然语言中的实体,如通过领域专家手工编写规则来匹配文本中的实体;(2)基于特征工程的有监督学习方法,如通过设计特征模板、结合维特比算法来对文本序列中的文本类别进行预测;(3)基于实体跨度的深度学习的方法,如利用神经网络来提取文本的字符级特征的深度学习,以及直接枚举出可能为实体的子序列,然后对子序列进行预测的穷举候选实体方法。现有技术虽然能够在一定程度上解决嵌套实体识别问题,但也存在着显而易见的缺陷,如第一类方法中领域语言专家手工编写规则,非常耗时耗力,且领域间可迁移性差;第二类方法属于统计机器学习方法易受文本语料分布情况的影响,泛化能力较差;第三类方法中的深度学习法虽然能够抽取文本的字符和单词特征,但学习参数多,计算复杂度较高,而穷举候选实体法更是增加了模型的时间复杂度,且简单的枚举文本子序列不利于提升模型性能。
发明内容
本发明的目的是提供一种词性感知嵌套命名实体识别方法、系统、设备和存储介质,通过将异构图表示学习用于嵌套实体识别,引入词性知识对文本特征进行初始化,结合设计的一种采样获取更多邻居节点信息的基于词性路径的空洞随机游走算法,依托DGL(Deep Graph Library)框架,通过异构图对普通实体和嵌套实体进行有效识别处理,提高嵌套命名实体识别的精准性和学习效率的同时,进一步提升嵌套命名实体识别模型的性能优势。
为了实现上述目的,有必要针对上述技术问题,提供了一种词性感知嵌套命名实体识别方法、系统、计算机设备和存储介质。
第一方面,本发明实施例提供了一种词性感知嵌套命名实体识别方法,所述方法包括以下步骤:
获取待识别文本的文本词数据;所述文本词数据包括文本序列ID、词性类别、词频和词向量表示;
采用BiLSTM模型对所述文本词数据进行特征提取,得到对应的文本词深度特征,并根据所述文本词深度特征,将所述待识别文本的各个文本词初始化为对应的图节点;
根据各个图节点间的转移关系,构建所述待识别文本的文本异构图;
根据所述文本异构图和预设词性路径,通过注意力机制更新所述文本异构图中图节点的文本词深度特征;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州大学,未经广州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111518808.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种环状RNA的高效表达方法及表达载体
- 下一篇:一种装修工程用筛沙系统