[发明专利]一种基于语义增强的多特征融合的实体关系联合抽取方法在审
申请号: | 202310010231.X | 申请日: | 2023-01-04 |
公开(公告)号: | CN115934883A | 公开(公告)日: | 2023-04-07 |
发明(设计)人: | 王文珂;王洁 | 申请(专利权)人: | 北京工业大学 |
主分类号: | G06F16/31 | 分类号: | G06F16/31;G06F16/35;G06F18/25;G06N3/048;G06N3/0442;G06N3/08 |
代理公司: | 北京思海天达知识产权代理有限公司 11203 | 代理人: | 王兆波 |
地址: | 100124 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 语义 增强 特征 融合 实体 关系 联合 抽取 方法 | ||
1.一种基于语义增强的多特征融合的实体关系联合抽取方法,其特征在于,包括如下步骤:
步骤1:数据编码;将待进行实体关系抽取任务的数据输入到预训练模型中得到数据的句子共享编码向量矩阵和实体类型向量表示;
步骤2:上下文信息强化;将步骤1得到的共享编码向量矩阵输入到上下文信息强化模块,采用双向长短时记忆网络BiLSTM通过门控机制实现对输入数据中关键特征的保留和传递,实现对句子向量进行深层次特征提取,以学习到观测序列上的依赖关系,提高头实体识别准确性;
步骤3:头实体信息识别;将步骤2经过上下文信息强化的的增强向量输入到头实体信息识别模块用于识别出句子中所有的头实体及其实体类型;
步骤4:多特征融合;将头实体相关信息和共享编码向量进行融合,以得到用于标记尾实体和关系的融合特征;
步骤5:尾实体和关系的识别;将步骤4构建的融合向量进行尾实体和关系的识别,采用多层二元分类器,层数为预定义的关系种类个数,以实现在识别出头实体的基础上,识别每个关系下所有可能的尾实体。
2.根据权利要求1所述的一种基于语义增强的多特征融合的实体关系联合抽取方法,其特征在于,步骤3中,通过将步骤2的增强向量输入到两个相同的独立二元分类器0/1中进行解码,计算得到每个token作为开始和结束位置的概率,然后判断该概率值是否大于预设的阈值来决定是否为实体边界;若大于阈值则标记为1,是实体边界;否则标记为0,不是实体边界;在获得实体边界之后,将共享编码向量根据二元分类器标记为1的起始位置进行截取,以获得当前头实体的向量表示;然后将头实体向量输入到实体类型sigmoid分类器中进行类型识别操作,以得到对应实体的实体类型。
3.根据权利要求1所述的一种基于语义增强的多特征融合的实体关系联合抽取方法,其特征在于,步骤4中,首先根据步骤3得到的实体类型从步骤1中选取对应的实体类型向量和步骤3中截取出的头实体向量计算平均编码表示,再进行拼接融合;为句中的单词赋予不同的注意力权重,通过使用注意力机制,使句子中的词更容易捕获到加入了头实体信息的全局特征,强化特征依赖。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310010231.X/1.html,转载请声明来源钻瓜专利网。