[发明专利]一种基于多任务多示例的远程监督关系抽取方法有效
申请号: | 202011362711.5 | 申请日: | 2020-11-27 |
公开(公告)号: | CN112395393B | 公开(公告)日: | 2022-09-30 |
发明(设计)人: | 高明;王嘉宁;蔡文渊;徐林昊;周傲英 | 申请(专利权)人: | 华东师范大学;上海宏路数据技术股份有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/35;G06F40/289;G06F40/30;G06N3/04;G06N3/08 |
代理公司: | 上海蓝迪专利商标事务所(普通合伙) 31215 | 代理人: | 徐筱梅;张翔 |
地址: | 200241 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 任务 示例 远程 监督 关系 抽取 方法 | ||
1.一种基于多任务多示例的远程监督关系抽取方法,其特征在于采用多任务和多示例的学习架构,以及Word2vec词向量预训练和多示例的句子级别注意力机制方法进行远程监督关系抽取,其具体步骤如下:
步骤1:数据预处理
将获取大规模远程监督关系抽取数据集,根据相同实体对对齐的句子组合为包,对包内每个句子进行分词,并使用Word2vec模型对词向量进行预训练,使每个句子都将对应一个词向量组成的矩阵;
步骤2:输入表征
使用分段卷积神经网络,将实体相对位置表征与词向量拼接起来作为PCNN模型的输入,使每个句子通过PCNN模型表征后将会形成一个向量,通过注意力机制对包内句子进行加权求和,最终形成包的表征向量;
步骤3,抽象语义表示
使用图卷积网络对句子提取的抽象语义表示进行预训练,并生成整个图的表征向量;
步骤4:实体类型表征
使用注意力机制对所有可能的实体类型对进行表征,从而获得相应的实体类型表征向量;
步骤5:多任务多示例关系抽取
采用软共享的多任务学习架构,对相同的句子进行表征;对于关系识别和关系预测两个任务主线,分别将上述步骤2~4中得到的三个表征向量按不同权重进行拼接,并通过参数不共享的注意力机制,分别对包进行表征和相应的分类。
2.根据权利要求1所述基于多任务多示例的远程监督关系抽取方法,其特征在于所述数据预处理步骤中,对于远程监督启发式标注的数据集的获取,可以是常用的公开数据集New York Times(NYT)以及Google-IISc Distant Supervision(GIDS),对每个数据集,分别对每个句子进行分词形成token,并过滤停用词,然后使用Word2vec进行预训练,得到每个词的预训练词向量,所述每个数据集均提供了每个句子对应的实体对,并将相同的实体对对齐的句子组合为包。
3.根据权利要求1所述基于多任务多示例的远程监督关系抽取方法,其特征在于所述输入表征步骤中,将每个句子的分词后的token对应的词向量和位置表征向量拼接起来输入的分段卷积网络中,最终每个句子将形成相同长度的向量,并采用句子级别注意力机制对包内句子进行加权求和,形成最终的包表征。
4.根据权利要求1所述基于多任务多示例的远程监督关系抽取方法,其特征在于所述抽象语义表征步骤中,使用开源的AMR工具对每个句子构建抽象语义表示图,并对所有句子构建的图作为输入,使用图卷积神经网络进行预训练,将获得的每个结点的表征向量通过聚集函数得到每个图的最终表征。
5.根据权利要求1所述基于多任务多示例的远程监督关系抽取方法,其特征在于所述实体类型表征步骤中,对每个实体列出其所有可能的类型,针对每个实体对形成实体对类型表,并使用实体类型注意力机制提取实体对类型信息。
6.根据权利要求1所述基于多任务多示例的远程监督关系抽取方法,其特征在所述多任务多示例关系抽取步骤中,分别对关系识别和关系预测两个任务使用参数不共享的注意力机制,并对包内每个句子的句子表征、AMR表征和实体类型表拼接起来的表征信息进行加权求和,获得包级别的表征后,在每个任务中进行分类,所述关系识别为基于交叉信息熵的二分类任务;所述关系预测为基于排序损失函数的多类分类任务。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华东师范大学;上海宏路数据技术股份有限公司,未经华东师范大学;上海宏路数据技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011362711.5/1.html,转载请声明来源钻瓜专利网。