[发明专利]一种基于多实例协同对抗训练的远程监督关系抽取方法有效
申请号: | 202011137036.6 | 申请日: | 2020-10-22 |
公开(公告)号: | CN112016293B | 公开(公告)日: | 2021-01-19 |
发明(设计)人: | 庄越挺;汤斯亮;肖俊;陈涛;吴飞;李晓林;谭炽烈;蒋韬 | 申请(专利权)人: | 浙江大学 |
主分类号: | G06F40/20 | 分类号: | G06F40/20;G06F40/295;G06N3/08 |
代理公司: | 杭州求是专利事务所有限公司 33200 | 代理人: | 傅朝栋;张法高 |
地址: | 310058 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 实例 协同 对抗 训练 远程 监督 关系 抽取 方法 | ||
1.一种基于多实例协同对抗训练的远程监督关系抽取方法,其特征在于,包括以下步骤:
S1:获取由句子实例构成的训练数据,并通过远程监督使其对齐到知识库,将含有相同实体对的句子实例构建成包,每个包中的所有句子实例具有相同的关系标签;
S2:针对S1中构建的每个包,基于多实例学习框架中蕴含的注意力信号,对包内所有句子实例的特征进行加权,获得包级特征并计算交叉熵损失约束,同时根据注意力信号确定潜在的包内噪声实例;
S3:针对S1中构建的每个包,在其包级特征的对抗方向上添加第一扰动向量,使扰动向量添加前后多实例学习框架输出的关系标签变化量最大,再计算在第一扰动向量添加后每个包的局部光滑度约束;
S4:针对S1中构建的每个包,在输入层向每个包内噪声实例添加虚拟对抗方向上的第二扰动向量,使扰动向量添加前后多实例学习框架输出的条件概率变化量最大,再计算第二扰动向量添加后每个包的局部平滑性约束;
S5:对S2中得到的交叉熵损失约束、S3中得到的局部光滑度约束和S4中得到的局部平滑性约束进行加权求和,作为协同多实例协同对抗学习的综合约束;以最小化所述训练数据中所有包的综合约束平均值为目标,利用随机梯度下降对多实例学习框架进行不断优化直至收敛,得到优化后的最终模型参数;
S6:将待预测的句子实例以包的形式输入基于所述最终模型参数的多实例学习框架中,输出包内句子实例的关系标签。
2.如权利要求1所述的基于多实例协同对抗训练的远程监督关系抽取方法,其特征在于,所述S2的具体实现步骤包括:
S21:针对S1中构建的每个包,将每个包内的句子实例分别经过编码器,得到对应的特征向量;再利用多实例学习框架基于包内的关系标签计算出每个句子实例的注意力分数,以句子实例的注意力分数为该句子实例的特征向量权重值,分别对每个包内所有句子实例的特征向量进行加权求和,得到每个包的包级特征;
S22:根据预设的分数阈值,将每个包内注意力分数低于分数阈值的所有句子实例提取为需要额外进行学习的包内噪声实例;
S23:针对每个包,基于其对应的包级特征
式中:
3.如权利要求2所述的基于多实例协同对抗训练的远程监督关系抽取方法,其特征在于,所述S3的具体实现步骤包括:
S31:针对S1中构建的每个包,在其包级特征的不同方向上添加扰动向量且扰动向量的长度均等于第一邻域半径,找到添加扰动向量后多实例学习框架输出的关系标签最偏离关系标签
S32:根据确定的对抗方向上的第一扰动向量
其中: 表示多实例学习框架在模型参数
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011137036.6/1.html,转载请声明来源钻瓜专利网。