[发明专利]基于记忆损失预测和延迟训练的主动学习事件抽取方法有效

专利信息
申请号: 202110541764.1 申请日: 2021-05-18
公开(公告)号: CN112966115B 公开(公告)日: 2021-08-06
发明(设计)人: 申时荣;漆桂林;李震 申请(专利权)人: 东南大学
主分类号: G06F16/35 分类号: G06F16/35;G06F40/126;G06N20/00
代理公司: 南京众联专利代理有限公司 32206 代理人: 杜静静
地址: 210096 *** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 记忆 损失 预测 延迟 训练 主动 学习 事件 抽取 方法
【权利要求书】:

1.一种基于记忆损失预测和延迟训练的主动学习事件抽取方法,其特征在于,该方法包括以下步骤:

步骤1)主动学习事件抽取任务初始化;

步骤2)构建事件抽取模型;

步骤3)构建基于记忆的损失预测模型;

步骤4)基于内外排序的样本选择;

步骤5)基于延迟训练策略的监督学习;

步骤6)基于记忆的损失预测主动学习过程;

其中,步骤3)构建基于记忆的损失预测模型,通过构建已学习记忆模块和已选择记忆模块来预测新的无标注样本的损失,首先设置两种记忆模块,已学习记忆模块和已选择记忆模块,两个记忆模块都为每个事件类型和论元角色标签存储一个记忆向量,具体工作过程包括如下:

3-1)更新已学习记忆模块,在进行事件抽取监督训练的同时,对所有标注样本数据中的触发词类型信息和论元角色信息进行存储,利用标注信息,将已知事件类型的触发词的特征向量通过门控单元更新基于模块中对应事件类型的信息,同样的利用已标注的论元对应的特征向量对记忆模块中对应的论元标签信息进行更新;

3-2)更新已选择记忆模块,在样本选择阶段,通过已经选择的无标注的样本依据注意机制和门控单元对不同标签的信息进行更新,首先利用注意机制确定单次预测中的信息对不同标签的贡献,随后利用门控单元控制当前预测中信息的重要性,结合注意机制和门控单元更新记忆模块的信息;

3-3)损失预测,在进行损失预测时,首先依据两个记忆模块的信息作为分类依据,分别对样本中的每个任务进行预测,结合当前模型的预测结果对新的无标注样本的损失进行预测,具体做法是以三个预测结果的期望损失的均值作为损失预测的结果;

其中,步骤4)基于内外排序的样本选择,事件抽取中每个样本对应多个预测任务,包括若干触发词分类和论元角色预测,具体如下:

4-1)首先对单个样本中的所有任务进行损失计算;

4-2)在样本内部对所有预测的损失进行排序,选取损失最大的M个预测作为当前样本的代表,因为这些预测代表当前样本对模型的价值;

4-3)利用最大的M个预测的损失的均值作为当前样本的价值,与其他样本进行比较,选取价值最大的样本进行标注;

其中,步骤5)基于延迟训练策略的监督学习,具体如下:损失预测的监督学习与事件抽取模型的监督训练同步进行,事件抽取模型的训练采取批batch训练策略,将训练集分为等大的batch依次进行进行训练,每个训练步step利用一个batch的标注数据对事件抽取模型进行监督,而在损失预测模型的训练中需要模拟“已选择样本”来构建已选择记忆模块的信息,利用一种延迟训练的策略,在一个训练步使用两个batch的数据进行训练,具体的第j个step的训练过程如下:

5-1)利用第j个批 数据将在当前事件抽取模型上计算损失,更新已学习记忆模块,计算得到的损失进行记录;

5-2)第j个的数据同时模拟已选择数据对已选择记忆模块信息进行更新;

5-3)基于当前模型和两个记忆模块的信息预测第j+1批中样本的损失;

5-4)利用损失对第个step中预测得到的损失进行监督;

5-5)利用的损失更新事件抽取模型,而的预测损失将在下一个step进行监督。

2.根据权利要求1所述的基于记忆损失预测和延迟训练的主动学习事件抽取方法,其特征在于,步骤1)主动学习事件抽取任务初始化,具体如下:

首先定义目标事件类型和对应的论元,针对目标事件收集相关的无标注文本构建无标注样本集U,对无标注样本通过词性标注,选取名词,动词和形容词作为候选触发词,

并在无标注样本集合中随机选取少量样本进行人工标注,标注文本中的候选触发词对应的事件类型,候选触发词不对应事件标注为NA类,以及每个触发词对应的论元和每个论元对应的角色,论元和论元角色标注符合序列标注的BIO形式,将标注过后的样本从无标注样本集U中删除,形成标注样本集L。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东南大学,未经东南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110541764.1/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top