[发明专利]基于多任务学习的数据集选取方法及装置有效

专利信息
申请号: 201911135022.8 申请日: 2019-11-19
公开(公告)号: CN111062484B 公开(公告)日: 2023-06-09
发明(设计)人: 李健铨;刘小康 申请(专利权)人: 鼎富智能科技有限公司
主分类号: G06N20/00 分类号: G06N20/00
代理公司: 北京弘权知识产权代理有限公司 11363 代理人: 逯长明;许伟群
地址: 230000 安徽省合肥市*** 国省代码: 安徽;34
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 任务 学习 数据 选取 方法 装置
【说明书】:

本申请提供一种基于多任务学习的数据集选取方法及装置,所述方法在获取主任务与待选取任务的任务数据后,将任务数据输入判断模型,并获取判断模型私有层输出的特征矩阵;再对待选取任务的特征矩阵与主任务的特征矩阵进行正交计算,生成相关性判断值,确定相关性判断值高于预设阈值的待选取任务作为相关任务,并选取相关任务的任务数据作为主任务的扩展数据集。所述方法通过多任务学习方式选取与主任务相关性较高的待选取任务作为相关任务,从而可以借助相关任务的任务数据扩展主任务的数据集,提高主任务模型的训练效果。

技术领域

本申请涉及自然语言处理技术领域,尤其涉及一种基于多任务学习的数据集选取方法及装置。

背景技术

机器学习是指,通过设计和分析一些让计算机可以自动“学习”的算法,从数据中自动分析获得规律,并利用规律对未知数据进行预测的数据处理方法。利用机器学习,可以通过采集的数据集对模型进行反复学习调整,优化模型参数,以适应不同的使用环境。可见,机器学习的数据集量越大,相应的模型越精确。然而数据集来源于对业务数据的采集,在实际应用中,不同的应用领域能够采集到的数据集的量是不同的,部分应用领域的数据量较少,导致机器学习的训练数据量不足,因此其获得模型的预测结果与实际不符,精度低,即泛化效果差。

为了获得更加符合实际,泛化效果较高的模型,可以把多个相关的任务放在一起学习,以增加数据集的数据量。多任务学习过程中,多个任务之间可以共享一些因素,使之在学习过程中,共享用于机器学习的信息。多任务学习,是基于共享表示,把多个相关的任务放在一起学习的一种机器学习方法。多任务学习中,主任务使用相关任务的训练信号所拥有的领域相关信息,作为一直推导偏差来提升主任务的泛化效果。多任务学习涉及多个相关的任务同时并行学习,梯度同时反向传播,多个任务通过底层的共享表示来互相帮助学习,提升泛化效果。因此,相关联的多任务学习能够比单任务学习取得的更好的泛化效果。

对于多任务学习模型,相关任务能够对于模型泛化效果具有较大的提升。但在实际应用中,不同的领域之间的数据集相差巨大,即并非所有数据集都能够作为主任务的相关任务。虽然从传统意义而言,相关任务越多模型效果可能会越好,然而过多的相关任务会提升模型的复杂度,但对模型的实际应用效果提升微弱。因此,如何选取相关性较强的数据集成为了多任务学习需要面对的问题。

发明内容

本申请提供了一种基于多任务学习的数据集选取方法及装置,以解决传统多任务学习方法无法选取相关性较强的数据集的问题。

一方面,本申请提供一种基于多任务学习的数据集选取方法,包括:

获取主任务与待选取任务的任务数据;

将所述主任务和待选取任务的任务数据输入判断模型,所述判断模型为根据所述主任务和/或待选取任务的样本数据训练得到的模型,包括私有层和共享层,所述私有层和共享层为两个结构相同的双向LSTM;

获取所述判断模型私有层输出的特征矩阵,所述特征矩阵包括所述待选取任务的特征矩阵和所述主任务的特征矩阵;

对待选取任务的特征矩阵与主任务的特征矩阵进行正交计算,生成相关性判断值;

确定所述相关性判断值高于预设阈值的所述待选取任务作为相关任务,选取所述相关任务的任务数据作为所述主任务的扩展数据集。

可选的,获取主任务与待选取任务的任务数据的步骤前,所述方法还包括:

获取主任务与待选取任务的样本数据;

将所述样本数据输入所述判断模型的私有层和共享层,分别获得私有层和共享层的输出矩阵;

根据所述私有层和共享层的输出矩阵,生成共享特征和私有特征间的正交约束Ldiff

根据所述正交约束Ldiff更新所述私有层和共享层的参数。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于鼎富智能科技有限公司,未经鼎富智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201911135022.8/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top