[发明专利]基于多任务学习的数据集选取方法及装置有效
申请号: | 201911135022.8 | 申请日: | 2019-11-19 |
公开(公告)号: | CN111062484B | 公开(公告)日: | 2023-06-09 |
发明(设计)人: | 李健铨;刘小康 | 申请(专利权)人: | 鼎富智能科技有限公司 |
主分类号: | G06N20/00 | 分类号: | G06N20/00 |
代理公司: | 北京弘权知识产权代理有限公司 11363 | 代理人: | 逯长明;许伟群 |
地址: | 230000 安徽省合肥市*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 任务 学习 数据 选取 方法 装置 | ||
本申请提供一种基于多任务学习的数据集选取方法及装置,所述方法在获取主任务与待选取任务的任务数据后,将任务数据输入判断模型,并获取判断模型私有层输出的特征矩阵;再对待选取任务的特征矩阵与主任务的特征矩阵进行正交计算,生成相关性判断值,确定相关性判断值高于预设阈值的待选取任务作为相关任务,并选取相关任务的任务数据作为主任务的扩展数据集。所述方法通过多任务学习方式选取与主任务相关性较高的待选取任务作为相关任务,从而可以借助相关任务的任务数据扩展主任务的数据集,提高主任务模型的训练效果。
技术领域
本申请涉及自然语言处理技术领域,尤其涉及一种基于多任务学习的数据集选取方法及装置。
背景技术
机器学习是指,通过设计和分析一些让计算机可以自动“学习”的算法,从数据中自动分析获得规律,并利用规律对未知数据进行预测的数据处理方法。利用机器学习,可以通过采集的数据集对模型进行反复学习调整,优化模型参数,以适应不同的使用环境。可见,机器学习的数据集量越大,相应的模型越精确。然而数据集来源于对业务数据的采集,在实际应用中,不同的应用领域能够采集到的数据集的量是不同的,部分应用领域的数据量较少,导致机器学习的训练数据量不足,因此其获得模型的预测结果与实际不符,精度低,即泛化效果差。
为了获得更加符合实际,泛化效果较高的模型,可以把多个相关的任务放在一起学习,以增加数据集的数据量。多任务学习过程中,多个任务之间可以共享一些因素,使之在学习过程中,共享用于机器学习的信息。多任务学习,是基于共享表示,把多个相关的任务放在一起学习的一种机器学习方法。多任务学习中,主任务使用相关任务的训练信号所拥有的领域相关信息,作为一直推导偏差来提升主任务的泛化效果。多任务学习涉及多个相关的任务同时并行学习,梯度同时反向传播,多个任务通过底层的共享表示来互相帮助学习,提升泛化效果。因此,相关联的多任务学习能够比单任务学习取得的更好的泛化效果。
对于多任务学习模型,相关任务能够对于模型泛化效果具有较大的提升。但在实际应用中,不同的领域之间的数据集相差巨大,即并非所有数据集都能够作为主任务的相关任务。虽然从传统意义而言,相关任务越多模型效果可能会越好,然而过多的相关任务会提升模型的复杂度,但对模型的实际应用效果提升微弱。因此,如何选取相关性较强的数据集成为了多任务学习需要面对的问题。
发明内容
本申请提供了一种基于多任务学习的数据集选取方法及装置,以解决传统多任务学习方法无法选取相关性较强的数据集的问题。
一方面,本申请提供一种基于多任务学习的数据集选取方法,包括:
获取主任务与待选取任务的任务数据;
将所述主任务和待选取任务的任务数据输入判断模型,所述判断模型为根据所述主任务和/或待选取任务的样本数据训练得到的模型,包括私有层和共享层,所述私有层和共享层为两个结构相同的双向LSTM;
获取所述判断模型私有层输出的特征矩阵,所述特征矩阵包括所述待选取任务的特征矩阵和所述主任务的特征矩阵;
对待选取任务的特征矩阵与主任务的特征矩阵进行正交计算,生成相关性判断值;
确定所述相关性判断值高于预设阈值的所述待选取任务作为相关任务,选取所述相关任务的任务数据作为所述主任务的扩展数据集。
可选的,获取主任务与待选取任务的任务数据的步骤前,所述方法还包括:
获取主任务与待选取任务的样本数据;
将所述样本数据输入所述判断模型的私有层和共享层,分别获得私有层和共享层的输出矩阵;
根据所述私有层和共享层的输出矩阵,生成共享特征和私有特征间的正交约束Ldiff;
根据所述正交约束Ldiff更新所述私有层和共享层的参数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于鼎富智能科技有限公司,未经鼎富智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911135022.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种用于白油精制的芳烃吸附材料及其制备方法
- 下一篇:任务分配的方法和装置
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置