[发明专利]一种基于截断重要性采样的模型与样本双重主动选择方法在审

专利信息
申请号: 202110797844.3 申请日: 2021-07-14
公开(公告)号: CN113642701A 公开(公告)日: 2021-11-12
发明(设计)人: 唐英鹏;黄圣君 申请(专利权)人: 南京市九一数据技术有限公司
主分类号: G06N3/04 分类号: G06N3/04;G06N3/08;G06N5/00
代理公司: 北京华沛德权律师事务所 11302 代理人: 马苗苗
地址: 211100 江苏省南京市铺岗街5*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 截断 重要性 采样 模型 样本 双重 主动 选择 方法
【权利要求书】:

1.一种基于截断重要性采样的模型与样本双重主动选择方法,特征在于,主要包括以下步骤:

步骤1),给定一个候选算法集合作为模型选择空间,其中包括j种常见机器学习模型,例如支持向量机,决策树等;假设标注任务存在少量标记数据,及大量未标记数据;

步骤2),基于当前标记数据与未标记数据,训练一个采用交叉熵损失的二分类神经网络模型D,用于预测样本是来自标记数据集还是未标记数据集;

步骤3),将标记数据随机划分为训练集数据与验证集数据;并计算得到每个验证集样本的重要性权重其中为步骤2)训练得到的模型对验证集样本的预测,取值范围属于[0,1],∧运算符功能为取二者的较小值,τ为超参数;

步骤4),基于训练集数据与验证集数据,对每个候选算法分别进行超参选择,得到每个候选算法的最佳超参;特别地,进行模型验证时,采用步骤3)得到的重要性权重,对验证集数据进行加权验证;

步骤5),根据每个候选算法最近C轮超参选择的最佳验证性能,计算验证性能的均值与方差,从候选算法中删除性能较差的算法;特别地,前C轮循环不删除任何候选算法;

步骤6),根据步骤4)中得到的优胜模型集合,根据优胜模型的预测,选择最不确定的样本查询其标记,并将其加入到标记集合中;

步骤7),返回步骤2)或结束并输出预测模型a*

2.根据权利要求1中所述一种基于截断重要性采样的模型与样本双重主动选择方法,特征在于,所述步骤2)训练神经网络的具体方法为:

搭建一个神经网络模型用于二分类,采用交叉熵损失;将标记数据赋予标记0,无标记无数赋予标记1;其优化目标可以写为如下形式:

其中pq为标记样本的潜在分布,pd为整个数据集的样本潜在分布;这里出于主动采样的缘故,使得标记数据与原始数据分布产生偏差,即pq≠pd

3.根据权利要求1中所述一种基于截断重要性采样的模型与样本双重主动选择方法,特征在于,所述步骤3)计算验证集数据的截断重要性权重的具体方法为:

利用步骤2)获得的模型,对验证集数据进行预测,将预测结果记为进一步的,引入超参数τ,当重要性权重大于τ时,将其截断为τ;正式的,对验证集样本的重要性权重可以写为∧运算符功能为取二者的较小值。

4.根据权利要求1中所述一种基于截断重要性采样的模型与样本双重主动选择方法,特征在于,所述步骤4)的模型选择的具体方法为:

对当前候选算法中的每个成员分别利用现有的超参搜索方法执行超参优化(例如SMAC算法);特别地,在模型验证时,采用步骤3)得到的重要性权重,对验证集数据进行加权计算性能指标;取在搜索过程中,具有最大验证性能的模型作为优胜模型其中t为迭代轮数,g为候选算法个数。

5.根据权利要求1中所述一种基于截断重要性采样的模型与样本双重主动选择方法,特征在于,所述步骤5)过滤不适应当前任务的候选算法的具体方法为:

取每个候选算法最近C轮超参选择的最佳验证性能并计算其均值与标准差其中k为候选算法的索引,为每个优胜模型的验证性能,mean(·)与std(·)为计算均值和方差的函数;,比较任意两两候选算法的上述统计量,若算法k的值小于算法l的值,则将候选算法k从候选集中删去;特别地,前C轮循环不删除任何候选算法。

6.根据权利要求1中所述一种基于截断重要性采样的模型与样本双重主动选择方法,特征在于,所述步骤6)选择查询样本的具体方法为:

根据当前轮迭代得到的候选算法的优胜模型的预测,对每个未标记样本计算:

其中,

为令Mt中验证性能最佳的模型,代表模型对样本在yi类别上的概率预测;为指示函数,当括号内条件满足时取1,否则取0;β为超参数。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京市九一数据技术有限公司,未经南京市九一数据技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110797844.3/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top