[发明专利]一种基于小样本学习的badcase发现方法及系统在审
申请号: | 202010173479.4 | 申请日: | 2020-03-13 |
公开(公告)号: | CN111046979A | 公开(公告)日: | 2020-04-21 |
发明(设计)人: | 郭涛;江岭 | 申请(专利权)人: | 成都晓多科技有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 成都睿道专利代理事务所(普通合伙) 51217 | 代理人: | 李红 |
地址: | 610000 四川省成都市天府新区华*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 样本 学习 badcase 发现 方法 系统 | ||
本发明公开了一种基于小样本学习的badcase发现方法及系统,该系统应用该方法,方法包括数据预处理,从已标注训练语料中随机获取多个小样本,并将样本分为支持集和目标集;模型预训练,将样本输入基础模型与两种注意力机制的结合,训练得到badcase发现模型;预测数据组装,根据线上预测结果语义,从已标注训练语料中获取线上预测结果语义下的小样本,并与待预测句子组成预测数据;数据预测,将预测数据输入badcase发现模型,预测得到待预测句子的预测语义,对比预测语义和线上预测结果语义,判断待预测句子是否为badcase。采用本方法进行badcase发现能够在海量的数据中快速定位并准确到分错数据。
技术领域
本发明属于计算机数据处理技术领域,具体地说涉及一种基于小样本学习的badcase发现方法及系统。
背景技术
在有监督分类学习中,在线下测试集效果良好的模型在线上应用时候效果往往会有一定的差距,这需要针对这些差距不断的进行优化,让模型在线上应用的效果越来越好。这些差距的表现就是模型对线上数据进行预测应用时,预测分错的数据(常称为badcase)比例会偏高,优化的过程需要找到这些预测分错的数据,然后针对性的分析错误的原因并解决。而线上数据量是非常庞大的,往往是百万千万甚至是亿级别的访问量,如果依靠人力,在如此庞大的数据中定位到分错数据(badcase)非常耗时耗力。
现有的定位分错数据的技术包括随机抽样技术和预测模型预置选取方式两种。采用随机抽样技术(random sample),对线上预测结果随机几千条,然后交予人工进行标注评判,人力有限,随机覆盖范围少,无法覆盖尽量多的badcase。采用预测模型阈值选取方式(如预测概率阈值在0.5~0.7之间),对阈值内的数据重点进行人工筛选评判,数据源有偏,无法发现预测概率高的badcase。
申请号为2019100115385的发明专利公开了一种基于注意力神经网络的小样本学习图像识别方法,方法包括如下步骤:步骤S1:将样本图片经过神经网络处理,得到该图片的特征向量;步骤S2:将同一类别图片的特征向量经过注意力网络处理,得到图片的特征注意力向量;步骤S3:将特征注意力向量与特征向量相乘得到注意力修正后的特征向量;步骤S4:将注意力修正后的特征向量求平均值得到同一类别的特征向量;步骤S5:将待处理的图片经过神经网络处理,得到待处理图片的特征向量;步骤S6:将待处理图片的特征向量与同一类别的特征向量进行距离远近的对比,得到待处理图片的所属类别,解决了当样本数据量比较少时可以进行图片分类同时能一定程度上减少图片背景干扰,提高识别准确率的问题。
该方案中主要是应用注意力神经网络在样本较小的情况下实现对图像进行分类,不涉及对badcase的发现,因此,需要通过新的技术的方法在海量的数据中快速定位并准确到分错数据,以提高发现分错数据的效率。
发明内容
针对现有技术中上述的不足,本发明提供基于小样本学习的badcase发现方法及系统,该系统应用该方法,该方法在基础网络的基础上引入了两种注意力机制,一方面从技术上减少错误实例和语义偏差较大的实例对语义原型的学习偏差,另一方面突出特征空间中重要的特征维度,用以缓解特征稀疏的问题。采用本方法进行badcase发现能够在海量的数据中快速定位并准确到分错数据。
为了达到上述目的,本发明采用的解决方案是:一种基于小样本学习的badcase发现方法,包括如下步骤:
S1:数据预处理,从已标注训练语料中随机获取多个小样本,并将样本分为支持集和目标集,所述的小样本采用N-way K-shot的数据形式,N表示每个小训练批次包括的语义个数,K表示每个语义下的训练样本个数。已标注训练语料是模型在上线前的训练过程中使用的预料,该语料在模型训练前已经标注过,在badcase发现过程中属于再次使用,不会增加额外的数据标注成本。
S2:模型预训练,将样本输入基础模型与两种注意力机制的结合,训练得到badcase发现模型,具体包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都晓多科技有限公司,未经成都晓多科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010173479.4/2.html,转载请声明来源钻瓜专利网。