[发明专利]样本生成方法和装置在审
申请号: | 202110952742.4 | 申请日: | 2021-08-19 |
公开(公告)号: | CN113780365A | 公开(公告)日: | 2021-12-10 |
发明(设计)人: | 张长浩;傅欣艺;王维强 | 申请(专利权)人: | 支付宝(杭州)信息技术有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 济南信达专利事务所有限公司 37100 | 代理人: | 李世喆 |
地址: | 310000 浙江省杭州市*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 样本 生成 方法 装置 | ||
本说明书实施例提供了一种样本生成方法及装置。该方法首先得到结构化数据的目标样本;所述目标样本中包括至少一个特征值,每一个特征值对应所述结构化数据的一个特征;从所述结构化数据的至少一个特征中,确定待扰动特征;确定对应于所述待扰动特征的扰动范围;在所述扰动范围内,对所述目标样本中的对应于待扰动特征的特征值进行扰动,以得到新的样本。
技术领域
本说明书一个或多个实施例涉及电子信息技术,尤其涉及样本生成方法和装置。
背景技术
随着人工智能技术的发展,在各种业务领域中都产生了机器识别模型。机器识别模型是利用样本数据训练得到的。为了提高机器识别模型的识别准确度,需要尽可能地利用更多的样本数据来训练机器识别模型。
然而,能够从实际业务应用中获取到的样本的数量通常是有限的,这样,则无法更好地对机器识别模型进行训练。
发明内容
本说明书一个或多个实施例描述了样本生成方法和装置,能够生成更多的训练样本。
根据第一方面,提供了一种样本生成方法,包括:
得到结构化数据的目标样本;所述目标样本中包括至少一个特征值,每一个特征值对应所述结构化数据的一个特征;
从所述结构化数据的至少一个特征中,确定待扰动特征;
确定对应于所述待扰动特征的扰动范围;
在所述扰动范围内,对所述目标样本中的对应于待扰动特征的特征值进行扰动,以得到新的样本。
其中,所述从所述结构化数据的至少一个特征中确定待扰动特征包括:
将所述目标样本输入需要训练的机器识别模型中,由所述机器识别模型根据所述目标样本的标签对所述结构化数据中的各个特征进行学习;
确定所述结构化数据中的各个特征在所述机器识别模型学习所述目标样本中的重要程度;
从所述结构化数据的各个特征中,选择出重要程度排在前N个的特征作为所述待扰动特征,其中,所述N为不小于1的整数。
其中,所述确定所述结构化数据中的各个特征在所述机器识别模型学习所述目标样本中的重要程度包括:
利用SHAP算法或者LINE算法,计算所述结构化数据中的各个特征在所述机器识别模型学习所述目标样本中的贡献分值,其中,贡献分值越大的特征重要程度越高。
在所述确定所述结构化数据中的各个特征在所述机器识别模型的学习中的重要程度之后,进一步包括:
从所述结构化数据的各个特征中选择出重要程度排在后M个的特征作为所述待扰动特征,其中,所述M为不小于1的整数。
其中,所述目标样本位于一个样本集中,该样本集中包括至少两个原始样本,所述目标样本为从该至少两个原始样本中选择出的样本。
其中,从至少两个原始样本中选择目标样本包括:
将所述至少两个原始样本输入需要训练的机器识别模型中,得到机器识别模型针对每一个原始样本输出的得分;将得分价值高的原始样本作为所述目标样本。
所述确定对应于所述待扰动特征的扰动范围包括:
从至少两个原始样本的对应于待扰动特征的至少两个特征值中,选择出最小特征值以及最大特征值;
利用该最小特征值及最大特征值,确定出待扰动特征的特征范围;
利用待扰动特征的特征范围,得到所述待扰动特征的扰动范围。
其中,所述在所述扰动范围内对目标样本中的对应于待扰动特征的特征值进行扰动包括如下中的至少一项:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于支付宝(杭州)信息技术有限公司,未经支付宝(杭州)信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110952742.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:建立个性化模型的方法和装置
- 下一篇:电子金融活动的风险评估方法和装置