[发明专利]一种面向深度学习的偏见数据平衡方法及装置在审
申请号: | 202110776803.6 | 申请日: | 2021-07-09 |
公开(公告)号: | CN113392934A | 公开(公告)日: | 2021-09-14 |
发明(设计)人: | 陈晋音;陈一鸣;陈奕芃 | 申请(专利权)人: | 浙江工业大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N3/08 |
代理公司: | 杭州天勤知识产权代理有限公司 33224 | 代理人: | 曹兆霞 |
地址: | 310014 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 面向 深度 学习 偏见 数据 平衡 方法 装置 | ||
1.一种面向深度学习的偏见数据平衡方法,其特征在于,包括:
S1:获得数据集,筛选数据集中的偏见属性数据并标记作为第一样本集;
S2:构建决策模型,包括编码器,中间特征层,解码器和分类器,所述编码器用于对输入样本集降维压缩得到第二样本集,中间特征层用于对第二样本集进行特征提取得到样本集特征,并将样本集特征分别输入至解码器和分类器,解码器用于基于样本集特征进行决策得到第一决策结果,分类器用于基于带有偏见属性的样本集特征进行决策得到第二决策结果;
S3:利用第一样本集训练决策模型,在训练时,以样本集特征与第一决策结果的二范数的平方作为决策任务的第一损失函数,以样本集特征与第二决策结果的二范数的平方作为去偏见任务的第二损失函数,通过第一损失函数的正向梯度和第二损失函数的负向梯度的反向传播调整决策模型的参数,训练结束时确定最终决策模型;
S4:应用时,将待测样本输入至决策模型中,经计算得到决策结果。
2.根据权利要求1所述的面向深度学习的偏见数据平衡方法,其特征在于,对所述的数据集为UCI Adult数据集,对UCI Adult数据集进行清洗,删除缺失条目,在众多标签中筛选偏见属性标签并进行标记构建第一样本集。
3.根据权利要求1所述的面向深度学习的偏见数据平衡方法,其特征在于,所述的解码器解压得到的解压数据与第一样本集进行比较,通过反向传播误差确定决策模型中的分类器和解码器的权重。
4.根据权利要求1所述的面向深度学习的偏见数据平衡方法,其特征在于,所述的第一损失函数为:
Loss_m1=||x'-x||2
所述的第二损失函数为
Loss_m2=||x'-S||2
其中,x'为样本集特征,x为第一决策结果,S为第二决策结果,对第一损失函数进行正向梯度以准确预测结果,对第二损失函数进行反向梯度以达到模型去偏目的。
5.根据权利要求2所述的面向深度学习的偏见数据平衡方法,其特征在于,所述的第一损失函数的正向梯度为:
所述的第二损失函数的负向梯度为:
所述的决策模型的总体梯度为:
wD为解码器的权重,wC为分类器的权重。
6.根据权利要求1所述的面向深度学习的偏见数据平衡方法,其特征在于,将第二样本集输入中间特征层之前,通过引入线性因子,基于偏见属性的类别数量比例,对第二样本集中的偏见属性的类别数量进行平衡。
7.根据权利要求6所述的面向深度学习的偏见数据平衡方法,其特征在于,对第二样本集中的偏见属性的类别数量进行平衡的线性组合式为:
其中,α和β均为线性因子,α和β均为大于0且小于1的值,且α+β=1,h(·)为第二样本集,A为偏见属性,偏见属性A的分类数量分别记为m和n,α和β的取值比例设为n:m,且对n和m进行归一化,以满足n+m=1。
8.一种面向深度学习的偏见数据平衡装置,包括计算机存储器、计算机处理器以及存储在所述计算机存储器中并可在所述计算机处理器上执行的计算机程序,其特征在于,所述计算机存储器中采用权利要求1-7所述的面向深度学习的偏见数据平衡方法构建决策模型;
所述算机处理器执行所述计算机程序时实现以下步骤:
将待测样本输入至决策模型中,经计算得到决策结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江工业大学,未经浙江工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110776803.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种柔性轨道照明设备
- 下一篇:空调冷凝水管