[发明专利]基于样本比率悬殊时改进模型预测准确率的方法和系统在审
申请号: | 201810294658.6 | 申请日: | 2018-03-30 |
公开(公告)号: | CN108764271A | 公开(公告)日: | 2018-11-06 |
发明(设计)人: | 王联军;徐勐;马平男;王有兵 | 申请(专利权)人: | 杭州雅拓信息技术有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 北京国昊天诚知识产权代理有限公司 11315 | 代理人: | 施敬勃 |
地址: | 310003 浙江省*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本申请公开了一种基于样本比率悬殊时改进模型预测准确率的方法和系统。包括1)学习数据的预处理:通过供模型学习的所有数据进行抽样,将得到的抽样数据集与目标变量为1的数据拼成新的供模型学习的样本集;2)建立学习模型:将供模型学习的样本集做为模型学习集,供模型学习,得到学习好的模型;3)应用模型:将预测集变量放入学习好的模型,进行预测,获得样本预测label值;4)返回步骤1)进行多次循环,并标记每次循环获得的预测label值;5)重新标记:当n个label值中为1的占比大于β时将该样本标记为1,确认为正样本。本申请能排除偶然性将负样本误判为正样本的情况,从而提高改进模型预测准确率。 | ||
搜索关键词: | 模型学习 模型预测 准确率 样本 样本集 正样本 预测 预处理 改进 抽样数据 多次循环 目标变量 学习数据 样本标记 应用模型 负样本 预测集 误判 申请 抽样 学习 返回 | ||
【主权项】:
1.一种基于正负样本比率悬殊时改进模型预测准确率的方法,其特征在于,包括以下步骤:1)学习数据的预处理:通过供模型学习的所有数据进行抽样,将得到的抽样数据集与目标变量为1的数据拼成一个新的供模型学习的样本集;2)建立学习模型:将步骤1)所得新的供模型学习的样本集做为模型学习集,供模型学习,得到学习好的模型model;3)应用模型:将预测集变量放入学习好的模型model,进行预测,获得每个样本的预测label值;4)返回步骤1)进行多次循环,并标记每次循环获得的预测label值,n次循环后获得:label‑1,label‑2,……,label‑n;5)重新标记:汇总每个样本的n个label;预先设定阈值β,当n个label值中为1的占比大于β时将该样本标记为1,最终确认为正样本。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州雅拓信息技术有限公司,未经杭州雅拓信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201810294658.6/,转载请声明来源钻瓜专利网。