[发明专利]基于样本比率悬殊时改进模型预测准确率的方法和系统在审

申请号：	201810294658.6	申请日：	2018-03-30
公开（公告）号：	CN108764271A	公开（公告）日：	2018-11-06
发明（设计）人：	王联军;徐勐;马平男;王有兵	申请（专利权）人：	杭州雅拓信息技术有限公司
主分类号：	G06K9/62	分类号：	G06K9/62
代理公司：	北京国昊天诚知识产权代理有限公司 11315	代理人：	施敬勃
地址：	310003 浙江省***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：	本申请公开了一种基于样本比率悬殊时改进模型预测准确率的方法和系统。包括1)学习数据的预处理：通过供模型学习的所有数据进行抽样，将得到的抽样数据集与目标变量为1的数据拼成新的供模型学习的样本集；2)建立学习模型：将供模型学习的样本集做为模型学习集，供模型学习，得到学习好的模型；3)应用模型：将预测集变量放入学习好的模型，进行预测，获得样本预测label值；4)返回步骤1)进行多次循环，并标记每次循环获得的预测label值；5)重新标记：当n个label值中为1的占比大于β时将该样本标记为1，确认为正样本。本申请能排除偶然性将负样本误判为正样本的情况，从而提高改进模型预测准确率。
搜索关键词：	模型学习模型预测准确率样本样本集正样本预测预处理改进抽样数据多次循环目标变量学习数据样本标记应用模型负样本预测集误判申请抽样学习返回
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种基于正负样本比率悬殊时改进模型预测准确率的方法，其特征在于，包括以下步骤：1)学习数据的预处理：通过供模型学习的所有数据进行抽样，将得到的抽样数据集与目标变量为1的数据拼成一个新的供模型学习的样本集；2)建立学习模型：将步骤1)所得新的供模型学习的样本集做为模型学习集，供模型学习，得到学习好的模型model；3)应用模型：将预测集变量放入学习好的模型model，进行预测，获得每个样本的预测label值；4)返回步骤1)进行多次循环，并标记每次循环获得的预测label值，n次循环后获得：label‑1,label‑2,……,label‑n；5)重新标记：汇总每个样本的n个label；预先设定阈值β，当n个label值中为1的占比大于β时将该样本标记为1，最终确认为正样本。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于杭州雅拓信息技术有限公司，未经杭州雅拓信息技术有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201810294658.6/，转载请声明来源钻瓜专利网。

上一篇：一种利用卷积神经网络集成的信息隐藏检测方法
下一篇：一种基于Getis-Ord Gi*的用电量多元空间聚类方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于样本比率悬殊时改进模型预测准确率的方法和系统在审

专利文献下载