[发明专利]一种基于大数据的自动选择最优模型的方法在审
申请号: | 201611254038.7 | 申请日: | 2016-12-30 |
公开(公告)号: | CN108268460A | 公开(公告)日: | 2018-07-10 |
发明(设计)人: | 邹立斌;李青海;侯大勇;简宋全 | 申请(专利权)人: | 广东精点数据科技股份有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京隆源天恒知识产权代理事务所(普通合伙) 11473 | 代理人: | 闫冬 |
地址: | 510630 广东省广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提供一种基于大数据的自动选择最优模型的方法,包括:步骤S1对挖掘目标进行分类;步骤S2利用信息增益对整个数据集进行快速特征选择;步骤S3建立训练集和验证集;步骤S4选择有效的数据挖掘算法及其参数组合;步骤S5利用贝叶斯优化方法选择各算法有效的参数组合;步骤S6选出最优的数据挖掘算法K;步骤S7利用交叉验证选择并确定数据挖掘算法K的参数取值组合得出最后的模型;步骤S8若模型得出的结果比较差,则重复步骤S2‑S7,重新选择最优模型直到模型结果满意为止;若比较满意,则输出该模型。本发明能节省之后自动建模所耗费的时间,提高了建模效率;而且能快速地从大量的算法中搜索出最优算法,利用交叉验证来选择最优算法里面的参数组合。 | ||
搜索关键词: | 数据挖掘算法 参数组合 最优模型 交叉验证 自动选择 最优算法 大数据 算法 方法选择 结果比较 快速特征 模型结果 信息增益 重新选择 自动建模 贝叶斯 数据集 训练集 验证集 建模 搜索 输出 挖掘 分类 重复 优化 | ||
【主权项】:
1.一种基于大数据的自动选择最优模型的方法,其特征在于,其包括以下步骤:步骤S1:对挖掘目标进行分类;步骤S2:利用信息增益对整个数据集进行快速特征选择;步骤S3:从所述数据集中抽取少量数据建立训练集和验证集;步骤S4:初步选择有效的数据挖掘算法及其参数组合;步骤S5:扩充所述训练集的样本,利用贝叶斯优化方法选择各算法有效的参数组合;步骤S6:扩充所述训练集的样本到整个数据集,选出最优的数据挖掘算法K;步骤S7:利用交叉验证选择并确定数据挖掘算法K的参数取值组合,得出最后的模型;步骤S8:若模型得出的结果比较差,则步骤重复步骤S2‑S7,重新选择最优模型直到模型结果满意为止;若模型得出的结果比较满意,则输出该模型,结束自动选择模型过程。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东精点数据科技股份有限公司,未经广东精点数据科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201611254038.7/,转载请声明来源钻瓜专利网。