[发明专利]基于Spark内存计算大数据平台的CLR多标签数据分类方法有效
申请号: | 201611120338.6 | 申请日: | 2016-12-08 |
公开(公告)号: | CN106528874B | 公开(公告)日: | 2019-07-19 |
发明(设计)人: | 胡峰;张其龙;邓维斌;于洪;张清华 | 申请(专利权)人: | 重庆邮电大学 |
主分类号: | G06F16/2458 | 分类号: | G06F16/2458 |
代理公司: | 重庆市恒信知识产权代理有限公司 50102 | 代理人: | 刘小红;高敏 |
地址: | 400065 重*** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提供一种基于Spark大数据平台的CLR多标签分类方法,涉及数据挖掘技术。本发明通过特征与标签的关系将每个数据集划分成一个区;将训练集中的数据集随机抽取一部分当作测试集,剩余的数据集当训练集建立基分类器,再将测试集用来测试分类器并修改其基分类器的参数,从而在训练的多个基分类器中选取最好的一个基分类器作为本数据集的基分类器。利用最终的多个基分类器对预测集进行预测。本发明结合了CLR多标签学习算法和Spark基于内存的高效计算理论,充分利用了CLR算法中标签转化后的无相关性,降低了不同的基分类器之间的干扰性,再充分利用Spark的计算框架的运行速度,能有效的对数据进行挖掘。 | ||
搜索关键词: | 基于 spark 内存 计算 数据 平台 clr 标签 分类 方法 | ||
【主权项】:
1.一种基于Spark内存计算大数据平台的CLR多标签学习分类方法,其特征在于,包括步骤:获取历史数据,转化成Spark平台的分布式数据集RDD;利用Spark的RDD构建训练集特征,将训练集特征与其对应的多标签结合;并行计算将多标签及其特征进行标签转化形成训练集组;从所有训练集组中随机取出一部分作为训练测试集,用训练集训练基分类器,用训练测试集对经过训练的基分类器进行预测结果分析和模型参数调整;将预测集中的每个数据样本在训练好的所有基分类器中进行预测,将预测结果转化为对应的标签,获得预测标签;转化预测标签并同类合并,投票选取标签预测结果,统一预测集特征与选取的标签,并保存结果。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆邮电大学,未经重庆邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201611120338.6/,转载请声明来源钻瓜专利网。