[发明专利]一种大数据优化分析方法在审
申请号: | 201810283541.8 | 申请日: | 2018-04-02 |
公开(公告)号: | CN108520039A | 公开(公告)日: | 2018-09-11 |
发明(设计)人: | 刘景森;李煜;邢宇浩;刘晓珍;刘丽 | 申请(专利权)人: | 河南大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 西安铭泽知识产权代理事务所(普通合伙) 61223 | 代理人: | 俞晓明 |
地址: | 475001*** | 国省代码: | 河南;41 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了数据计算技术领域的一种大数据优化分析方法,该分析方法的具体步骤如下:S1:保留最大的数据频繁集,降低数据搜索范围;S2:对最大数据频繁集进行预处理,并生成对应的训练样本;S3:在对样本进行训练时,分别计算每个节点属性的信息增益和增益率,然后对主干子节点的样本循环执行前面的步骤,生成初始决策树;S4:读取决策树数据集中的中心点信息,使用两个文件分别记录中心点信息,并存储在系统文件中,本发明能够适应大规模数据集的处理要求,同时借助分布式的存储方式,数据集处理性能方面的提升,对大数据中的多类数据集进行统一分析与处理,便于高效存储和分析。 | ||
搜索关键词: | 大数据 分析 决策树 中心点 样本 预处理 读取 大规模数据集 数据集处理 存储方式 多类数据 高效存储 节点属性 数据集中 数据计算 数据搜索 系统文件 信息增益 性能方面 循环执行 训练样本 最大数据 子节点 优化 主干 存储 保留 记录 统一 | ||
【主权项】:
1.一种大数据优化分析方法,其特征在于:该分析方法的具体步骤如下:S1:针对数据优化过程中产生的大量频繁集,查找满足最小支持度要求的频繁集,去除该数据集项的真子集,循环执行查找和删除,直到全部数据集查找完毕为止,并保留最大的数据频繁集,降低数据搜索范围;S2:对最大数据频繁集进行预处理,去除与其无关的属性,剔除相关的高分支属性,然后归纳整理数值型属性,并生成对应的训练样本;S3:在对样本进行训练时,分别计算每个节点属性的信息增益和增益率,然后找出满足信息增益率最大值以及信息增益率大于等于平均值属性的节点,作为当前的主干节点,然后对主干子节点的样本循环执行前面的步骤,当分支的主属性值都相等或者没有属性可选时,生成初始决策树;S4:读取决策树数据集中的中心点信息,使用两个文件分别记录中心点信息,并存储在系统文件中。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于河南大学,未经河南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201810283541.8/,转载请声明来源钻瓜专利网。
- 上一篇:数据查询方法、装置及数据可视化系统
- 下一篇:一种工程监理数据留存方法和系统