[发明专利]一种大数据优化分析方法在审

申请号：	201810283541.8	申请日：	2018-04-02
公开（公告）号：	CN108520039A	公开（公告）日：	2018-09-11
发明（设计）人：	刘景森;李煜;邢宇浩;刘晓珍;刘丽	申请（专利权）人：	河南大学
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	西安铭泽知识产权代理事务所(普通合伙) 61223	代理人：	俞晓明
地址：	475001***	国省代码：	河南;41
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明公开了数据计算技术领域的一种大数据优化分析方法，该分析方法的具体步骤如下：S1：保留最大的数据频繁集，降低数据搜索范围；S2：对最大数据频繁集进行预处理，并生成对应的训练样本；S3：在对样本进行训练时，分别计算每个节点属性的信息增益和增益率，然后对主干子节点的样本循环执行前面的步骤，生成初始决策树；S4：读取决策树数据集中的中心点信息，使用两个文件分别记录中心点信息，并存储在系统文件中，本发明能够适应大规模数据集的处理要求，同时借助分布式的存储方式，数据集处理性能方面的提升，对大数据中的多类数据集进行统一分析与处理，便于高效存储和分析。
搜索关键词：	大数据分析决策树中心点样本预处理读取大规模数据集数据集处理存储方式多类数据高效存储节点属性数据集中数据计算数据搜索系统文件信息增益性能方面循环执行训练样本最大数据子节点优化主干存储保留记录统一
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种大数据优化分析方法，其特征在于：该分析方法的具体步骤如下：S1：针对数据优化过程中产生的大量频繁集，查找满足最小支持度要求的频繁集，去除该数据集项的真子集，循环执行查找和删除，直到全部数据集查找完毕为止，并保留最大的数据频繁集，降低数据搜索范围；S2：对最大数据频繁集进行预处理，去除与其无关的属性，剔除相关的高分支属性，然后归纳整理数值型属性，并生成对应的训练样本；S3：在对样本进行训练时，分别计算每个节点属性的信息增益和增益率，然后找出满足信息增益率最大值以及信息增益率大于等于平均值属性的节点，作为当前的主干节点，然后对主干子节点的样本循环执行前面的步骤，当分支的主属性值都相等或者没有属性可选时，生成初始决策树；S4：读取决策树数据集中的中心点信息，使用两个文件分别记录中心点信息，并存储在系统文件中。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于河南大学，未经河南大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201810283541.8/，转载请声明来源钻瓜专利网。

上一篇：数据查询方法、装置及数据可视化系统
下一篇：一种工程监理数据留存方法和系统

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种大数据优化分析方法在审

专利文献下载