[发明专利]一种基于决策树算法的装配制造质量数据处理方法在审
申请号: | 201711426288.9 | 申请日: | 2017-12-26 |
公开(公告)号: | CN108170769A | 公开(公告)日: | 2018-06-15 |
发明(设计)人: | 蔡红霞;魏壮宇;任民山;丁阳;张英雄 | 申请(专利权)人: | 上海大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06K9/62 |
代理公司: | 上海上大专利事务所(普通合伙) 31205 | 代理人: | 陆聪明 |
地址: | 200444*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于决策树算法的装配制造质量数据处理方法。属于质量预测领域。本方法包括根据质量业务流程和质量数据表格建立质量数据模型,将其存储在Oracle数据库中,通过ETL工具informatic将相关的质量业务数据提取到数据仓库中,通过Splunk数据库接口DB Connect使大数据平台Splunk与质量数据仓库连接,实现数据的实时抽取;将改进的数据挖掘C4.5决策树算法集成到Splunk平台中,利用分治思想使决策树算法Map‑Reduce化,并完成大数据平台Splunk集群,实现数据的并行计算和并行搜索,对质量数据进行分类挖掘,达到帮助决策者进行质量数据决策的目的。本方法运算效率大大提升,可以处理海量的质量数据,具有很高的实用价值。 1 | ||
搜索关键词: | 质量数据 决策树算法 质量数据处理 质量业务 大数据 装配 质量数据模型 数据库接口 并行计算 并行搜索 数据仓库 数据提取 数据挖掘 运算效率 质量预测 集群 抽取 制造 存储 仓库 挖掘 分类 改进 决策 帮助 | ||
(1)、建立质量数据对照表:分析质量数据的业务流程,建立质量数据输入字段和目标输出字段:偏差过程、责任部门、外观影响、密封影响、故障原因、是否为关重件、偏离程度以及处置分类;
(2)、建立质量数据处理模型:将质量数据的各个属性值进行编号,并进行映射;
(3)、样本处理模块将分类属性的属性值并到训练样本数据D;算法平台接收训练样本数据D,并训练C4.5决策树模型;
(4)、改进C4.5决策树算法,在模型中加入平衡因子;
(5)、决策树并行挖掘分析:利用步骤(2)中的质量数据模型,在Splunk下对改进决策树算法进行Map/Reduce并行化,主要通过对数据集进行水平和垂直划分来实现并行化;对数据集进行水平划分,是对数据集进行水平分割,每个Map函数就近读取的数据集的大小是一样的,避免出现负载不均衡的情况;对数据集进行垂直划分,即将一个或若干个完整的属性的信息增益和信息增益率的计算分配给一个单独的处理机进行处理,每个处理机并行地处理一个或者多个属性分割所需要的信息增益和信息增益率的计算过程;在垂直划分模型下,每个属性的分裂点的计算过程是并行执行的。
2.根据权利要求1所述的基于决策树算法的装配制造质量数据处理方法,其特征在于,所述步骤(1)建立质量数据对照表是:根据质量数据表格,由企业内相关质量管理人员提供能尽量全面的涵盖质量业务流程及参数,建立属性及流程处理的对照表。3.根据权利要求1所述的基于决策树算法的装配制造质量数据处理方法,其特征在于,所述步骤(2)建立质量数据处理模型是:定义事务中的所有数据项为分离的质量数据表格中的质量数据记录,不存在相同的两个事务。4.根据权利要求1所述的基于决策树算法的装配制造质量数据处理方法,其特征在于,所述步骤(3)训练C4.5决策树模型包括以下步骤:a)计算训练样本数据D的信息熵:
其中Pi是D中任意样本属于类Ci的概率;
b)计算属性A信息熵:属性A具有V个不同值{a1,a2,...,av},将D划分为V个子集{D1,D2,...,Dv},其中Dj是D的子集,它们在属性A上具有值aj,属性A信息熵为:
其中,项Dj/D为子集Dj所占总样本的权重,Info(A)是基于按A划分对D的样本分类所需要的信息熵;
c)由步骤a)、b)得到属性A的信息增益:
Gain(A)=Info(D)‑Info(A)
d)信息增益往往倾向于选择具有大量值的属性,但不一定带来良好的预测效果,要克服这种偏倚,采用分割信息量Splitlnfo(A):
e)由步骤c)、d),计算得出信息增益率GainRatio(A):
f)找出属性A中信息增益率最大的分类属性,并将其作为待分裂的分类属性;
g)将训练样本数据D中待分裂的分类属性的属性值按照递增的顺序得到一数据集,将数据集划分为N+1种不同的两个子数据集,对应N+1个划分点,对于位于第一个划分点和最后一个划分点中间的N‑1个划分点,通过计算N‑1对两两相邻属性值的平均值来确定其位置,并保证待分裂的分类属性的所有属性值位于第一个划分点和最后一个划分点之间,根据N+1种不同的两个子数据集,计算所有划分点的信息增益率,将信息增益率最大的划分点作为最佳分裂位置,然后将训练样本数据D按照待分裂的分类属性在最佳分裂位置分裂成与类标签的数量相等的类别。
5.根据权利要求1所述的基于决策树算法的装配制造质量数据处理方法,其特征在于,所述步骤(4)改进C4.5决策树算法是:在算法在选择最佳属性划分数据集时,若根据最高信息增益率选中的属性在当前可选属性子集中取值类别个数最多,则在属性选择度量中加入平衡因子,调整信息增益,进而调整信息增益率,尽量克服偏向多值问题;若属性符合平衡条件则修正的后的分类信息熵;a)属性符合平衡条件,修正的后的分类信息熵为:
平衡因子义定义为:
其中,λ的值由当前计算属性A和样本数据D两个变量的取值共同决定,分裂属性A和样本数据D的关联关系用关联列表表示下表所示:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海大学,未经上海大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】 本文链接:http://www.vipzhuanli.com/patent/201711426288.9/,转载请声明来源钻瓜专利网。 说明: 1、专利原文基于中国国家知识产权局专利说明书; 2、支持发明专利 、实用新型专利、外观设计专利(升级中); 3、专利数据每周两次同步更新,支持Adobe PDF格式; 4、内容包括专利技术的结构示意图、流程工艺图或技术构造图; 5、已全新升级为极速版,下载速度显著提升!欢迎使用!
专利文献下载