[发明专利]基于混淆矩阵对大数据进行分类的方法在审
申请号: | 201710486600.7 | 申请日: | 2017-06-23 |
公开(公告)号: | CN107392231A | 公开(公告)日: | 2017-11-24 |
发明(设计)人: | 甘新标;刘杰;徐涵;胡庆丰;晏益慧;龚春叶;李胜国;邹丹;熊成伟;黄嘉昆 | 申请(专利权)人: | 中国人民解放军国防科学技术大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06F17/16 |
代理公司: | 湖南兆弘专利事务所(普通合伙)43008 | 代理人: | 谭武艺 |
地址: | 410073 *** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于混淆矩阵对大数据进行分类的方法,目的是解决大数据挖掘中蕴含高价值信息的同时也隐藏着大量数据噪声的问题,提高大数据分类精度以加速大数据的计算分析。技术方案是先对大数据进行数据类别粗分,得到大数据集D;然后统计D中的总样本数TN,构建面向D的分类判定混淆矩阵P;最后计算面向D的分类精度OA和分类有效精度EA,并输出OA和EA。采用本发明可提高大数据分类精度,加速大数据的计算分析等处理过程。 | ||
搜索关键词: | 基于 混淆 矩阵 数据 进行 分类 方法 | ||
【主权项】:
一种基于混淆矩阵对大数据进行分类的方法,其特征在于包括以下步骤:第一步、对大数据进行数据类别粗分,得到N类数据,具体方法为:依据大数据样本的特征将大数据样本分为N类,将分为N类的大数据用大数据集D来表示,D=[D1,D2,…,Di,…DN],N为D中的类别数目,N为正整数,Di表示D中第i个类别的分类样本的集合,1≤i≤N,dij表示Di中第j个样本,并且每个类别的第一个样本di1为标本,即第一个样本的分类经确认与真实类别一致,1≤j≤mi,mi为Di中的样本个数,为正整数;第二步、统计D中的总样本数TN,方法为:将D中的样本数求和,即:第三步、构建面向D的分类判定混淆矩阵P,具体方法如下:3.1.基于监督分类原理,为D1,D2,…,Di,…DN建立数据类别标签tag1,tag2,…,tagi,…tagN,tagi为Di的类别标签;3.2.对D1,D2,…,Di,…DN中的样本类别进行第二次判定,判定规则为:将每个样本定义为一个二元组dij=<Ki,Rj>,Ki表示Di的关键特征集合,Rj表示Di中样本dij的非关键特征集合;关键特征集合是判定样本类别的充分条件,即样本dij只要具有Ki包含的所有关键特征就可以判定数据类别,非关键特征集合是判定样本类别的必要但非充分条件,即样本dij只要属于某种数据类别就可能具有Rj中的特征,但具有该特征并不能立刻判定样本类别,同一类别的样本必须满足下列条件之一:条件①:两个样本的关键特征集合相同;条件②:两个样本的关键特征集合相似,并且必要特征集合相同;其中,集合相同表示两个集合包含的元素个数相同并且每一个元素也相同;集合相似表示两个集合包含的元素个数相同并且60%以上的元素相同;3.3.统计Di中的样本被标识为tagi'类别的数目,具体方法如下:3.3.1.定义变量i=1;3.3.2.定义变量i'=1;3.3.3.定义变量j=1;3.3.4.定义变量pii'=0;3.3.5.若样本dij被标识为标签tagi',pii'=pii'+1,否则,转3.3.6;3.3.6.j=j+1;3.3.7.若j≤mi,转3.3.5,否则,3.3.8;3.3.8.i'=i'+1;3.3.9.若i'≤N,转3.3.3,否则,转3.3.10;3.3.10.i=i+1;3.3.11.若i≤N,转3.3.2,否则,转3.4;3.4.构建分类判定混淆矩阵P,如公式(1)所示:P=p11p12......p1Np21p22......p2N............pi1...pii′...pii...piN.........pN1pN2......pNN----(1)]]>公式(1)中,pii'表示测试样本实际属于i类而被判定为i'类的样本个数,pii为第i类别被正确分类的样本数目;第四步、计算面向D的分类精度OA,具体方法如下:OA=Σi=1NpiiTN---(2)]]>第五步、核算面向D的分类有效精度EA,方法如下:EA=Σi=1NpiiΣi=1NΣj=1mipij---(3)]]>第六步、输出OA和EA,结束。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军国防科学技术大学,未经中国人民解放军国防科学技术大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201710486600.7/,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置