[发明专利]基于混淆矩阵对大数据进行分类的方法在审

专利信息
申请号: 201710486600.7 申请日: 2017-06-23
公开(公告)号: CN107392231A 公开(公告)日: 2017-11-24
发明(设计)人: 甘新标;刘杰;徐涵;胡庆丰;晏益慧;龚春叶;李胜国;邹丹;熊成伟;黄嘉昆 申请(专利权)人: 中国人民解放军国防科学技术大学
主分类号: G06K9/62 分类号: G06K9/62;G06F17/16
代理公司: 湖南兆弘专利事务所(普通合伙)43008 代理人: 谭武艺
地址: 410073 *** 国省代码: 湖南;43
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明公开了一种基于混淆矩阵对大数据进行分类的方法,目的是解决大数据挖掘中蕴含高价值信息的同时也隐藏着大量数据噪声的问题,提高大数据分类精度以加速大数据的计算分析。技术方案是先对大数据进行数据类别粗分,得到大数据集D;然后统计D中的总样本数TN,构建面向D的分类判定混淆矩阵P;最后计算面向D的分类精度OA和分类有效精度EA,并输出OA和EA。采用本发明可提高大数据分类精度,加速大数据的计算分析等处理过程。
搜索关键词: 基于 混淆 矩阵 数据 进行 分类 方法
【主权项】:
一种基于混淆矩阵对大数据进行分类的方法,其特征在于包括以下步骤:第一步、对大数据进行数据类别粗分,得到N类数据,具体方法为:依据大数据样本的特征将大数据样本分为N类,将分为N类的大数据用大数据集D来表示,D=[D1,D2,…,Di,…DN],N为D中的类别数目,N为正整数,Di表示D中第i个类别的分类样本的集合,1≤i≤N,dij表示Di中第j个样本,并且每个类别的第一个样本di1为标本,即第一个样本的分类经确认与真实类别一致,1≤j≤mi,mi为Di中的样本个数,为正整数;第二步、统计D中的总样本数TN,方法为:将D中的样本数求和,即:第三步、构建面向D的分类判定混淆矩阵P,具体方法如下:3.1.基于监督分类原理,为D1,D2,…,Di,…DN建立数据类别标签tag1,tag2,…,tagi,…tagN,tagi为Di的类别标签;3.2.对D1,D2,…,Di,…DN中的样本类别进行第二次判定,判定规则为:将每个样本定义为一个二元组dij=<Ki,Rj>,Ki表示Di的关键特征集合,Rj表示Di中样本dij的非关键特征集合;关键特征集合是判定样本类别的充分条件,即样本dij只要具有Ki包含的所有关键特征就可以判定数据类别,非关键特征集合是判定样本类别的必要但非充分条件,即样本dij只要属于某种数据类别就可能具有Rj中的特征,但具有该特征并不能立刻判定样本类别,同一类别的样本必须满足下列条件之一:条件①:两个样本的关键特征集合相同;条件②:两个样本的关键特征集合相似,并且必要特征集合相同;其中,集合相同表示两个集合包含的元素个数相同并且每一个元素也相同;集合相似表示两个集合包含的元素个数相同并且60%以上的元素相同;3.3.统计Di中的样本被标识为tagi'类别的数目,具体方法如下:3.3.1.定义变量i=1;3.3.2.定义变量i'=1;3.3.3.定义变量j=1;3.3.4.定义变量pii'=0;3.3.5.若样本dij被标识为标签tagi',pii'=pii'+1,否则,转3.3.6;3.3.6.j=j+1;3.3.7.若j≤mi,转3.3.5,否则,3.3.8;3.3.8.i'=i'+1;3.3.9.若i'≤N,转3.3.3,否则,转3.3.10;3.3.10.i=i+1;3.3.11.若i≤N,转3.3.2,否则,转3.4;3.4.构建分类判定混淆矩阵P,如公式(1)所示:P=p11p12......p1Np21p22......p2N............pi1...pii′...pii...piN.........pN1pN2......pNN----(1)]]>公式(1)中,pii'表示测试样本实际属于i类而被判定为i'类的样本个数,pii为第i类别被正确分类的样本数目;第四步、计算面向D的分类精度OA,具体方法如下:OA=Σi=1NpiiTN---(2)]]>第五步、核算面向D的分类有效精度EA,方法如下:EA=Σi=1NpiiΣi=1NΣj=1mipij---(3)]]>第六步、输出OA和EA,结束。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军国防科学技术大学,未经中国人民解放军国防科学技术大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201710486600.7/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top