[发明专利]基于混淆矩阵对大数据进行分类的方法在审
申请号: | 201710486600.7 | 申请日: | 2017-06-23 |
公开(公告)号: | CN107392231A | 公开(公告)日: | 2017-11-24 |
发明(设计)人: | 甘新标;刘杰;徐涵;胡庆丰;晏益慧;龚春叶;李胜国;邹丹;熊成伟;黄嘉昆 | 申请(专利权)人: | 中国人民解放军国防科学技术大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06F17/16 |
代理公司: | 湖南兆弘专利事务所(普通合伙)43008 | 代理人: | 谭武艺 |
地址: | 410073 *** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 混淆 矩阵 数据 进行 分类 方法 | ||
技术领域
本发明涉及分类方法,尤其涉及信息领域基于混淆矩阵对大数据进行分类的方法。
背景技术
数据分类作为数据挖掘中一项非常重要的工作,在商业、军事、科研的决策分析中应用广泛。随着社会信息化不断推进,在过去的5年内全球数字化信息量增长迅速,已从之前的TB级上升到PB级,甚至EB级。随着数据规模和数据体积的持续增大,大数据时代的数据分类问题规模越来越大,样本数目、特征维数和类别数量都在快速增长,大数据蕴含高价值信息的同时也隐藏着大量的数据噪声,因此,大数据分类中如何判定大数据分类精度是准确提取大数据价值的关键技术。
数据分类的方法主要包括两类:
监督分类:先取有代表性的训练区作为样本,通过选择特征参数,确定判别函数,据此进行分类。典型的监督分类算法包括平行算法,最小距离法,最大似然法,波谱角分类法等。
非监督分类:在没有先验类别作为样本的条件下,根据间相似度大小进行计算自动判别归类,无须人为干预,分类后确定数据类别。典型的非监督分类算法一般包括:回归分析、趋势分析、等混合距离法、集群分析、主成分分析和图形识别等。
无论是监督分类还是非监督分类都面临分类精度的问题,表征分类精度的方法很多,常用的有利用混淆矩阵、总体分类精度OA以及Kappa系数等。混淆矩阵能够很清楚的看到每个类别正确分类的个数以及被错分的类别和个数。但是,混淆矩阵并不能一眼就看出分类精度的好坏,因此,基于混淆矩阵衍生出来各种分类精度指标,包括总体分类精度和Kappa系数等。总体分类精度是指被正确分类的类别数与总的类别个数的比值。Kappa系数指数据中被错误划分为某类的总数与真实划分为该类的比例。
随着大数据时代的数据分类问题规模越来越大,样本数目、特征维数和类别数量快速增长,且大数据中隐藏着大量的数据噪声,无论是监督分类还是非监督分类方法在大数据时代都面临分类准确度的问题。面对大数据,如何准确地进行大数据分类是当代信息科学技术领域的一大难题。
发明内容
本发明要解决的技术问题在于:针对大数据挖掘中蕴含高价值信息的同时也隐藏着大量数据噪声的问题,提出一种基于混淆矩阵对大数据分类的方法,提高大数据分类精度,加速大数据的计算分析。
为了解决上述技术问题,本发明的具体技术方案为:
第一步、对大数据进行数据类别粗分,得到N类数据,具体方法为:依据大数据样本的特征将大数据样本分为N类,样本的特征包括颜色、声音、图像、大小、数据格式、文件后缀、特效、图标形式等等能将数据进行区分的数据特征。将分为N类的大数据用大数据集D来表示,D=[D1,D2,…,Di,…DN],N为D中的类别数目,N为正整数,Di表示D中第i个类别的分类样本的集合,如带有运动图像的视频集合、带有声音的音频集合、以.doc为文件后缀的word文档集合等常见数据类别的集合,1≤i≤N,dij表示Di中第j个样本,并且每个类别的第一个样本di1为标本,即第一个样本的分类经确认与真实类别一致,1≤j≤mi,mi为Di中的样本个数,为正整数。
第二步、统计D中的总样本数TN,具体方法为:将D中的样本数求和,即:
第三步、构建面向D的分类判定混淆矩阵P,具体方法如下:
3.1.建立类别标签。基于监督分类原理,为D1,D2,…,Di,…DN建立数据类别标签tag1,tag2,…,tagi,…tagN,tagi为Di的类别标签,1≤i≤N;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军国防科学技术大学,未经中国人民解放军国防科学技术大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710486600.7/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置