[发明专利]一种基于聚类的大数据交叉分析预警方法及系统有效
| 申请号: | 201410356006.2 | 申请日: | 2014-07-24 |
| 公开(公告)号: | CN104123465B | 公开(公告)日: | 2017-04-19 |
| 发明(设计)人: | 王电;黄煜可;陈庆彬;王雷 | 申请(专利权)人: | 中国软件与技术服务股份有限公司 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 北京君尚知识产权代理事务所(普通合伙)11200 | 代理人: | 余长江 |
| 地址: | 100081 北京市*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 数据 交叉 分析 预警 方法 系统 | ||
技术领域
本发明涉及一种预警方法,尤其涉及一种基于聚类的大数据交叉分析预警方法及系统。
背景技术
在现实生活中,我们经常会面对一类复杂的时间序列数据,在每个时间点对应的截面上,都对应一组样本数据,各个时间点之间的样本数据没有必然的联系,从而不是公知的面板数据,甚至各时间点的样本数量都不具有相等关系。我们希望在对这些数据缺乏足够了解的情况下,确定每个截面上数据之间的相似性,判断不同属性对这种相似性的影响程度,以及这些蕴含在数据中的关系在时间序列上如何传递和变化,并由此作出异常情况的预警。
由于我们对数据的了解非常缺乏,我们常常需要依据经验和主观判断将属性进行分类,再进行后续的研究。例如,对于消费者的购物篮数据,我们将消费者按照消费金额分为高、中、低三类,或者按照消费者年龄分为老、中、青三类,再比较各个分类中众多数据的均值、方差等指标随时间序列的变化,由此作出预警。这种分类方法存在两大缺陷:其一,严重依赖于主观的分类,使分析结果丧失客观性;其二,将众多数据压缩成均值、方差等指标,丧失了大量的信息,使分析结果不能充分反映情况,预警效果差强人意。
上述的分类情况可以看成是“样本数据内部子结构”的指标,而样本的另一种常见指标就是“样本总量”。将两类指标的增加或减少的异常情况进行交叉分析,可以获得更加丰富的预警信息。本专利就旨在挖掘这类预警信息。
对这类复杂的时间序列数据做出预警时,还会遇到“大数据”的问题。随着信息技术的高速发展,人们积累的数据量急剧增长,如何从海量的数据中提取有用的知识成为当务之急。经过清洗的样本数据汇总到中央数据库。由于样本量巨大,形成了维数大、规模大、复杂性大的大数据形态,要挖掘其中有意义的知识和内容以指导实际生产和具体应用,需要首先进行降维处理,即维数约简。它一方面可以解决“维数灾难”,缓解大数据中“信息丰富但知识贫乏”的问题,降低计算的复杂度;另一方面可以引导人们更好地认识和理解数据。数据降维的方法很多,例如:根据数据本身的特性,可以分为线性降维和非线性降维两种;根据是否考虑和利用数据的监督信息,可以分为无监督降维、有监督降维和半监督降维三种;根据是否需要保持数据的结构,可以分为全局保持降维、局部保持降维和全局与局部保持一致降维等。
发明内容
针对现有技术中存在的技术问题,本发明的目的在于提供一种基于聚类的大数据交叉分析预警方法及系统。
首先,根据实际需要选择时间段,根据时间段划分样本,以便进行比较。其次,使用“抽样->聚类->计算降维指标”的流程进行大数据降维,将聚类获得的簇作为已知的标签,采用完全客观的算法来选择对样本的已知标签具有较大影响力的维度。也就是说,这些在降维中被保留下来的维度不是主观确定的,不依赖于经验模型。再次,针对降维后的全体数据,使用聚类分析算法将样本进行聚类,获得数据客观蕴含的相似性,再将聚类结果(簇)的个数定义为态势指数。最后,将各个时间段的态势指数形成时间序列,使用拐点分析方法进行异常值预警。另一方面,我们对样本总量指标进行态势分析,也可以获得宏观预警。最后将两项指标的预警情况进行交叉分析,获得更加深刻的预警信息。
本发明公开的基于聚类的态势分析预警方法,其创新点在于定义了一种全新的宏观指标“态势指数”,即截面数据中聚类获得的簇的数量,它反映了数据内部蕴含的子结构的数量,由此可以对每个时间点的截面数据中蕴含的子结构的数量变化进行预警,是常用的截面数据样本量指标的有力补充。进一步的,将两项指标的预警情况进行交叉分析,获得更加深刻的预警信息。
本发明的技术方案为:
一种基于聚类的大数据交叉分析预警方法及系统,其步骤为:
1)中央服务器从各终端服务器采集样本数据,并按照时间段对样本数据进行划分,每个时间段对应一样本数据集;
2)对于每一时间段的样本数据集,从中抽取若干样本构建一抽样样本集合,并对其进行聚类分析,得到若干簇;将聚类得到的簇作为样本的标签,对样本进行标注,然后根据选取的属性降维指标(辨识度和或重要性)计算所述抽样样本集合中已标注样本每一属性的属性值辨识度、属性辨识度和或属性值重要性、属性重要性;
3)分别根据属性值辨识度、属性辨识度和或属性值重要性、属性重要性对属性进行排序,选取若干属性作为大数据降维后保留的属性;
4)对属性降维后的每一所述样本数据集进行聚类,将聚类得到的簇作为所述样本数据集的态势指数;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国软件与技术服务股份有限公司,未经中国软件与技术服务股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410356006.2/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置





