[发明专利]基于熵权算法的多变量面板数据聚类分析方法在审
申请号: | 201710287336.4 | 申请日: | 2017-04-27 |
公开(公告)号: | CN107103335A | 公开(公告)日: | 2017-08-29 |
发明(设计)人: | 郑大川;刘伟霞 | 申请(专利权)人: | 闽江学院 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 福州元创专利商标代理有限公司35100 | 代理人: | 蔡学俊,丘鸿超 |
地址: | 350108 福建省*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 算法 多变 面板 数据 聚类分析 方法 | ||
技术领域
本发明属于数据挖掘技术领域,主要应用于对目标群体的分类处理,为目标群体进行差异化分析奠定基础,具体涉及一种基于熵权算法的多变量面板数据聚类分析方法。
背景技术
(1)聚类分析的基本原理
聚类分析是以差异分析为基础的统计分析方法。通过计算各个样本之间的“亲疏程度”实现对“没有先验知识”的样本进行分类,从而达到“物以类聚”的效果。这里所谓的“亲疏程度”指的是各样本在各变量取值上的差异状况。“没有先验知识”是指在进行聚类分析前不对样本进行事前的分类假定,仅是将样本集视为一个整体或是将每个样本视为单独一类。
(2)现有基于面板数据的多变量聚类分析相关研究
目前基于面板数据的多变量聚类分析研究工作并不多。这些研究多采用“退化时间维度”的思路,通过将时间维度的变量均值进行降维,或者将各时点下各变量的“统计距离”简单相加。这样的处理方法忽略了变量值在时间序列上的变化情况,减少了聚类分析的可用信息,分析结果存在着不足和缺陷。
另一方面,部分研究者注意到了时间序列上变量值的变化情况对聚类分析的贡献。但是,目前在处理多变量数据集时,尚缺乏科学的方法和技术对时间序列变化情况的贡献度(权重)进行测算,因此并不能准确地测算出时间变化对聚类分析的影响程度。
在现有可知的研究成果中,李因果[1]将“绝对量距离”、“增量距离”和“变异系数距离”通过α、β和γ三个权重进行加权求和,得到整体的“综合全时距离”。他在研究中假设α、β和γ对任何变量都保持相等的取值,并且简单地将权重设置为α=β=γ=1/3。这一假设缺乏可靠的理论依据,也不符合现实情况,因此而得到的分类结果不够准确。高雪[2]采用和李因果类似的思路,计算了“绝对距离”和“增速距离”,并对两者进行加权求和,得到个体距离。她通过对每个时点下样本个体落入K类别的次数进行比较,以完成对多变量面板数据的聚类分析。这一方法割裂了整个时间区间,得到的分析结果并不能有效地反映整个时间序列的变化情况。另外,算法对权重值的设定也基于和李因果相同的假设,这并不能反映出变量间真实的权重关系。李峥和刘云霞[3]也做了类似的研究,但其构建的“欧氏时空距离”本质上是仅针对“绝对距离”进行的聚类分析,并不能反映出时间序列上的变化特征。
(3)权重设定的相关研究
权重设定有很多方法,其中熵权法是对权重进行客观测定的一种重要方法,已经在工程技术、经济社会研究中得到了广泛的应用。在信息论中,熵反映的是信息的无序程度。信息集中数值的变异程度越大,其包含的信息量越大,则表明该信息集越重要,赋予它的权重也应该越大。但是现有的研究中,熵权法都是应用在单一时点的横截面数据或技术退化为单一时点的面板数据分析中,无法体现信息在时间序列上的变化。
目前在对多变量数集进行聚类分析时,大部分研究工作仅仅针对横截面数据进行分析,忽略了数据的时间序列变化特征。少数研究工作注意到时间序列上变量值的变化会对聚类分析产生重要的影响。但是,在多变量数集聚类分析中,他们对时间序列变化因素的贡献度(权重)测算缺乏科学可行的技术和方法,只是简单人为赋予主观的权重值,这样得到的聚类分析结果必然缺乏科学依据。
熵权法是进行权重测算的一个重要技术。这一方法已经在工程技术和经济社会研究中得到了广泛应用。但是目前熵权法还没有很好的技术用于反映信息在时间序列上的变异情况,因此这一技术在聚类分析中没有得到很好的应用。
本发明提出基于面板数据的多变量聚类分析新思路,解决了熵权法在处理时间序列数据时的技术问题,并将熵权法和多变量聚类分析结合起来,用熵权法的结果作为多变量聚类分析中权重设定的依据,解决了聚类分析在多变量面板数据分类问题中的关键性环节,对聚类分析的应用有着实质性的突破。
参考文献:
[1]李因果.面板数据聚类方法及应用[J].统计研究,2010,27(9):73-79
[2]李峥、刘云霞.面板数据多指标聚类和变系数模型的方法与实证[J].统计与决策,2014(7):11-14
[3]高雪、谢仪、侯红卫.基于多指标面板数据的改进的聚类方法及应用[J].浙江工业大学学报,2014,42(8):468-472。
发明内容
本发明的目的在于提供一种基于熵权算法的多变量面板数据聚类分析方法,该方法基本克服了现有方法在处理时间序列上的缺陷,有效地丰富了可用信息,还对权重测算方法进行了很好的改善,最终提升了聚类分析结果的有效性和科学性。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于闽江学院,未经闽江学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710287336.4/2.html,转载请声明来源钻瓜专利网。