[发明专利]一种双变量相关性度量方法在审
申请号: | 201410069009.8 | 申请日: | 2014-02-27 |
公开(公告)号: | CN103853923A | 公开(公告)日: | 2014-06-11 |
发明(设计)人: | 王树良;赵一萍;舒悦 | 申请(专利权)人: | 北京理工大学 |
主分类号: | G06F19/00 | 分类号: | G06F19/00 |
代理公司: | 北京理工大学专利中心 11120 | 代理人: | 付雷杰;杨志兵 |
地址: | 100081 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 变量 相关性 度量 方法 | ||
技术领域
本发明涉及相关性度量方法,具体涉及一种双变量相关性度量方法。
背景技术
在进行信息分析、信息推荐及信息预测时,由于数据量庞大,在一个大数据集中,如何有效地辨识变量之间的潜在关系显得尤为重要。例如在对世界健康组织的数据进行分析时,判断人的健康系数与什么变量的关系最紧密,是饮食习惯、睡眠规律还是其他因素?在互联网信息推荐时,如何根据一些用户的浏览记录、关注内容判断另一些用户感兴趣的信息?市场分析时,如何根据以往市场分析报告找出市场波动的影响因素,从而根据这些因素的现状预测下一阶段的市场动态?变量之间的相关度获取是否准确至关重要。2011年,David N.Reshef以及Yakir A.Reshef等人在《Science》杂志上发表了题为“Detecting Novel Associations in Large Data Sets”的文章,提出了一种双变量的相关性的度量方法——MIC,该方法使用类拟合的思想,使用网格包围双变量在平面直角坐标系中形成的离散点,即,如果两个变量之间存在某种关系,那么就可以在其散点图上构造某种网格划分,使得大多数的数据点集中在该网格的几个单元格中,这些包含数据点的网格可近似视为某种拟合曲线,从而达到刻画两变量的关系的目的。不同于曲线拟合方法无法应对非函数型关系,容易过拟合,以及计算量大,该方法对函数以及非函数关系均适用,计算量小,且可挖掘出变量间深层关系。该方法依赖于样本的大小,通过搜寻满足一定条件的所有网格划分直至搜寻到最优的网格划分方案,该方案即为其网格拟合方案,最可能揭示出其真实的潜在关系,该网格划分下的互信息的归一化值即为MIC值。
MIC方法相对于其它的相关性度量方法而言,如Pearson相关系数、Spearman相关系数等,具有两个重要特性:通用性和均匀性。通用性指的是该 方法可以评估广泛范围的关系模式,不局限于特定的函数关系或所有的函数关系,它可以发现非函数型的关系;均匀性指的是对于具有相似噪声水平的不同函数类型,即回归决定系数R2值相似的不同函数类型应具有相似的MIC值。
该方法的提出对于生物学以及其它学科的研究有着极大的促进作用,但目前计算MIC的算法,因考虑到效率性,仅是在有效的时间内逼近MIC的实际值,因此该算法的精度仍然存在一定的缺陷。
发明内容
有鉴于此,本发明提供了一种双变量相关性度量方法,对MIC方法进行改进,能够在保持MIC方法两个重要特性的前提下,更加逼近于MIC的真实值,更能反映真实的两个变量之间的相关度。
本发明的双变量相关性度量方法,包括如下步骤:
步骤1,将双变量的数据点信息转换为平面坐标轴的数据点信息(X,Y),令Y轴为主变量轴,以主变量轴的值进行升序排序;
步骤2,采用给定的均分行数y均分Y轴,使得均分区间中数据点的个数相等,其中,均分行数y=2,3,4,…,B/2,其中,B为设定的X,Y划分个数乘积的最大值;
步骤3,当均分行数y=i时,i=2,3,4,…,B/2,根据给定的划分列数x对X轴进行划分,使得具有同样Y值的连续点划分在同一个区间中,其中,划分列数x分别为2,3,4…,B/y;
步骤4,计算均分行数y=i、均分列数x=j时的最大互信息值,记为bij,其中,i=2,3,4,…,B/2,j=2,3,4…,B/y;将bij归一到[0,1]后记为aij;选取y=i时的最大aij对应的X轴划分列数为均分行数y=i时的X轴最优划分列数xei;
步骤5,固定X轴划分列数为x=xei,重新划分Y轴,计算y=i时的最大互信息值并进行归一化,获得aij*;
步骤6,将aij替换为aij*,获得矩阵[aij];
步骤7,变换数据点(X,Y)为(Y,X),令Y轴为主变量轴,以主变量的坐标轴的值进行升序排序;重复步骤2~6,获得矩阵[aij]’;
步骤8,选取[aij]和[aij]’中的元素最大的值为MIC值;
步骤9,利用步骤8获得的MIC值进行度量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京理工大学,未经北京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410069009.8/2.html,转载请声明来源钻瓜专利网。
- 同类专利
- 专利分类
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用