[发明专利]一种基于叶子节点优先选择的因果网络结构推断方法在审
申请号: | 201710555740.5 | 申请日: | 2017-07-10 |
公开(公告)号: | CN107403223A | 公开(公告)日: | 2017-11-28 |
发明(设计)人: | 曾艳;郝志峰;谢峰;蔡瑞初;温雯;陈薇 | 申请(专利权)人: | 广东工业大学 |
主分类号: | G06N5/04 | 分类号: | G06N5/04;G06K9/62 |
代理公司: | 广州市红荔专利代理有限公司44214 | 代理人: | 吴伟文 |
地址: | 510006 *** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 叶子 节点 优先 选择 因果 网络 结构 推断 方法 | ||
技术领域
本发明涉及数据挖掘技术领域,尤其是一种基于叶子节点优先选择的因果网络结构推断方法。
背景技术
在互联网、生物信息学、经济学等领域中,贝叶斯网络(Bayesian Networks,BN)的因果推断与估计工作,一直是备受学者关注的热点和难点。
从根节点(外生变量)出发,根据外生变量的特征,逐一选取外生变量,得到正序的因果网络次序,是当今因果网络确定因果次序的方法之一,但相关的算法计算复杂度高,其原因主要在于外生变量独立性最强的性质,即在理想状态下,没有可观测变量影响外生变量,且外生变量有可能对其余所有的可观测变量存在影响,导致在递归选取新外生变量的过程之前,算法需要先去除所选外生变量对其余变量的影响,方可使用对应算法选取下一个新的外生变量。
Mooij J于2009年发表的利用最小化独立性的回归算法进行因果推断一文中,提到叶子节点的选取是通过变量与残差的独立性度量进行的,先计算每个变量与其余所有变量的残差,再计算该残差与其余所有变量的独立性,从而得到该变量的独立性指标。
Tashiro T于2014年发表的ParceLiNGAM一文中的引理指出,判断为叶子节点的充分必要条件是当且仅当该变量与其余所有变量的残差,独立于除去该变量的其余所有变量。
根据以上分析可知,两种算法都是从回归的角度出发,以变量向量的形式计算残差,再判断残差与变量向量的独立性。由此可知,当维度不断增大时,以上算法依赖于高维的回归方法和独立性判断,计算量大,而且结果不准确,容易得出错误的结果。
发明内容
针对现有技术的不足,本发明提供一种基于叶子节点优先选择的因果网络结构推断方法,通过计算每一变量与其余变量在该变量上的回归残差两者之间的独立性,寻找独立性最弱的变量作为叶子节点,从而建立了一个新型的叶子节点优先选取模型,大大减小了计算量
本发明的技术方案为:一种基于叶子节点优先选择的因果网络结构推断方法,包括以下步骤:
S1)、给定数据集X={x1,x2,…xn},以及设置因果次序集合K=φ与集合V=φ;
S2)、依次对每个变量xi(i=1,2,…n)做独立性检验,并且将与变量xi(i=1,2,…n)不独立的变量xk加入到集合V中;
S3)、对每个变量xi与其他所有变量xj(i≠j)作线性回归,计算得到残差rij,残差rij计算式如下:
其中,cov(xi,xj)为变量xi和变量xj之间的协方差,var(xj)为变量xj的标准差;
S4)、利用最大熵函数H(x)计算每个变量xi与其他所有变量xj(i≠j)的似然比Mi,j,从而估计变量之间的独立性,其表达式为:从而得到似然比矩阵M=(M1,1,M1,2,...M1,n;M2,1,M2,2,...M2,n;Mn,1,Mn,2,...Mn,n),其中,Mi,j表示变量xi与变量xj的似然比,当似然比Mi,j的取值为正数时,则代表变量xi指向变量xj,表示为xi→xj;当似然比Mi,j的取值为负数时,则代表变量xj指向变量xi,表示为xi←xj;当似然比Mi,j的取值为零时,说明变量xi与变量xj互相独立;
S5)、根据似然比Mi,j构建叶子节点特征模型,通过模型获取叶子节点,其表达式为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东工业大学,未经广东工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710555740.5/2.html,转载请声明来源钻瓜专利网。