[发明专利]基于关联分析FP-Tree算法的企业风险预警方法有效
申请号: | 202011461438.1 | 申请日: | 2020-12-09 |
公开(公告)号: | CN112465393B | 公开(公告)日: | 2022-07-08 |
发明(设计)人: | 吴志雄;甘建武;李晓琼;黄鼎 | 申请(专利权)人: | 南威软件股份有限公司;福建南威软件有限公司 |
主分类号: | G06Q10/06 | 分类号: | G06Q10/06 |
代理公司: | 福州元创专利商标代理有限公司 35100 | 代理人: | 陈明鑫;蔡学俊 |
地址: | 362000 福建省*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 关联 分析 fp tree 算法 企业 风险 预警 方法 | ||
1.一种基于关联分析FP-Tree算法的企业风险预警方法,其特征在于,包括如下步骤:
步骤S1、根据企业历史相关行为数据,分析衡量企业风险状况的标尺和重要依据,设计风险指标体系X={X1,X2,…,Xi},Xi表示风险指标体系的第i个指标的名称;
步骤S2、根据风险指标体系,运用大数据分析形成风险规则,即由一个或多个指标的值等于一预定值或预定区间值,认为企业可能存在相应风险,得到风险规则集B:
B={X1:risk1,X2:risk2,…,Xb:riskb,},
其中,Xk为指标体系X的子集;riskk为由Xk分析推理得到的相对应的风险文字描述;
步骤S3、采集企业相关行为数据,并构建企业风险预警模型的训练指标数据集及待预警企业指标数据集,训练指标数据集中训练集:测试集=4:1;
步骤S4、基于训练指标数据集,通过企业信用维度数据计算获得企业对应的风险等级,计算公式如下:
其中,creditScorenew表示最新信用风险分值归一化后数值,100·creditScorenew作为风险得分的基础分值;creditScorei表示前i年信用风险分值,代表信用分数的稳定性情况;riskListCount表示近5年来列入黑名单或失信名单次数,4·riskListCount代表被列入黑名单或失信名单风险;
步骤S5、运用互熵-区间套法进行分箱、卡方检验相关性筛选指标,根据分箱结果进行指标的字符化,并保存分箱规则以及筛选后剩余的指标列表;
步骤S6、获取关联规则集:运用关联分析FP-Tree算法挖掘企业各风险等级的企业行为的关联规则,遍历关联规则并将其整合为由指标集、风险等级及置信度组成的关联规则集,关联规则集由以“指标集:风险等级,置信度”形式且置信度大于0.5的元素构成;
其中,A表示其中一指标集;B表示其中一风险等级;表示由指标集A推理出风险等级B的置信度;count(A∩B)、count(A)分别表示指标集A中的元素和风险等级B同时存在同一样本的样本数量、指标集A中的元素同时存在同一样本的样本数量;
步骤S7、根据步骤S6得到的关联规则集以及步骤S2得到的风险规则集,基于待预警企业指标数据集对待预警企业进行预警,预警企业命中的关联规则,预测企业风险等级及可能存在的风险点,输出预警结果;
步骤S5中,运用互熵-区间套法进行分箱、卡方检验相关性筛选指标的具体实现方式如下:
对于值种类超过5个的离散变量属性的指标及连续变量的指标,运用有监督的互熵-区间套法对指标变量进行分箱并根据分箱结果字符化连续变量,降低模型过拟合的风险;
互熵-区间套法进行分箱步骤如下:
第0步,预先设定一个阈值threshold以及最大分箱数n;
对待分箱指标I,有初始分箱边界值集为Boundary={a,b},对指标I进行分箱:
第1步,取将[a,b]划分为两个区间[a,a0]、(a0,b],结合互信息和信息熵,提出一种新的类别不确定评价函数MiEntropy:
其中,t为区间;C为类别集合,C={c1,c2,…,cm},m为类别个数;p(ci)、p(t)、p(t,ci)分别是训练集中ci类的样本数、指标值在区间t的样本数、指标值在区间t且属于ci类的样本数与训练集样本总数的比例,p(ci|t)指标值在区间t且属于ci的样本数与指标值在区间t的样本数的比例,η为超参数,且满足η∈[0,1];
应用MiEntropy对[a,a0]、(a0,b]进行评价,转第2步;
第2步,若MiEntropy([a,a0])≥threshold或MiEntropy((a0,b])≥threshold,则将a0添加至Boundary中,转第3步;否则直接转第3步;
第3步,根据Boundary获得指标I的分箱数numb(I):
若numb(I)≥n,则停止分箱
若MiEntropy([a,a0])≥threshold,取a=a,b=a0并跳至第1步;
若MiEntropy((a0,b])≥threshold,取a=a0,b=b并跳至第1步;
若MiEntropy([a,a0])≤MiEntropy((a0,b])<threshold,取a=a0,b=b并跳至第1步;
若MiEntropy((a0,b])≤MiEntropy([a,a0])<threshold,取a=a,b=a0并跳至第1步;
第4步,分箱结束后,得到一个分箱边界集,将其按照从小到大的顺序排序得到Boundary={a,a1,a2,…,ak,b},根据Boundary将指标I分为k+1箱:{[a,a1],(a1,a2],…,(ak,b]};
卡方检验相关性筛选指标具体为:通过卡方检验检验指标变量与企业风险的相关性,过滤对预警助益不大的指标,卡方检验进行相关分析的结果基于有监督的分箱进行划分样本空间。
2.根据权利要求1所述的基于关联分析FP-Tree算法的企业风险预警方法,其特征在于,步骤S7的具体实现方式如下:
首先,对待预警企业指标数据集中待预警企业指标数据字符化:指标数据的转化,由步骤S5的分箱规则决定,将原始指标数据转换为相对应的字符标识,得到该企业的转化后的指标集
其中,Ci为第i个样本企业各指标值字符化后的结果集合;表示第i个样本企业第ci个指标字符化结果值;
其次,获取命中关联规则:遍历关联规则,若关联规则的指标集满足Ci∩Rj=Rj,则表示该企业命中Rj对应的关联规则,因此,得到企业命中风险规则指标集Qi:
其中,表示第i个预警企业第qi个命中的风险规则的指标集;表示第i个预警企业第qi个命中的风险规则的风险等级;表示第i个预警企业第qi个命中的风险规则的置信度;
然后,获取风险等级:风险等级由命中关联规则的风险等级和置信度所决定的,将关联规则的风险等级转换为对应分值,置信度作为权值进行加权平均,计算得到最终的风险分数,并根据各风险等级的分值区间获得风险等级;
其中,高风险用P0表示,中高风险有两个等级,即P1、P2,且P1的风险大于P2,低风险用P3表示,无风险用P4表示;riskScorei表示第i个预警企业的风险得分;SPij表示第i个预警企业第j个命中的风险规则的风险等级得分;Pij表示第i个预警企业第j个命中的风险规则的风险等级;Confij表示第i个预警企业第j个命中的风险规则的置信度;ri表示第i个预警企业命中的风险规则的置信度之和;riskLevel为风险得分映射为风险等级的函数;
最后,获取风险描述:遍历步骤S2所得的风险规则集B={X1:risk1,X2:risk2,…,Xb:riskb,},以及企业命中风险规则指标集Qi={Rij:(Pij,Confij)},j=i,…,qi,若Xk∩Rij=Xk,则该企业大概率存在Xk所对应的风险点riskk;遍历完成后,得到该企业风险点集RISKi={riskj},j=1,…,ki,对风险点集中各元素以分号进行拼接得到其风险描述。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南威软件股份有限公司;福建南威软件有限公司,未经南威软件股份有限公司;福建南威软件有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011461438.1/1.html,转载请声明来源钻瓜专利网。
- 同类专利
- 专利分类
G06Q 专门适用于行政、商业、金融、管理、监督或预测目的的数据处理系统或方法;其他类目不包含的专门适用于行政、商业、金融、管理、监督或预测目的的处理系统或方法
G06Q10-00 行政;管理
G06Q10-02 .预定,例如用于门票、服务或事件的
G06Q10-04 .预测或优化,例如线性规划、“旅行商问题”或“下料问题”
G06Q10-06 .资源、工作流、人员或项目管理,例如组织、规划、调度或分配时间、人员或机器资源;企业规划;组织模型
G06Q10-08 .物流,例如仓储、装货、配送或运输;存货或库存管理,例如订货、采购或平衡订单
G06Q10-10 .办公自动化,例如电子邮件或群件的计算机辅助管理