[发明专利]大数据资产评估方法在审
| 申请号: | 201710058720.7 | 申请日: | 2017-01-23 |
| 公开(公告)号: | CN106845846A | 公开(公告)日: | 2017-06-13 |
| 发明(设计)人: | 卓颋;殷荣华;刘洪明;舒夕珂;曹慧英 | 申请(专利权)人: | 重庆邮电大学;北京软云神州科技有限公司 |
| 主分类号: | G06Q10/06 | 分类号: | G06Q10/06;G06Q40/00 |
| 代理公司: | 重庆信航知识产权代理有限公司50218 | 代理人: | 吴彬 |
| 地址: | 400000 重*** | 国省代码: | 重庆;85 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 数据 资产评估 方法 | ||
1.一种大数据资产评估方法,其特征在于,包括:
一、数据质量评估,包括:
1、数据准确率的计算
首先从数据表中分别抽样得到训练集、检验集和准确率预测集,每次针对训练集中的一个可预测属性f,设定其为类标号,训练得到一个分类器,并通过检验集进行性能检测;然后用此分类器对预测集中的每个元组的该属性f的值进行预测,预测值和实际值一致,对于数值属性,其差异不超出一定的阈值,则认为该属性值为正确的,而准确预测的元组比率即为数据表关于该属性的准确率af,对数据表中的每个属性重复这一过程,得到每个属性的准确率aj;
其中j=1、2、…、m,m为可预测属性的个数;
其中,nt为预测集中的元组数,nrj为预测集中被正确分类的元组数;计算这些aj的加权算术平均值得到数据表的综合准确率A,即:
其中,j为被预测属性的编号,wfj为属性j的权重,其值可以根据属性j的取值范围和离散程度来决定,因为属性取值范围越大、离散程度越高,其预测的准确率越低,赋予的权重应越小;权重的计算公式为:
其中,hj为属性j的熵,熵代表了属性取值范围的大小和离散程度的高低,其计算公式为:
其中,v为取值的个数,pf为属性取第f个值的概率;
最后整个数据集的总准确率为:
其中,wti为表i的权重,t为被评估数据集中表的总个数。权重的公式为:
其中,nti为表i的元组数,nfi为整个数据集的属性数,nt为整个数据集的元组数,nf为整个数据集的属性数;
2、数据完整度I的计算
其中,nnull为缺失或为null的数据项个数,nitem为数据项总个数;
3、数据一致度C的计算
此公式以数据集中一个数据库为考察对象,其中,Ci为被评估数据集第i个数据库的一致度;fni为第i个数据库中总属性数,nname为第i个数据库中命名约定不一致的属性数,ncode为第i个数据库中所用数据代码不一致的属性数,nform为第i个数据库中输入字段的格式不一致的属性数,L为被评估数据集中包含的数据库的个数,Wi为第i个数据库的权重;
4、数据时间价值T的计算
其中,tp表示信息发布的时间,tc表示当前的时间,C(tc,tp)表示信息在tc时刻的影响力大小,即tc时刻的时间价值,a代表的是信息的老化率系数,老化率系数a设置为0.1;
5、通过公式评估数据质量
其中,Qi是按照数据内容分类的第i类数据的数据质量因子;
二、数据规模评估,包括:
1、数据属性数的计算
1)数值数据的属性数计算
(1)通过公式计算数值属性A和B的相关系数rA,B,
其中,n是数据元组的个数,ai和bi分别是元组i在A和B上值,和分别是A和B的均值,σA和σB分别是A和B的标准差;
(2)在得到相关系数后,对数值数据的属性数进行压缩,得到各属性的属性数之和;
2)标称、分类数据的属性数计算
(1)通过χ2检验来判断相关性;
其中,oij是联合事件(Ai,Bj)的观测频度,而eij是(Ai,Bj)的期望频度;
其中,n是数据元组的个数,count(A=ai)是A上值为ai的元组个数,count(B=bi)是B上值为bi的元组个数;χ2统计检验假设A和B独立,基于检验水平,具有自由度(R-1)×(C-1);通过上述公式计算χ2的值,再与χ2检验的拒绝域比较,则可判段两个属性的相关性;
根据多次计算检验,得到自相关的情况下χ2=n,故在χ2>10.828的前提下,可将rA,B作为两个属性之间的相关度,公式如下:
其中,R,C是分类变量的类别数;
(2)在得到相关系数后,对数值数据的属性数进行压缩,属性压缩步骤:
①构建相关系数矩阵
其中,rij=为属性fi和fj的相关度,Ri为属性fi与其他属性相关性的总和,
②将R矩阵的行按Ri从大到小的顺序排序,得到
③增加一列f0代表单个属性初始规模基准
④压缩矩阵得到
⑤将对角线上的元素相加就得到压缩后的属性个数
fnc=r′11+r′22+…+r′nn
2、直接统计得到数据表中的数据元组个数:tnj;
3、单位信息量的计算
(1)离散型属性的信息熵计算公式为:
其中,P(xi)是每个属性值出现的概率;
(2)连续型属性的信息熵的计算:
先选择一种离散化方法对其离散化以后,再按离散型属性信息熵的计算公式进行计算;
(3)得到每个属性的信息熵后,求出属性的平均信息熵:
fn为压缩前单个数据表的属性数;
于是得到单个数据表规模的计算公式:
其中,S为某一张数据表的数据规模衡量因子(单位为bit),fnc为此数据表压缩后的数据属性数,tn为此数据表的元组数,为所有属性的平均信息熵;
三、数据内容评估
采用AHP三标度法构造一个比较矩阵B=(bij)n×n,bij为同一层次上元素比较所得标度取值,具体为
用下式计算各元素的重要性排序指数:
记rmax=MAX{ri},rmin=MIN{ri},bm=rmax/rmin,求出判断矩阵c=(cij)n×n:
从而得到
得到判断矩阵后,按以下步骤计算和检验:
(1)用方根法计算权重,公式如下:
计算步骤:①将c的元素按行相乘得一新向量,
②将新向量的每个分量开n次方,
③将所得向量归一化即为权重向量;
(2)计算一致性指标CI
其中,λmax为判断矩阵C的最大特征值;
(3)查找一致性指标RI
(4)计算一致性比例CR
当CR<0.10时,认为判断矩阵的一致性是可以接受的,否则应对判断矩阵作适量修正;由此,得到以内容分类的每类数据的权重;
四、行业价值计算
1、取税收收入最高的行业,将其价值分数定为100;
2、将其他行业的税收与最高的行业税收相除,再乘以100,得到其他行业的行业价值;
五、数据资产价值计算
1、将数据质量因子Qij、数据规模因子Sij以及按内容分类的权重Wi相乘,如果第i类数据包含多张数据表,则先计算单张数据表,再将这几张数据表的结果累加;
2、按内容分类的每类均按上述计算方法进行计算,得到的结果依次累加;
3、将累加的结果与计算得到的行业价值相乘得到数据资产的价值分数V;
4、通过价值分数V评估数据资产价值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆邮电大学;北京软云神州科技有限公司,未经重庆邮电大学;北京软云神州科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710058720.7/1.html,转载请声明来源钻瓜专利网。
- 同类专利
- 专利分类
G06Q 专门适用于行政、商业、金融、管理、监督或预测目的的数据处理系统或方法;其他类目不包含的专门适用于行政、商业、金融、管理、监督或预测目的的处理系统或方法
G06Q10-00 行政;管理
G06Q10-02 .预定,例如用于门票、服务或事件的
G06Q10-04 .预测或优化,例如线性规划、“旅行商问题”或“下料问题”
G06Q10-06 .资源、工作流、人员或项目管理,例如组织、规划、调度或分配时间、人员或机器资源;企业规划;组织模型
G06Q10-08 .物流,例如仓储、装货、配送或运输;存货或库存管理,例如订货、采购或平衡订单
G06Q10-10 .办公自动化,例如电子邮件或群件的计算机辅助管理
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置





