[发明专利]大数据资产评估方法在审

专利信息
申请号: 201710058720.7 申请日: 2017-01-23
公开(公告)号: CN106845846A 公开(公告)日: 2017-06-13
发明(设计)人: 卓颋;殷荣华;刘洪明;舒夕珂;曹慧英 申请(专利权)人: 重庆邮电大学;北京软云神州科技有限公司
主分类号: G06Q10/06 分类号: G06Q10/06;G06Q40/00
代理公司: 重庆信航知识产权代理有限公司50218 代理人: 吴彬
地址: 400000 重*** 国省代码: 重庆;85
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明公开了一种大数据资产评估方法,大数据资产评估方法,包括一、数据质量评估,数据质量的指标包括准确性、完整性、一致性、时效性;二、数据规模评估,数据规模指标包括数据属性数、数据元组数以及单位信息量;三、数据内容评估,数据内容包括交易数据、个人信息、商品信息、生产管理数据、用户评价数据及社交网络数据;四、行业价值计算;五、数据资产价值计算。本发明大数据资产评估方法,其为数据资产的评估提供了具体的量化标准,使评判过程更简单明晰,消除了评判者的主观因素影响,使评判结果与实际更相符合。
搜索关键词: 数据 资产评估 方法
【主权项】:
一种大数据资产评估方法,其特征在于,包括:一、数据质量评估,包括:1、数据准确率的计算首先从数据表中分别抽样得到训练集、检验集和准确率预测集,每次针对训练集中的一个可预测属性f,设定其为类标号,训练得到一个分类器,并通过检验集进行性能检测;然后用此分类器对预测集中的每个元组的该属性f的值进行预测,预测值和实际值一致,对于数值属性,其差异不超出一定的阈值,则认为该属性值为正确的,而准确预测的元组比率即为数据表关于该属性的准确率af,对数据表中的每个属性重复这一过程,得到每个属性的准确率aj;其中j=1、2、…、m,m为可预测属性的个数;其中,nt为预测集中的元组数,nrj为预测集中被正确分类的元组数;计算这些aj的加权算术平均值得到数据表的综合准确率A,即:A=Σj=1mfwjajm]]>其中,j为被预测属性的编号,wfj为属性j的权重,其值可以根据属性j的取值范围和离散程度来决定,因为属性取值范围越大、离散程度越高,其预测的准确率越低,赋予的权重应越小;权重的计算公式为:wfj=(1-hjΣjmhj)/m-1]]>其中,hj为属性j的熵,熵代表了属性取值范围的大小和离散程度的高低,其计算公式为:hj=-Σf=1vpf×log2(pf)]]>其中,v为取值的个数,pf为属性取第f个值的概率;最后整个数据集的总准确率为:A=Σi=1twtiAit]]>其中,wti为表i的权重,t为被评估数据集中表的总个数。权重的公式为:wti=nti×nfiΣi=1tnt×nf;]]>其中,nti为表i的元组数,nfi为整个数据集的属性数,nt为整个数据集的元组数,nf为整个数据集的属性数;2、数据完整度I的计算I=nnullnitem]]>其中,nnull为缺失或为null的数据项个数,nitem为数据项总个数;3、数据一致度C的计算Ci=1-nname+ncode+nformfni;]]>Wi=fniΣi=1Lfni;]]>C=Σi=1LWiCi]]>此公式以数据集中一个数据库为考察对象,其中,Ci为被评估数据集第i个数据库的一致度;fni为第i个数据库中总属性数,nname为第i个数据库中命名约定不一致的属性数,ncode为第i个数据库中所用数据代码不一致的属性数,nform为第i个数据库中输入字段的格式不一致的属性数,L为被评估数据集中包含的数据库的个数,Wi为第i个数据库的权重;4、数据时间价值T的计算C(tc,tp)=e-a(tc-tp),T=C(tc,tp)=e-0.1(tc-tp)]]>其中,tp表示信息发布的时间,tc表示当前的时间,C(tc,tp)表示信息在tc时刻的影响力大小,即tc时刻的时间价值,a代表的是信息的老化率系数,老化率系数a设置为0.1;5、通过公式评估数据质量Qi=14(A+I+C+T)]]>其中,Qi是按照数据内容分类的第i类数据的数据质量因子;二、数据规模评估,包括:1、数据属性数的计算1)数值数据的属性数计算(1)通过公式计算数值属性A和B的相关系数rA,B,rA,B=Σi=1n(ai-A‾)(bi-B‾)nσAσB=Σi=1n(aibi)-nA‾B‾nσAσB]]>其中,n是数据元组的个数,ai和bi分别是元组i在A和B上值,和分别是A和B的均值,σA和σB分别是A和B的标准差;(2)在得到相关系数后,对数值数据的属性数进行压缩,得到各属性的属性数之和;2)标称、分类数据的属性数计算(1)通过χ2检验来判断相关性;χ2=Σi=1cΣj=1r(oij-eij)2eij]]>其中,oij是联合事件(Ai,Bj)的观测频度,而eij是(Ai,Bj)的期望频度;eij=count(A=ai)×count(B=bi)n]]>其中,n是数据元组的个数,count(A=ai)是A上值为ai的元组个数,count(B=bi)是B上值为bi的元组个数;χ2统计检验假设A和B独立,基于检验水平,具有自由度(R‑1)×(C‑1);通过上述公式计算χ2的值,再与χ2检验的拒绝域比较,则可判段两个属性的相关性;根据多次计算检验,得到自相关的情况下χ2=n,故在χ2>10.828的前提下,可将rA,B作为两个属性之间的相关度,公式如下:rA,B=χ2nmin[R-1,C-1]]]>其中,R,C是分类变量的类别数;(2)在得到相关系数后,对数值数据的属性数进行压缩,属性压缩步骤:①构建相关系数矩阵其中,rij=为属性fi和fj的相关度,Ri为属性fi与其他属性相关性的总和,Ri=Σj=1nrij-1;i∈{1,2,...,n};]]>②将R矩阵的行按Ri从大到小的顺序排序,得到③增加一列f0代表单个属性初始规模基准④压缩矩阵得到⑤将对角线上的元素相加就得到压缩后的属性个数fnc=r′11+r′22+…+r′nn2、直接统计得到数据表中的数据元组个数:tnj;3、单位信息量的计算(1)离散型属性的信息熵计算公式为:H(X)=-Σi=1nP(xi)log2[P(xi)]]]>其中,P(xi)是每个属性值出现的概率;(2)连续型属性的信息熵的计算:先选择一种离散化方法对其离散化以后,再按离散型属性信息熵的计算公式进行计算;(3)得到每个属性的信息熵后,求出属性的平均信息熵:fn为压缩前单个数据表的属性数;于是得到单个数据表规模的计算公式:S=tn×fnc×H(A)‾]]>其中,S为某一张数据表的数据规模衡量因子(单位为bit),fnc为此数据表压缩后的数据属性数,tn为此数据表的元组数,为所有属性的平均信息熵;三、数据内容评估采用AHP三标度法构造一个比较矩阵B=(bij)n×n,bij为同一层次上元素比较所得标度取值,具体为用下式计算各元素的重要性排序指数:ri=Σj=1nbij,i=1,2,...,n.]]>记rmax=MAX{ri},rmin=MIN{ri},bm=rmax/rmin,求出判断矩阵c=(cij)n×n:cij=[(ri-rj)/(rmax-rmin)]×(bm-1)+1ri≥rj{[(rj-ri)/(rmax-rmin)]×(bm-1)+1}-1ri<rj]]>从而得到得到判断矩阵后,按以下步骤计算和检验:(1)用方根法计算权重,公式如下:Wi=(Πj=1naij)1nΣi=1n(Πj=1naij)1n,i=1,2,3,...,n.]]>计算步骤:①将c的元素按行相乘得一新向量,②将新向量的每个分量开n次方,③将所得向量归一化即为权重向量;(2)计算一致性指标CICI=λmax-nn-1]]>其中,λmax为判断矩阵C的最大特征值;(3)查找一致性指标RI(4)计算一致性比例CRCR=CIRI]]>当CR<0.10时,认为判断矩阵的一致性是可以接受的,否则应对判断矩阵作适量修正;由此,得到以内容分类的每类数据的权重;四、行业价值计算1、取税收收入最高的行业,将其价值分数定为100;2、将其他行业的税收与最高的行业税收相除,再乘以100,得到其他行业的行业价值;五、数据资产价值计算1、将数据质量因子Qij、数据规模因子Sij以及按内容分类的权重Wi相乘,如果第i类数据包含多张数据表,则先计算单张数据表,再将这几张数据表的结果累加;2、按内容分类的每类均按上述计算方法进行计算,得到的结果依次累加;3、将累加的结果与计算得到的行业价值相乘得到数据资产的价值分数V;4、通过价值分数V评估数据资产价值。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆邮电大学;北京软云神州科技有限公司,未经重庆邮电大学;北京软云神州科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201710058720.7/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top