[发明专利]大数据资产评估方法在审

专利信息
申请号: 201710058720.7 申请日: 2017-01-23
公开(公告)号: CN106845846A 公开(公告)日: 2017-06-13
发明(设计)人: 卓颋;殷荣华;刘洪明;舒夕珂;曹慧英 申请(专利权)人: 重庆邮电大学;北京软云神州科技有限公司
主分类号: G06Q10/06 分类号: G06Q10/06;G06Q40/00
代理公司: 重庆信航知识产权代理有限公司50218 代理人: 吴彬
地址: 400000 重*** 国省代码: 重庆;85
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 数据 资产评估 方法
【权利要求书】:

1.一种大数据资产评估方法,其特征在于,包括:

一、数据质量评估,包括:

1、数据准确率的计算

首先从数据表中分别抽样得到训练集、检验集和准确率预测集,每次针对训练集中的一个可预测属性f,设定其为类标号,训练得到一个分类器,并通过检验集进行性能检测;然后用此分类器对预测集中的每个元组的该属性f的值进行预测,预测值和实际值一致,对于数值属性,其差异不超出一定的阈值,则认为该属性值为正确的,而准确预测的元组比率即为数据表关于该属性的准确率af,对数据表中的每个属性重复这一过程,得到每个属性的准确率aj

其中j=1、2、…、m,m为可预测属性的个数;

其中,nt为预测集中的元组数,nrj为预测集中被正确分类的元组数;计算这些aj的加权算术平均值得到数据表的综合准确率A,即:

<mrow><mi>A</mi><mo>=</mo><mfrac><mrow><msubsup><mi>&Sigma;</mi><mrow><mi>j</mi><mo>=</mo><mn>1</mn></mrow><mi>m</mi></msubsup><msub><mi>fw</mi><mi>j</mi></msub><msub><mi>a</mi><mi>j</mi></msub></mrow><mi>m</mi></mfrac></mrow>

其中,j为被预测属性的编号,wfj为属性j的权重,其值可以根据属性j的取值范围和离散程度来决定,因为属性取值范围越大、离散程度越高,其预测的准确率越低,赋予的权重应越小;权重的计算公式为:

<mrow><msub><mi>wf</mi><mi>j</mi></msub><mo>=</mo><mrow><mo>(</mo><mn>1</mn><mo>-</mo><mfrac><msub><mi>h</mi><mi>j</mi></msub><mrow><msubsup><mi>&Sigma;</mi><mi>j</mi><mi>m</mi></msubsup><msub><mi>h</mi><mi>j</mi></msub></mrow></mfrac><mo>)</mo></mrow><mo>/</mo><mi>m</mi><mo>-</mo><mn>1</mn></mrow>

其中,hj为属性j的熵,熵代表了属性取值范围的大小和离散程度的高低,其计算公式为:

<mrow><msub><mi>h</mi><mi>j</mi></msub><mo>=</mo><mo>-</mo><munderover><mi>&Sigma;</mi><mrow><mi>f</mi><mo>=</mo><mn>1</mn></mrow><mi>v</mi></munderover><msub><mi>p</mi><mi>f</mi></msub><mo>&times;</mo><msub><mi>log</mi><mn>2</mn></msub><mrow><mo>(</mo><msub><mi>p</mi><mi>f</mi></msub><mo>)</mo></mrow></mrow>

其中,v为取值的个数,pf为属性取第f个值的概率;

最后整个数据集的总准确率为:

<mrow><mi>A</mi><mo>=</mo><mfrac><mrow><msubsup><mi>&Sigma;</mi><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>t</mi></msubsup><msub><mi>wt</mi><mi>i</mi></msub><msub><mi>A</mi><mi>i</mi></msub></mrow><mi>t</mi></mfrac></mrow>

其中,wti为表i的权重,t为被评估数据集中表的总个数。权重的公式为:

<mrow><msub><mi>wt</mi><mi>i</mi></msub><mo>=</mo><mfrac><mrow><msub><mi>nt</mi><mi>i</mi></msub><mo>&times;</mo><msub><mi>nf</mi><mi>i</mi></msub></mrow><mrow><msubsup><mi>&Sigma;</mi><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>t</mi></msubsup><mi>n</mi><mi>t</mi><mo>&times;</mo><mi>n</mi><mi>f</mi></mrow></mfrac><mo>;</mo></mrow>

其中,nti为表i的元组数,nfi为整个数据集的属性数,nt为整个数据集的元组数,nf为整个数据集的属性数;

2、数据完整度I的计算

<mrow><mi>I</mi><mo>=</mo><mfrac><msub><mi>n</mi><mrow><mi>n</mi><mi>u</mi><mi>l</mi><mi>l</mi></mrow></msub><msub><mi>n</mi><mrow><mi>i</mi><mi>t</mi><mi>e</mi><mi>m</mi></mrow></msub></mfrac></mrow>

其中,nnull为缺失或为null的数据项个数,nitem为数据项总个数;

3、数据一致度C的计算

<mrow><msub><mi>C</mi><mi>i</mi></msub><mo>=</mo><mn>1</mn><mo>-</mo><mfrac><mrow><msub><mi>n</mi><mrow><mi>n</mi><mi>a</mi><mi>m</mi><mi>e</mi></mrow></msub><mo>+</mo><msub><mi>n</mi><mrow><mi>c</mi><mi>o</mi><mi>d</mi><mi>e</mi></mrow></msub><mo>+</mo><msub><mi>n</mi><mrow><mi>f</mi><mi>o</mi><mi>r</mi><mi>m</mi></mrow></msub></mrow><mrow><msub><mi>fn</mi><mi>i</mi></msub></mrow></mfrac><mo>;</mo></mrow>

<mrow><msub><mi>W</mi><mi>i</mi></msub><mo>=</mo><mfrac><mrow><msub><mi>fn</mi><mi>i</mi></msub></mrow><mrow><msubsup><mi>&Sigma;</mi><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>L</mi></msubsup><msub><mi>fn</mi><mi>i</mi></msub></mrow></mfrac><mo>;</mo></mrow>

<mrow><mi>C</mi><mo>=</mo><munderover><mi>&Sigma;</mi><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>L</mi></munderover><msub><mi>W</mi><mi>i</mi></msub><msub><mi>C</mi><mi>i</mi></msub></mrow>

此公式以数据集中一个数据库为考察对象,其中,Ci为被评估数据集第i个数据库的一致度;fni为第i个数据库中总属性数,nname为第i个数据库中命名约定不一致的属性数,ncode为第i个数据库中所用数据代码不一致的属性数,nform为第i个数据库中输入字段的格式不一致的属性数,L为被评估数据集中包含的数据库的个数,Wi为第i个数据库的权重;

4、数据时间价值T的计算

<mrow><mi>C</mi><mrow><mo>(</mo><msub><mi>t</mi><mi>c</mi></msub><mo>,</mo><msub><mi>t</mi><mi>p</mi></msub><mo>)</mo></mrow><mo>=</mo><msup><mi>e</mi><mrow><mo>-</mo><mi>a</mi><mrow><mo>(</mo><msub><mi>t</mi><mi>c</mi></msub><mo>-</mo><msub><mi>t</mi><mi>p</mi></msub><mo>)</mo></mrow></mrow></msup><mo>,</mo><mi>T</mi><mo>=</mo><mi>C</mi><mrow><mo>(</mo><msub><mi>t</mi><mi>c</mi></msub><mo>,</mo><msub><mi>t</mi><mi>p</mi></msub><mo>)</mo></mrow><mo>=</mo><msup><mi>e</mi><mrow><mo>-</mo><mn>0.1</mn><mrow><mo>(</mo><msub><mi>t</mi><mi>c</mi></msub><mo>-</mo><msub><mi>t</mi><mi>p</mi></msub><mo>)</mo></mrow></mrow></msup></mrow>

其中,tp表示信息发布的时间,tc表示当前的时间,C(tc,tp)表示信息在tc时刻的影响力大小,即tc时刻的时间价值,a代表的是信息的老化率系数,老化率系数a设置为0.1;

5、通过公式评估数据质量

<mrow><msub><mi>Q</mi><mi>i</mi></msub><mo>=</mo><mfrac><mn>1</mn><mn>4</mn></mfrac><mrow><mo>(</mo><mi>A</mi><mo>+</mo><mi>I</mi><mo>+</mo><mi>C</mi><mo>+</mo><mi>T</mi><mo>)</mo></mrow></mrow>

其中,Qi是按照数据内容分类的第i类数据的数据质量因子;

二、数据规模评估,包括:

1、数据属性数的计算

1)数值数据的属性数计算

(1)通过公式计算数值属性A和B的相关系数rA,B

<mrow><msub><mi>r</mi><mrow><mi>A</mi><mo>,</mo><mi>B</mi></mrow></msub><mo>=</mo><mfrac><mrow><msubsup><mi>&Sigma;</mi><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>n</mi></msubsup><mrow><mo>(</mo><msub><mi>a</mi><mi>i</mi></msub><mo>-</mo><mover><mi>A</mi><mo>&OverBar;</mo></mover><mo>)</mo></mrow><mrow><mo>(</mo><msub><mi>b</mi><mi>i</mi></msub><mo>-</mo><mover><mi>B</mi><mo>&OverBar;</mo></mover><mo>)</mo></mrow></mrow><mrow><msub><mi>n&sigma;</mi><mi>A</mi></msub><msub><mi>&sigma;</mi><mi>B</mi></msub></mrow></mfrac><mo>=</mo><mfrac><mrow><msubsup><mi>&Sigma;</mi><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>n</mi></msubsup><mrow><mo>(</mo><msub><mi>a</mi><mi>i</mi></msub><msub><mi>b</mi><mi>i</mi></msub><mo>)</mo></mrow><mo>-</mo><mi>n</mi><mover><mi>A</mi><mo>&OverBar;</mo></mover><mover><mi>B</mi><mo>&OverBar;</mo></mover></mrow><mrow><msub><mi>n&sigma;</mi><mi>A</mi></msub><msub><mi>&sigma;</mi><mi>B</mi></msub></mrow></mfrac></mrow>

其中,n是数据元组的个数,ai和bi分别是元组i在A和B上值,和分别是A和B的均值,σA和σB分别是A和B的标准差;

(2)在得到相关系数后,对数值数据的属性数进行压缩,得到各属性的属性数之和;

2)标称、分类数据的属性数计算

(1)通过χ2检验来判断相关性;

<mrow><msup><mi>&chi;</mi><mn>2</mn></msup><mo>=</mo><msubsup><mi>&Sigma;</mi><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>c</mi></msubsup><msubsup><mi>&Sigma;</mi><mrow><mi>j</mi><mo>=</mo><mn>1</mn></mrow><mi>r</mi></msubsup><mfrac><msup><mrow><mo>(</mo><msub><mi>o</mi><mrow><mi>i</mi><mi>j</mi></mrow></msub><mo>-</mo><msub><mi>e</mi><mrow><mi>i</mi><mi>j</mi></mrow></msub><mo>)</mo></mrow><mn>2</mn></msup><msub><mi>e</mi><mrow><mi>i</mi><mi>j</mi></mrow></msub></mfrac></mrow>

其中,oij是联合事件(Ai,Bj)的观测频度,而eij是(Ai,Bj)的期望频度;

<mrow><msub><mi>e</mi><mrow><mi>i</mi><mi>j</mi></mrow></msub><mo>=</mo><mfrac><mrow><mi>c</mi><mi>o</mi><mi>u</mi><mi>n</mi><mi>t</mi><mrow><mo>(</mo><mi>A</mi><mo>=</mo><msub><mi>a</mi><mi>i</mi></msub><mo>)</mo></mrow><mo>&times;</mo><mi>c</mi><mi>o</mi><mi>u</mi><mi>n</mi><mi>t</mi><mrow><mo>(</mo><mi>B</mi><mo>=</mo><msub><mi>b</mi><mi>i</mi></msub><mo>)</mo></mrow></mrow><mi>n</mi></mfrac></mrow>

其中,n是数据元组的个数,count(A=ai)是A上值为ai的元组个数,count(B=bi)是B上值为bi的元组个数;χ2统计检验假设A和B独立,基于检验水平,具有自由度(R-1)×(C-1);通过上述公式计算χ2的值,再与χ2检验的拒绝域比较,则可判段两个属性的相关性;

根据多次计算检验,得到自相关的情况下χ2=n,故在χ2>10.828的前提下,可将rA,B作为两个属性之间的相关度,公式如下:

<mrow><msub><mi>r</mi><mrow><mi>A</mi><mo>,</mo><mi>B</mi></mrow></msub><mo>=</mo><msqrt><mfrac><msup><mi>&chi;</mi><mn>2</mn></msup><mrow><mi>n</mi><mi>m</mi><mi>i</mi><mi>n</mi><mo>&lsqb;</mo><mi>R</mi><mo>-</mo><mn>1</mn><mo>,</mo><mi>C</mi><mo>-</mo><mn>1</mn><mo>&rsqb;</mo></mrow></mfrac></msqrt></mrow>

其中,R,C是分类变量的类别数;

(2)在得到相关系数后,对数值数据的属性数进行压缩,属性压缩步骤:

①构建相关系数矩阵

其中,rij=为属性fi和fj的相关度,Ri为属性fi与其他属性相关性的总和,

<mrow><msub><mi>R</mi><mi>i</mi></msub><mo>=</mo><msubsup><mi>&Sigma;</mi><mrow><mi>j</mi><mo>=</mo><mn>1</mn></mrow><mi>n</mi></msubsup><msub><mi>r</mi><mrow><mi>i</mi><mi>j</mi></mrow></msub><mo>-</mo><mn>1</mn><mo>;</mo><mi>i</mi><mo>&Element;</mo><mo>{</mo><mn>1</mn><mo>,</mo><mn>2</mn><mo>,</mo><mo>...</mo><mo>,</mo><mi>n</mi><mo>}</mo><mo>;</mo></mrow>

②将R矩阵的行按Ri从大到小的顺序排序,得到

③增加一列f0代表单个属性初始规模基准

④压缩矩阵得到

⑤将对角线上的元素相加就得到压缩后的属性个数

fnc=r′11+r′22+…+r′nn

2、直接统计得到数据表中的数据元组个数:tnj

3、单位信息量的计算

(1)离散型属性的信息熵计算公式为:

<mrow><mi>H</mi><mrow><mo>(</mo><mi>X</mi><mo>)</mo></mrow><mo>=</mo><mo>-</mo><msubsup><mi>&Sigma;</mi><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>n</mi></msubsup><mi>P</mi><mrow><mo>(</mo><msub><mi>x</mi><mi>i</mi></msub><mo>)</mo></mrow><msub><mi>log</mi><mn>2</mn></msub><mo>&lsqb;</mo><mi>P</mi><mrow><mo>(</mo><msub><mi>x</mi><mi>i</mi></msub><mo>)</mo></mrow><mo>&rsqb;</mo></mrow>

其中,P(xi)是每个属性值出现的概率;

(2)连续型属性的信息熵的计算:

先选择一种离散化方法对其离散化以后,再按离散型属性信息熵的计算公式进行计算;

(3)得到每个属性的信息熵后,求出属性的平均信息熵:

fn为压缩前单个数据表的属性数;

于是得到单个数据表规模的计算公式:

<mrow><mi>S</mi><mo>=</mo><mi>t</mi><mi>n</mi><mo>&times;</mo><msub><mi>fn</mi><mi>c</mi></msub><mo>&times;</mo><mover><mrow><mi>H</mi><mrow><mo>(</mo><mi>A</mi><mo>)</mo></mrow></mrow><mo>&OverBar;</mo></mover></mrow>

其中,S为某一张数据表的数据规模衡量因子(单位为bit),fnc为此数据表压缩后的数据属性数,tn为此数据表的元组数,为所有属性的平均信息熵;

三、数据内容评估

采用AHP三标度法构造一个比较矩阵B=(bij)n×n,bij为同一层次上元素比较所得标度取值,具体为

用下式计算各元素的重要性排序指数:

<mrow><msub><mi>r</mi><mi>i</mi></msub><mo>=</mo><msubsup><mi>&Sigma;</mi><mrow><mi>j</mi><mo>=</mo><mn>1</mn></mrow><mi>n</mi></msubsup><msub><mi>b</mi><mrow><mi>i</mi><mi>j</mi></mrow></msub><mo>,</mo><mi>i</mi><mo>=</mo><mn>1</mn><mo>,</mo><mn>2</mn><mo>,</mo><mo>...</mo><mo>,</mo><mi>n</mi><mo>.</mo></mrow>

记rmax=MAX{ri},rmin=MIN{ri},bm=rmax/rmin,求出判断矩阵c=(cij)n×n:

<mrow><msub><mi>c</mi><mrow><mi>i</mi><mi>j</mi></mrow></msub><mo>=</mo><mfenced open = "{" close = ""><mtable><mtr><mtd><mrow><mo>&lsqb;</mo><mrow><mo>(</mo><msub><mi>r</mi><mi>i</mi></msub><mo>-</mo><msub><mi>r</mi><mi>j</mi></msub><mo>)</mo></mrow><mo>/</mo><mrow><mo>(</mo><msub><mi>r</mi><mrow><mi>m</mi><mi>a</mi><mi>x</mi></mrow></msub><mo>-</mo><msub><mi>r</mi><mrow><mi>m</mi><mi>i</mi><mi>n</mi></mrow></msub><mo>)</mo></mrow><mo>&rsqb;</mo><mo>&times;</mo><mrow><mo>(</mo><msub><mi>b</mi><mi>m</mi></msub><mo>-</mo><mn>1</mn><mo>)</mo></mrow><mo>+</mo><mn>1</mn></mrow></mtd><mtd><mrow><msub><mi>r</mi><mi>i</mi></msub><mo>&GreaterEqual;</mo><msub><mi>r</mi><mi>j</mi></msub></mrow></mtd></mtr><mtr><mtd><msup><mrow><mo>{</mo><mo>&lsqb;</mo><mrow><mo>(</mo><msub><mi>r</mi><mi>j</mi></msub><mo>-</mo><msub><mi>r</mi><mi>i</mi></msub><mo>)</mo></mrow><mo>/</mo><mrow><mo>(</mo><msub><mi>r</mi><mrow><mi>m</mi><mi>a</mi><mi>x</mi></mrow></msub><mo>-</mo><msub><mi>r</mi><mi>min</mi></msub><mo>)</mo></mrow><mo>&rsqb;</mo><mo>&times;</mo><mrow><mo>(</mo><msub><mi>b</mi><mi>m</mi></msub><mo>-</mo><mn>1</mn><mo>)</mo></mrow><mo>+</mo><mn>1</mn><mo>}</mo></mrow><mrow><mo>-</mo><mn>1</mn></mrow></msup></mtd><mtd><mrow><msub><mi>r</mi><mi>i</mi></msub><mo>&lt;</mo><msub><mi>r</mi><mi>j</mi></msub></mrow></mtd></mtr></mtable></mfenced></mrow>

从而得到

得到判断矩阵后,按以下步骤计算和检验:

(1)用方根法计算权重,公式如下:

<mrow><msub><mi>W</mi><mi>i</mi></msub><mo>=</mo><mfrac><msup><mrow><mo>(</mo><msubsup><mi>&Pi;</mi><mrow><mi>j</mi><mo>=</mo><mn>1</mn></mrow><mi>n</mi></msubsup><msub><mi>a</mi><mrow><mi>i</mi><mi>j</mi></mrow></msub><mo>)</mo></mrow><mfrac><mn>1</mn><mi>n</mi></mfrac></msup><mrow><msubsup><mi>&Sigma;</mi><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>n</mi></msubsup><msup><mrow><mo>(</mo><msubsup><mi>&Pi;</mi><mrow><mi>j</mi><mo>=</mo><mn>1</mn></mrow><mi>n</mi></msubsup><msub><mi>a</mi><mrow><mi>i</mi><mi>j</mi></mrow></msub><mo>)</mo></mrow><mfrac><mn>1</mn><mi>n</mi></mfrac></msup></mrow></mfrac><mo>,</mo><mi>i</mi><mo>=</mo><mn>1</mn><mo>,</mo><mn>2</mn><mo>,</mo><mn>3</mn><mo>,</mo><mn>...</mn><mo>,</mo><mi>n</mi><mo>.</mo></mrow>

计算步骤:①将c的元素按行相乘得一新向量,

②将新向量的每个分量开n次方,

③将所得向量归一化即为权重向量;

(2)计算一致性指标CI

<mrow><mi>C</mi><mi>I</mi><mo>=</mo><mfrac><mrow><msub><mi>&lambda;</mi><mrow><mi>m</mi><mi>a</mi><mi>x</mi></mrow></msub><mo>-</mo><mi>n</mi></mrow><mrow><mi>n</mi><mo>-</mo><mn>1</mn></mrow></mfrac></mrow>

其中,λmax为判断矩阵C的最大特征值;

(3)查找一致性指标RI

(4)计算一致性比例CR

<mrow><mi>C</mi><mi>R</mi><mo>=</mo><mfrac><mrow><mi>C</mi><mi>I</mi></mrow><mrow><mi>R</mi><mi>I</mi></mrow></mfrac></mrow>

当CR<0.10时,认为判断矩阵的一致性是可以接受的,否则应对判断矩阵作适量修正;由此,得到以内容分类的每类数据的权重;

四、行业价值计算

1、取税收收入最高的行业,将其价值分数定为100;

2、将其他行业的税收与最高的行业税收相除,再乘以100,得到其他行业的行业价值;

五、数据资产价值计算

1、将数据质量因子Qij、数据规模因子Sij以及按内容分类的权重Wi相乘,如果第i类数据包含多张数据表,则先计算单张数据表,再将这几张数据表的结果累加;

2、按内容分类的每类均按上述计算方法进行计算,得到的结果依次累加;

3、将累加的结果与计算得到的行业价值相乘得到数据资产的价值分数V;

4、通过价值分数V评估数据资产价值。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆邮电大学;北京软云神州科技有限公司,未经重庆邮电大学;北京软云神州科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201710058720.7/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top