[发明专利]基于多元异构数据的画像构建方法在审

专利信息
申请号: 202010773966.4 申请日: 2020-08-04
公开(公告)号: CN111984640A 公开(公告)日: 2020-11-24
发明(设计)人: 承孝敏;水新莹;赵勇 申请(专利权)人: 中国科学技术大学智慧城市研究院(芜湖)
主分类号: G06F16/215 分类号: G06F16/215;G06F16/2455;G06F16/28;G06Q50/26
代理公司: 芜湖安汇知识产权代理有限公司 34107 代理人: 钟雪
地址: 241000 安徽省*** 国省代码: 安徽;34
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 多元 数据 画像 构建 方法
【权利要求书】:

1.基于多元异构数据的画像构建方法,其特征在于,所述方法具体包括如下步骤:

S1、向政务资源目录及社会资源目录分别导入政务数据及社会数据,政务资源目录及社会资源目录中的数据对进行质量校验,并标记该数据的可信权重;

S2、对质量校验合格的元数据配置元数据的查询使用关系;

S3、解析元数据的查询使用关系,生成sql语句;

S4、取出可信权重高的元数据,基于所述取出的元数据及元数据查询使用关系构建画像。

2.如权利要求1所述多元异构数据的画像构建方法,其特征在于,将质量校验不合格的数据放入脏数据区内,并执行如下步骤:

S5、对脏数据区内的数据进行清洗;

S6、清洗完毕后,对清洗后的数据进行质量校验,并更新该数据的可信权重,若质量校验为合格的元数据,则执行步骤S2,若质量校验为不合格的数据,则执行步骤S5;

脏数据区内的数据至少存在如下一个问题:缺失数据、错误数据及重复数据。

3.如权利要求1或2所述多元异构数据的画像构建方法,其特征在于,数据的质量校验方法具体如下:

基于数据质量规则模型进行数据的质量校验,数据质量规则模型由若干数据质量校验模板组成,数据质量校验模板包括如下几种:

空值校验模板:校验数据是否含有空值;

枚举校验模板:校验数据的取值是否位于设定的范围内;

最大值校验、最小值校验模板:校验数据中的字段取值是否超过最大值、最小值范围;

身份证校验模板:校验数据中的身份证字段是否满足身份证号的设置规则;

日期格式校验模板:校验数据中的日期和时间表示是否符合公历日期、时间以及时间间隔的表示法;

唯一性校验模板:校验某列数据是否唯一;

波动性检核模板:波动性检核是对表中的记录数或字段数据值对比之前的业务周期数据值的波动趋势是否在一定范围内;

逻辑性检核模板:校验数据表是否与参照表中记载的字段格式或字段值一致。

4.如权利要2所述多元异构数据的画像构建方法,其特征在于,数据清洗过程具体如下:

1)若数据存在缺失数据问题,从其他数据原查找属性相同的属性值,将平均属性值、最大属性值、最小属性值或概率估计代替缺失的属性值;

2)若数据存在错误数据问题,

对于全角字符、或数据前后有不可见字符的数据错误,使用已有算法进行识别,并替换成正确数据;

对于日期等格式不正确的或者是日期越界的数据错误,使用数据质量校验模板进行识别,替换成正确的日期格式;

相同属性的数据在不同数据表中的属性值不相同,在更新时间较新的属性值中取可信权重值较大的属性值,赋予相对应数据;

3)若数据存在数据重复问题,通过判断相同记录间的属性值是否相等来检测记录是否相等,将重复数据记录的所有字段使用算法合并为一条记录。

5.如权利要1所述多元异构数据的画像构建方法,其特征在于,数据的可信权重的获取方法具体如下:

数据的可信权重是基于该部门导入的历史数据质量来生成的,采用历史数据的正确率来评价历史数据质量,历史数据的正确率为正确数据量与总数据量的比值,正确的数据是指满足数据质量规则模型校验的元数据。

6.如权利要2所述多元异构数据的画像构建方法,其特征在于,步骤S6中的数据可信权重更新方法具体如下:

定义数据质量规则模型中各数据质量校验模板的权重系数;

获取清洗后新增的质量校验通过的数据质量校验模板,并计算该质量校验模板的权重系数之和;

上述权重系数之和与清洗前元数据的不可信权重的乘积即为清洗前元数据的可信权重增量;

数据质量规则模型所有数据质量校验模板的权重系数之和为1,元数据的可信权重与不可信权重之和为1。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学技术大学智慧城市研究院(芜湖),未经中国科学技术大学智慧城市研究院(芜湖)许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010773966.4/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top