[发明专利]基于多元异构数据的画像构建方法在审

专利信息
申请号: 202010773966.4 申请日: 2020-08-04
公开(公告)号: CN111984640A 公开(公告)日: 2020-11-24
发明(设计)人: 承孝敏;水新莹;赵勇 申请(专利权)人: 中国科学技术大学智慧城市研究院(芜湖)
主分类号: G06F16/215 分类号: G06F16/215;G06F16/2455;G06F16/28;G06Q50/26
代理公司: 芜湖安汇知识产权代理有限公司 34107 代理人: 钟雪
地址: 241000 安徽省*** 国省代码: 安徽;34
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 多元 数据 画像 构建 方法
【说明书】:

发明公开了一种基于多元异构数据的画像构建方法,该方法具体包括如下步骤:S1、向政务资源目录及社会资源目录分别导入政务数据及社会数据,政务资源目录及社会资源目录中的数据对进行质量校验,并标记该数据的可信权重;S2、对质量校验合格的元数据配置元数据的查询使用关系;S3、解析元数据的查询使用关系,生成sql语句;S4、取出可信权重高的元数据,基于所述取出的元数据及元数据查询使用关系构建画像。通过多源异构数据进行融合清洗,筛选出可信权重高的政务资源目录信息资源项;按照业务需求和元数据规范建立元数据,支持相同逻辑的模型进行调用,如果元数据需要调整,只需调整一次元数据,不需要每个模型都进行重构或调整。

技术领域

本发明属于大数据技术领域,更具体地,本发明涉及一种基于多元异构数据的画像构建方法。

背景技术

由于政务数据也分散于各相关部门的不同数据库系统中,政务数据整体呈现海量、无序、多源异构等特点。

在大数据时代,政务数据不再局限于简单的单部门查询,涉及多部门融合数据时候,目前常见的问题及处理技术是:运维团队根据业务需求使用 SQL进行取数,通过大量的编码进行实现,在业务转系统实现过程中存在大量重复工作、过程繁琐不透明等问题。

发明内容

本发明提供一种基于多元异构数据的画像构建方法,旨在改善上述问题。

本发明是这样实现的,基于多元异构数据的画像构建方法具体包括如下步骤:

S1、向政务资源目录及社会资源目录分别导入政务数据及社会数据,政务资源目录及社会资源目录中的数据对进行质量校验,并标记该数据的可信权重;

S2、对质量校验合格的元数据配置元数据的查询使用关系;

S3、解析元数据的查询使用关系,生成sql语句;

S4、取出可信权重高的元数据,基于所述取出的元数据及元数据查询使用关系构建画像。

进一步的,将质量校验不合格的数据放入脏数据区内,并执行如下步骤:

S5、对脏数据区内的数据进行清洗;

S6、清洗完毕后,对清洗后的数据进行质量校验,并更新该数据的可信权重,若质量校验为合格的元数据,则执行步骤S2,若质量校验为不合格的数据,则执行步骤S5;

脏数据区内的数据至少存在如下一个问题:缺失数据、错误数据及重复数据。

进一步的,数据的质量校验方法具体如下:

基于数据质量规则模型进行数据的质量校验,数据质量规则模型由若干数据质量校验模板组成,数据质量校验模板包括如下几种:

空值校验模板:校验数据是否含有空值;

枚举校验模板:校验数据的取值是否位于设定的范围内;

最大值校验、最小值校验模板:校验数据中的字段取值是否超过最大值、最小值范围;

身份证校验模板:校验数据中的身份证字段是否满足身份证号的设置规则;

日期格式校验模板:校验数据中的日期和时间表示是否符合公历日期、时间以及时间间隔的表示法;

唯一性校验模板:校验某列数据是否唯一;

波动性检核模板:波动性检核是对表中的记录数或字段数据值对比之前的业务周期数据值的波动趋势是否在一定范围内;

逻辑性检核模板:校验数据表是否与参照表中记载的字段格式或字段值一致。

进一步的,数据清洗过程具体如下:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学技术大学智慧城市研究院(芜湖),未经中国科学技术大学智慧城市研究院(芜湖)许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010773966.4/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top