[发明专利]基于多元异构数据的画像构建方法在审
| 申请号: | 202010773966.4 | 申请日: | 2020-08-04 |
| 公开(公告)号: | CN111984640A | 公开(公告)日: | 2020-11-24 |
| 发明(设计)人: | 承孝敏;水新莹;赵勇 | 申请(专利权)人: | 中国科学技术大学智慧城市研究院(芜湖) |
| 主分类号: | G06F16/215 | 分类号: | G06F16/215;G06F16/2455;G06F16/28;G06Q50/26 |
| 代理公司: | 芜湖安汇知识产权代理有限公司 34107 | 代理人: | 钟雪 |
| 地址: | 241000 安徽省*** | 国省代码: | 安徽;34 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 多元 数据 画像 构建 方法 | ||
本发明公开了一种基于多元异构数据的画像构建方法,该方法具体包括如下步骤:S1、向政务资源目录及社会资源目录分别导入政务数据及社会数据,政务资源目录及社会资源目录中的数据对进行质量校验,并标记该数据的可信权重;S2、对质量校验合格的元数据配置元数据的查询使用关系;S3、解析元数据的查询使用关系,生成sql语句;S4、取出可信权重高的元数据,基于所述取出的元数据及元数据查询使用关系构建画像。通过多源异构数据进行融合清洗,筛选出可信权重高的政务资源目录信息资源项;按照业务需求和元数据规范建立元数据,支持相同逻辑的模型进行调用,如果元数据需要调整,只需调整一次元数据,不需要每个模型都进行重构或调整。
技术领域
本发明属于大数据技术领域,更具体地,本发明涉及一种基于多元异构数据的画像构建方法。
背景技术
由于政务数据也分散于各相关部门的不同数据库系统中,政务数据整体呈现海量、无序、多源异构等特点。
在大数据时代,政务数据不再局限于简单的单部门查询,涉及多部门融合数据时候,目前常见的问题及处理技术是:运维团队根据业务需求使用 SQL进行取数,通过大量的编码进行实现,在业务转系统实现过程中存在大量重复工作、过程繁琐不透明等问题。
发明内容
本发明提供一种基于多元异构数据的画像构建方法,旨在改善上述问题。
本发明是这样实现的,基于多元异构数据的画像构建方法具体包括如下步骤:
S1、向政务资源目录及社会资源目录分别导入政务数据及社会数据,政务资源目录及社会资源目录中的数据对进行质量校验,并标记该数据的可信权重;
S2、对质量校验合格的元数据配置元数据的查询使用关系;
S3、解析元数据的查询使用关系,生成sql语句;
S4、取出可信权重高的元数据,基于所述取出的元数据及元数据查询使用关系构建画像。
进一步的,将质量校验不合格的数据放入脏数据区内,并执行如下步骤:
S5、对脏数据区内的数据进行清洗;
S6、清洗完毕后,对清洗后的数据进行质量校验,并更新该数据的可信权重,若质量校验为合格的元数据,则执行步骤S2,若质量校验为不合格的数据,则执行步骤S5;
脏数据区内的数据至少存在如下一个问题:缺失数据、错误数据及重复数据。
进一步的,数据的质量校验方法具体如下:
基于数据质量规则模型进行数据的质量校验,数据质量规则模型由若干数据质量校验模板组成,数据质量校验模板包括如下几种:
空值校验模板:校验数据是否含有空值;
枚举校验模板:校验数据的取值是否位于设定的范围内;
最大值校验、最小值校验模板:校验数据中的字段取值是否超过最大值、最小值范围;
身份证校验模板:校验数据中的身份证字段是否满足身份证号的设置规则;
日期格式校验模板:校验数据中的日期和时间表示是否符合公历日期、时间以及时间间隔的表示法;
唯一性校验模板:校验某列数据是否唯一;
波动性检核模板:波动性检核是对表中的记录数或字段数据值对比之前的业务周期数据值的波动趋势是否在一定范围内;
逻辑性检核模板:校验数据表是否与参照表中记载的字段格式或字段值一致。
进一步的,数据清洗过程具体如下:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学技术大学智慧城市研究院(芜湖),未经中国科学技术大学智慧城市研究院(芜湖)许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010773966.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种汽车发盖内板可视的美观性校核方法
- 下一篇:一种船舶避碰环境建模方法
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置





