[发明专利]基于多元异构数据的画像构建方法在审
| 申请号: | 202010773966.4 | 申请日: | 2020-08-04 |
| 公开(公告)号: | CN111984640A | 公开(公告)日: | 2020-11-24 |
| 发明(设计)人: | 承孝敏;水新莹;赵勇 | 申请(专利权)人: | 中国科学技术大学智慧城市研究院(芜湖) |
| 主分类号: | G06F16/215 | 分类号: | G06F16/215;G06F16/2455;G06F16/28;G06Q50/26 |
| 代理公司: | 芜湖安汇知识产权代理有限公司 34107 | 代理人: | 钟雪 |
| 地址: | 241000 安徽省*** | 国省代码: | 安徽;34 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 多元 数据 画像 构建 方法 | ||
1.基于多元异构数据的画像构建方法,其特征在于,所述方法具体包括如下步骤:
S1、向政务资源目录及社会资源目录分别导入政务数据及社会数据,政务资源目录及社会资源目录中的数据对进行质量校验,并标记该数据的可信权重;
S2、对质量校验合格的元数据配置元数据的查询使用关系;
S3、解析元数据的查询使用关系,生成sql语句;
S4、取出可信权重高的元数据,基于所述取出的元数据及元数据查询使用关系构建画像。
2.如权利要求1所述多元异构数据的画像构建方法,其特征在于,将质量校验不合格的数据放入脏数据区内,并执行如下步骤:
S5、对脏数据区内的数据进行清洗;
S6、清洗完毕后,对清洗后的数据进行质量校验,并更新该数据的可信权重,若质量校验为合格的元数据,则执行步骤S2,若质量校验为不合格的数据,则执行步骤S5;
脏数据区内的数据至少存在如下一个问题:缺失数据、错误数据及重复数据。
3.如权利要求1或2所述多元异构数据的画像构建方法,其特征在于,数据的质量校验方法具体如下:
基于数据质量规则模型进行数据的质量校验,数据质量规则模型由若干数据质量校验模板组成,数据质量校验模板包括如下几种:
空值校验模板:校验数据是否含有空值;
枚举校验模板:校验数据的取值是否位于设定的范围内;
最大值校验、最小值校验模板:校验数据中的字段取值是否超过最大值、最小值范围;
身份证校验模板:校验数据中的身份证字段是否满足身份证号的设置规则;
日期格式校验模板:校验数据中的日期和时间表示是否符合公历日期、时间以及时间间隔的表示法;
唯一性校验模板:校验某列数据是否唯一;
波动性检核模板:波动性检核是对表中的记录数或字段数据值对比之前的业务周期数据值的波动趋势是否在一定范围内;
逻辑性检核模板:校验数据表是否与参照表中记载的字段格式或字段值一致。
4.如权利要2所述多元异构数据的画像构建方法,其特征在于,数据清洗过程具体如下:
1)若数据存在缺失数据问题,从其他数据原查找属性相同的属性值,将平均属性值、最大属性值、最小属性值或概率估计代替缺失的属性值;
2)若数据存在错误数据问题,
对于全角字符、或数据前后有不可见字符的数据错误,使用已有算法进行识别,并替换成正确数据;
对于日期等格式不正确的或者是日期越界的数据错误,使用数据质量校验模板进行识别,替换成正确的日期格式;
相同属性的数据在不同数据表中的属性值不相同,在更新时间较新的属性值中取可信权重值较大的属性值,赋予相对应数据;
3)若数据存在数据重复问题,通过判断相同记录间的属性值是否相等来检测记录是否相等,将重复数据记录的所有字段使用算法合并为一条记录。
5.如权利要1所述多元异构数据的画像构建方法,其特征在于,数据的可信权重的获取方法具体如下:
数据的可信权重是基于该部门导入的历史数据质量来生成的,采用历史数据的正确率来评价历史数据质量,历史数据的正确率为正确数据量与总数据量的比值,正确的数据是指满足数据质量规则模型校验的元数据。
6.如权利要2所述多元异构数据的画像构建方法,其特征在于,步骤S6中的数据可信权重更新方法具体如下:
定义数据质量规则模型中各数据质量校验模板的权重系数;
获取清洗后新增的质量校验通过的数据质量校验模板,并计算该质量校验模板的权重系数之和;
上述权重系数之和与清洗前元数据的不可信权重的乘积即为清洗前元数据的可信权重增量;
数据质量规则模型所有数据质量校验模板的权重系数之和为1,元数据的可信权重与不可信权重之和为1。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学技术大学智慧城市研究院(芜湖),未经中国科学技术大学智慧城市研究院(芜湖)许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010773966.4/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种汽车发盖内板可视的美观性校核方法
- 下一篇:一种船舶避碰环境建模方法
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置





