[发明专利]数据融合的方法和装置在审
申请号: | 201910362476.2 | 申请日: | 2019-04-30 |
公开(公告)号: | CN110119413A | 公开(公告)日: | 2019-08-13 |
发明(设计)人: | 孟垂实;吴博文;胡安民;郑宇 | 申请(专利权)人: | 京东城市(南京)科技有限公司 |
主分类号: | G06F16/2458 | 分类号: | G06F16/2458;G06F16/215;G06F16/22 |
代理公司: | 中原信达知识产权代理有限责任公司 11219 | 代理人: | 张一军;张效荣 |
地址: | 210014 江苏省南京市南*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据源 关联 方法和装置 数据融合 维度 融合 标签 计算机技术领域 安全快速 高效处理 评分体系 特征分析 梯度建立 字段添加 构建 字段 抽取 筛选 合并 统一 | ||
本发明公开了一种数据融合的方法和装置,涉及计算机技术领域。该方法的一具体实施方式包括:对各个数据源的原始数据表进行筛选合并,得到每个数据源的关联数据表,并为关联数据表中的字段添加维度标签;对关联数据表中的字段进行特征分析,选取待用特征;根据所述维度标签和所述待用特征从各个所述关联数据表中抽取梯度;基于梯度建立融合模型。该实施方式能够对不同数据源的数据进行收集和高效处理,对不同结构的数据进行安全快速的融合,为构建统一的融合信息评分体系提供相同标准和格式的数据。
技术领域
本发明涉及计算机技术领域,尤其涉及一种数据融合的方法和装置。
背景技术
目前大数据分析已应用到各个领域的分析中,通常大数据分析所使用的数据来自于多个异构数据源。由于各业务系统建设和实施数据管理系统的阶段性、技术性以及其它经济和人为因素等因素影响,导致积累了大量采用不同存储方式的业务数据,且采用的数据管理系统也大不相同,从简单的文件数据库到复杂的网络数据库,它们构成了异构数据源。
在社会信用体系建设中,个人的信用评分问题一直是关键所在,通过联合各政府部门的政务数据和互联网数据,实现对失信行为的协同监管和对个人信用状况的全方面评定,对于改善各行业、各部门、各地区的信用环境,保证社会诚信和信用体系顺利建成且能有效运行具有重要作用;
在对个人信用进行评分的过程中,由于涉及个人信用的数据来源于各个政府部门、互联网各个平台,这些数据包含不同的维度,具有不同的数据结构、含有大量重复、缺失、异常数据。如何将这些数据进行安全的整合、同步是实现个人信用评分系统的关键所在。
此外,对于某个物品、某件事或某类事物的分析,通常也可能需要对来自异构数据源的相关数据进行全面分析。
在实现本发明过程中,发明人发现现有技术中至少存在如下问题:
1.由于缺少统一的、安全的数据融合方法;
2.在对来自异构数据源的数据进行融合过程中,存在信息泄露的安全问题;
3.无法为构建统一的融合信息评分体系提供相同标准和格式的数据。
发明内容
有鉴于此,本发明实施例提供一种数据融合的方法和装置,能够对不同数据源的数据进行收集和高效处理,对不同结构的数据进行安全快速的融合,为构建统一的融合信息评分体系提供相同标准和格式的数据。
为实现上述目的,根据本发明实施例的一个方面,提供了一种数据融合的方法。
本发明实施例的一种数据融合的方法包括:
对各个数据源的原始数据表进行筛选合并,得到每个数据源的关联数据表,并为所述关联数据表中的字段添加维度标签;
对所述关联数据表中的字段进行特征分析,选取待用特征;
根据所述维度标签和所述待用特征从各个所述关联数据表中抽取梯度;
基于所述梯度建立融合模型。
可选地,对各个数据源的原始数据表进行筛选合并,得到每个数据源的关联数据表包括:
从各个数据源收集原始数据表;
分析所述原始数据表的样本数量、字段数量和空值数量;
基于所述样本数量、所述字段数量和所述空值数量从所述原始数据表筛选出基础数据表;
基于所述基础数据表的主键将同一数据源的所述基础数据表合并为关联数据表。
可选地,在对所述关联数据表中的字段进行特征分析,选取待用特征之前还包括:
剔除所述关联数据表中含有空值字段或空值字段的数量超过空字段阈值的样本;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于京东城市(南京)科技有限公司,未经京东城市(南京)科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910362476.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种引文来源数据库辨别方法
- 下一篇:食堂信息报表管理系统及方法