[发明专利]数据融合的方法和装置在审
申请号: | 201910362476.2 | 申请日: | 2019-04-30 |
公开(公告)号: | CN110119413A | 公开(公告)日: | 2019-08-13 |
发明(设计)人: | 孟垂实;吴博文;胡安民;郑宇 | 申请(专利权)人: | 京东城市(南京)科技有限公司 |
主分类号: | G06F16/2458 | 分类号: | G06F16/2458;G06F16/215;G06F16/22 |
代理公司: | 中原信达知识产权代理有限责任公司 11219 | 代理人: | 张一军;张效荣 |
地址: | 210014 江苏省南京市南*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据源 关联 方法和装置 数据融合 维度 融合 标签 计算机技术领域 安全快速 高效处理 评分体系 特征分析 梯度建立 字段添加 构建 字段 抽取 筛选 合并 统一 | ||
1.一种数据融合的方法,其特征在于,包括:
对各个数据源的原始数据表进行筛选合并,得到每个数据源的关联数据表,并为所述关联数据表中的字段添加维度标签;
对所述关联数据表中的字段进行特征分析,选取待用特征;
根据所述维度标签和所述待用特征从各个所述关联数据表中抽取梯度;
基于所述梯度建立融合模型。
2.根据权利要求1所述的方法,其特征在于,对各个数据源的原始数据表进行筛选合并,得到每个数据源的关联数据表包括:
从各个数据源收集原始数据表;
分析所述原始数据表的样本数量、字段数量和空值数量;
基于所述样本数量、所述字段数量和所述空值数量从所述原始数据表筛选出基础数据表;
基于所述基础数据表的主键将同一数据源的所述基础数据表合并为关联数据表。
3.根据权利要求1所述的方法,其特征在于,在对所述关联数据表中的字段进行特征分析,选取待用特征之前还包括:
剔除所述关联数据表中含有空值字段或空值字段的数量超过空字段阈值的样本;
利用箱线图结合字段意义的方式去除异常字段;
采用平均数、众数或预测值补充空值字段;以及
对所述关联数据表进行离散化处理。
4.根据权利要求1所述的方法,其特征在于,对所述关联数据表中的字段进行特征分析,选取待用特征包括:
对所述关联数据表中的字段进行特征衍生,得到数据特征和高维非线性特征;
分别计算所述数据特征和所述高维非线性特征的皮尔逊系数;
基于所述皮尔逊系数从所述数据特征和所述高维非线性特征中选取待用特征。
5.根据权利要求1所述的方法,其特征在于,根据所述维度标签和所述待用特征从各个所述关联数据表中抽取梯度包括:
根据所述待用特征对各个数据源对应的所述关联数据表进行对齐操作,并为目标分配统一标识;
根据所述维度标签和所述待用特征从各个所述关联数据表中抽取数据源的参数的梯度和所述关联数据表的损失,并基于各个所述关联数据表的损失计算融合损失;
若所述融合损失小于损失阈值,则终止抽取;
若所述融合损失大于或等于损失阈值,则将更新各个数据源的参数,并重新抽取数据源的参数的梯度和所述关联数据表的损失。
6.根据权利要求5所述的方法,其特征在于,所述方法还包括:
从各个所述关联数据表中提取目标的待用特征信息,基于所述待用特征信息生成融合信息;
将所述融合信息输入所述融合模型,以根据所述待用特征和所述梯度对所述融合信息进行计算,得到目标的融合分值;以及
在目标的融合分值变化时,对所述待用特征信息进行迭代计算,得到所述待用特征对目标的影响权重。
7.一种数据融合的装置,其特征在于,包括:
合并模块,用于对各个数据源的原始数据表进行筛选合并,得到每个数据源的关联数据表,并为所述关联数据表中的字段添加维度标签;
分析模块,用于对所述关联数据表中的字段进行特征分析,选取待用特征;
抽取模块,用于根据所述维度标签和所述待用特征从各个所述关联数据表中抽取梯度;
建模模块,用于基于所述梯度建立融合模型。
8.根据权利要求7所述的装置,其特征在于,所述装置还包括计算模块,用于:
从各个所述关联数据表中提取目标的待用特征信息,基于所述待用特征信息生成融合信息;
将所述融合信息输入所述融合模型,以根据所述待用特征和所述梯度对所述融合信息进行计算,得到目标的融合分值;以及
在目标的融合分值变化时,对所述待用特征信息进行迭代计算,得到所述待用特征对目标的影响权重。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于京东城市(南京)科技有限公司,未经京东城市(南京)科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910362476.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种引文来源数据库辨别方法
- 下一篇:食堂信息报表管理系统及方法