[发明专利]数据处理方法及装置有效
| 申请号: | 201710386802.4 | 申请日: | 2017-05-26 |
| 公开(公告)号: | CN108932268B | 公开(公告)日: | 2020-09-04 |
| 发明(设计)人: | 刘洋;车文彬;张旭 | 申请(专利权)人: | 华为技术有限公司 |
| 主分类号: | G06F16/22 | 分类号: | G06F16/22;G06F16/2458 |
| 代理公司: | 北京三高永信知识产权代理有限责任公司 11138 | 代理人: | 罗振安 |
| 地址: | 518129 广东*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 数据处理 方法 装置 | ||
1.一种数据处理方法,其特征在于,所述方法包括:
分别获取属于样本数据表的样本列字段与属于至少一个基准数据表的n个基准列字段中的每个基准列字段的相似度集合,第i个所述相似度集合包括:所述样本列字段的特征集与所述n个基准列字段中的第i个基准列字段的特征集的相似度,所述n≥i≥1;
根据获取到的n个相似度集合以及每个所述相似度的预设权重,确定所述样本列字段在所述n个基准列字段中对应的初始基准列字段;
获取准确度标签,所述准确度标签用于指示:所述样本列字段与所述初始基准列字段的对应关系的准确度;
根据所述准确度标签和获取到的n个相似度集合,确定每个所述相似度的目标权重;
根据获取到的n个相似度集合以及每个所述相似度的目标权重,确定所述样本列字段在所述n个基准列字段中对应的目标基准列字段。
2.根据权利要求1所述的方法,其特征在于,参考基准列字段为所述n个基准列字段中的任一列字段,所述分别获取属于样本数据表的样本列字段与属于至少一个基准数据表的n个基准列字段中的每个基准列字段的相似度集合,包括:
采用m种特征提取方法提取所述样本列字段的m个第一特征集,所述m种特征提取方法与所述m个第一特征集一一对应,采用所述m种特征提取方法中的每种特征提取方法能够提取出对应的一个第一特征集,所述m≥5;
采用所述m种特征提取方法提取所述参考基准列字段的m个第二特征集,所述m个第二特征集与所述m个第一特征集一一对应,且每个所述第一特征集与对应的第二特征集均采用同一种特征提取方法提取得到;
确定每个所述第一特征集与对应的第二特征集的相似度;
确定所述样本列字段与所述参考基准列字段的相似度集合,所述样本列字段与所述参考基准列字段的相似度集合包括:每个所述第一特征集与对应的第二特征集的相似度。
3.根据权利要求2所述的方法,其特征在于,
所述m个第一特征集包括:所述样本列字段的列特征,以及所述样本列字段所在的数据表的表特征;
所述m个第二特征集包括:所述参考基准列字段的列特征,以及所述参考基准列字段所在的数据表的表特征。
4.根据权利要求2所述的方法,其特征在于,所述准确度标签还用于指示:所述样本列字段与其他基准列字段中的每个基准列字段的非对应关系的准确度,所述其他基准列字段为所述n个基准列字段中除所述初始基准列字段之外的基准列字段,所述根据所述准确度标签和获取到的n个相似度集合,确定每个所述相似度的目标权重,包括:
根据所述准确度标签、所述获取到的n个相似度集合以及预设回归公式,确定目标权重矩阵,所述目标权重矩阵为1行m列的矩阵,所述目标权重矩阵中的m个元素分别为:所述m个第一特征集与对应的第二特征集的m个相似度的目标权重;
其中,所述预设回归公式为:θ=YXT(XXT)-1,所述θ为所述目标权重矩阵,所述Y为所述准确度标签,所述X为n行m列的矩阵,且所述X中的每行元素包括一个所述相似度集合的元素,所述X中的所有元素包括所述n个相似度集合的元素,XT表示X的转置。
5.根据权利要求2所述的方法,其特征在于,所述m种特征提取方法包括:
基于N元语法的特征提取方法、基于词向量的特征提取方法、基于数据分布的特征提取方法、基于属性名的特征提取方法、基于数据类型的特征提取方法以及基于最小描述长度的特征提取方法中的至少5种特征提取方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华为技术有限公司,未经华为技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710386802.4/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种数据迁移方法及系统
- 下一篇:烹饪的方法、装置以及系统





