[发明专利]字段匹配方法和装置有效
| 申请号: | 201711037783.0 | 申请日: | 2017-10-30 |
| 公开(公告)号: | CN107704625B | 公开(公告)日: | 2021-01-15 |
| 发明(设计)人: | 杨仁凤;王湧;卢金城 | 申请(专利权)人: | 锐捷网络股份有限公司 |
| 主分类号: | G06F16/2457 | 分类号: | G06F16/2457;G06F16/33;G06F40/30;G06F40/284;G06F40/289;G06F40/216;G06F40/242;G06Q50/20 |
| 代理公司: | 北京中博世达专利商标代理有限公司 11274 | 代理人: | 申健 |
| 地址: | 350002 福建省福州市仓*** | 国省代码: | 福建;35 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 字段 匹配 方法 装置 | ||
1.一种字段匹配方法,其特征在于,包括:
如果待匹配的目标字段为数值型字段,将已知字段集合中各字段对应的语义特征向量、字段名称与所述待匹配的目标字段的语义特征向量、字段名称相匹配,得到第一匹配结果;
如果所述待匹配的目标字段为字符型字段,将已知字段集合中各字段对应的特征词向量、字段名称与所述待匹配的目标字段的特征词向量、字段名称相匹配,得到第二匹配结果;
如果所述待匹配的目标字段为稀有型字段,则将已知字段集合中各字段对应的字段名称与待匹配的目标字段的字段名称相匹配,得到第三匹配结果,其中,所述稀有型字段指除了所述数值型字段和所述字符型字段以外的字段;
其中,所述语义特征向量包括:根据字段的模式信息和统计信息得到所述字段的语义特征向量;所述模式信息包括字段的数据类型、类型长度、小数位数;所述统计信息包括字段的最大值、最小值、平均值、标准差、差异系数、中位数、众数以及数值的数量。
2.根据权利要求1所述的方法,其特征在于,所述将已知字段集合中各字段对应的语义特征向量、字段名称与所述待匹配的目标字段的语义特征向量、字段名称相匹配,得到第一匹配结果,包括:
以所述已知字段集合中各字段对应的语义特征向量和字段名称作为训练对,对预测神经网络进行多次训练以得到多个预测神经网络;
根据所述待匹配的目标字段的语义特征向量和所述多个预测神经网络得到与所述待匹配的目标字段匹配的第一结果集;
根据所述已知字段集合中各字段对应的语义特征向量与所述待匹配的目标字段的语义特征向量之间的相似度,以及所述已知字段集合中各字段对应的字段名称与所述待匹配的目标字段的字段名称之间的相似度,得到与所述待匹配的目标字段匹配的第二结果集;
根据第一结果集和第二结果集得到所述第一匹配结果。
3.根据权利要求2所述的方法,其特征在于,如果所述预测神经网络为反向传播BP基学习器,所述根据所述待匹配的目标字段的语义特征向量和所述多个预测神经网络得到与所述待匹配的目标字段匹配的第一结果集,包括:
将所述待匹配的目标字段的语义特征向量分别作为多个BP基学习器的输入,得到各个BP基学习器的输出结果,其中,所述输出结果用于表示待匹配的目标字段可能对应的字段名称的概率;
如果各个BP基学习器的输出结果中的最大概率均大于等于阈值,并且最大概率对应的字段名称相同,则取最大概率对应的字段名称作为所述第一结果集,否则所述第一结果集为空。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于锐捷网络股份有限公司,未经锐捷网络股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711037783.0/1.html,转载请声明来源钻瓜专利网。





