[发明专利]代码集映射方法及装置在审
| 申请号: | 202111397352.1 | 申请日: | 2021-11-23 |
| 公开(公告)号: | CN114077434A | 公开(公告)日: | 2022-02-22 |
| 发明(设计)人: | 张艳 | 申请(专利权)人: | 中国银行股份有限公司 |
| 主分类号: | G06F8/41 | 分类号: | G06F8/41;G06K9/62 |
| 代理公司: | 北京三友知识产权代理有限公司 11127 | 代理人: | 杨丹;沈珍珠 |
| 地址: | 100818 *** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 代码 映射 方法 装置 | ||
本发明公开一种代码集映射方法及装置,涉及大数据技术领域,该方法包括:获取第一代码集和第二代码集;分别对每一第一代码的代码解析语句和每一第二代码的代码解析语句进行分词处理,得到每一第一代码的代码解析语句的多个分词和每一第二代码的代码解析语句的多个分词;分别将每一第一代码的代码解析语句的多个分词和每一第二代码的代码解析语句的多个分词输入预先训练的词向量模型,确定每一第一代码的代码向量和每一第二代码的代码向量;计算每一第一代码的代码向量与每一第二代码的代码向量之间的相似度;将代码向量之间相似度最大的第一代码与第二代码进行映射。本发明可以快速映射代码集,减少数据迁移及接口映射过程中的人力物力。
技术领域
本发明涉及大数据技术领域,尤其涉及一种代码集映射方法及装置。
背景技术
本部分旨在为权利要求书中陈述的本发明实施例提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。
在银行企业级架构建设过程中,随着客户管理组件的分析与开发,发现在新标准的客户信息中,不少客户信息属性的代码集发生了变化,目前在数据迁移和接口映射的过程中,是采用人工的方式一一比对新旧代码集中的每一个代码,进而形成新旧代码的映射关系。此种方式耗费了大量的人力物力,且代码集映射效率也较低。
发明内容
本发明实施例提供一种代码集映射方法,用以快速映射代码集,减少数据迁移及接口映射过程中的人力物力,该方法包括:
获取第一代码集和第二代码集,所述第一代码集包括至少一个第一代码及其对应的代码解析语句,所述第二代码集包括至少一个第二代码及其对应的代码解析语句;
分别对每一第一代码的代码解析语句和每一第二代码的代码解析语句进行分词处理,得到每一第一代码的代码解析语句对应的多个分词和每一第二代码的代码解析语句对应的多个分词;
分别将每一第一代码的代码解析语句对应的多个分词和每一第二代码的代码解析语句对应的多个分词输入预先训练的词向量模型,确定每一第一代码的代码向量和每一第二代码的代码向量;
根据预设的相似度计算公式,计算每一第一代码的代码向量和每一第二代码的代码向量之间的相似度;
将相似度最大的第一代码向量对应的第一代码和第二代码向量对应的第二代码进行映射。
本发明实施例还提供一种代码集映射装置,用以快速映射代码集,减少数据迁移及接口映射过程中的人力物力,该装置包括:
代码集获取模块,用于获取第一代码集和第二代码集,所述第一代码集包括至少一个第一代码及其对应的代码解析语句,所述第二代码集包括至少一个第二代码及其对应的代码解析语句;
分词模块,用于分别对每一第一代码的代码解析语句和每一第二代码的代码解析语句进行分词处理,得到每一第一代码的代码解析语句对应的多个分词和每一第二代码的代码解析语句对应的多个分词;
代码向量确定模块,用于分别将每一第一代码的代码解析语句对应的多个分词和每一第二代码的代码解析语句对应的多个分词输入预先训练的词向量模型,确定每一第一代码的代码向量和每一第二代码的代码向量;
相似度计算模块,用于计算每一第一代码的代码向量与每一第二代码的代码向量之间的相似度;
代码映射模块,用于将代码向量之间相似度最大的第一代码与第二代码进行映射。
本发明实施例还提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述代码集映射方法。
本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述代码集映射方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国银行股份有限公司,未经中国银行股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111397352.1/2.html,转载请声明来源钻瓜专利网。





