[发明专利]一种行业代码标准化方法、装置、电子设备和存储介质有效
申请号: | 202110938055.7 | 申请日: | 2021-08-16 |
公开(公告)号: | CN113392939B | 公开(公告)日: | 2021-11-12 |
发明(设计)人: | 蒋晟;施志晖 | 申请(专利权)人: | 江苏苏宁银行股份有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06Q40/02 |
代理公司: | 南京瑞华腾知识产权代理事务所(普通合伙) 32368 | 代理人: | 邱欢欢 |
地址: | 210000 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 行业 代码 标准化 方法 装置 电子设备 存储 介质 | ||
本发明提出了一种行业代码标准化方法、装置、电子设备和存储介质,该方法包括如下步骤:获取行业数据;通过正则表达式对行业数据进行数据格式分类,针对不同分类结果进行预处理,获得数字代码和中文描述A;判断数字代码是否在标准版本中,如果在,则补齐行业门类字母,生成行业代码;判断数字代码是否在历史版本中,如果在,则取出历史版本中对应的中文描述B;将中文描述A或中文描述B与一标准版本中文描述进行相似度计算,重复操作,获得标准版本中最相似的中文描述C;根据中文描述C,查找出对应的标准版本行业代码并输出。本发明通过中文描述相似度特征,自动进行码值转换,相对于人工进行码值映射大大提高了工作效率。
技术领域
本发明涉及数据治理技术领域,具体而言,涉及一种行业代码标准化方法、装置、电子设备和存储介质。
背景技术
近年来,人民银行、银保监会对银行的监管愈发趋严,对银行报送的数据质量要求也越来越高。银保监会就数据质量专项治理工作发布通知(银保监办发〔2020〕45号),要求包括所有银行及保险类的金融机构在2021年5月底前,落实监管数据质量专项治理方案,并制定了详细的项目进度时间表。数据质量主要包括数据真实性、准确性、完整性、及时性。
监管机构要求商业银行实施专项治理的数据包括:非现场监管(1104)、监管数据标准化(EAST)、金融基础数据、利率报备等。这些专项数据都需要银行报送客户所属行业或者资金投向行业。行业分类按照中华人民共和国国家标准GB/T 4754-2017“国民经济行业分类”(以下简称为标准版本代码)的标准执行。行业代码是行业分类的具体代码,按照一定的科学依据对从事国民经济生产和经营的单位或者个体的组织结构体系的详细划分,如林业、汽车业、银行业等,按照单位的主要经济活动确定其行业性质。
由于某些原因,银行内客户的行业代码不全都符合监管机构要求的最新版本代码,有些是2011版本或者更早版本(以下称为历史版本代码),有些则保存了中文行业名称,有些只提供了四位数字而缺失表示行业门类的字母等,这些都是不符合监管要求的行业代码,在报送的时候会被监管机构系统退回,无法正常报送。
目前业界关于数据标准化工作方面,都采用人工手动添加映射的方式,这种方式对于代码值数量比较少的情况是可以的,比如说性别,从业状况等,只有几个十几个代码值。但是对于行业代码,有上千个码值的情况,如果也采用手工添加映射的方式,则处理脚本会过于冗余,而且效率太低。
发明内容
鉴于上述问题,本发明提供了一种行业代码标准化方法、装置、电子设备和存储介质。
为解决上述技术问题,本发明采用的技术方案是:
第一方面,本发明提供了一种行业代码标准化方法,包括如下步骤:获取行业数据;通过正则表达式对所述行业数据进行数据格式分类,针对不同分类结果进行预处理,获得数字代码和中文描述A;判断所述数字代码是否在标准版本中,如果在,则补齐行业门类字母,生成行业代码,否则进行下一步;判断所述数字代码是否在历史版本中,如果在,则取出历史版本中对应的中文描述B,否则不做处理;将所述中文描述A或中文描述B与一标准版本中文描述进行相似度计算,重复操作,获得标准版本中最相似的中文描述C;根据所述中文描述C,查找出对应的标准版本行业代码并输出。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江苏苏宁银行股份有限公司,未经江苏苏宁银行股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110938055.7/2.html,转载请声明来源钻瓜专利网。