[发明专利]一种行业代码标准化方法、装置、电子设备和存储介质有效
申请号: | 202110938055.7 | 申请日: | 2021-08-16 |
公开(公告)号: | CN113392939B | 公开(公告)日: | 2021-11-12 |
发明(设计)人: | 蒋晟;施志晖 | 申请(专利权)人: | 江苏苏宁银行股份有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06Q40/02 |
代理公司: | 南京瑞华腾知识产权代理事务所(普通合伙) 32368 | 代理人: | 邱欢欢 |
地址: | 210000 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 行业 代码 标准化 方法 装置 电子设备 存储 介质 | ||
1.一种行业代码标准化方法,其特征在于,包括如下步骤:
获取行业数据;
通过正则表达式对所述行业数据进行数据格式分类,针对不同分类结果进行预处理,获得数字代码和中文描述A;
判断所述数字代码是否在标准版本中,如果在,则补齐行业门类字母,生成行业代码,否则进行下一步;
判断所述数字代码是否在历史版本中,如果在,则取出历史版本中对应的中文描述B,否则不做处理;
将所述中文描述A或中文描述B与一标准版本中文描述进行相似度计算,重复操作,获得标准版本中最相似的中文描述C;其中,所述将中文描述A或中文描述B与一标准版本中文描述进行相似度计算,包括:对需要计算相似度的两个中文描述进行拆分,列出待比较中文描述和标准版本中文描述的所有元素;将拆分后的元素去重后放在同一集合中,构造出特征空间,并对所述特征空间的元素进行位置编码;将待比较中文描述和标准版本中文描述中的每个元素转换为特征空间元素对应的位置编码,以进行数字化;对数字化后的待比较中文描述和标准版本中文描述进行独热编码,获得两个行业向量;应用余弦相似度算法,计算两个行业向量之间夹角的余弦值,余弦值越大相似度越高;
根据所述中文描述C,查找出对应的标准版本行业代码并输出。
2.根据权利要求1所述的行业代码标准化方法,其特征在于,所述通过正则表达式对行业数据进行数据格式分类,针对不同分类结果进行预处理,获得数字代码和中文描述A,具体包括:
根据正则表达式“^[A-T]\\d{2,4}$”,表示形式“一位字母,二到四位数字”,对行业数据进行匹配,如果匹配,则略过字母,取数字代码,否则进入下一步;
根据正则表达式“^\\d{4}$”,表示形式“四位数字”,对行业数据进行匹配,如果匹配,则取四位数字代码,否则进入下一步;
根据正则表达式“^[A-Z]\\d{4}~[\\u4e00-\\u9fa5]{2,20}$”,表示形式“一位字母四位数字~二到二十位中文行业描述”,对行业数据进行匹配,如果匹配,则取符号“~”前面代码的四位数字代码,否则进入下一步;
根据正则表达式“^[\\u4e00-\\u9fa5]{2,20}$”,表示形式“二到二十位中文描述”,对行业数据进行匹配,如果匹配,则取全部中文描述A。
3.一种行业代码标准化装置,其特征在于,包括:
获取模块,用于获取行业数据;
预处理模块,用于通过正则表达式对所述行业数据进行数据格式分类,针对不同分类结果进行预处理,获得数字代码和中文描述A;
第一判断模块,用于判断所述数字代码是否在标准版本中,如果在,则补齐行业门类字母,生成行业代码,否则进行下一步;
第二判断模块,用于判断所述数字代码是否在历史版本中,如果在,则取出历史版本中对应的中文描述B,否则不做处理;
相似度计算模块,用于将所述中文描述A或中文描述B与一标准版本中文描述进行相似度计算,重复操作,获得标准版本中最相似的中文描述C;其中,所述相似度计算模块包括:拆分单元,用于对需要计算相似度的两个中文描述进行拆分,列出待比较中文描述和标准版本中文描述的所有元素;特征空间单元,用于将拆分后的元素去重后放在同一集合中,构造出特征空间,并对所述特征空间的元素进行位置编码;数字化单元,用于将待比较中文描述和标准版本中文描述中的每个元素转换为特征空间元素对应的位置编码,以进行数字化;独热编码单元,用于对数字化后的待比较中文描述和标准版本中文描述进行独热编码,获得两个行业向量;余弦值计算单元,用于应用余弦相似度算法,计算两个行业向量之间夹角的余弦值,余弦值越大相似度越高;
行业代码输出模块,用于根据所述中文描述C,查找出对应的标准版本行业代码并输出。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江苏苏宁银行股份有限公司,未经江苏苏宁银行股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110938055.7/1.html,转载请声明来源钻瓜专利网。