[发明专利]一种基于深度学习的税务商品编码分类方法和系统在审
| 申请号: | 201811094559.X | 申请日: | 2018-09-19 |
| 公开(公告)号: | CN109213866A | 公开(公告)日: | 2019-01-15 |
| 发明(设计)人: | 叶丰;尘健;吴鹏;单立强;王军;朱泳存;刘海明 | 申请(专利权)人: | 浙江诺诺网络科技有限公司 |
| 主分类号: | G06F16/35 | 分类号: | G06F16/35;G06Q30/06 |
| 代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 罗满 |
| 地址: | 310000 浙江省杭州市西湖区双龙街199号杭政*** | 国省代码: | 浙江;33 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 目标商品 商品编码 分词 预处理 卷积 分类 数据库 验证 分词处理 网络搭建 预先建立 自动分类 语义 测试集 关联性 向量化 训练集 税务 词语 网络 文本 学习 制作 | ||
本发明公开了一种基于深度学习的税务商品编码分类方法和系统,该方法包括:预先建立包含商品名和对应商品编码的验证数据库,并制作训练集和测试集;对验证数据库中的商品名进行预处理,获取相应的商品名分词;对商品名分词进行向量化,并进行卷积网络搭建;对目标商品名进行预处理,获取相应的目标商品名分词;通过卷积网络对目标商品名分词进行分类,确定目标商品名的类别。对验证数据库中的商品名以及待测的目标商品名进行相同条件的预处理和分词处理,通过建立卷积网络对目标商品名进行分类,能够有效提取文本词语的语义的关联性,实现了准确高效的商品编码自动分类。
技术领域
本发明涉及文本分类技术领域,特别是涉及一种基于深度学习的税务商品编码分类方法和系统。
背景技术
国家税务总局相关规定,个人和企业在开具增值税发票时,必须为商品指定类别编码,否则发票可作无效处理。而目前商品类别编码中包含了十级目录共4000多类,类别数量庞大且某些类目不易区分,如果人工选择商品编码,则费时费力且极易产生错误。
此外,商品名数量庞大,长短不一,且处于不断的变化发展之中。再者,即使商品名相似,商品的类别也可能存在较大的差异,如:(1)“喷枪水”的类别为“合成洗涤剂”,而“水喷枪”的类别为“喷枪”;(2)“epe隔板”的类别为“泡沫塑料”,而“pe隔板”的类别为“塑料板、片”,此类例子极其常见。传统的文本分类方法难以处理此类问题。
目前涉及商品编码分类的方法较少,且不能有效的提取语义信息,而语义信息对于新增加商品的分类起着重要作用。因此,如何实现准确高效的商品编码自动分类,是本领域技术人员目前需要解决的技术问题。
发明内容
本发明的目的是提供一种基于深度学习的税务商品编码分类方法和系统,可以实现准确高效的商品编码自动分类。
为解决上述技术问题,本发明提供了如下技术方案:
一种基于深度学习的税务商品编码分类方法,包括:
预先建立包含商品名和对应商品编码的验证数据库,并制作训练集和测试集;
对所述验证数据库中的商品名进行预处理,获取相应的商品名分词;
对所述商品名分词进行向量化,并进行卷积网络搭建;
对目标商品名进行预处理,获取相应的目标商品名分词;
通过所述卷积网络对所述目标商品名分词进行分类,确定所述目标商品名的类别。
优选地,所述对所述验证数据库中的商品名进行预处理,获取相应的商品名分词,包括:
对所述验证数据库中的商品名进行字符解析;
剔除所述验证数据库中的非汉字、数字、和英文的字符,并进行商品名繁简体转换和英文字符大小写转换,得到预处理商品名;
对所述预处理商品名进行分词,并提取相应的商品名分词。
优选地,所述剔除所述验证数据库中的非汉字、数字、和英文的字符,并进行商品名繁简体转换和英文字符大小写转换,得到预处理商品名,包括:
通过预设的繁简体映射表对所述验证数据库中的商品名进行繁简体转换;
通过Unicode编码范围对所述验证数据库中的商品名进行英文字符的大小写转换以及非汉字、数字、和英文的字符的过滤。
优选地,所述对所述商品名分词进行向量化,并进行卷积网络搭建,包括:
采集历史数据中所有的商品名,经商品名预处理和分词后,根据词频建立字典;
通过预设的词向量模型对所有的商品名进行训练,获取相应的词向量;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江诺诺网络科技有限公司,未经浙江诺诺网络科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811094559.X/2.html,转载请声明来源钻瓜专利网。





