[发明专利]一种基于LSTM深度学习的企业国民行业类别预测方法及系统在审
申请号: | 202010636488.2 | 申请日: | 2020-07-03 |
公开(公告)号: | CN111860981A | 公开(公告)日: | 2020-10-30 |
发明(设计)人: | 孙中利;韩春明;孙世敏;赵建明;谷永胜;郑淑贤 | 申请(专利权)人: | 航天信息(山东)科技有限公司 |
主分类号: | G06Q10/04 | 分类号: | G06Q10/04;G06Q50/26;G06F40/289;G06F40/216;G06F16/31;G06F16/35;G06F16/951;G06N3/04;G06N3/08 |
代理公司: | 北京久维律师事务所 11582 | 代理人: | 邢江峰 |
地址: | 250101 山东省济南市高新区新*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 lstm 深度 学习 企业 国民 行业类别 预测 方法 系统 | ||
本发明提供了一种基于LSTM深度学习的企业国民行业类别预测方法及系统,本发明将企业经营范围作为基础数据,从中获取有效数据,建立与获取有效数据相匹配的行业分类模型,根据行业分类模型预测新增企业的所属国民行业类别,本预测方法融合神经网络算法LSTM,可以更加灵活、准确得到企业在行业链中的位置信息,使众多蓬勃发展的小微创新型企业得到科学的行业划分,最大限度的方便税局人员,且并不仅限于这些人员的需要。
技术领域
本发明涉及自然语言处理技术领域,特别是涉及一种基于LSTM深度学习的企业国民行业类别预测方法及系统。
背景技术
国民经济行业分类是划分全社会经济活动的基础性分类,是统计工作中使用范围最广、使用频率最高的分类标准,是处理和交换经济普查信息的基础。
国民经济行业分类是自然语言处理领域的一个重要应用。首先,在文本特征表示上,有词向量和词袋模型两种。由于行业范围描述大部分是专有名词,词向量不适用于此场景。并且,如何提取企业描述中的业务关键词,成为了主要问题之一。
常见的分类方法有支持向量机、决策树、神经网络、逻辑回归、k邻近值、自适应增强方法等。支持向量机可用于小数据分类,而对于大数据分类难以实施,训练模型速度极慢,难以拟合。决策树可对样本快速分类,但是对于特征决策较为绝对,容易出现过拟合。传统神经网络需要拟合的参数量较大,训练过程极慢,不适用于大数据处理。逻辑回归与传统神经网络类似,而k邻近值计算复杂,需要大存储量。自适应增强方法将多个弱分类器组成强分类器,在分类效果上,略差于梯度提升决策树,除此之外,单个分类器模型过分依赖于样本描述的覆盖率,当对一个从未出现过的描述的新样本分类时,准确率低。
综上,现有技术中常见分类方法不能满足国民经济行业分类的需求,急需一种更加灵活、准确的分类方法。
发明内容
本发明的目的是提供一种基于LSTM深度学习的企业国民行业类别预测方法及系统,旨在解决现有技术中国民经济行业分类准确率低的问题,实现提高行业分类灵活性和准确度。
为达到上述技术目的,本发明提供了一种基于LSTM深度学习的企业国民行业类别预测方法,所述方法包括以下操作:
获取企业经营范围以及行业类别基础数据,进行预处理获得有效数据;
通过分词工具对有效数据进行分词,获得数据集;
加载数据集,提取数据集特征,将企业经营范围处理成单词索引序列,单词与序号一一对应,将处理后的企业经营范围数据划分训练集和测试集;
搭建深度学习模型,模型中embedding层用word2vec模型中的词向量替换,形成二维向量,将词向量按顺序输入LSTM层中,输出一维向量,通过全连接神经网络层将向量长度收缩为国民经济行业分类的类别数;
设置模型参数,对训练集进行模型训练;
输入测试集的数据和标签,进行测试模型的预测,输出预测结果。
优选地,所述基础数据的获取包括:
通过网络爬虫从国家工商总局网站爬取部分企业的经营范围以及行业类别;
通过使用特定的接口获取某省部分企业的经营范围以及行业类别。
优选地,所述数据预处理包括:
数据清洗,包括处理缺失值、平滑噪声值、识别和处理异常值;
对于清洗后的数据进行数据集成。
优选地,所述embedding层替换后矩阵形状为:单词数*行长度。
优选地,所述设置模型参数包括训练模型迭代轮次、每次梯度更新的样本数以及交叉验证集的大小。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于航天信息(山东)科技有限公司,未经航天信息(山东)科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010636488.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种耐高温橡胶材料及其制备方法
- 下一篇:一种AGV娱乐运输工具及连接组件
- 同类专利
- 专利分类
G06Q 专门适用于行政、商业、金融、管理、监督或预测目的的数据处理系统或方法;其他类目不包含的专门适用于行政、商业、金融、管理、监督或预测目的的处理系统或方法
G06Q10-00 行政;管理
G06Q10-02 .预定,例如用于门票、服务或事件的
G06Q10-04 .预测或优化,例如线性规划、“旅行商问题”或“下料问题”
G06Q10-06 .资源、工作流、人员或项目管理,例如组织、规划、调度或分配时间、人员或机器资源;企业规划;组织模型
G06Q10-08 .物流,例如仓储、装货、配送或运输;存货或库存管理,例如订货、采购或平衡订单
G06Q10-10 .办公自动化,例如电子邮件或群件的计算机辅助管理