[发明专利]基于自动信息筛选的企业行业分类系统在审
申请号: | 201611270135.5 | 申请日: | 2016-12-31 |
公开(公告)号: | CN106779467A | 公开(公告)日: | 2017-05-31 |
发明(设计)人: | 蒋欣辰;刘世林 | 申请(专利权)人: | 成都数联铭品科技有限公司 |
主分类号: | G06Q10/06 | 分类号: | G06Q10/06;G06F17/30;G06N3/08 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 610041 四川省成都市高新区*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 自动 信息 筛选 企业 行业 分类 系统 | ||
技术领域
本发明涉及信息处理领域,特别涉及基于自动信息筛选的企业行业分类系统。
背景技术
随着社会的进步和市场的繁荣和发展,中国经济一直处于高速的发展轨道上,企业作为社会经济中最重要的活动主体,在经济中扮演着重要的角色,对于企业信息的整理和分析有助于帮助相关决策者了解该企业的经营状况,发现潜在经营风险。企业的二级行业类别较多,如果人工对海量的企业进行分类,将耗费大量的人力。
通常会借助机器学习的手段进行数据挖掘,自动完成行业分类。主流的方法分有两种:一种是使用传统的机器学习方法,首先人工提取特征,再利用经典的分类算法,比如SVM,朴素贝叶斯等分类器完成行业分类。另一种是利用深度学习技术,比如循环神经网络完成自动的特征提取和分类任务。二级行业分类相比一级行业分类,在经营范围的描述上,不同行业之间存在更多的相似性,这导致利用常规方法很难发现这种微小的差异,进而较难作出正确的判断。如果使用传统的机器学习方法,需要做大量的特征工程,比如TF-IDF,N-GRAM等方法提取重要的特征组成高维向量放入不同的分类器算法中进行试验和调参,工作量大而繁重,并且都是凭借人的一些经验和猜想在进行的尝试,很可能花费了很大的精力最终效果却不显著。即便使用深度学习的方法,比如循环神经网络,虽然免去了一些人工的特征提取的工作,但是由于经营范围的描述信息通常很分散,包含了多个行业的内容,单从经营范围无法确定哪些信息对判断行业类别是有效的。比如,XX酿酒有限公司的经营范围描述是“白酒酿造,批发零售五金、日用品、饲料、建筑材料”。该描述中包含了多个行业类别,很难确定哪些内容是需要重点关注的,哪些内容是无用的,应该忽略。针对该类问题,如果人工进行判定,通常会先看一下公司名包含了“酿酒”,会将经营范围的描述重点放在“白酒酿造”,忽略其他无关的描述,最终确定该企业属于“酒、饮料和精制茶制造业”。基于人脑的这种信息处理方式的启发,本发明结合循环神经网络和门限控制的方法,构建了一个能够基于公司名自动进行信息筛选的神经网络,用于企业的二级行业分类。
发明内容
本发明的目的在于克服现有技术中所存在的上述不足,提供基于自动信息筛选的企业行业分类系统,构造行业分类神经网络模型;所述行业分类神经网络模型中结合循环神经网络和门限控制的方法,使用企业名称来对企业经营范围信息进行筛选,以实现对待分类企业二级行业的自动分类判断。
为了实现上述发明目的,本发明提供了以下技术方案:基于自动信息筛选的企业行业分类系统,所述系统包含行业分类神经网络模型;所述行业分类神经网络模型中结合循环神经网络和门限控制的方法,使用企业名称来对企业经营范围信息进行筛选,实现对待分类企业二级行业的自动分类判断。
具体的,所采用行业分类神经网络模型的向前算法公式如下:
hj=GRU1(xj,hj-1)
sj=GRU2(zj,sj-1)
f=σ(W(f)hT+U(f)sT)
y=softmax(b)
其中,GRU1为第一循环神经网络,hj是GRU1在输入序列中第j个词的输入后生成的隐藏层状态向量,xj是输入序列中第j个词的词向量;
GRU2为第二循环神经网络;sj是GRU2在输入序列中第j个词的输入后生成的隐藏层状态向量,zj是输入序列中第j个词的词向量;
f是用于信息筛选的控制门向量,hT是最后一个词输入后生成的隐藏层状态向量,sT是最后一个词输入后生成的隐藏层状态向量,f由hT和sT通过一个全连接的神经网络生成,其网络的参数分别是W(f)和U(f),激活函数是sigmoid函数,由符号σ表示;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都数联铭品科技有限公司,未经成都数联铭品科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611270135.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:事件的处理方法及装置
- 下一篇:一种基于低功耗蓝牙技术的图书入库新方法
- 同类专利
- 专利分类
G06Q 专门适用于行政、商业、金融、管理、监督或预测目的的数据处理系统或方法;其他类目不包含的专门适用于行政、商业、金融、管理、监督或预测目的的处理系统或方法
G06Q10-00 行政;管理
G06Q10-02 .预定,例如用于门票、服务或事件的
G06Q10-04 .预测或优化,例如线性规划、“旅行商问题”或“下料问题”
G06Q10-06 .资源、工作流、人员或项目管理,例如组织、规划、调度或分配时间、人员或机器资源;企业规划;组织模型
G06Q10-08 .物流,例如仓储、装货、配送或运输;存货或库存管理,例如订货、采购或平衡订单
G06Q10-10 .办公自动化,例如电子邮件或群件的计算机辅助管理
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置