[发明专利]一种基于卷积神经网络与随机森林的短文本分类方法有效
申请号: | 201710181062.0 | 申请日: | 2017-03-24 |
公开(公告)号: | CN107066553B | 公开(公告)日: | 2021-01-01 |
发明(设计)人: | 刘泽锦;王洁 | 申请(专利权)人: | 北京工业大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06K9/62 |
代理公司: | 北京思海天达知识产权代理有限公司 11203 | 代理人: | 沈波 |
地址: | 100124 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 卷积 神经网络 随机 森林 文本 分类 方法 | ||
本发明公开了一种基于卷积神经网络与随机森林的短文本分类方法,属于文本分类与深度学习领域。针对采用Softmax作为卷积神经网络分类器导致泛化能力不足的问题,提出了一种结合卷积神经网络与随机森林的短文本分类算法(CNN‑RF)。本方法首先提出一种双重词向量卷积神经网络用来充分提取短文本高阶特征,然后采用随机森林作为高阶特征分类器,从而提高短文本分类效果。在三个公开实验数据集上的结果表明,与其他算法相比CNN‑RF在多个评价指标上均有明显优势。
技术领域
本发明属于文本分类与深度学习领域,涉及一种基于积神经网络与随机森林的短文本分类方法,可用于针对微博,短信息,用户Query等海量短文本数据的分类或者情感分类等任务。且能够为搜索引擎、信息检索等系统服务使用。
背景技术
随着近年来互联网的飞速发展,各种信息交互平台会产生大量的短文本(ShortText),这些短文本涉及到人们生活的各个领域,逐渐成为人们使用频繁且公认的沟通方式。比如电子商务评论、网页信息检索、智能问答系统等均是海量短文本的产生源。如何从海量短文本中挖掘有效信息,是近年来诸多学者广泛研究的课题。文本分类是一种文本挖掘的有效方法,但由于短文本长度短、词项特征稀疏等特点,致使传统的长文本分类方法变得不再适用。短文本分类技术(Short Text Classification)在一定程度上可以解决上述短文本应用中面临的挑战,该技术是近年来国内外众多学者的研究热点之一,也是自然语言处理(NLP)领域中一项至关重要的任务。现如今,文本分类方法主要是基于统计学习方法或者机器学习的方法,采用统计或机器学习的方法在经过人工标注的语料库上进行训练得到分类器,随后对待分类数据集进行分类。其中比较主流的机器学习方法有朴素贝叶斯(Naive Bayes,NB)、支持向量机(Support Vector Machine,SVM)、逻辑回归(LogisticRegression,LR)多类逻辑回归(Softmax Regression,SR)、随机森林(Random Forest,RF)、深度神经网络(Deep Neural Network,DNN)等。在文本分类领域中取得较成功的长文本分类方法难以直接应用到短文本分类中,因此,针对短文本的分类算法已经成为目前研究者亟待解决的一个研究难题,短文本分类面临的挑战主要为:
1)短文本关键词特征稀疏,与一般词项丰富的长文本相比,短文本往往仅有几个有效关键字,且使用向量空间模型表示文本时,难以充分挖掘特征之间的关联性;
2)在开放领域(比如微博,搜索引擎)中,信息更新快,单篇短文本信息量小,但总体文本信息量极大,信息之间的交叉部分少;
3)新词、新用语、口语化的大量出现,这些词语对于己有分类系统来说通常是很难难处理的。
国内外学者已经针对短文本分类问题进行了一些有意义的研究与探索,第一类是基于短文本特征扩展的方法:Bouaziz等人利用潜在狄利克雷分配(Latent DirichletAllocation,LDA)模型学习维基百科数据上的主题及词语在主题上的分布,然后用同主题下的高频词语来扩展短文本,再使用随机语义森林对扩展词语进行特征选择,然后进行分类;还有一些学者通过关联规则挖掘(FP-Growth)得到词语共现模式集合,将其作为文本特征扩展的依据,而词语关系置信度作为持征扩展时的权重来完成短文本的特征扩展与分类;XH Phan等人通过抓取互联网海量数据来构建全局语料库,之后使用LDA主题模型的方法得到全局语料库的主题模型,最后使用全局的LDA主题模型对待分类的短文本语料库进行主题推断(Model Estimation),得到待分类短文本的主题分布,使用该主题分布对短文本进行特征扩展,最后进行分类。第一类方法在做短文本扩展特征时会不可避免的引入噪音,造成分类效果差。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710181062.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种游戏用户数据的存储方法及系统
- 下一篇:微博相关人物推荐方法