[发明专利]基于混合自动编码器深度学习的文本分类方法及系统在审
申请号: | 201710852894.0 | 申请日: | 2017-09-20 |
公开(公告)号: | CN107729393A | 公开(公告)日: | 2018-02-23 |
发明(设计)人: | 杨振宇;靖慧 | 申请(专利权)人: | 齐鲁工业大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 济南圣达知识产权代理有限公司37221 | 代理人: | 张勇 |
地址: | 250353 山东省济南*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 混合 自动 编码器 深度 学习 文本 分类 方法 系统 | ||
技术领域
本发明属于数据分类处理的技术领域,尤其是涉及一种基于混合自动编码器深度学习的文本分类方法及系统。
背景技术
随着网络技术的快速发展,海量的信息资源以文本的形式存在。人们迫切的希望能从爆炸式的信息浪潮中快速有效的找到自己感兴趣的内容。文本分类作为信息处理的重要研究方向,是解决文本信息发现的常用方法。然而,针对海量数据,特征高维性给文本分类带来诸多问题,无法满足人们对获取有用知识的需求。
深度学习,是一种无监督的特征学习和特征层次结构学习方法,无监督学习方法一般是通过重构原始输入数据来实现特征提取的特征学习方法,近几年来在机器学习领域比较热门。其本质是通过使用大量的训练数据以及构建出含多个隐藏层的网络结构模型,从而去学习更加抽象的高级特征。
在深度学习中,自动编码器是一种重要的训练模型,在机器学习的预测和识别领域成就显著,具有良好的特征学习能力,显著降低特征维度,已经有较多的研究学者做了关于自动编码器分类的实验。其中,Ranzato等人使用一种稀疏性的约束方式对特征进行表达,通过数据的稀疏性来限制输入数据并只选取其中最关键的部分。Benjio通过综合已经有的深度网络结构,提出了将自动编码器堆叠起来构造深度网络的方法。Salah在对升维和降维添加了约束条件,最终提出了压缩自动编码器(CAE)。
但是,目前随着数据量急剧增多,海量数据的特征高维性和稀疏性成为文本分类的两大难点,在使用分类算法时带来了两个问题:
一、在训练与分类时间上带来很大的开销;
二、过多的特征往往会导致人们常说的“维数灾难”问题,高维问题导致提取出来的特征不够准确,降低分类的准确度。
在文本分类中,传统的建模方法包括:堆叠、预训练、微调,已经相对比较落后单一,不能准确的提取出特征,在做实验研究时不能得到令人满意的训练结果。中国专利文献CN 104866573A公开了一种文本分类的方法,在特征项提取中提出了针对传统的TFIDF算法的不足,结合特征词权重对文本分类的实际影响,对传统TFIDF算法公式进行修改,剔除干扰特征性在内间的影响,同时加入了类内离散度的概念,实现了文本分类精确度的要求。虽然提高文本分类的精确度,但是仍无法解决文本分类中存在的因海量数据的特征高维性和稀疏性造成的分类时间长、准确度低的问题。
综上所述,针对现有技术中的文本分类中存在的因海量数据的特征高维性和稀疏性造成的分类时间长、准确度低的问题,尚缺乏有效的解决方案。
发明内容
针对现有技术中存在的不足,本发明提供了一种基于混合自动编码器深度学习的文本分类方法及系统,将稀疏受限玻尔兹曼机SRBM加入到收缩自动编码器CAE网络中提出一种混合自动编码器训练模型,该训练模型将收缩自动编码器鲁棒性的特征提取优点和SRBM稀疏性的特征表示和使用对比散度快速学习优点结合,增强混合自动编码器的学习能力,并基于该模型进行特征学习,实现了对分类数据分类精度的要求。
本发明的第一目的是提供一种基于混合自动编码器深度学习的文本分类方法。
为了实现上述目的,本发明采用如下一种技术方案:
一种基于混合自动编码器深度学习的文本分类方法,该方法包括:
获取文本数据,进行预处理;
预处理后的文本数据基于混合自动编码器训练模型进行特征学习,所述混合自动编码器训练模型采用将稀疏受限玻尔兹曼机SRBM加入到收缩自动编码器CAE网络中形成;
将特征学习后的文本数据进行特征分类。
在本发明中,所述混合自动编码器训练模型采用将稀疏受限玻尔兹曼机SRBM加入到收缩自动编码器CAE网络中形成,将收缩自动编码器鲁棒性的特征提取优点和SRBM稀疏性的特征表示和使用对比散度快速学习优点结合,增强混合自动编码器的学习能力,并基于该模型进行特征学习,实现了对分类数据分类精度的要求。
作为进一步的优选方案,获取的文本数据为带标签的文本数据,将获取的文本数据形成带标签的文本数据集;
和/或直接获取带标签的文本数据集。
作为进一步的优选方案,在该方法中,所述预处理的具体步骤为:
提取带标签的文本数据集中的关键词;
将带标签的文本数据集进行分词,并去除停用词;
计算带标签的文本数据集中的各个关键词的权重,并将不重要的词语进行过滤。
作为进一步的优选方案,权重计算采用TFIDF算法或改进后的TFIDF算法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于齐鲁工业大学,未经齐鲁工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710852894.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种鱼体尾频检测方法和系统
- 下一篇:一种关于新TAVI模型中s因子的算法