[发明专利]基于多隐层极限学习机的中文文本分类方法在审
申请号: | 201710665695.9 | 申请日: | 2017-08-07 |
公开(公告)号: | CN107451278A | 公开(公告)日: | 2017-12-08 |
发明(设计)人: | 庞皓明;冀俊忠 | 申请(专利权)人: | 北京工业大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27;G06K9/62 |
代理公司: | 北京思海天达知识产权代理有限公司11203 | 代理人: | 沈波 |
地址: | 100124 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了基于多隐层极限学习机的中文文本分类方法,将正则化极限学习机模型应用到中文文本分类问题中,使用多隐层极限学习机模型对文本进行分类。使用复旦大学中文语料库作为文本分类的训练集和测试集;对文本数据进行预处理等操作,包括统一编码方式、切词和去除停用词、符号、数字等;使用空间向量模型对文本进行表示,将数据集转换成文本矩阵;使用多隐层极限学习机对文本进行分类,其中包括文本降维、特征映射和文本分类。文本降维将高维文本数据转换成可以进行计算的低维文本数据。使用多隐层极限学习机的多隐层结果对文本的特征进行映射,进行高层特征表示。使用多隐层极限学习机中的正则化极限学习机对文本进行分类。 | ||
搜索关键词: | 基于 多隐层 极限 学习机 中文 文本 分类 方法 | ||
【主权项】:
基于多隐层极限学习机的中文文本分类方法,其特征在于:该方法包括以下步骤:步骤一:数据预处理选用中文语料库作为数据集,在进行文本分类之前,需要对中文语料库数据集的文本进行一系列预处理操作;首先为了正常显示以及进行后续处理,需要将不同编码方式的中文文本的编码方式统一为utf‑8格式;然后使用jieba分词工具对中文文本进行分词,将句子分割成单独的词;在中文文本中存在着许多没有具体含义的停用词进行去除,并且去除中文的符号和英文的字符;步骤二:中文文本表示中文文本数据经过预处理后会将文本变成单独的词,因此选用词作为中文文本的基本特征,进行中文文本特征单元的构造;然后选用空间向量模型即词袋模型作为文本的表示模型,使用TF‑IDF作为空间向量模型中的权重;步骤三:ML‑ELM文本分类多隐层极限学习机文本分类可以分成三个小步骤完成,包括文本进行文本降维、特征映射和文本分类;文本降维:因为文本数据的维数较高,所以经常需要降维处理;多隐层极限学习机通过减少多隐层极限学习机中第一个极限学习机自编码器隐藏层节点的个数,通过压缩表达的方式对文本数据进行表示,以达到降维的目的;特征映射:然后使用多隐层极限学习机的多隐层结构对文本进行高层特征表示,提取出更高层次特征,对文本进行更好表示;文本分类:文本数据在经过降维和特征表示之后,将使用正则化极限学习机的方法对文本进行分类,分类的结果则是文本的类别。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201710665695.9/,转载请声明来源钻瓜专利网。
- 上一篇:具有防水散热装置的油烟机深度清洗机
- 下一篇:一种农作物种子的清洗装置