[发明专利]一种基于MPI和Adaboost.MH的中文文本分类方法在审
申请号: | 201710131434.9 | 申请日: | 2017-03-07 |
公开(公告)号: | CN107092644A | 公开(公告)日: | 2017-08-25 |
发明(设计)人: | 王进;高延雨;李颖;李航;余薇;高选人;邓欣;陈乔松;胡峰 | 申请(专利权)人: | 重庆邮电大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27;G06K9/62 |
代理公司: | 重庆市恒信知识产权代理有限公司50102 | 代理人: | 刘小红,李金蓉 |
地址: | 400065 重*** | 国省代码: | 重庆;85 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 mpi adaboost mh 中文 文本 分类 方法 | ||
技术领域
本发明涉及文本挖掘技术领域,特别涉及一种基于MPI和adaboost.MH的中文文本分类方法。
背景技术
文本分类是在文本的类别体系已知的情况下,根据信息内容将文本划分到与其相关的类别中去的过程。随着科学技术的进步、社会的发展、计算机的普及和网络时代的来临,网络文本的数量在急剧增长中,文本分类任务呈现了新的特点:一、每天都会产生大量的需要进行分类的新文本,这些数据通常是TB级以上。二、文本的类别呈现出多样性,即一个文本可以属于多种类别,比如同一文本既可以属于历史,又可以属于政治,还可以属于科技等。
传统的单标签分类方法如决策树方法、k近邻方法、神经网络方法、遗传算法、贝叶斯分类、支持向量机等已经不能满足人们的需要。因此现今出现了许多多标签分类方法,主要有BR、ECC、Adaboost.MH、MLKNN、CML、ML-DT、rank-Svm等。
Adaboost.MH算法是一种对单标签分类算法Adaboost的改进处理多标签的迭代算法,其核心思想是对同一个训练集训练不同的弱分类器,然后将这些弱分类器结合起来构成一个强分类器。本文中Adaboost.MH算法选择的弱分类器是一级决策树,该算法思想简单、易于实现。但由于现在需要分类的文本数量太大,Adaboost.MH算法为了保证分类效果需要进行多次的迭代学习,因此需要大量的训练时间。
为了提高Adaboost.MH算法的效率,减少训练时间,现有的解决方法主要是对算法进行并行实现。并行的方法主要有openmp、hadoop、spark、MPI。其中openmp可以在单机上对算法进行多线程并行实现,不能用于集群。但当数据量过大时,对机器内存的要求将过高,openmp将不适用。Hadoop根据mapreduce框架通过集群对算法实现并行,但hadoop不擅长处理迭代算法。Spark同样可以使用集群来并行实现算法,但与MPI相比较,速度较慢。
发明内容
针对海量数据构建训练集时间较长和使用Adaboost.MH算法进行分类模型训练需要大量时间的问题,本发明利用MPI和adaboost.MH相结合,提出了一种基于MPI和Adaboost.MH的并行文本分类方法。
本发明解决中文文本分类耗时问题的技术方案是:将预处理后的文本平均分成p份,每个进程处理其中的一份,进程依靠MPI实现进程间相互通信作为辅助完成对训练集中文文本进行特征选择、构建权值向量、训练分类模型、对待分类文本进行分类等工作,从而实现了中文文本分类的并行化,能够极大程度的提高中文文本分类的时间效率。
鉴于此,本发明采用的技术方案是:一种基于MPI和Adaboost.MH的中文文本分类方法,包括以下步骤:
(1)文本预处理:搜集不同领域的中文文本文件,对搜集到的中文文本进行中文分词,然后将标点符号及停用词去除,将分词后的词条用空格符分隔保存到训练集数据中,作为初步特征。
(2)特征词选择:通过使用互信息方法对预处理文本的初步特征进行选择。
(3)构建权值向量:对每个进程的每一篇中文文本文件,扫描判断挑选的特征词是否在该中文文本文件中,如果文件中存在该特征词,这该特征词对应的权值为1,否则该特征词对应的权值为0,构建中文文本文件权值向量。
(4)构建文本分类模型:利用Adaboost.MH算法构建分类模型。
(5)对待分类文本进行分类:根据步骤(4)构建的分类模型对待分类文本进行分类。
进一步,步骤(2)所述特征词选择的具体步骤为:
首先将训练集数据平均分为p份,每个进程依次读取其中的一份;然后分别统计各进程的A、B、C、N值,A为在类别c中特征词t出现的中文文本分数;B为在除了类别c的其他类别中特征词t出现的中文文本分数;C为在类别c中特征词t未出现的中文文本分数;N为所有类别中中文文本分数的总和;接着所有进程通过MPI中的MPI_Reduce函数对A、B、C、N进行归约求和,结果保存到进程0中,进程0根据归约求和的结果计算特征词t和类别c之间的相似度I;最后通过快速排序算法对特征词的相似度I进行排序,将相似度I较大的n个特征词保留,并将选择的结果广播给所有的进程,所有进程根据收到的广播信息挑选特征词。其中相似度I的计算公式为:
上述步骤(4)中分类模型的构建过程如下:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆邮电大学,未经重庆邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710131434.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种具有自清洁功能的加锡膏装置
- 下一篇:一种变压器线圈的自动上锡冶具