[发明专利]一种基于MPI和Adaboost.MH的中文文本分类方法在审

申请号：	201710131434.9	申请日：	2017-03-07
公开（公告）号：	CN107092644A	公开（公告）日：	2017-08-25
发明（设计）人：	王进;高延雨;李颖;李航;余薇;高选人;邓欣;陈乔松;胡峰	申请（专利权）人：	重庆邮电大学
主分类号：	G06F17/30	分类号：	G06F17/30;G06F17/27;G06K9/62
代理公司：	重庆市恒信知识产权代理有限公司50102	代理人：	刘小红,李金蓉
地址：	400065 重***	国省代码：	重庆;85
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于 mpi adaboost mh 中文文本分类方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及文本挖掘技术领域，特别涉及一种基于MPI和adaboost.MH的中文文本分类方法。

背景技术

文本分类是在文本的类别体系已知的情况下，根据信息内容将文本划分到与其相关的类别中去的过程。随着科学技术的进步、社会的发展、计算机的普及和网络时代的来临，网络文本的数量在急剧增长中，文本分类任务呈现了新的特点：一、每天都会产生大量的需要进行分类的新文本，这些数据通常是TB级以上。二、文本的类别呈现出多样性，即一个文本可以属于多种类别，比如同一文本既可以属于历史，又可以属于政治，还可以属于科技等。

传统的单标签分类方法如决策树方法、k近邻方法、神经网络方法、遗传算法、贝叶斯分类、支持向量机等已经不能满足人们的需要。因此现今出现了许多多标签分类方法，主要有BR、ECC、Adaboost.MH、MLKNN、CML、ML-DT、rank-Svm等。

Adaboost.MH算法是一种对单标签分类算法Adaboost的改进处理多标签的迭代算法,其核心思想是对同一个训练集训练不同的弱分类器，然后将这些弱分类器结合起来构成一个强分类器。本文中Adaboost.MH算法选择的弱分类器是一级决策树，该算法思想简单、易于实现。但由于现在需要分类的文本数量太大，Adaboost.MH算法为了保证分类效果需要进行多次的迭代学习，因此需要大量的训练时间。

为了提高Adaboost.MH算法的效率，减少训练时间，现有的解决方法主要是对算法进行并行实现。并行的方法主要有openmp、hadoop、spark、MPI。其中openmp可以在单机上对算法进行多线程并行实现，不能用于集群。但当数据量过大时，对机器内存的要求将过高，openmp将不适用。Hadoop根据mapreduce框架通过集群对算法实现并行，但hadoop不擅长处理迭代算法。Spark同样可以使用集群来并行实现算法，但与MPI相比较，速度较慢。

发明内容

针对海量数据构建训练集时间较长和使用Adaboost.MH算法进行分类模型训练需要大量时间的问题，本发明利用MPI和adaboost.MH相结合，提出了一种基于MPI和Adaboost.MH的并行文本分类方法。

本发明解决中文文本分类耗时问题的技术方案是：将预处理后的文本平均分成p份，每个进程处理其中的一份，进程依靠MPI实现进程间相互通信作为辅助完成对训练集中文文本进行特征选择、构建权值向量、训练分类模型、对待分类文本进行分类等工作，从而实现了中文文本分类的并行化，能够极大程度的提高中文文本分类的时间效率。

鉴于此，本发明采用的技术方案是：一种基于MPI和Adaboost.MH的中文文本分类方法，包括以下步骤：

(1)文本预处理：搜集不同领域的中文文本文件，对搜集到的中文文本进行中文分词，然后将标点符号及停用词去除，将分词后的词条用空格符分隔保存到训练集数据中，作为初步特征。

(2)特征词选择：通过使用互信息方法对预处理文本的初步特征进行选择。

(3)构建权值向量：对每个进程的每一篇中文文本文件，扫描判断挑选的特征词是否在该中文文本文件中，如果文件中存在该特征词，这该特征词对应的权值为1，否则该特征词对应的权值为0，构建中文文本文件权值向量。

(4)构建文本分类模型：利用Adaboost.MH算法构建分类模型。

(5)对待分类文本进行分类：根据步骤(4)构建的分类模型对待分类文本进行分类。

进一步，步骤(2)所述特征词选择的具体步骤为：

首先将训练集数据平均分为p份，每个进程依次读取其中的一份；然后分别统计各进程的A、B、C、N值，A为在类别c中特征词t出现的中文文本分数；B为在除了类别c的其他类别中特征词t出现的中文文本分数；C为在类别c中特征词t未出现的中文文本分数；N为所有类别中中文文本分数的总和；接着所有进程通过MPI中的MPI_Reduce函数对A、B、C、N进行归约求和，结果保存到进程0中，进程0根据归约求和的结果计算特征词t和类别c之间的相似度I；最后通过快速排序算法对特征词的相似度I进行排序，将相似度I较大的n个特征词保留，并将选择的结果广播给所有的进程，所有进程根据收到的广播信息挑选特征词。其中相似度I的计算公式为：

上述步骤(4)中分类模型的构建过程如下：

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于重庆邮电大学，未经重庆邮电大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201710131434.9/2.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于MPI和Adaboost.MH的中文文本分类方法在审

专利文献下载