[发明专利]一种基于MPI和Adaboost.MH的中文文本分类方法在审

专利信息
申请号: 201710131434.9 申请日: 2017-03-07
公开(公告)号: CN107092644A 公开(公告)日: 2017-08-25
发明(设计)人: 王进;高延雨;李颖;李航;余薇;高选人;邓欣;陈乔松;胡峰 申请(专利权)人: 重庆邮电大学
主分类号: G06F17/30 分类号: G06F17/30;G06F17/27;G06K9/62
代理公司: 重庆市恒信知识产权代理有限公司50102 代理人: 刘小红,李金蓉
地址: 400065 重*** 国省代码: 重庆;85
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 mpi adaboost mh 中文 文本 分类 方法
【说明书】:

技术领域

发明涉及文本挖掘技术领域,特别涉及一种基于MPI和adaboost.MH的中文文本分类方法。

背景技术

文本分类是在文本的类别体系已知的情况下,根据信息内容将文本划分到与其相关的类别中去的过程。随着科学技术的进步、社会的发展、计算机的普及和网络时代的来临,网络文本的数量在急剧增长中,文本分类任务呈现了新的特点:一、每天都会产生大量的需要进行分类的新文本,这些数据通常是TB级以上。二、文本的类别呈现出多样性,即一个文本可以属于多种类别,比如同一文本既可以属于历史,又可以属于政治,还可以属于科技等。

传统的单标签分类方法如决策树方法、k近邻方法、神经网络方法、遗传算法、贝叶斯分类、支持向量机等已经不能满足人们的需要。因此现今出现了许多多标签分类方法,主要有BR、ECC、Adaboost.MH、MLKNN、CML、ML-DT、rank-Svm等。

Adaboost.MH算法是一种对单标签分类算法Adaboost的改进处理多标签的迭代算法,其核心思想是对同一个训练集训练不同的弱分类器,然后将这些弱分类器结合起来构成一个强分类器。本文中Adaboost.MH算法选择的弱分类器是一级决策树,该算法思想简单、易于实现。但由于现在需要分类的文本数量太大,Adaboost.MH算法为了保证分类效果需要进行多次的迭代学习,因此需要大量的训练时间。

为了提高Adaboost.MH算法的效率,减少训练时间,现有的解决方法主要是对算法进行并行实现。并行的方法主要有openmp、hadoop、spark、MPI。其中openmp可以在单机上对算法进行多线程并行实现,不能用于集群。但当数据量过大时,对机器内存的要求将过高,openmp将不适用。Hadoop根据mapreduce框架通过集群对算法实现并行,但hadoop不擅长处理迭代算法。Spark同样可以使用集群来并行实现算法,但与MPI相比较,速度较慢。

发明内容

针对海量数据构建训练集时间较长和使用Adaboost.MH算法进行分类模型训练需要大量时间的问题,本发明利用MPI和adaboost.MH相结合,提出了一种基于MPI和Adaboost.MH的并行文本分类方法。

本发明解决中文文本分类耗时问题的技术方案是:将预处理后的文本平均分成p份,每个进程处理其中的一份,进程依靠MPI实现进程间相互通信作为辅助完成对训练集中文文本进行特征选择、构建权值向量、训练分类模型、对待分类文本进行分类等工作,从而实现了中文文本分类的并行化,能够极大程度的提高中文文本分类的时间效率。

鉴于此,本发明采用的技术方案是:一种基于MPI和Adaboost.MH的中文文本分类方法,包括以下步骤:

(1)文本预处理:搜集不同领域的中文文本文件,对搜集到的中文文本进行中文分词,然后将标点符号及停用词去除,将分词后的词条用空格符分隔保存到训练集数据中,作为初步特征。

(2)特征词选择:通过使用互信息方法对预处理文本的初步特征进行选择。

(3)构建权值向量:对每个进程的每一篇中文文本文件,扫描判断挑选的特征词是否在该中文文本文件中,如果文件中存在该特征词,这该特征词对应的权值为1,否则该特征词对应的权值为0,构建中文文本文件权值向量。

(4)构建文本分类模型:利用Adaboost.MH算法构建分类模型。

(5)对待分类文本进行分类:根据步骤(4)构建的分类模型对待分类文本进行分类。

进一步,步骤(2)所述特征词选择的具体步骤为:

首先将训练集数据平均分为p份,每个进程依次读取其中的一份;然后分别统计各进程的A、B、C、N值,A为在类别c中特征词t出现的中文文本分数;B为在除了类别c的其他类别中特征词t出现的中文文本分数;C为在类别c中特征词t未出现的中文文本分数;N为所有类别中中文文本分数的总和;接着所有进程通过MPI中的MPI_Reduce函数对A、B、C、N进行归约求和,结果保存到进程0中,进程0根据归约求和的结果计算特征词t和类别c之间的相似度I;最后通过快速排序算法对特征词的相似度I进行排序,将相似度I较大的n个特征词保留,并将选择的结果广播给所有的进程,所有进程根据收到的广播信息挑选特征词。其中相似度I的计算公式为:

上述步骤(4)中分类模型的构建过程如下:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆邮电大学,未经重庆邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201710131434.9/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top