[发明专利]基于Hadoop的文本分类方法及装置有效

专利信息
申请号: 201410073364.2 申请日: 2014-02-28
公开(公告)号: CN103810293B 公开(公告)日: 2017-06-16
发明(设计)人: 万睿;张国强;谢浩安 申请(专利权)人: 云宏信息科技股份有限公司
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 广州市越秀区哲力专利商标事务所(普通合伙)44288 代理人: 汤喜友
地址: 510630 广东省广州市*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 hadoop 文本 分类 方法 装置
【说明书】:

技术领域

发明涉及文本分类技术。

背景技术

朴素贝叶斯分类算法作为一种优秀的分类算法,因为其准确率高,易于理解,容易实现等特点被广泛应用于各种分类任务中,是目前最广泛使用的文本分类方法之一。

近年来随着信息技术的发展,文档分类任务呈现出新的特点,这些特点主要体现在以下三个方面:一,每天都有海量的新增数据需要进行处理,这些数据通常是TB级以上,同时数据量呈现出快速增长的趋势。二,可用于训练分类器的已有数据往往存在数据不均衡现象,不仅不同类别的训练数据之间存在不均衡现象,而且同一类别的不同文本之间也存在不均衡现象。三,训练数据往往是大量的包含中文文本小文件,这些特点给传统的朴素贝叶斯分类技术带来了挑战。

传统的朴素贝叶斯分类技术主要存在两方面的问题:一方面传统朴素贝叶斯算法往往基于单机计算,无法在可接受的时间内处理海量数据,无法满足当前海量数据的处理要求。另外一方面,由于传统朴素贝叶斯算法的分类准确率完全依赖于训练数据,当训练数据存在不均衡时,分类效果会大打折扣,无法满足很多应用场景的要求,例如在对医院的病例文本进行分类时,采用历史病历作为训练数据时,罕见病的病历会远少于常见病的病历,如果采用传统朴素贝叶斯分类技术,训练的分类器对罕见病的分类效果会非常差,而对常见病的分类效果较好,这与医生更关心罕见病的分类准确率的需求相违背,使分类系统的实用性大打折扣。此外,大量的小文件直接上传至集群往往速度较慢,无法在可接受的时间内实现上传。

Hadoop Distributed File System,简称HDFS,是一个分布式文件系统。HDFS有着高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上。而且它提供高吞吐量来访问应用程序的数据,适合那些有着超大数据集的应用程序。HDFS放宽了POSIX的要求这样可以实现流的形式访问(streaming access)文件系统中的数据。HDFS开始是为开源的apache项目nutch的基础结构而创建,HDFS是hadoop项目的一部分,而hadoop又是Iucene的一部分。

随着企业要处理的数据量越来越大,MapReduce思想越来越受到重视。Hadoop是MapReduce的一个开源实现,由于其良好的扩展性和容错性,已得到越来越广泛的应用。MapReduce是Google提出的一种实现分布式并行计算任务的通用软件框架,它简化了由普通计算机组成的超大集群上的并行软件编程模式,可用于大规模数据集的并行计算。

SequenceFile是一个由二进制形式key/value的字节流组成的存储文件,SequenceFile可压缩可切分,非常适合hadoop文件存储特性,SequenceFile的写入由SequenceFile.Writer来实现,根据压缩类型SequenceFile。

发明内容

本发明的目的在于提出一种基于Hadoop的文本分类方法及装置,其能解决训练分类器数据不均衡的问题。

为了达到上述目的,本发明所采用的技术方案如下:

基于Hadoop的文本分类方法,其包括以下步骤:

步骤1、对训练用的文本进行分词处理,将每一个经过分词处理的文本保存至一训练数据集中对应的一个文本文件中;

步骤2、对训练数据集的文本文件的文本进行采样,以使不同类别的文本的数量相等;

步骤3、将训练数据集的文本文件写入SequenceFile文件中,并将SequenceFile文件上传至Hadoop文件系统;

步骤4、通过MapReduce模块统计SequenceFile文件的文本文件的文本包含的词条和类别,其中,所述词条和类别分别对应贝叶斯分类器的属性值和类别标签;

步骤5、通过MapReduce模块按照TF-IDF加权模型计算SequenceFile文件的每个文本文件的文本的每个词条的TF-IDF值,根据所述TF-IDF值将文本转换为用于贝叶斯分类器的一维向量;

步骤6、通过MapReduce模块统计每个文本文件的文本的长度,根据所述长度对一维向量进行加权,以使所有文本的权重相等;

步骤7、利用一维向量,根据贝叶斯分类器,统计每个类别的先验概率和每个词条属于每个类别的先验概率,得到分类模型;

步骤8、利用分类模型,对待分类的文本进行分类。

本发明还提出了一种基于Hadoop的文本分类装置,其包括以下模块:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于云宏信息科技股份有限公司,未经云宏信息科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201410073364.2/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top