[发明专利]一种基于一致性聚类的Web文本分类方法有效

申请号：	201310025642.2	申请日：	2013-01-21
公开（公告）号：	CN103049581A	公开（公告）日：	2013-04-17
发明（设计）人：	吴俊杰;刘洪甫;李红;韩小汀	申请（专利权）人：	北京航空航天大学
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	北京远大卓悦知识产权代理事务所(普通合伙) 11369	代理人：	史霞
地址：	100191 北京市海淀区***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于一致性 web 文本分类方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及文本分类方法，特别是基于一致性聚类的文本分类方法，属于数据挖掘、机器学习和商务智能领域，特别针对海量、异质、高维数据聚类，并可用于知识融合和知识重用。

背景技术

文本数据作为重要的信息载体之一，尤其是随着互联网的普及和流行，正以惊人的速度增长。如何从这些庞杂的信息中快速有效地寻找满足需要的信息对人们来说是一个巨大的挑战。文本分类作为处理和组织大量文本数据的关键技术，能够很大程度上解决信息爆炸和信息杂乱所带来的问题。基于同类文档相似程度大，不同类的文档相似程度低的假设，文本分类目标是将一组文档分成多个簇，使得相同的簇内的文档具有较高的相似程度，不同簇的文档差别较大。由于无法获得类别标签，文本分类的本质属于聚类分析技术。然而文本数据具有海量、高维、稀疏等特点，使得单一的传统聚类算法在面对文本数据时，不仅表现不佳，而且运行耗时巨大。

特别是随着互联网的快速发展，网络媒体作为一种新的信息传播形式，已深入人们的日常生活。网友言论活跃已达到前所未有的程度，不论是国内还是国际重大事件，都能马上形成网上舆论，通过网络来表达观点、传播思想，进而产生巨大的舆论压力，达到任何部门、机构都无法忽视的地步。可以说，互联网已成为思想文化信息的集散地和社会舆论的放大器。因此需要从网络信息采集系统从互联网上采集新闻、论坛、博客、评论等舆情信息，存储到采集信息数据库中，再通过舆情分析引擎负责对采集信息进行清洗、智能研判和加工，分析结果保存在舆情成果库中。舆情分析引擎依赖于智能分析技术和舆情知识库，其基础就是文本的聚类分析。

发明内容

针对上述技术缺陷，本发明提出一种基于一致性聚类的Web文本分类方法。该方法以快速聚类法为核心，多次利用部分维度的文本数据获得多个聚类结果，进而利用一致性聚类方法最终获得具有高鲁棒性和高质量的文本分类结果。利用部分维度有可能得到质量较高的基础聚类结果，从一定程度上克服由高维导致的劣解；多个基础聚类结果通过一致性聚类方法进行组合提高结果的鲁棒性。一种基于一致性聚类的Web文本聚类方法，包括如下步骤：

步骤1：收集互联网上的文本数据。

步骤2：将文本数据进行分词处理。

步骤3：停用词移除。

步骤4：词干提取。

步骤5：针对每一条文本数据生成向量空间模型，X＝{x_l|1＜l＜n}，n为文本数据的数量。

步骤6：重复随机抽取一定百分比维度的文本数据，指定类别个数，利用快速聚类法使用余弦相似度距离进行聚类，得到基础聚类结果。用π_i表示第i个基础聚类结果，K_i表示π_i的类别个数，则∏＝{π₁，…，π_i，…，π_r}表示r个所有基础聚类结果的集合。

步骤7：在基础聚类结果上生成0-1二元矩阵。

用表示由上述基础聚类结果得到的0-1二元矩阵，b表示binary，n为样本个数，其生成方式如公式(1)所示：

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京航空航天大学，未经北京航空航天大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201310025642.2/2.html，转载请声明来源钻瓜专利网。