[发明专利]基于多粒度属性树的属性约简在文本分类中的应用方法有效

申请号：	201810059050.5	申请日：	2018-01-22
公开（公告）号：	CN108197295B	公开（公告）日：	2022-03-11
发明（设计）人：	胡军;邵瑞;张清华;于洪	申请（专利权）人：	重庆邮电大学
主分类号：	G06F16/35	分类号：	G06F16/35;G06F16/31
代理公司：	重庆辉腾律师事务所 50215	代理人：	王海军
地址：	400065 重***	国省代码：	重庆;50
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于粒度属性文本分类中的应用方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明涉及数据挖掘技术领域，特别涉及一种基于多粒度属性树的属性约简在文本分类中的应用方法，包括：数据获取，并对数据进行初步预处理；构建多粒度属性树；根据多粒度属性树对微博数据约简；保存约简结果，利用数据挖掘算法进行进一步分析；本发明在遍历的过程中，由于子树的删除，子树的叶子结点代表的词语都一次性被删除，避免了再逐一测试子树中其他词语是否可删的操作，减少了解空间的范围，在确保得到约简结果的同时极大提升约简速度。

技术领域

本发明涉及数据挖掘技术领域，特别涉及一种基于多粒度属性树的属性约简在文本分类中的应用方法。

技术背景

微博数据是一种文本数据，其特征通常数以亿计，是典型的高维数据。在这些特征中，存在大量的冗余特征，从而使得挖掘效率不高。因此，微博数据挖掘必须通过属性约简去除冗余特征，尽可能减少分类算法的时间与空间复杂度。

基于粗糙集的属性约简方法不需要先验知识，因而被广泛地应用于数据挖掘、机器学习、模式识别等领域。针对粗糙集属性约简速度慢的问题，人们已经提出了多种属性约简的高效算法。文献“倪茂树,时达明与林鸿飞,基于粗糙集属性约简的文本分类.郑州大学学报(理学版),2007(02):第100-103页.”针对文本分类，计算区分矩阵得到属性核，接着穷举出所有不包含核属性的属性组合，放弃了复杂的规则匹配算法，选取包含属性个数最多的一组属性组，其余属性组析取得到筛选的特征。文献“刘毅,基于粗糙集的文本分类技术研究,2007,西南交通大学.第66页.”在文本的向量空间将文本属性权值离散化，得到决策信息表，按照属性重要性从大到小，逐步将条件属性加入到约简中，直到得到约简为止，避免了求核属性的复杂计算。

然而，现有的基于粗糙集的属性约简方法在面对微博数据这样的高维数据时，效率还有待提高。

发明内容

为了解决传统的粗糙集约简流程面对海量文本数据时约简的低效性，本发明提出一种基于多粒度属性树的属性约简在文本分类中的应用方法，如图1，包括：

S1、获取文本数据，并对数据进行初步预处理；

S2、构建多粒度属性树；

S3、根据多粒度属性树对文本数据约简，得到属性约简的数据。

优选的，文本数据获取，并进行初步数据预处理包括：

获取文本数据，若是获取微博的文本数据，可以利用爬虫与微博的应用程序编程接口API获取微博的文本数据；

将文本数据中有主题的数据筛选出来，并将有主题的文本数据的主题提取出来作为这条文本数据的主题；

对有主题的文本数据内容分词，得到组成该数据的一系列词汇，再删除其中的标点符号、停用词、非中文字符；

将有主题的文本数据都如上处理，最终将所有词汇与文本数据的主题构成预处理数据。

优选的，构建多粒度属性树包括：