[发明专利]基于多粒度属性树的属性约简在文本分类中的应用方法有效
申请号: | 201810059050.5 | 申请日: | 2018-01-22 |
公开(公告)号: | CN108197295B | 公开(公告)日: | 2022-03-11 |
发明(设计)人: | 胡军;邵瑞;张清华;于洪 | 申请(专利权)人: | 重庆邮电大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/31 |
代理公司: | 重庆辉腾律师事务所 50215 | 代理人: | 王海军 |
地址: | 400065 重*** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 粒度 属性 文本 分类 中的 应用 方法 | ||
本发明涉及数据挖掘技术领域,特别涉及一种基于多粒度属性树的属性约简在文本分类中的应用方法,包括:数据获取,并对数据进行初步预处理;构建多粒度属性树;根据多粒度属性树对微博数据约简;保存约简结果,利用数据挖掘算法进行进一步分析;本发明在遍历的过程中,由于子树的删除,子树的叶子结点代表的词语都一次性被删除,避免了再逐一测试子树中其他词语是否可删的操作,减少了解空间的范围,在确保得到约简结果的同时极大提升约简速度。
技术领域
本发明涉及数据挖掘技术领域,特别涉及一种基于多粒度属性树的属性约简在文本分类中的应用方法。
技术背景
微博数据是一种文本数据,其特征通常数以亿计,是典型的高维数据。在这些特征中,存在大量的冗余特征,从而使得挖掘效率不高。因此,微博数据挖掘必须通过属性约简去除冗余特征,尽可能减少分类算法的时间与空间复杂度。
基于粗糙集的属性约简方法不需要先验知识,因而被广泛地应用于数据挖掘、机器学习、模式识别等领域。针对粗糙集属性约简速度慢的问题,人们已经提出了多种属性约简的高效算法。文献“倪茂树,时达明与林鸿飞,基于粗糙集属性约简的文本分类.郑州大学学报(理学版),2007(02):第100-103页.”针对文本分类,计算区分矩阵得到属性核,接着穷举出所有不包含核属性的属性组合,放弃了复杂的规则匹配算法,选取包含属性个数最多的一组属性组,其余属性组析取得到筛选的特征。文献“刘毅,基于粗糙集的文本分类技术研究,2007,西南交通大学.第66页.”在文本的向量空间将文本属性权值离散化,得到决策信息表,按照属性重要性从大到小,逐步将条件属性加入到约简中,直到得到约简为止,避免了求核属性的复杂计算。
然而,现有的基于粗糙集的属性约简方法在面对微博数据这样的高维数据时,效率还有待提高。
发明内容
为了解决传统的粗糙集约简流程面对海量文本数据时约简的低效性,本发明提出一种基于多粒度属性树的属性约简在文本分类中的应用方法,如图1,包括:
S1、获取文本数据,并对数据进行初步预处理;
S2、构建多粒度属性树;
S3、根据多粒度属性树对文本数据约简,得到属性约简的数据。
优选的,文本数据获取,并进行初步数据预处理包括:
获取文本数据,若是获取微博的文本数据,可以利用爬虫与微博的应用程序编程接口API获取微博的文本数据;
将文本数据中有主题的数据筛选出来,并将有主题的文本数据的主题提取出来作为这条文本数据的主题;
对有主题的文本数据内容分词,得到组成该数据的一系列词汇,再删除其中的标点符号、停用词、非中文字符;
将有主题的文本数据都如上处理,最终将所有词汇与文本数据的主题构成预处理数据。
优选的,构建多粒度属性树包括:
所有预处理数据的分词结果组成一个大的词汇集合,作为根结点,根结点在树的第0层;
将根结点中的词汇分为m组,每组之间相交为空集,各个分组是根结点的子结点,处于多粒度属性树的第1层;
再将第1层的子结点看作根结点,递归的将每个结点分为m组,以此类推,直到结点不可再分,在分组的过程中,当m大于根结点中的词数,则m取根结点中的总词数。
优选的,根据多粒度属性树对文本数据约简包括:
对多粒度属性树,从根结点开始,以广度优先遍历的顺序判断每个结点的删除导致条件属性的变化,变化后的微博数据的正区域是否与原始数据的正区域相等,若相等,则删除该结点及其子树,继续遍历多粒度属性树;否则则继续进行广度优先遍历。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆邮电大学,未经重庆邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810059050.5/2.html,转载请声明来源钻瓜专利网。