[发明专利]一种决策级文本自动分类融合方法无效
申请号: | 200910087844.3 | 申请日: | 2009-06-24 |
公开(公告)号: | CN101604322A | 公开(公告)日: | 2009-12-16 |
发明(设计)人: | 张晓丹;牛振东;张正施;曹玉鹃;徐小梅 | 申请(专利权)人: | 北京理工大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京理工大学专利中心 | 代理人: | 张利萍 |
地址: | 100081北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 决策 文本 自动 分类 融合 方法 | ||
技术领域
本发明涉及一种决策级文本自动分类融合方法,属于数据挖掘领域,适用于数字图书馆、网络内容监管、垃圾邮件过滤等。
背景技术
文本自动分类是数据挖掘领域较为热点的研究问题。其目的是训练一个分类函数或分类器,该函数或分类器能把待分文档映射到给定的相应类别中。其目标是研究分类速度更快、更准确的管理文本信息的方法。如何提高分类的准确率是目前研究的热点问题。
决策级融合模型是信息融合领域较为经典的融合模型,其结构有串联和并联两种方式,采用特征级和决策级进行最终的决策。
信息融合的级别是指在信息处理的哪个层次上对多传感器信息进行综合处理和分析。按照数据信息由低到高的抽象层次,可以分为像素层、特征层、决策层三个层次,信息融合的过程相应地也被分为三个级别,即像素级融合、特征级融合和决策级融合。在融合系统的研究与应用中,融合可发生在像素级、特征级和决策级三个层次上,不同的级别具有相应的方法和融合结构。像素级融合是直接在采集到的原始数据层上进行融合,也就是对各种传感器的原始数据不经过处理就直接进行综合和分析。特征级融合是指先对来自每个传感器的原始信息进行特征抽取以获得来自每个传感器的特征向量,然后对特征信息向量进行综合分析和处理。决策级融合是一种最高层次的融合,融合的结果为系统的控制决策提供依据。在融合过程中,多个传感器观测同一目标,并在本地完成预处理、特征提取、识别或判决,以获得各自初步的结论,然后通过关联分析、决策级融合判决,获得最终的联合推断结果,为决策提供直接的依据。决策级融合是三级融合的最终结果,直接关系到决策的效果,具有非常重要的作用。
不同级别的融合通常采用不同的融合结构,但抽象出通用的结构可以分为并联融合结构和串联融合结构两种。并联融合结构是指所有的传感器信息都输入给同一个信息融合中心,在融合中心进行信息融合;串联融合结构是指先将两个传感器信息进行一次融合,再将融合结果与另一个传感器信息进行融合,依次进行下去,直到所有的传感器信息都融合完为止。
投票算法,其核心思想是:k(k为大于1的整数)个专家判断的有效组合应该优于某个专家个人的判断。投票算法主要有两种:Bagging算法和Boosting算法。
现有的文本自动分类技术的分类基本过程如图1所示。具体操作步骤如下:
第1步:对待分类文件进行格式分析和内容提取,获得其纯文本内容;
第2步:对纯文本内容进行分词及词形还原,获取最小的语义单位——词条,以及每个词条的频率信息;
第3步:进行特征提取以及特征合并,降低向量空间的维数;
第4步:对抽取处理的特征进行权重的计算;
第5步:对抽取处理的特征进行向量化表示;经过向量化,将文本表示为计算机易于处理的向量形式;
第6步:最后利用分类器进行分类,输出分类结果。
分类算法是文本分类系统的核心,因此对分类算法的研究一直是文本分类研究的热点。目前主要研究的是提高分类器的准确率问题。
目前常用的分类方法有很多种,有基于概率的方法,如贝叶斯方法,其原理是通过概率计算,由待分类的数据对象的属性值求出最可能的分类目标值,即计算各个类别在给定这组属性值时的条件概率,并把输出条件概率值最大的类标号作为目标值。其缺点是前提条件不容易满足;基于实例的方法,如KNN方法,其基本原理是基于实例之间的距离,对每个实例来说,如果靠近它的实例都是某个类别,那么该实例也可能是这个类别。该方法的缺点是分类效率较低;基于统计学习的方法,如SVM等。这种方法的原理从几何上说,就是要在多维空间中寻找到最佳决策面,该决策面能最好地区分正例和反例,使正例与反例之间的分类间隔最大。SVM分类器是目前最好的文本分类器之一。其缺点是核函数的选择缺乏指导,难以针对具体问题选择最佳的核函数。另外SVM训练速度极大地受到训练集规模的影响,计算开销比较大。
虽然这些方法各自有各自的优势,但各自有不同的缺点,分类准确率最高在80%左右,还不能够满足实际使用的要求。
对文本分类的结果可以从两个方面进行评价:准确性和计算复杂度。准确性衡量的是一个分类器正确分类的能力。计算复杂度则包括时间复杂度和空间复杂度。而在这两个方面之中,准确性最为重要,因为不管分类器的速度有多快,占用的空间有多小,如果它不能正确分类的话,这个分类器也是没有效果的。因此对分类的评价主要指的是准确性的评价。
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京理工大学,未经北京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200910087844.3/2.html,转载请声明来源钻瓜专利网。