[发明专利]多策略结合文档自动分类方法无效
申请号: | 201210594872.6 | 申请日: | 2012-12-31 |
公开(公告)号: | CN103092931A | 公开(公告)日: | 2013-05-08 |
发明(设计)人: | 江潮 | 申请(专利权)人: | 武汉传神信息技术有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 430073 湖北省武汉市东湖开发区光谷软*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 策略 结合 文档 自动 分类 方法 | ||
技术领域
本发明涉及一种计算机文档分类方法,具体说,涉及一种多策略结合文档自动分类方法。
背景技术
自动文本分类(Automatic Text Categorization),或者简称为文本分类,是指用计算机将一篇文章归于预先给定的某一类或某些类的过程。对文本进行准确、高效的分类是许多数据管理任务的重要组成部分,是文本挖掘的一个重要内容。20世纪90年代以前,占主导地位的文本分类方法一直是基于知识工程的分类方法,即由专业人员手工进行分类。人工分类非常费时,效率非常低。90年代以来,众多的统计方法和机器学习方法应用于自动文本分类,文本分类技术的研究引起了研究人员的极大兴趣。目前在国内也已经开始对中文文本分类进行研究,并在信息检索、Web文档自动分类、数字图书馆、自动文摘、分类新闻组、文本过滤、单词语义辨析以及文档的组织和管理等多个领域得到了初步的应用。
向量空间模型是一个应用于信息过滤、信息撷取、索引以及评估相关性的代数模型。在该模型中,文档被表示为由关键词形成的向量空间,通过计算两个向量之间的相似性来可以来计算文档的相似性。在文本分类中,通过计算待分类文档与各个类别的中心向量的相似性,与待分文本相似度值最大的类中心向量的类,即为待分文本所要分配的类。向量空间法(Vector Space Model)是最简单快速的算法,其分类速度快,但是它只适用于各个类之间差异比较明显的简单分类问题,而对于较复杂的情况,它的分类结果通常要相对差一些。
KNN(K-nearest-neighbor)分类器是由Cover和Hart提出的,是基于样例的分类器。这种分类器的分类过程“寄生”在领域专家训练集分类基础之上,所以KNN分类器也是一种“懒惰”的学习系统。该算法的基本思路是:给一篇待识别的文章,系统在训练集中找到最近的K个近邻,看这K个近邻多数属于哪一类,就把待识别的文本归为哪一类。具体做法如下:
1、当新文本d到来后,用特征子集中的词对新文本重新描述成VSM形式。
2、计算出待分类文本与训练集中文本中最相似的K个文本。
3、在上述选择出的K个邻居中,依次计算每类的权重。
KNN算法在分类时有个主要的不足是,当样本不平衡时,如一个类的样本容量很大,而其他类样本容量很小时,有可能导致当输入一个新样本时,该样本的K个邻居中大容量类的样本占多数。因此可以采用权值的方法(和该样本距离小的邻居权值大)来改进。KNN方法的另一个不足之处是计算量较大,因为对每一个待分类的文本都要计算它到全体已知样本的距离,才能求得它的K个最近邻点。
发明内容
本发明所解决的技术问题是提供一种多策略结合文档自动分类方法,既能大大提高分类效率,同时又不失分类精度。
技术方案如下:
一种多策略结合文档自动分类方法,包括:
对于给定的待分类文档,对其进行关键词提取,按照关键词获取待分类文档向量,获取标准文档库中每个分类的类中心向量;
根据所述类中心向量获取已分类文档的类阀值;
将待分类文档向量与类中心的相似度同所述类阀值进行比较,当待分类文档向量与类中心的相似度大于等于所述类阀值时,采用向量空间法对待分类文档进行分类;否则,使用KNN方法对所述待分类文档进行分类。
进一步,所述类中心向量的获取步骤包括:
设标准文档库中有m个预定义分类,用C={c1,c2,…,cm}表示,C代表预定义的类别集合;
确定每个类的类中心向量,得到m个类的类中心向量v(c1),v(c2),…,v(cm),其值为每个分类中的所有向量的算术平均。
进一步,获取所述类阀值的步骤包括:
设有两个文档向量d1、d2,分别表示为d1={w11,w12,…,w1n},d2={w21,w22,…,w2n},则文档的相似性Sim(d1,d2),用向量d1和d2的向量夹角的余弦cosθ来表示,cosθ为0~1之间的值,
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉传神信息技术有限公司,未经武汉传神信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210594872.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种USB设备及其控制方法
- 下一篇:基于Kinect体感设备的全景体验方法