[发明专利]多策略结合文档自动分类方法无效

专利信息
申请号: 201210594872.6 申请日: 2012-12-31
公开(公告)号: CN103092931A 公开(公告)日: 2013-05-08
发明(设计)人: 江潮 申请(专利权)人: 武汉传神信息技术有限公司
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 暂无信息 代理人: 暂无信息
地址: 430073 湖北省武汉市东湖开发区光谷软*** 国省代码: 湖北;42
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 策略 结合 文档 自动 分类 方法
【说明书】:

技术领域

发明涉及一种计算机文档分类方法,具体说,涉及一种多策略结合文档自动分类方法。

背景技术

自动文本分类(Automatic Text Categorization),或者简称为文本分类,是指用计算机将一篇文章归于预先给定的某一类或某些类的过程。对文本进行准确、高效的分类是许多数据管理任务的重要组成部分,是文本挖掘的一个重要内容。20世纪90年代以前,占主导地位的文本分类方法一直是基于知识工程的分类方法,即由专业人员手工进行分类。人工分类非常费时,效率非常低。90年代以来,众多的统计方法和机器学习方法应用于自动文本分类,文本分类技术的研究引起了研究人员的极大兴趣。目前在国内也已经开始对中文文本分类进行研究,并在信息检索、Web文档自动分类、数字图书馆、自动文摘、分类新闻组、文本过滤、单词语义辨析以及文档的组织和管理等多个领域得到了初步的应用。

向量空间模型是一个应用于信息过滤、信息撷取、索引以及评估相关性的代数模型。在该模型中,文档被表示为由关键词形成的向量空间,通过计算两个向量之间的相似性来可以来计算文档的相似性。在文本分类中,通过计算待分类文档与各个类别的中心向量的相似性,与待分文本相似度值最大的类中心向量的类,即为待分文本所要分配的类。向量空间法(Vector Space Model)是最简单快速的算法,其分类速度快,但是它只适用于各个类之间差异比较明显的简单分类问题,而对于较复杂的情况,它的分类结果通常要相对差一些。

KNN(K-nearest-neighbor)分类器是由Cover和Hart提出的,是基于样例的分类器。这种分类器的分类过程“寄生”在领域专家训练集分类基础之上,所以KNN分类器也是一种“懒惰”的学习系统。该算法的基本思路是:给一篇待识别的文章,系统在训练集中找到最近的K个近邻,看这K个近邻多数属于哪一类,就把待识别的文本归为哪一类。具体做法如下:

1、当新文本d到来后,用特征子集中的词对新文本重新描述成VSM形式。

2、计算出待分类文本与训练集中文本中最相似的K个文本。

3、在上述选择出的K个邻居中,依次计算每类的权重。

KNN算法在分类时有个主要的不足是,当样本不平衡时,如一个类的样本容量很大,而其他类样本容量很小时,有可能导致当输入一个新样本时,该样本的K个邻居中大容量类的样本占多数。因此可以采用权值的方法(和该样本距离小的邻居权值大)来改进。KNN方法的另一个不足之处是计算量较大,因为对每一个待分类的文本都要计算它到全体已知样本的距离,才能求得它的K个最近邻点。

发明内容

本发明所解决的技术问题是提供一种多策略结合文档自动分类方法,既能大大提高分类效率,同时又不失分类精度。

技术方案如下:

一种多策略结合文档自动分类方法,包括:

对于给定的待分类文档,对其进行关键词提取,按照关键词获取待分类文档向量,获取标准文档库中每个分类的类中心向量;

根据所述类中心向量获取已分类文档的类阀值;

将待分类文档向量与类中心的相似度同所述类阀值进行比较,当待分类文档向量与类中心的相似度大于等于所述类阀值时,采用向量空间法对待分类文档进行分类;否则,使用KNN方法对所述待分类文档进行分类。

进一步,所述类中心向量的获取步骤包括:

设标准文档库中有m个预定义分类,用C={c1,c2,…,cm}表示,C代表预定义的类别集合;

确定每个类的类中心向量,得到m个类的类中心向量v(c1),v(c2),…,v(cm),其值为每个分类中的所有向量的算术平均。

进一步,获取所述类阀值的步骤包括:

设有两个文档向量d1、d2,分别表示为d1={w11,w12,…,w1n},d2={w21,w22,…,w2n},则文档的相似性Sim(d1,d2),用向量d1和d2的向量夹角的余弦cosθ来表示,cosθ为0~1之间的值,

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉传神信息技术有限公司,未经武汉传神信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201210594872.6/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top