[发明专利]用于自动分类对象的方法和系统有效

专利信息
申请号: 200810134793.0 申请日: 2008-07-29
公开(公告)号: CN101639837A 公开(公告)日: 2010-02-03
发明(设计)人: 孟昕;李建强;赵彧;史敬威 申请(专利权)人: 日电(中国)有限公司
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 北京东方亿思知识产权代理有限责任公司 代理人: 柳春雷
地址: 100007北京市东城区东四十*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 用于 自动 分类 对象 方法 系统
【说明书】:

技术领域

本发明一般地涉及信息检索和文本数据挖掘,更具体而言,本发明涉 及用于自动分类对象(例如文档、邮件等)的方法和系统。

背景技术

随着可用在线信息(例如电子文档)的不断增长,人们变得越来越难 以理解和有效利用这大量的信息。于是,帮助人们组织信息以及用有效且 高效的方式找到感兴趣的信息成为一项很有挑战性的任务。

信息检索(Information Retrieval,IR)是用于在对象(例如文档)集 合中搜索信息的科学。根据处理对象的不同,其可被进而划分为对文档中 包含的信息片段的搜索、对文档本身的搜索、对描述文档的元数据的搜索 或者数据库内的搜索,以检索文本、声音、图像或数据。这里所述数据库 可以是关系独立数据库或超文本联网数据库(例如通过因特网或内联 网)。文本数据挖掘一般指的是从明文文本构造高质量信息的过程,其可 被进而划分为文本分类、文本聚类、概念/实体提取、文档概括等等。由于 当前最常获得的信息通常被存储为文本或文档,因此相信信息检索和文本 数据挖掘具有很高的商业价值。文档分类是利用来自预定集合的主题类别 来标记自然语言文本的过程,其可被应用到很多IR和文本数据挖掘情 形,例如词义消歧、文档组织、文本过滤和网页检索。

对于信息检索以及文本数据挖掘而言,自动对象分类是其中的关键技 术之一,并在电子信息的有效利用、信息的组织和帮助用户找到感兴趣的 信息方面扮演着重要的角色。但是,现有技术中提供的对象分类方法的精 确度不高,不足以实现准确而高效的对象(例如文档)分类。

例如,在Wang.K、Zhou.S等人发表的文章“Building hierarchical classifiers using class proximity”(Proc of VLDB’97,Edinburgh,UK,1999, 第363-374页)中公开了一种分层次的对象分类方法,其提出建模类别之 间的相似性的概念。在该对象分类方法中,分类器的建立分为三个步骤: 关联规则的建立;关联规则的排列;以及找到具有最小截止误差(cutoff error)的规则集合。

再比如,以Sebastiani.F在ACM Computing Surveys(2002)上发表的 文章“Machines learning in automated text categorization”为例,基于机器 学习的方法已被广泛用于自动文档分类,其中主要包括两个步骤,即建立 分类器和用分类器进行文档分类。

另外,在题为“Method and System for Guided Cluster Based Processing on Prototypes”的美国专利US 7308451B1中公开了用于自动文档再分类的 实现方法,其基于原始组织结构(原型聚类)对文档进行再分类,并输出 比原始结构更详细的组织结构。

然而,如上文所提到的,现有技术中所提出的对象分类方案的精确性 并不理想,并且在大多数方案中,仅仅考虑到基于关键字的分类,而没有 涉及与环境或领域相关的上下文信息或背景知识。另外,在现有技术中, 如果对象集合或所属领域改变,则分类器需要被重新训练,从而使得分类 器的可扩展性很差。并且,由于需要预定的训练集合,因而使得分类器的 性能依赖于大量被标记的数据。另一方面,就规则建立而言,自动规则生 成是一个非常耗时的过程,对于全文本文档尤其如此,因此使得处理大规 模文档集合变得非常困难。

发明内容

鉴于上述现有技术中所存在的缺陷,作出了本发明,其用于更加准确 且有效地进行对象(例如文档)分类,进而使得用户能够更有效地组织他/ 她的个人数据并找到感兴趣的信息。

本发明提出了一种用于对象分类的混合方法。之所以称之为混合方法 是因为它将基于本体信息(ontology information)的对象分类方法和基于 信息检索(IR)的对象分类方法相结合。大体上讲,本发明的自动对象分 类方法主要包括三个步骤:(1)基于本体信息的对象分类;(2)基于IR 的对象分类;以及(3)上述两种分类结果的组合。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于日电(中国)有限公司,未经日电(中国)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/200810134793.0/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top