[发明专利]一种网络资源类别的自动判定方法无效
申请号: | 200910076871.0 | 申请日: | 2009-01-23 |
公开(公告)号: | CN101788987A | 公开(公告)日: | 2010-07-28 |
发明(设计)人: | 闫宏飞;陈翀;李晓明 | 申请(专利权)人: | 北京大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京路浩知识产权代理有限公司 11002 | 代理人: | 张国良 |
地址: | 100871*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 网络资源 类别 自动 判定 方法 | ||
技术领域
本发明涉及网络技术领域,特别是涉及一种网络资源类别的自动判定方法。
背景技术
分类是机器学习的基本方法,本质是将同类或相似内容组织为一体,分类的方法需要训练集和事先确定好的类别,通过学习训练集的特征获得判别知识。
在分类中,分类体系的标签是人定义的,可读性好,对检索访问资源是有利的。而且分类训练出的参数可以反复在线使用,适合于增量处理的需要[S.Dumais and H.Chen,″Hierarchical classification ofWeb content,″in Proceedings of the 23rd annual international ACMSIGIR conference on Research and development in information retrieval.Athens,Greece:ACM Press,2000,pp.256-263.]。
所述待分类网络资源在互联网上传播散布,其原始组织状态可能是无序或按不同分类方式整理的。以统一的分类体系将这些资源组织在一起,使之便于浏览访问和管理,是构建数字图书馆、互联网资源库藏等多种应用的需要。但是,由于网络资源原始组织方式的混乱状态,目前对于所述网络资源都是采用人工的方法进行分类整理,相对于网络资源的海量特点而言,工作效率低,劳动强度大。
发明内容
本发明要解决的问题是提供一种网络资源类别的自动判定方法,以克服现有技术中对于多类别网络资源由于采用人工的方法进行分类,而造成工作效率低,劳动强度大的缺陷。
为达到上述目的,本发明的技术方案提供一种网络资源类别的自动判定方法,所述方法包括以下步骤:获取待分类资源的名字集合中的名字前缀特征和后缀特征;根据所述前缀特征和后缀特征对所述待分类资源进行分类。
其中,在所述获取待分类资源的前缀特征和后缀特征的步骤中,包括对前缀特征进行切分,具体为:按照所述待分类资源名字中出现的分隔符切分。
其中,在所述按照待分类资源名字中出现的分隔符切分之后,还包括对切分后的结果再按照词典切分。
其中,在所述根据前缀特征和后缀特征对待分类资源进行分类的步骤中,具体包括:采用朴素贝叶斯分类方法和Simple Good-Turing或Good-Turing平滑估值方法对所述待分类资源进行分类。
其中,所述后缀特征为所述待分类资源的名字集合内的的文件扩展名,所述前缀特征为所述待分类资源的名字集合中除去文件扩展名的子串片段。
其中,网络资源在其存储的计算机文件系统中以目录名,资源名字集合包括其自身目录名、其成员子目录名及成员文件名。
其中,网络资源在其存储的计算机文件系统中以单个文件存储,资源的名字集合包括其自身的文件名
与现有技术相比,本发明的技术方案具有如下优点:
本发明根据待分类资源的前缀特征和后缀特征对所述待分类资源进行自动分类,节省了大量人工劳动,提高了工作效率。
附图说明
图1是本发明的一种网络资源类别的自动判定方法的流程图。
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
一、特征的选择
(一)产生特征的属性:
在对待分类资源进行分类的过程中,好的类别判定结果来自特征和分类方法两方面因素。特征是对实体的合理抽象,例如在普通文本分类中常用“重要”词汇做为文档的特征;在网络资源分类中,本发明从名字、文件大小等属性中挑选可以用作特征的属性,并力求获得对类别提示作用大的特征来达到好的分类效果。
资源的内部属性有:资源所对应的名字集合、成员文件的大小、数量、成员子目录的数量、层深等。本发明选择资源的名字集合,用资源名、成员文件和子目录名所构成的文本集合,切分名字文本串形成特征来预测资源的主题类别。这样做的理由包括:
(1)名字是各类资源共有的属性,容易获取又是文本型,处理方法成熟。
(2)多数网络资源的名字长度已经超出的纯粹的“标识”功能所需要的长度,而是充当了“表意”渠道,在互联网传播中被赋予用户的见解,浓缩资源的概要信息。相对于网络资源的内容,名字更容易修改而且一目了然,便于后续使用者“望文知意”。因此,资源及其成员名字值得利用。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京大学,未经北京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200910076871.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种业务数据处理方法、装置及系统
- 下一篇:一种基于内容的文件分割方法