[发明专利]用于网络文件聚类的方法和系统无效
| 申请号: | 200710149567.5 | 申请日: | 2007-09-12 |
| 公开(公告)号: | CN101388013A | 公开(公告)日: | 2009-03-18 |
| 发明(设计)人: | 赵彧;李建强 | 申请(专利权)人: | 日电(中国)有限公司 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 北京东方亿思知识产权代理有限责任公司 | 代理人: | 王 怡 |
| 地址: | 100007北京市东城区东四十*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 用于 网络 文件 方法 系统 | ||
技术领域
本发明涉及Web信息提取和挖掘技术,更具体而言,涉及用于网络文件聚类(cluster)的方法和系统。
背景技术
当今,万维网(WWW)已经成为一种用于发布和获取信息的流行并且重要的媒介,其具有信息量大、多样性、异构性(heterogeneous)、分布式等特点,并且其中很多信息不是外在可见的。Web信息提取与挖掘技术能够帮助人们最大限度地利用Web和信息。实际上,Web信息提取和挖掘已经变成非常热门的研究领域,基于这些技术的应用软件和产品也在市场上变得越来越流行。
文件聚类是一种常见的信息挖掘技术,其用于发现文件之间的相似性和关系。文件聚类的目的是要将文件组织成若干有意义的群组,以使得同一群组中的文件具有高相似性或紧密关系,而属于不同群组的文件彼此差别较大。聚类的过程是自动的并且生成的群组不是预先定义的。聚类结果是有组织的文件集合,因此文件聚类被广泛用在提高信息检索和信息提取系统的效率的方案中,并且还被用在组织文件检索结果,使得它们更便于浏览。由于Web中存在大量信息,因此聚类在实现Web域中的有效且准确的信息提取方面起到非常重要的作用。
Web文件聚类的目的是要将预先选择的Web文件集合自动划分成若干有意义的群组(这些群组并非预先定义的),并且确保同一群组中的文件之间的相似性或关系要比不同群组中的文件之间的相似性或关系强得多或紧密得多。另一方面,由于利用不同测量的标准可以得到关于文件之间相似性和关系的不同定义,因此对于同一文件集合,从不同方面能够获得不同的聚类分析结果。例如,聚类可被用于根据内容类型将公司网站中的某些与产品相关的网页分组成新闻网页组、广告网页组、购物网页组等等,或者可以根据产品类别将这些网页分组成若干产品聚类,其中每个产品聚类代表关于同一产品的所有网页。因此,Web文件聚类的主要问题在于如何根据实际需求设计适当的聚类方法来对Web文件执行准确而有效的聚类。
从技术的角度讲,文件聚类方法的设计过程主要有两步,即首先针对特定的聚类目的选择适当并且有效的文件特征,然后基于选出的文件特征来建模适当的聚类机制。因此,下面将从这两方面来回顾现有的技术方案。
从特征选择方面,针对Web文件聚类的现有技术可被大致分成四类,它们分别考虑不同种类的特征进行聚类:(1)基于文件内容的聚类;(2)基于超级链接信息(基于上下文)的聚类;(3)基于Web使用信息的聚类;以及(4)混合聚类。在传统的文件聚类方案中,最常见的是基于文件内容的聚类,其基于内容相关的特征(主要是文件中的文本信息)来进行文件聚类。但是,内容相关的特征不仅包括内容中的文本信息,还可以包括网页的HTML结构。另外,由于超级链接是Web的一个主要特征,因此在Web文件聚类中,链接相关的特征与内容相关的特征一样重要,甚至更加重要。因此基于超级链接信息的聚类也变得越来越流行。另外,由于Web用户的使用信息(例如浏览历史、浏览路径等等)可以被记录下来,因此某些文件聚类方案使用这种使用信息来评价Web文件之间的关系。当然,在一般情况下,由于很多网页包括的文本信息很少并且具有不规则的HTML结构,因此只考虑文件内容是远远不够的。另一方面,由于很多链接信息和浏览历史是随机的并且主观的,因此只考虑超级链接信息或者Web使用信息也是不够的。鉴于此,通常会设计混合聚类方法来进行文件聚类。
从聚类机制建模的方面,几乎所有现有方案都基于对等相似性分析模型。具体而言,这些方案设计某些算法来直接或间接分析每对文件之间的相似性(通常由相似性值来表示),然后根据上述分析结果对文件进行聚类,即如果两个文件之间具有高相似性,就将它们分组到同一聚类。用于相似性分析的具体模型可以根据规则来设置,也可以通过机器学习来获得。
以下将介绍几种代表性的现有技术方案。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于日电(中国)有限公司,未经日电(中国)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200710149567.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:治疗流感病毒感染的方法
- 下一篇:舰船液压舵机系统风险预警方法





