[发明专利]基于导航路径信息的主题相关网页过滤方法和系统有效
申请号: | 200710151864.3 | 申请日: | 2007-09-25 |
公开(公告)号: | CN101399818A | 公开(公告)日: | 2009-04-01 |
发明(设计)人: | 李建强;赵彧 | 申请(专利权)人: | 日电(中国)有限公司 |
主分类号: | H04L29/06 | 分类号: | H04L29/06;G06F17/30 |
代理公司: | 北京东方亿思知识产权代理有限责任公司 | 代理人: | 王 怡 |
地址: | 100007北京市东城区东四十*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 导航 路径 信息 主题 相关 网页 过滤 方法 系统 | ||
技术领域
本发明一般地涉及信息获取或信息提取,尤其是网页搜索或网页挖 掘,具体而言,本发明涉及采用网页的导航路径集合作为上下文信息来进 行主题相关的网页过滤的方法和系统。
背景技术
随着因特网上电子信息的不断增多,在Web上积累了大量多样化的信 息,并且这种积累仍在以令人吃惊的速度快速增长。因此,帮助网民从大 量信息中找到有用信息是一项很有挑战性的任务。
信息获取(information retrieval,IR)是一种在文件集合中搜索信息的 技术,它可被进一步划分成以下几类:搜索包含在文件中的一段信息;搜 索文件本身;搜索描述文件的元数据(metadata);或者在数据库中搜索 文本、声音、图像或数据。信息提取(information extraction,IE)是IR技 术中的一种,其目标在于从非结构化的机器可读文件中自动提取结构化或 半结构化的信息。Web搜索引擎(例如Google和百度)是一种文件获取 系统,其被专门设计以用于帮助用户找到存储在Web上的信息,这允许用 户寻找满足特定条件的内容(通常是包含给定词或短语的内容)并且得到 匹配这些条件的项目列表。最近,一种新的Web搜索引擎,即垂直搜索引 擎,在Web上变得越来越流行。其利用某些信息提取或Web挖掘技术从 高度细化的数据库或网站中提取出关于特定主题的结构化信息,从而向对 特定领域感兴趣的用户提供更精确和更有价值的信息。
在所有这些信息获取或信息提取技术中,无论对于一般(或垂直)搜 索引擎还是特定的Web挖掘系统,网页过滤都起着非常重要的作用。
从技术上讲,网页过滤的过程主要分成两个步骤:首先,针对特定过 滤目的,选择适当并且有效的网页特征;然后,基于这些所选特征来建模 过滤机制。从所选特征的角度来看,现有的网页过滤方案被粗略分成四 类,即基于内容的过滤、基于网页类型的过滤、基于链接的过滤和基于扩 展锚(anchor)的过滤。下面将对这四类过滤方法作简单介绍。
基于内容的过滤:这种方法是依赖于查询的算法,即其无论何时提交 查询,都分别给每个Web网页一个相似性得分。其基本思想是这样的:出 现在网页中的单词被用于获取相关网页,即给那些在文件中较早出现查询 项或者以大字体或黑体形式出现查询项的网页赋予较高得分。然后,基于 向量空间模型(VSM),可以通过计算夹角余弦来计算该网页和相应查询 之间的相似性,并根据相似性得分来实现相关网页过滤。
基于网页类型的过滤:考虑到大多数因特网用户可以通过查看网页来 识别该网页所属的文件类型,因此可以得出这样的结论,即人们不仅可以 基于网页内容,还可以基于其各种格式和设计信息来评价网页。鉴于此, 网页的内容和其结构化特征被一起提供到基于规则的分类器以进行网页类 型分类。基本的结构化特征包括内嵌的图像的大小和数目、链接的种类和 数目、URL串等等。基于相似网页的内部特征(例如锚文本、关键字、标 题、URL等等),可以采用基于机器学习的方法来进行网页分类。
基于链接的过滤:由于Web是一个超级链接的集合,因此除了各个网 页的文本内容之外,这些集合的链接结构也可能包含网页过滤所需的有用 信息。基于模拟网络浏览用户的随机浏览模型,一种基于链接结构的方法 被用于网页的重要度排名。其利用Web的链接结构来计算每个网页的质量 排名(quality ranking),这种质量排名被称为PageRank得分。由于网页 的排名得分是根据网页在Web的链接结构中的位置单独确定的,因此其与 查询无关并且可以在查询之前被计算出。最后,来自基于内容的方法和基 于链接的方法的排名值被合并,以得到最终的相似性得分。
基于扩展锚的过滤:当采用Web的超级链接结构进行网页过滤时,出 现在链接上的文本,即锚文本也可以被用于网页排名。锚文本不仅与链接 所在的网页有关,还与链接指向的网页有关。尤其针对第二种情况,锚文 本通常比网页本身提供更精确的网页描述。而且其有助于搜索非文本信 息,从而将搜索覆盖扩展到例如图像、程序和数据库。因此,基于扩展锚 的网页过滤方法被提出。首先,出现在网页中并且将Web浏览器从主页导 航到每个目标网页的所有锚文本都被收集,以建立扩展的锚列表。然后, 出现在扩展锚列表中的关键字被用于目标网页过滤。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于日电(中国)有限公司,未经日电(中国)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200710151864.3/2.html,转载请声明来源钻瓜专利网。
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置