[发明专利]基于导航路径信息的主题相关网页过滤方法和系统有效

申请号：	200710151864.3	申请日：	2007-09-25
公开（公告）号：	CN101399818A	公开（公告）日：	2009-04-01
发明（设计）人：	李建强;赵彧	申请（专利权）人：	日电（中国）有限公司
主分类号：	H04L29/06	分类号：	H04L29/06;G06F17/30
代理公司：	北京东方亿思知识产权代理有限责任公司	代理人：	王怡
地址：	100007北京市东城区东四十***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于导航路径信息主题相关网页过滤方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明一般地涉及信息获取或信息提取，尤其是网页搜索或网页挖掘，具体而言，本发明涉及采用网页的导航路径集合作为上下文信息来进行主题相关的网页过滤的方法和系统。

背景技术

随着因特网上电子信息的不断增多，在Web上积累了大量多样化的信息，并且这种积累仍在以令人吃惊的速度快速增长。因此，帮助网民从大量信息中找到有用信息是一项很有挑战性的任务。

信息获取(information retrieval，IR)是一种在文件集合中搜索信息的技术，它可被进一步划分成以下几类：搜索包含在文件中的一段信息；搜索文件本身；搜索描述文件的元数据(metadata)；或者在数据库中搜索文本、声音、图像或数据。信息提取(information extraction，IE)是IR技术中的一种，其目标在于从非结构化的机器可读文件中自动提取结构化或半结构化的信息。Web搜索引擎(例如Google和百度)是一种文件获取系统，其被专门设计以用于帮助用户找到存储在Web上的信息，这允许用户寻找满足特定条件的内容(通常是包含给定词或短语的内容)并且得到匹配这些条件的项目列表。最近，一种新的Web搜索引擎，即垂直搜索引擎，在Web上变得越来越流行。其利用某些信息提取或Web挖掘技术从高度细化的数据库或网站中提取出关于特定主题的结构化信息，从而向对特定领域感兴趣的用户提供更精确和更有价值的信息。

在所有这些信息获取或信息提取技术中，无论对于一般(或垂直)搜索引擎还是特定的Web挖掘系统，网页过滤都起着非常重要的作用。

从技术上讲，网页过滤的过程主要分成两个步骤：首先，针对特定过滤目的，选择适当并且有效的网页特征；然后，基于这些所选特征来建模过滤机制。从所选特征的角度来看，现有的网页过滤方案被粗略分成四类，即基于内容的过滤、基于网页类型的过滤、基于链接的过滤和基于扩展锚(anchor)的过滤。下面将对这四类过滤方法作简单介绍。

基于内容的过滤：这种方法是依赖于查询的算法，即其无论何时提交查询，都分别给每个Web网页一个相似性得分。其基本思想是这样的：出现在网页中的单词被用于获取相关网页，即给那些在文件中较早出现查询项或者以大字体或黑体形式出现查询项的网页赋予较高得分。然后，基于向量空间模型(VSM)，可以通过计算夹角余弦来计算该网页和相应查询之间的相似性，并根据相似性得分来实现相关网页过滤。

基于网页类型的过滤：考虑到大多数因特网用户可以通过查看网页来识别该网页所属的文件类型，因此可以得出这样的结论，即人们不仅可以基于网页内容，还可以基于其各种格式和设计信息来评价网页。鉴于此，网页的内容和其结构化特征被一起提供到基于规则的分类器以进行网页类型分类。基本的结构化特征包括内嵌的图像的大小和数目、链接的种类和数目、URL串等等。基于相似网页的内部特征(例如锚文本、关键字、标题、URL等等)，可以采用基于机器学习的方法来进行网页分类。

基于链接的过滤：由于Web是一个超级链接的集合，因此除了各个网页的文本内容之外，这些集合的链接结构也可能包含网页过滤所需的有用信息。基于模拟网络浏览用户的随机浏览模型，一种基于链接结构的方法被用于网页的重要度排名。其利用Web的链接结构来计算每个网页的质量排名(quality ranking)，这种质量排名被称为PageRank得分。由于网页的排名得分是根据网页在Web的链接结构中的位置单独确定的，因此其与查询无关并且可以在查询之前被计算出。最后，来自基于内容的方法和基于链接的方法的排名值被合并，以得到最终的相似性得分。

基于扩展锚的过滤：当采用Web的超级链接结构进行网页过滤时，出现在链接上的文本，即锚文本也可以被用于网页排名。锚文本不仅与链接所在的网页有关，还与链接指向的网页有关。尤其针对第二种情况，锚文本通常比网页本身提供更精确的网页描述。而且其有助于搜索非文本信息，从而将搜索覆盖扩展到例如图像、程序和数据库。因此，基于扩展锚的网页过滤方法被提出。首先，出现在网页中并且将Web浏览器从主页导航到每个目标网页的所有锚文本都被收集，以建立扩展的锚列表。然后，出现在扩展锚列表中的关键字被用于目标网页过滤。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于日电（中国）有限公司，未经日电（中国）有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/200710151864.3/2.html，转载请声明来源钻瓜专利网。

上一篇：基于WEB流媒体实现视频彩铃和彩话的系统及方法
下一篇：基于正交频分复用系统的资源分配信息表示方法

同类专利

专利分类

H 电学

H04 电通信技术
H04L 数字信息的传输，例如电报通信
H04L29-00 H04L 1/00至H04L 27/00单个组中不包含的装置、设备、电路和系统
H04L29-02 .通信控制；通信处理
H04L29-12 .以数据终端为特征的
H04L29-14 .故障的应对措施
H04L29-04 ..用于多条通信线路的
H04L29-06 ..以协议为特征的

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于导航路径信息的主题相关网页过滤方法和系统有效

专利文献下载