[发明专利]用于过滤网页内容的系统和方法无效
申请号: | 201080068671.1 | 申请日: | 2010-08-20 |
公开(公告)号: | CN103052950A | 公开(公告)日: | 2013-04-17 |
发明(设计)人: | L-W.郑;J-M.金;S.H.林;J.范;H-M.候;S-J.田 | 申请(专利权)人: | 惠普发展公司;有限责任合伙企业 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 中国专利代理(香港)有限公司 72001 | 代理人: | 谢攀;王洪斌 |
地址: | 美国德*** | 国省代码: | 美国;US |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 过滤 网页 内容 系统 方法 | ||
背景技术
网页提供了使信息可用于其客户的廉价且方便的方式。然而,随着变得日益盛行的多媒体内容、嵌入式广告和在线服务包括于现代网页中,网页本身已经变得实质上更为复杂。例如,除过它们的主内容外,许多网页显示辅助内容,诸如背景图像、广告、导航菜单和/或到额外内容的链接。
网页内容可以被分解并且被用于各种输出。例如,许多中小企业网页可以被分解成更小的片段并且被改变用途以创建营销宣传资料(marketing collateral)。在另一个示例中,网页可以被分解成小块,使得它们能够用于选择性的web(网络)打印。然而,可能并非期望网页的所有内容。一些网页内容使诸如网页分割、web布局分析和块重要性计算之类的web内容分析算法的性能劣化。因此,过滤所期望内容以仅仅收集有用内容可以有益于下游的许多web内容分析算法。
附图说明
本文参考附图描述了各个实施例,在附图中:
图1图示出根据一个实施例的用于选择性地过滤网页内容的方法的流程图;
图2图示出根据一个实施例的用于选择性地过滤网页内容的方法的另一个流程图;
图3图示出根据一个实施例的使用溢出迭代过滤器(OIF)来选择性地过滤网页内容的方法的流程图;
图4A图示出在本公开的上下文中显示具有多个参数的网页的说明性web浏览器的截图;
图4B图示出在本公开的上下文中在过滤之前被解析成多个节点的示例性网页的截图;
图5图示出根据一个实施例的网页过滤模块的框图;以及
图6图示出根据一个实施例的用于选择性地过滤网页内容的系统的框图。
本文所描述的附图仅用于说明目的且不意图以任何方式限制本公开的范围。
具体实施方式
公开了用于过滤网页内容以进行网页分析的系统和方法。在本公开的实施例的以下详细描述中,对形成本公开的一部分的附图进行参考,且其中以图示方式示出可以实践该公开的特定实施例。以使得本领域技术人员能够实践本发明的详细程度来描述这些实施例,并且应当理解,可以利用其他实施例,并且可以在不背离本公开的范围的情况下进行改变。因此,以下详细描述不是以限制性的意义作出,并且本公开的范围由所附权利要求限定。
本文所描述的网页过滤过程可以对于不同的网页内容布局自动地过滤不期望的网页内容。经过滤的网页内容可以用于网页分析。例如,经过滤的网页内容可以用于网页内容的web打印、网页分割、自动的重新发布。
在本文中,术语“网页”指的是能够通过网络连接从服务器获取且在web浏览器应用中被查看的诸如博客、电子邮件、新闻和食谱等的文档。而且,术语“节点”指的是在文档对象模型(DOM)树中属性同质的网页中的多个相干(coherent)区域中的一个。术语“同质”指的是具有相同类型或属性的内容的特性。
图1图示出根据一个实施例的用于选择性地过滤网页内容以进行网页分析的方法的流程图。在框102,接收网页(例如,图4A所示的网页)。可以通过物理计算系统来接收该网页。在一个示例实施例中,通过物理计算系统来接收网页的URL。例如,物理计算系统可以执行功能:从其服务器取出网页,以及,呈现网页以确定网页中内容的布局。在另一个示例实施例中,可以由物理计算系统的用户来指定URL,替换地,可以自动地确定URL。物理计算系统可以然后使用URL通过诸如互联网之类的网络从其服务器请求网页。
在框104,生成网页内容的文档对象模型(DOM)结构。DOM结构可以包括具有多个节点的DOM树。DOM树的多个节点可以由网页中的多个元素构成,且每个节点表示网页内容的元素。DOM树还可以包括多个父节点和多个子节点。DOM树可以支持通过任何父节点或子节点的任何方向上的导航。可以使用web呈现引擎来生成DOM结构。在一个示例实施例中,可以从由Webkit、Gecko、Trident和Pesto构成的组中选择web呈现引擎。诸如Trident和Pesto之类的web呈现引擎分别主要地或者专门地与Internet Explore浏览器和Opera浏览器相关联。诸如Webkit和Gecko之类的web呈现引擎可以由诸如Safari, Google Chrome, Firefox和Flock之类的多个浏览器共享。Web呈现引擎可以存在于物理计算系统中或者存在于联网环境中的服务器上。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于惠普发展公司;有限责任合伙企业,未经惠普发展公司;有限责任合伙企业许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201080068671.1/2.html,转载请声明来源钻瓜专利网。
- 内容再现系统、内容提供方法、内容再现装置、内容提供装置、内容再现程序和内容提供程序
- 内容记录系统、内容记录方法、内容记录设备和内容接收设备
- 内容服务系统、内容服务器、内容终端及内容服务方法
- 内容分发系统、内容分发装置、内容再生终端及内容分发方法
- 内容发布、内容获取的方法、内容发布装置及内容传播系统
- 内容提供装置、内容提供方法、内容再现装置、内容再现方法
- 内容传输设备、内容传输方法、内容再现设备、内容再现方法、程序及内容分发系统
- 内容发送设备、内容发送方法、内容再现设备、内容再现方法、程序及内容分发系统
- 内容再现装置、内容再现方法、内容再现程序及内容提供系统
- 内容记录装置、内容编辑装置、内容再生装置、内容记录方法、内容编辑方法、以及内容再生方法