[发明专利]一种验证网页开放式摘要信息的方法及装置有效
申请号: | 201310445194.1 | 申请日: | 2013-09-26 |
公开(公告)号: | CN103514278B | 公开(公告)日: | 2016-11-23 |
发明(设计)人: | 袁瑞峰 | 申请(专利权)人: | 北京奇虎科技有限公司;奇智软件(北京)有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京市中伦律师事务所 11410 | 代理人: | 张思悦 |
地址: | 100088 北京市西城区新*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 验证 网页 开放式 摘要 信息 方法 装置 | ||
技术领域
本发明属于计算机技术领域,尤其涉及一种验证网页开放式摘要信息的方法及装置。
背景技术。
用户在使用搜索引擎进行搜索时,搜索引擎会根据用户输入的搜索关键词返回多个搜索结果展示给用户查看,然而不同的用户有时候会有不同的偏好的站点。目前主流的搜索引擎,在抓取网站内容时仅是根据简单的robots协议(也称为爬虫协议、爬虫规则、机器人协议等)进行提取,在用户搜索时根据匹配度提供简单的信息展示,由此使得网站信息与用户搜索需求匹配度不高,展示效果差,搜索结果转化率低,内容无法验证等多个技术问题。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的验证网页开放式摘要信息的方法及装置。
根据本发明的一个方面,提供了一种验证网页开放式摘要信息的方法,其包括:在检测到网页信息中包含预设的开放式摘要信息的标识的情况下,验证对开放式摘要信息进行渲染的渲染结果是否成功;以及根据预先定义的规则,验证所述开放式摘要信息的格式和/或验证开放式摘要信息的网页内容。
可选地,所述方法还包括:在所述渲染结果、以及所述开放式摘要信息的格式、或开放式摘要信息的网页内容的验证通过的情况下,在接收到与网页的关键词相匹配的搜索请求时,返回所述网页的开放式摘要信息的渲染结果,以作为所述搜索请求的搜索结果。
可选地,方法还包括:在所述渲染结果、或所述开放式摘要信息的格式、或所述开放式摘要信息的网页内容的验证未通过的情况下,在接收到与网页的 关键词相匹配的搜索请求时,返回网页的默认摘要信息,以作为所述搜索请求的搜索结果。
可选地,其中在所述根据预先定义的规则验证所述开放式摘要信息的格式的步骤中,验证开放式摘要信息所占网页区域的大小是否超出预先定义的阈值。
可选地,其中在所述根据预先定义的规则验证所述开放式摘要信息的内容的步骤中,验证开放式摘要信息的网页内容中是否包含特定元素。
可选地,其中所述特定元素包括价格和折扣率中的至少一个。
可选地,其中所述网页内容包括以下的至少一种:文字、图片、链接、视频和音频。
可选地,其中所述开放式摘要信息采用HTML、HTML5、JavaScript、Flash或CSS的格式。
可选地,其中所述搜索结果采用HTML、SHTML、HTML5或XML的格式。
根据本发明的实施例的另一个方面,提供了一种验证网页开放式摘要信息的装置,其包括:第一验证模块,用于在检测到网页信息中包含预设的开放式摘要信息的标识的情况下,验证对开放式摘要信息进行渲染的渲染结果是否成功;以及第二验证模块,用于根据预先定义的规则,验证所述开放式摘要信息的格式和/或验证开放式摘要信息的网页内容。
可选地,装置还包括:结果返回模块,用于在所述渲染结果、以及所述格式和/或网页内容的验证通过的情况下,在接收到与网页的关键词相匹配的搜索请求时,返回所述网页的开放式摘要信息的渲染结果,以作为所述搜索请求的搜索结果。
可选地,其中所述结果返回模块还用于在所述渲染结果、或所述格式、或所述网页内容的验证未通过的情况下,在接收到与网页的关键词相匹配的搜索请求时,返回网页的默认摘要信息,以作为所述搜索请求的搜索结果。
可选地,其中所述第二验证模块进一步用于验证开放式摘要信息所占网页区域的大小是否超出预先定义的阈值。
可选地,其中所述第二验证模块进一步用于验证开放式摘要信息的网页内 容中是否包含特定元素。
在本发明的实施例中,通过对开放式摘要信息进行验证,一方面提高网页渲染的效率,另一方面极大地丰富了网页摘要信息展示的形式。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了根据本发明一个实施例的搜索引擎抓取网页开放式摘要信息的方法100的流程图;
图2示出了根据本发明一个实施例的验证网页开放式摘要信息的方法200的流程图
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京奇虎科技有限公司;奇智软件(北京)有限公司,未经北京奇虎科技有限公司;奇智软件(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310445194.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:铜棒连续自动化生产线
- 下一篇:一种高强度奥氏体不锈钢埋弧焊焊丝