[发明专利]一种关联网页搜索方法和系统有效

申请号：	201310603918.0	申请日：	2013-11-25
公开（公告）号：	CN103617225B	公开（公告）日：	2019-03-08
发明（设计）人：	王智广	申请（专利权）人：	北京奇虎科技有限公司;奇智软件（北京）有限公司
主分类号：	G06F16/955	分类号：	G06F16/955
代理公司：	北京润泽恒知识产权代理有限公司 11319	代理人：	赵娟
地址：	100088 北京市西城区新***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种关联网页搜索方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种关联网页搜索方法和系统，所述方法包括：接收搜索请求；所述请求中包括搜索关键词；依据所述搜索关键词在预置的关联网页数据库中进行查找，获得与所述关键词匹配的网页；判断所述网页是否为关联网页；若是，则返回所述网页及所述网页关联的首页信息。本发明在判断获得与关键词匹配的网页为关联网页时，返回该网页及该网页关联的首页信息，避免了用户重复搜索或者查找首页的过程，进一步减少了系统的操作，减少了系统资源的占用，提高了搜索的效率。

技术领域

本发明涉及数据搜索技术领域，具体涉及一种关联网页搜索方法、一种关联网页搜索系统。

背景技术

随着因特网的发展，愈来愈多的信息是通过网页方式呈现在因特网上供用户查询，同样的通过搜寻引擎在因特网中查询数据也成为最常使用的数据搜寻方法。

搜索引擎收录网页时需要针对不同种类的网页采取不同的调度策略，网页种类的识别是一项基础工作，其中翻页（Page turning）网页的识别是一项比较关键的工作。所谓翻页网页，即查看分页文件的上一个页面、下一个页面或任意存在的非当前页面。翻页网页可以将实体书或者移动Web窗体中的内容进行改变，以观看不同内容。在互联网上运用时该机制还呈现可用于浏览到其他页的用户界面元素。

现有的翻页网页的识别方法是根据网页的URL（Uniform Resource Locator，统一资源定位符）所包含的关键词来识别是否是索引页。例如，当URL包含有page、pn、p等关键词以及关键词后面有数字时，判断该URL对应的网页为翻页网页。

但是，这种识别方法召回率低，并且很多网站的翻页是不具有这些关键词的，比如“http://cq.ABC.com/lvshi/o12/”、“http://bbs.BCA.com/t661_10”、“http://china.BCD.com/product/20110617/2647”，但是这些网页依然是翻页，使得这些识别方法容易造成误操作，实用性低。

发明内容

鉴于上述问题，提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的一种关联网页搜索方法和相应的一种关联网页搜索系统。

依据本发明的一个方面，提供了一种关联网页搜索方法，包括：

接收搜索请求；所述请求中包括搜索关键词；

依据所述搜索关键词在预置的关联网页数据库中进行查找，获得与所述关键词匹配的网页；

判断所述网页是否为关联网页；若是，则返回所述网页及所述网页关联的首页信息。

可选地，所述关联网页数据库通过以下方式建立：

判断抓取到的网页是否包括关联网页URL模式；若是，则获取所述关联网页URL模式；

采用所述关联网页URL模式获取对应的关联网页；

采用所述所述关联网页URL模式对应的关联网页建立关联网页数据库。

可选地，所述判断抓取到的网页是否包括关联网页URL模式的步骤包括：

判断当前网页的页面元素中是否具有翻页特征字符串；若是，则提取所述翻页特征字符串链接的URL；