[发明专利]私有云搜索系统及其实现方法无效
申请号: | 201110275528.6 | 申请日: | 2011-09-16 |
公开(公告)号: | CN102323955A | 公开(公告)日: | 2012-01-18 |
发明(设计)人: | 邹春城 | 申请(专利权)人: | 邹春城 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京汇泽知识产权代理有限公司 11228 | 代理人: | 刘淑敏 |
地址: | 436032 湖北*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 私有 搜索 系统 及其 实现 方法 | ||
1.一种私有云搜索系统,包括浏览器,其特征在于,该私有云搜索系统还包括网页结构分析记忆模块和数据过滤筛选模块;所述浏览器中,进一步包括人工浏览网页模块和机器浏览网页模块,或者仅包括机器浏览网页模块;其中:
机器浏览网页模块,用于根据搜索的广度在选择的网址范围内抓取网页,或根据有无搜索关键字,选取不同的搜索链接,根据查询模板生成搜索请求和抓取网页,并根据搜索结果设定搜索深度;
网页结构分析记忆模块,根据需要提取网页上的本站链接、站外链接、本站图片链接并分类保存到数据库中;用于判断网页上的是否有填充表单、表单如何设计组织,并根据用户需要输出能反映表单设计内容的字串记录,并根据需要保存到数据库中;提供人工辅助提取当前网页上的网址并分类筛选网址功能,保存到数据库中;自动提取鼠标点击位置处的网址链接,以及在提交网页请求时,记录提交请求的数据格式;
数据过滤筛选模块,根据行业信息的特点,设定数据筛选条件和关键字集;分析网页代码特征分割代码,提取文字段落;根据文字段落和多关键字查询,实现语义块有效性判断;以及根据有效性大小,筛选保存数据。
2.根据权利要求1所述的私有云搜索系统,其特征在于,所述网页结构分析记忆模块作为所述浏览器的插件进行使用,以实现对网页结构进行分析和记忆功能;或与本系统自带的专用浏览器作为一个整体安装在各种不同的操作系统环境中使用。
3.根据权利要求1或2所述的所述私有云搜索系统,其特征在于,所述浏览器为通用浏览器,具体为:IE、Netscape、GoogleChrome、Mac、Firefox、Maxthon、Opera、TheWorld、Sogou、TT、Baidu、360、IQ浏览器中的任一种或为在所述浏览器的基础上开发的其他浏览器。
4.一种私有云搜索系统的实现方法,其特征在于,该方法包括如下步骤:
A、用户自选网站参与搜索,按行业和内容选择网站,并进行分类,建立私有云信息源数据库;
B、利用网页结构分析记忆模块,抓取信息源上的网页,并分析过滤网页链接,通过链接文字找到搜索入口,进一步通过模块分析入口表单结构,然后根据上述的表单结构的记录生成查询模板,在具体搜索查询时,依次替换关键字或搜索条件生成搜索请求,将此表单结构或查询模板保存到信息源查询接口模板数据库中,即建立私有云信息源搜索查询接口模板数据库;
C、在准备好上述私有云信息源数据库和信息源查询接口模板数据库后,设置搜索参数开始进行搜索,并在用户通过某个界面提交搜索请求后,系统直接根据用户自己定制的搜索条件和用户提供的关键字生成针对不同网站的搜索请求,按网站排序将此搜索请求提交给不同的网站,这些网站通过他们各自开放的数据库查询功能进行筛选搜索。
5.根据权利要求4所述的私有云搜索系统的实现方法,其特征在于,所述步骤C之后进一步包括:
D、将此过程中对各网站的搜索做日志记录,以便调整搜索条件和搜索范围,根据日志的记录,将搜索没有结果的网站,重新进行查询接口设置,将实在没有需要的内容的网站删除或排后,将结果中新记录较少的网站排后,记录多的排前,或增加抓取频率。
6.根据权利要求4或5所述的私有云搜索系统的实现方法,其特征在于,进一步包括:
E、针对不同行业数据内容及关键字提供不同的算法进一步实现过滤,最终得到经过严密筛选的数据,然后将这些从不同网站上得到的数据按照统一的结构保存到数据库里,实现数据的聚合。
7.根据权利要求4所述的私有云搜索系统的实现方法,其特征在于,步骤C进一步包括:
C1、设置搜索参数,包括通过系统界面提供的交互设置、用户提供搜索范围即搜索广度、搜索模式、搜索关键字和搜索深度参数;
C2、启动搜索,该系统则根据搜索广度参数,按照优先级,依次提取私有云信息源URL;
C3、然后通过信息源查询接口模板数据库查找相应的查询接口,根据设置的搜索模式和设置的关键字的有无,生成针对信息源查询的搜索请求,并提交给相应的网站,若没有关键字,则直接提交给信息源服务器;
C4、利用网络爬虫技术实现抓取网页,但限制爬虫模块抓取网页范围在用户步骤A、步骤B里设定的范围内,且不是全站抓取网页,而是有搜索条件的数据库查询,根据搜索深度参数设置来决定爬虫抓取页数的多少,其搜索结果均为经过网站数据库过滤后的查询结果;
C5、以先前搜索的结果为依据,保留最新出现的信息链接;如果有关键字,对抓取的网页内容进行关键字匹配,并保存最新的信息连接;若无没关键字也直接保存,以备后续抓取链接内容时进一步判断筛选;
C6、根据行业内容特征,进行多关键字查询,找到针对于该行业的数据过滤筛选规则,利用所述筛选规则产生相应的算法对网页编排结构实现语义块的判断,利用多关键字实现语义筛选。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于邹春城,未经邹春城许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110275528.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:牛仔服装面料
- 下一篇:磺酸盐滤渣回收处理系统